Forum "Analyse phylogénétique"

Thread subject: problème racinement arbre

[ Return to forums ]
problème racinement arbre
giaccherini
4 Nov 2014 16:06
Contribution: Constructive
Bonjour,

http://phylogeny.lirmm.fr/phylo_cgi/alacarte.cgi?workflow_id=4131916910e826f203caf7dbe4008ebe&tab_index=6&go_next=1

Un homologue de notre ORF à une Evalue 9e-99 (alpha 1 sur l'arbre) or cette alphaprotéobactérie n'est pas regroupée avec les autres alpha mais avec les gamma et les béta. Comment expliquer ce regroupement ? Un transfert de gène entre une alpha et une gamma ?

Cordialement, GIACCHERINI.
P_Hingamp14
4 Nov 2014 22:44
Game master
Ce que cette Evalue de 9e-99 indique, c'est seulement que votre ORF est très similaire à cette séquence nommées "alp_1" (c'est visiblement le meilleur alignement dans NR proposé par BLASTp). L'arbre phylogénétique est en parfaite cohérence avec cette observation, puisque "alp_1" est le plus proche homologue de votre ORF dans cet arbre. Ce qui est inattendu c'est que ces deux séquences (accompagné de deux autres alphaprotéo) émergent au sein de la branche du groupe extérieur (gamma & béta).

Pour les explications possibles de ces apparentes incohérences, je vous renvoie à ma précédente réponse http://annotathon.org/?seeThread=1777 . A noter que dans votre cas, ceci va grandement compliquer la classification taxonomique que vous allez assigner à votre ORF: bien qu'il puisse être tentant de proposer alphaprotéo du fait que l'ORF soit porté sur une branche avec 2 alphaprotéo, en réalité cette branche inférieure de votre arbre contient à la fois des alpha, des béta et des gammaprotéo! Il me semble que dans ce cas, le plus raisonnable serait probablement d'assigner la classification générale au niveau du phylum "proteobacteria" à cet ORF pour reconnaitre l'ambiguité qui persiste aux niveaux plus précis de la classe...

Il pourrait toutefois être intéressant d'ajouter dans les noms des étiquettes des séquences le niveau de la classe (ex Rhodobacterales, Rhizobiales etc.) afin d'observer si les différentes branches observées correspondent à différentes classes.

J'en profite pour souligner que le tableau de synthèse du rapport taxo semble incorrect, puisque les Alphaproteobacteria:Rhodobacterales avec le Evalue 9e-99 n'y figurent pas?...
giaccherini
5 Nov 2014 12:54
Non evaluated contribution
Bonjour,
merci pour votre réponse précédénte mais nous nous heurtons à un nouveau problème.
http://phylogeny.lirmm.fr/phylo_cgi/alacarte.cgi?workflow_id=d2a541f4b129ba6f8d50085f6cc3b6fd&tab_index=5.2

Nous avons décidé de recommencer l'arbre en prenant d'autres séquences qui montrent mieux la diversité des groupes étudiés. Cependant, nous retrouvons encore le même problème, nous avons des alpha avec des gammas avec des beta au sein de la même branche et nous avons du mal à l'expliquer car en lisant votre réponse sur  http://annotathon.org/?seeThread=1777 nous avons l'impression que notre arbre ne correspond à aucune de vos descriptions, car on ne voit ni de "miroir" qui nous indiquerait la duplication d'un gène ancestral.. ni une "exception" qui nous indiquerait un HGT. Nous avons l'impression que le groupe où émerge l'ORF a divergé de tel sorte à ne plus être en rapport avec les autres protéobactéries.

Cordialement, GIACCHERINI.
P_Hingamp14
5 Nov 2014 17:19
Game master
C'est en effet un gène avec une histoire évolutive complexe. Par contre l'arbre tel qu'il est présenté dans votre dernier message me semble fortement suggérer des duplications anciennes. Le problème est que votre groupe extérieur n'étant pas différencié, vous ne pouvez pas vraiment placer la racine avec confiance (peut-être faudrait-il envisager d'élargir le groupe d'étude aux protéobact, et enraciner sur un groupe extérieur d'autres bactéries non protébact).

Mais tel qu'actuellement présenté (c'est à dire enraciné temporairement au point moyen), cet arbre pourrait très bien être compatible avec trois paralogues (donc un gène dupliqué deux fois, c'est à dire deux noeuds de "duplications") qui seraient représentés par les trois branches suivantes: celle sous le noeud avec une valeur de support de 0.904, celles sous le noeud à 0.852, et enfin celle sous le noeud à 0.972  (ces trois noeuds avec d'excellentes valeur de support sont donc en prime très robustes). Dans chacune de ces trois branches, vous observez finalement une sorte de mini arbre de référence avec des Rhodobacterales, Rhizobiales etc. plutôt bien rangées ensemble! A moins de faire une sélection très fine et ultra poussée des homologues afin de s'assurer que tous les paralogues de chaque orthologue sont inclus dans votre sélection, ne vous attendez pas à voir des branches en "miroir" parfaites (et même avec une sélection idéale d'homologues, des pertes de certains paralogues dans certaines branches peut rendre la duplication assez cryptique, voir la FAQ et http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0004568 où "outgroup" = groupe extérieur).

Il semble donc assez probable que vous soyez dans le cas 2 "duplication du gène chez un ancêtre commun" de mon message http://annotathon.org/?seeThread=1777. Avec une racine fiable grace à une groupe externe non protébact, cet arbre est finalement peut-être tout à fait interprétable.
giaccherini
6 Nov 2014 14:59
Contribution: Constructive
Bonjour,

encore merci pour votre réponse ! Mais on se retrouve toujours avec le même problème...

http://phylogeny.lirmm.fr/phylo_cgi/alacarte.cgi?workflow_id=4131916910e826f28b5fd36258be5d10&tab_index=6

Nous avons comme vous nous l'avez indiqué, pris comme groupe extérieur les autres bactéries et comme groupe d'étude les protéobactéries. Or, dans un premier temps, l'alignement est de moins bonne qualité qu'avec uniquement les protéobactéries. Dans un second temps, on voit apparaître clairement un groupe extérieur (en haut) mais dans notre groupe d'étude on obtient de nombreuses autres bactéries telles que des firmicutes... Notre arbre est-il tout de même de bonne qualité ? Merci d'avance.

Cordialement, GIACCHERINI.
P_Hingamp14
7 Nov 2014 15:29
Game master
Il est prévisible que l'alignement multiple se dégrade lorsque vous introduisez des séquencs plus éloignées, c'est pourquoi il faut tenter de choisir le groupe d'étude le plus restreint possible, et le groupe extérieur le plus proche possible du groupe d'étude (mais ayant clairement divergé avant le groupe d'étude). Ceci dit, j'ai jeté un oeil rapide sur phylogeny.lirmm.fr à l'alignement qui sous tend l'arbre présenté dans votre dernier message et il est de bonne qualité (un peu court peut-être après curation Gblocks, mais tout à fait honorable vu la courte longueur disponible de votre ORF).

Pour ce qui est de l'arbre, on peut penser que la (ou les) duplications de ce gène prédate(ent) même la radiation des protéobactéries, c'est à dire qu'il existe des paralogues de ce gène chez les bactéries non protéobactéries! En effet, on retrouve différents phylums bactériens dans absolument toutes les branches de cet immense arbre (et ces incohérences sont si nombreuses qu'il faudrait invoquer tellement de HGT que la thèse HGT plutôt que duplication semble irréaliste)...

Etrangement, dans cet arbre il existe une branche (tout en bas, support 0.858) dans laquelle on ne trouve que des gènes de protébactéries, ainsi que l'ORF. Si vous avez bien introduit dans l'alignement multiple toutes les meilleurs hits des non-protéobact (donc qu'avec ce qu'on connait des gènes actuellement dans NR il ne semble pas que cette branche ne contienne aujourd'hui autre chose que des protéobact), alors on pourrait être tenté de retenir "protéobactéries" comme assignation taxonomique pour cette ORF métagénomique? L'alternative plus prudente (mais moins précise) est de ne retenir que "bactéries" car là vus cet arbre, il semble tout de même assez raisonnable de penser que cet ORF est typiquement bactérienne...