Forum "Analyse phylogénétique"

Thread subject: nouvel arbre séquence 1

[ Return to forums ]
nouvel arbre séquence 1
LB-MN
21 Nov 2014 17:08
Contribution: Pertinent
Bonjour,
Après avoir relancé toutes les analyses depuis le rapport taxonomique, nous obtenons un arbre qui semble légèrement chargé.. : http://phylogeny.lirmm.fr/phylo_cgi/alacarte.cgi?workflow_id=9a8d73629508eab9d87fff9b539e29d9&tab_index=5.2
Le problème étant que le nombre d'homologues dans notre groupe d'étude (désormais les gammaprotéobactéries) a du passer du simple au triple entre la première annotation et celle-ci.. nous avons donc sélectionné 31 séquences pour ce groupe, et 21 pour le groupe externe (composé des autres protéobactéries, le nombre d'homologues est aussi bien plus grand). Le résultat en est cet arbre plus que chargé, nous ne savons pas s'il est réellement utilisable.
Merci de votre aide.
D_Seyres14
22 Nov 2014 10:52
Game master
Bonjour,
effectivement votre arbre est quelque peu difficile à interpréter. Mais, si votre groupe d'étude sont les gamma (ce que je pense être la meilleure option vu les e-valeurs), alors théoriquement, les lignées taxonomiques de niveau équivalents sont les autres beta-Proteobacteria ⇒ Solution: choisir des séquences provenant de ce groupe. (issu du document http://biologie.univ-mrs.fr/upload/p211/annotathon_phylogenie__Mode_de_compatibilit__.pdf) . A moins que vous ayez une autre justification, je ne comprends pas pourquoi vous prenez en groupe externe toutes les protéo. D'autant plus que les différences d'evaleurs sont gigantesques entre ces 2 groupes (gamma vs beta).
Concernant le nombre de séquences homologues à aligner, on vous suggère d'en choisir entre 20 et 30 pour le groupe d'étude et 5 à 15 pour l'externe.
En espérant vous avoir aidé.
LB-MN
22 Nov 2014 13:23
Contribution: Pertinent
Bonjour,
Pouvons nous réellement sélectionner que les beta en groupe externe étant donné que, d'après notre rapport taxonomique, celles qui arrivent juste après les gamma sont les delta : e-val min = 1e-154 et beta e-val min = 1e-119 ? Est-il exacte d'exclure les autres protéo ?
Merci de votre réponse
P_Hingamp14
22 Nov 2014 17:26
Game master
Bonjour,

Votre arbre avec les protébactéries mentionné dans votre premier message me fait tout de suite penser à un possible évènement de duplication (deux branches bien séparées, et au sein de chaque branche des représentant de chaque taxon). Cette sensation se renforce encore en regardant de près votre rapport taxonomique, par exemple au niveau des Deltaproteobacteria où l'on voit bien qu'il semble y avoir deux types de similitudes au sein de ce taxon (observez un groupe de Deltaproteobacteria avec des scores de >400 et un groupe avec des scores <300):
... 461  1e-154 2 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: oxaloacetate decarboxylase [Desulfuromona...  
... 451  2e-150 2 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: hypothetical protein [Geopsychrobacter el...  
... 447  5e-149 2 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: oxaloacetate decarboxylase [Geobacter dal...  
... 442  4e-147 3 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: oxaloacetate decarboxylase [Geobacter bem...  
... 440  4e-146 3 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: oxaloacetate decarboxylase [Geobacter bre...  
... 439  6e-146 9 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: oxaloacetate decarboxylase [Geobacter sp....  
... 346  7e-112 2 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: oxaloacetate decarboxylase [Pelobacter pr...  
... 331  5e-106 6 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: oxaloacetate decarboxylase [Geobacter bem...  
... 271  2e-81  1 hit   Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: carboxylase [Pelobacter seleniigenes]          
... 194  2e-51  6 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: pyruvate carboxylase [Pelobacter propioni...  
... 187  3e-49  1 hit   Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: pyruvate carboxylase [Geobacter lovleyi]      
... 184  6e-48  1 hit   Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: pyruvate carboxylase [Geobacter metallire...  
... 184  7e-48  1 hit   Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: pyruvate carboxylase [Geobacter uraniired...  
... 181  4e-47  4 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: pyruvate carboxylase [Geobacter daltonii]      
... 181  8e-47  3 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: pyruvate carboxylase [Geobacter sp. M18]      
... 180  9e-47  1 hit   Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: pyruvate carboxylase [Geobacter sulfurred...  

Et en plus ces deux groupes ont des fonctions liées mais légèrement différentes: "oxaloacetate decarboxylase" & "pyruvate carboxylase"...

Pour en avoir le coeur net, j'ai utilisé un de vos meilleurs hits du BLASTp contre NR (WP_014702861 (provenant du génome de "Methylophaga frappieri", une Gammaproteobacteria) pour faire un BLAST contre juste les protéines de son génome (dans le BLASTp au NCBI, il suffit d'écrire "Methylophaga frappieri" dans le champ nommé "Organism" sous "Choose Search Set"). Le résultat est ici:
http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=71CN83K3014

And the winner is.... bingo, il y a pile deux hits avec de très bon scores quand on BLAST l'oxaloacetate decarboxylase de "Methylophaga frappieri" contre les autres protéines codées par le génome de "Methylophaga frappieri": il y a donc deux paralogues de decarboxylases dans ce génome de Gammaproteobacteria (l'une est la "oxaloacetate decarboxylase" et l'autre est effectivement la "pyruvate carboxylase")! Il y a donc bien eu à un moment donné de l'histoire évolutive des protéobactéries un évènement de duplication de ce gène initial de  decarboxylase.

Du coup, quand vous piochez des homologues dans le tax report, vous tombez tantôt sur une "oxaloacetate decarboxylase", tantôt sur une "pyruvate carboxylase" qui sont bien homologues en effet, mais qui créent donc un arbre double puisque visiblement cet évènement de duplication a eu lieu assez tôt dans l'histoire de ce gène!

Vous avez à mon avis deux options: vous laissez les deux versions (paralogues) dans votre arbre et soulignez le noeud qui correspond à la duplication. Ou alors vous refaites votre sélection de séquences en veillant à n'inclure que le "bon" paralogue (celui dont semble issu votre protéine d'intéret, ici visiblement l'oxaloacetate decarboxylase en excluant avec soin les "pyruvate carboxylase" ce qui donnera en théorie un arbre bien plus simple (puisque pas de noued de duplication qui dédouble toute la phylogénie).

Dans tous les cas, vous [b]expliquez et argumentez clairement[/b] votre choix et votre méthode!
LB-MN
23 Nov 2014 0:11
Contribution: Pertinent
Bonsoir,
Mais si nous excluons les pyruvate carboxylases de notre sélection n'obtiendrons qu'une conclusion partielle sur l'histoire évolutive de notre séquence non ? Et concernant la réponse de D_Seyres14, devons nous garder ou modifier nos choix de groupes d'étude/externe ? Car cela changerai aussi l'aspect de notre arbre...
Merci
P_Hingamp14
23 Nov 2014 14:02
Game master
Bonjour,
En effet choisir un seul des deux paralogues ne racontera donc pas aussi complètement l'histoire évolutive de ce gène, mais l'objectif dans le cadre de l'annotation de cette séquence métagénomique d'origine inconnue est plus simple: prédire de quel organisme pourrait provenir ce fragment d'ADN. Il est donc légitime - étant donné la question posée ici - de se limiter à un seul des deux paralogues. Vous pouvez aussi choisir d'élargir le cadre et faire une analyse des deux paralogues, mais alors en effet il faudra faire une étude à l'échelle au moins au niveau de l'ensemble des protéobactéries, sinon plus haut encore, et comme vous l'avez remarqué ça devient assez complexe.
Pour ce qui est des groupes d'étude et exterieur, en effet si on se restreint aux "oxaloacetate decarboxylases" alors les meilleurs scores sont:
545  0.0    2 hits  Bacteria:Proteobacteria:Gammaproteobacteria: oxaloacetate decarboxylase
461  1e-154 2 hits  Bacteria:Proteobacteria:Deltaproteobacteria:Desulfuromonadales: oxaloacetate decarboxylase
282  7e-88  2 hits  Bacteria:Proteobacteria:Alphaproteobacteria:Rhodobacterales: oxaloacetate decarboxylase
370  3e-120 2 hits  Bacteria:Spirochaetes:Spirochaetia:Spirochaetales: oxaloacetate decarboxylase
Ce qui pourrait donner gr. étude = Gammaproteobacteria vu le différentiel de score avec le reste, mais alors gr. ext = Bétaprotéobactéries, mais on en trouve pas dans NR (en ont-elles dans la nature?). Du coup il faudrait remonter plus haut pour le groupe ext. par exemple alphaprotéo, mais il n'y en a qu'une (HGT?)! Ou alors encore plus haut Deltaprotéo où ils y en a pas mal. Alternativement vu l'étrange répartition de ce gène au sein des protéo, choisir les "oxaloacetate decarboxylases" de l'ensemble des protéo comme groupe d'étude, et donc quelques "oxaloacetate decarboxylases" d'autres bactéries non protéobact comme groupe extérieur.
Un cas pas simple, mais très intéressant. Est-ce que certains ordres de protéobactéries ont perdu ce paralogue "oxaloacetate decarboxylases" (ex Bétapro), où est-ce que les bétaprotéo sont encore mal rerésentées dans NR (ça me semble peu probable car on a déjà plusieurs dizaines de génomes complets de bétaprotéo:
http://en.wikipedia.org/wiki/List_of_sequenced_bacterial_genomes#Betaproteobacteria )?
LB-MN
28 Nov 2014 10:10
Non evaluated contribution
Bonjour,

Nous pensions garder l'arbre déjà réalisé (arbre double avec évènement de duplication) et en réaliser un second en ne sélectionnant que les bons paralogues (oxaloacétate décarboxylase). Mais d'après votre réponse, devons-nous aussi relancer l'arbre double en changeant le groupe d'étude avec les 2 paralogues pour toutes les protéos et le groupe externe pour les autres bactéries non protéo ?
Merci de votre réponse
P_Hingamp14
29 Nov 2014 16:07
Game master
Théoriquement, si vous souhaitez étudier cet évènement de duplication, alors le groupe d'étude devrait en effet être toutes les séquences et taxons sous le noeud représentant cette duplication? Auquel cas le groupe extérieur devrait être un niveau au dessus de cette duplication. Je ne sais pas où se situe dans le temps cette duplication (chez l'ancêtre des protéo ou avant?), mais si elle à lieu chez l'ancêtre des protéo alors le groupe d'étude comprend des représentant des deux paralogues à travers toute la branche des protéo, et donc le groupe extérieur serait des homologues bactériens non protéo? Si la duplication a eu lieu avant l'ancêtre commun des protéo, il faudrait encore élargir le groupe d'étude... Sachant qu'en plus, il faudrait en théorie sélectionner pour chaque taxon représenté dans l'arbre les deux paralogues codés par le même génome (ce qui n'est pas aisé, cf. la manip plus haut dans ce fil).

Faire une étude robuste d'une duplication ancienne est un sacré travail!... Éventuellement, conservez votre arbre initial en notant ses limites (sans prétendre qu'il représente une analyse approfondie de cet évènement de duplication) comme argument pour expliquer pourquoi vous avez dans un second temps choisi de restreindre l'analyse à l'un des deux paralogues (celui dont semble faire partie votre ORF)?
LB-MN
29 Nov 2014 21:49
Non evaluated contribution
Bonsoir,
Cette solution nous paraissait être un compromis acceptable entre les résultats bruts que nous obtenons (la complexité de l'histoire évolutive de notre séquence) et la question réellement posée par notre étude, à savoir la réponse que vous nous avez donné plus haut. Maintenant si le fait de conserver le premier arbre risque de nous poser plus de problème dans l'analyse par rapport aux bénéfices que ça peut apporter à notre annotation ce n'est effectivement pas le bon choix... L'idée était de garder ce premier arbre et de dire que nous observons un probable événement de duplication de ce gène ancestral (que nous ne vérifierons pas dans cet exercice d'annotation de séquence), et que d'après l'ensemble de nos études nous concluons que notre séquence code pour un oxaloacétate décarboxylase, et nous allons nous servir des résultats taxonomiques de cette famille de paralogues pour étudier l'appartenance phylogénétique de cette séquence avec un second arbre plus illustratif. Cela peut-il suffire à notre justification ?
Merci de votre attention
P_Hingamp14
30 Nov 2014 17:42
Game master
Oui, vu le cas particulier, deux arbres (l'un initial incomplet, et un deuxième focalisé sur l'un des paralogues) semblent un compromis acceptable.