Forum "Analyse phylogénétique"

Thread subject: Arbre 2: même type de problème que JulieP dans "Arbre"?

[ Return to forums ]
Arbre 2: même type de problème que JulieP dans "Arbre"?
HarryTuttle
12 Apr 2019 19:25
Non evaluated contribution

Bonsoir,

Je suis arrivé au stade de la construction de l'arbre phylogénétique avec phylogeny.fr et plusieurs problèmes me bloquent désormais:

- premièrement, l'arbre qui apparait dans phylogeny.fr ne semble pas être le même que celui obtenu après conversion en Newick et soumission à newick tree manipulation (Devant ce problème j'ai donc pour le moment laissé les 3 arbres dans le bloc notes)

- deuxièmement, mes groupes d'études et extérieurs sont mélangés dans les 3 arbres et la phylogénie 'classique' n'est pas du tout retrouvée (mon groupe d'étude est Proteobacteria et le groupe extérieur les Bacteria "non-Proteobacteria"). Ai-je fait une erreur dans le choix des groupes? (je ne voyais pas comment restreindre plus les groupes vues les meilleurs E-valeurs des différents taxa). L'alignement multiple me semble pourtant de bonne qualité avec une longueur de séquence convenable (391 avant curation et 294 après curation).

- troisièmement, ce problème d'arbre phylogénétique non concordant avec la phylogénie établie est-il inhérent au choix de mon ORF et de la protéine homologue probablement codée: une protéine ayant une fonction métabolique ubiquitaire essentielle chez de nombreux taxa qui serait très conservée et donc non suffisamment informative pour la phylogénie (pourtant seul 26% de l'alignement multiple est conservatif).

- Ou bien ai-je fait une erreur dans le choix des séquences ou l'alignement pour obtenir un tel arbre?

Merci par avance

Charles Desmalles

Meglecz18CTES
13 Apr 2019 14:06
Game master

Bonjour Charles,


"- premièrement, l'arbre qui apparait dans phylogeny.fr ne semble pas être le même que celui obtenu après conversion en Newick et soumission à newick tree manipulation (Devant ce problème j'ai donc pour le moment laissé les 3 arbres dans le bloc notes)"

"premier arbre format texte directement issu de phylogeny.fr(pas de valeurs de robustesse??)"

Dans cet arbre il vous manque des valeurs de robustesse à cause d’une erreur de logiciel sur phylogeny.fr. C’est une des raisons principales pour qu’on demande les étudiants à passer par l’outil intégré dans annotathon (newick tree manipulation)

"arbre format newick (copié/collé à partir de phylogeny.fr vers newick tree manipulation): ne correspond pas à celui de phylogeny.fr!!! "

C’est déroutant quand on a n’a pas d‘habitude, mais la seule différence entre des deux arbres c’est l’emplacement de la racine. La méthode de PhyML produit des arbres non enracinés. Les logiciels qui affichent les arbres non enracinés en format rectangulaire (comme ces deux arbres) placent la racine selon des algorithmes généralement simples, mais le résultat n’est pas nécessairement réaliste. D’où l’intérêt d’avoir un groupe extérieur dans l’arbre, pour que l’utilisateur puisse placer la racine "manuellement".
Si vous avez des doutes sur l’identité des deux arbres, utilisez ces deux séquences pour re-enraciner l'arbre dans newick tree manipulation :

  • etBPAATT1_Bacteria_Proteobacteria_Acidithiobacillia_Acidithiobac
  • etBPGCP1_Bacteria_Proteobacteria_Gammaproteobacteria_Cellvibrion

Vous allez tomber sur la même topologie que sur phylogeny.fr. Les branches peuvent être pivotés, mais cela n’a aucune influence sur la topologie (l’ordre de branchement).

 

 

Je ne pense pas que vous ayez fait une erreur de sélection des séquences. Dans plusieurs groupes, de jeu de donnée complet (résultat de BLAST) vous avez quelques faibles E-valeurs, et beaucoup des séquences avec des E-valeurs dans la même gamme.  Votre observation concernant la fonction métabolique ubiquitaire est excellente. Obtenir 26% des positions conservées à travers de toutes les bactéries est énorme. Je crains qu’avec cette protéine on ne puisse pas construire une phylogénie valable des différents phyla bactériennes.


Comme il sera frustrant d’abandonner le travail à ce stade, je vous conseille de prendre des bactéries comme groupe d’étude. Comme votre alignement multiple est de bonne qualité est il est assez conservé, l’ajout des séquences des Eukaryotes et des Archaea, ne vas probablement pas trop dégrader la qualité de l’alignement et à priori il ajoute de la variabilité. Attention, à l’interprétions de la position des Archaea : Vous n’avez pas beaucoup des séquences des archaea, et elles ne sont pas annotées avec précision. 'Euryarchaeota archaeon', ou 'Marine Group II euryarchaeote' indique qu’on n’est pas arrivé à déterminer le group taxinomique. Sachant que la majorité des Euryarchaeota ne sont pas cultivables, je ne donnerais pas beaucoup de crédit à cette annotation.


Bon travail,
Emese Meglecz

HarryTuttle
15 Apr 2019 16:27
Non evaluated contribution

Merci beaucoup pour vos réponses,

En réessayant d'enraciner l'arbre avec les séquences que vous me proposiez, j'ai encore du mal à voir l'identité des 2 arbres (phylogeny.fr et newick tree manipulation), mais cela ne change pas trop l'interprétation des résultats.

Pour être certain d'avoir bien compris votre réponse, vous  me conseillez de prendre l'ensemble des Bacteria comme groupe d'étude et les autres Phyla non-bacteria (Archae et Eukaryota) comme groupe extérieur?

Charles

Meglecz18CTES
15 Apr 2019 17:48
Game master

Bonjour Charles,

Oui. C’est un conseil que je donne rarement, car il est difficile à travailler avec les 3 domaines de la vie dans le même arbre, mais vous avez une protéine très conservée, et la tâche n’est pas impossible.

Bon courage,

Emese Meglecz

HarryTuttle
15 Apr 2019 20:50
Non evaluated contribution

Merci pour la rapidité de votre réponse.

Bonne soirée.