Bonjour Charles,
"- premièrement, l'arbre qui apparait dans phylogeny.fr ne semble pas être le même que celui obtenu après conversion en Newick et soumission à newick tree manipulation (Devant ce problème j'ai donc pour le moment laissé les 3 arbres dans le bloc notes)"
"premier arbre format texte directement issu de phylogeny.fr(pas de valeurs de robustesse??)"
Dans cet arbre il vous manque des valeurs de robustesse à cause d’une erreur de logiciel sur phylogeny.fr. C’est une des raisons principales pour qu’on demande les étudiants à passer par l’outil intégré dans annotathon (newick tree manipulation)
"arbre format newick (copié/collé à partir de phylogeny.fr vers newick tree manipulation): ne correspond pas à celui de phylogeny.fr!!! "
C’est déroutant quand on a n’a pas d‘habitude, mais la seule différence entre des deux arbres c’est l’emplacement de la racine. La méthode de PhyML produit des arbres non enracinés. Les logiciels qui affichent les arbres non enracinés en format rectangulaire (comme ces deux arbres) placent la racine selon des algorithmes généralement simples, mais le résultat n’est pas nécessairement réaliste. D’où l’intérêt d’avoir un groupe extérieur dans l’arbre, pour que l’utilisateur puisse placer la racine "manuellement".
Si vous avez des doutes sur l’identité des deux arbres, utilisez ces deux séquences pour re-enraciner l'arbre dans newick tree manipulation :
- etBPAATT1_Bacteria_Proteobacteria_Acidithiobacillia_Acidithiobac
- etBPGCP1_Bacteria_Proteobacteria_Gammaproteobacteria_Cellvibrion
Vous allez tomber sur la même topologie que sur phylogeny.fr. Les branches peuvent être pivotés, mais cela n’a aucune influence sur la topologie (l’ordre de branchement).
Je ne pense pas que vous ayez fait une erreur de sélection des séquences. Dans plusieurs groupes, de jeu de donnée complet (résultat de BLAST) vous avez quelques faibles E-valeurs, et beaucoup des séquences avec des E-valeurs dans la même gamme. Votre observation concernant la fonction métabolique ubiquitaire est excellente. Obtenir 26% des positions conservées à travers de toutes les bactéries est énorme. Je crains qu’avec cette protéine on ne puisse pas construire une phylogénie valable des différents phyla bactériennes.
Comme il sera frustrant d’abandonner le travail à ce stade, je vous conseille de prendre des bactéries comme groupe d’étude. Comme votre alignement multiple est de bonne qualité est il est assez conservé, l’ajout des séquences des Eukaryotes et des Archaea, ne vas probablement pas trop dégrader la qualité de l’alignement et à priori il ajoute de la variabilité. Attention, à l’interprétions de la position des Archaea : Vous n’avez pas beaucoup des séquences des archaea, et elles ne sont pas annotées avec précision. 'Euryarchaeota archaeon', ou 'Marine Group II euryarchaeote' indique qu’on n’est pas arrivé à déterminer le group taxinomique. Sachant que la majorité des Euryarchaeota ne sont pas cultivables, je ne donnerais pas beaucoup de crédit à cette annotation.
Bon travail,
Emese Meglecz