IMPORTANT NOTICE: electrical maintenance in the Annotathon server room on Monday December 11th 2017 from 18:00 to 22:00 (Paris time, also known as Central European Summer Time GMT+1H) means no annotation will be possible during this downtime!

Forum "Alignement multiple: CLUSTALW"

Thread subject: problème au niveau de l'alignement multiple

[ Return to forums ]
problème au niveau de l'alignement multiple
ioanaetlobna
4 Nov 2014 20:55
Contribution: Pertinent
Bonsoir,
On a un petit soucis au niveau de l'alignement multiple: on a que des indels au début de notre alignement mais au niveau de l'ORF tout est bien aligné et on a beaucoup de blocs bien conservés. On trouve aussi que notre arbre est bien. Mais on a un doute quand meme et on voulait savoir s'il est judicieux de continuer l'analyse avec cet alignement ou pas?

merci beaucoup
P_Hingamp14
4 Nov 2014 23:11
Game master
Et bien dites donc, je comprends pourquoi vous trouvez votre arbre "bien". C'est tout simplement un cas d'école, la parfaite cohérence avec la phylogénie de référence. Quand on voit combien les autres séquences discutées ici semblent avoir des histoires évolutives tortueuses, improbables, voire incompréhensibles, on en arriverait à ne plus croire à la phylogénie de référence! Vous ne l'avez pas trafiqué au moins, en retirant tout ce qui semble compliqué?...

Pour ce qui est de l'alignement multiple, en effet un des homologues (B.P.Alp_20) possède une gigantesque extension N-terminale inexistante chez les autres homologues, ce qui nécessairement introduit un très long INDEL en N-ter. Ceci n'est absolument pas un soucis, et cet INDEL sera tout bonnement ignoré dans l'inférence phylogénétique.

[b][u]Mais[/u][/b] il y a un d'autres INDEL qui eux posent un vrai soucis dans votre alignement multiple! En effet, lorsque commence le "coeur" de l'alignement, c'est à dire lorsque commencent la majorité des protéines (pas possible de donner des chiffres pour se repérer dans l'alignement car vous n'avez pas inclus l'alignement après Gblocks qui possède des repères de graduation), alors plusieurs des homologues que vous avez choisi semblent tronqués en N-ter! Tant que ces INDEL "internes" au coeur correspondent aussi à un INDEL de votre ORF, ce n'est pas grave, car quoi qu'il arrive ces positions de l'alignement ne peuvent en aucun cas être exploitées pour l'inférence phylogénétique. Sauf qu'on observe clairement que pour deux de ces homologues avec un INDEL interne (B.P.Bet_9 & B.P.Gam_9), leur INDEL dépasse celui de l'ORF, et donc vont réduire inutilement le nombre de positions de l'alignement identifiés comme bien alignés par Gblocks exploitables pour l'inférence d'arbre.

Moralité: si des séquences plus tronquées encore que votre ORF ne sont pas indispensables pour votre analyse (par exemple si vous pouvez en choisir d'autres pour représenter la diversité des groupes taxonomiques à représenter dans votre arbre), alors retirez les de votre analyse. Il ne s'agit pas ici de "cacher" de la complexité, mais au contraire de ne pas fausser l'analyse avec des séquences qui manifestement ne sont pas complètes...

Bon par contre votre tableau de synthèse du rapport taxonomique est pas très joli lui, il a subit un tremblement de terre ou quelque chose?