Forum "Alignement multiple: CLUSTALW"

Thread subject: Erreur d'annotation pour la séquence avec le meilleur alignement

[ Return to forums ]
Erreur d'annotation pour la séquence avec le meilleur alignement
Pilgrim
9 Dec 2015 19:18
Contribution: Pertinent

Bonjour,

Nous avons un doute sur un point et nous aimerions avoir votre avis. Lorsque nous faisons un taxonomy report de nos homologues suite au blast vs NR de notre séquence proteique nous trouvons que la séquence homologue ayent l'alignement avec l'evalue la plus faible provient d'une cyanobacterie. Intrigué par ce resultat (car mise a part celle la les autres séquences de cyanobacteries homologues ont une evalue bien plus forte) nous faisons un blast vs NR de cette séquence. Les homologues trouvés proviennent de gammaprotéobacterie. Nous en concluons donc qu'il y a eu une mauvaise annothation de cette séquence.

Est ce que le fait que cette séquence soit mal annotée peut justifier sont absence dans notre choix de séquence pour inferer notre arbre malgrès le fait que cela soit la séquence qui donne la meilleur evalue. En effet lorsque nous faisons un arbre avec cette séquence elle forme une branche avec notre ORF certe dans le groupe des gammaproteobacteries mais empeche notre séquence de s'inclure dans un groupe plus precis.

Un autre point, j'ai l'impression que nous gagnerions en précision si nous nous contentions d'un groupe d'étude plus restreint. C'est à dire travailler sur les gammaprotéobacteries avec pour groupe externe les betaprotéobacteries. En effet face à la demande du correcteur de nous justifier quand à notre choix de groupe d'étude et de groupe externe j'ai du mal à trouver de justifications à prendre un groupe d'étude aussi large. Qu'en pensez vous ?

Merci d'avance pour vos réponses.

P_Hingamp_15
15 Dec 2015 16:09
Game master

Bonjour,

Il semble en effet que cet homologue de cyanobactérie soit totalement atypique (peut-être un HGT, ou une erreur d'annotation effectivement). Donc je comprends que vous ne fondiez pas votre choix de groupe d'étude sur cet homologue de cyanobactérie, par contre, étant malgré tout le meilleur hit BLAST, je pense qu'il est pertinent de l'ajouter à votre sélection de séquences homologues (même si vos groupes d'étude et extérieurs ne comprennent pas les cyanobactéries) afin de pouvoir "tracer" l'origine de cette étrange séquence...

Concernant la décision de restreindre ou élargir le groupe d'étude, je pense que dans le cas général il est préférable de se limiter au groupe d'étude le plus précis (donc restreint) possible. Par exemple, dans la mesure du possible préférez comme groupe d'étude les ricketsies et en groupe extérieur les autres alphabactéries, plutôt que les protéobactéries comme groupe d'étude et les autres bactéries comme groupe extérieur. En effet, à trop élargir ce groupe d'étude, vous prenez le risque d'inclure progressivement des homologues de plus en plus distants, ce qui risque de réduire la qualité de l'alignement multiple (et donc de réduire le nombre de positions conservées ce qui risque de compliquer l'inférence phylogénétique). Quelque fois, parce que les similitudes sont trop proches entre taxa, ou parce que vos premiers arbres avec des groupes trop restreints ne sont pas concluants (par exemple l'ORF émerge hors du groupe d'étude), vous n'aurez pas d'autre choix que d'élargir progressivement le groupe d'étude.