Forum "Alignement multiple: CLUSTALW"

Thread subject: analyse attendue

[ Return to forums ]
analyse attendue
teamNN
15 Apr 2019 22:14
Non evaluated contribution

Bonjour,

j'aimerai savoir ce que vous attendez dans la partie de l'alignement multiple, que devons nous analyser? De quoi devons nous parler, qu'est ce qu'on doit rajouter et où trouve t-on ces informations

merci

B_Wirth_19
25 Apr 2019 12:06
Game master

Bonjour,

Pour la structure de ce paragraphe, et les éléments à y discuter, je vous renvoie à l'encadré "Analyse des résultats" du paragraphe correspondant dans les règles du jeu.

Pour votre paragraphe, la structure est bonne et vous avez essayé de répondre à toutes les questions posées. Mais votre analyse est parfois trop générique, il faut être plus précis, ou chiffrer d'avantage. Pour plus de détail concernant votre paragraphe, voir ci-dessous :

1. Etude des extrêmités de l'ORF

- "La taille de l'alignement multiple est de 454 AA" ==> aa ? ou positions ?

- "Il y a des séquences plus longues que les autres" ==> soyez précis, citez lesquelles. Dans votre cas, la différence de taille est minime : une dizaine d'aa aux extrémités correspond à une variabilité normale des extrémités des protéines. Vous avez donc 2 protéines légèrement plus longue en Nter et une en Cter.

- "Les séquences homologues à l'ORF" ==> vous travaillez ici avec les séq protéiques : homologues à la protéine codée par l'ORF

- "ne débutent pas toutes à la position 1 de l'alignement multiple: elles commencent toutes majoritairement à la position 8" ==> Oui, combien de séq ? et les autres ?

- "sauf une séquence qui commencent à la position 1" ==> et une qui débute à la position 2

- "La protéine putative, qui fait 300 AA, débute à la position 70 de l’alignement multiple." ==> puisque vous avez discuté la position de début de toutes vos séq, on conclut sur le nb d'aa manquants à cette extrémité. 

- "qu'il était incomplet en 5’...incomplet en 3’ ... ceci a été confirmé lors de l’analyse de l’alignement multiple." ==> pourquoi ? soyez précis.

- "Nous pensons qu’il manque 70 AA à notre protéine car l’alignement commence à la première position de la séquence BPGTTL2 qui fait 411 AA et donc la méthionine à la première position de cette séquence doit être le codon d’initiation." ==> à revoir : pourquoi prendre seulement la séq débutant à la 1ere position ? et pour les autres protéines, où est la méthionine correspondant au codon d'initiation ?

- "La séquence de l'ORF se termine à la position 390 de l’alignement" ==> pour la discussion complet ou incomplet en Cter, il faut aussi décrire l'arrêt des séq homologues.

- "ce qui lui donne une longueur de 321 AA sachant qu’il y a 21 indel dans l’alignement ceci montre bien que notre protéine n’a pas été tronquée car elle fait 300 AA." ==> NON, à enlever car mauvaise interprétation.

- "Nous pensons qu’il manque 65 AA à notre protéine car l’alignement le montre avec la position de fin de la séquence BPGSSS1." ==> à revoir : pourquoi prendre seulement la séq la plus longue ? et pour les autres protéines, où est le stop ? donc combien d'aa manquants ? Donnez une gamme, ou une moyenne. Attention aux gaps (comptabilisés comme "positions" dans l'alignement multiple, qui vont augmenter cette estimation).

- "Toutes ces observations sont cohérentes avec les alignements de BLAST, on avait remarqué que les séquences requêtes des dix premières alignements ne débutaient jamais à la première position et ne se terminaient pas quand notre ORF se terminait." ==> OK, mais trop générique, il faut être plus précis, chiffrez: combien d'aa manquants / à ces 10 1ers alignements ? Est-ce cohérent avec le résultat de l'alignement multiple ? Attention, la différence peut provenir des gaps dans l'alignement multiple... Pensez-y.

2. Identification des régions conservées

- "Il y a 5 blocs conservés aux positions [72  85]  [134  237]  [252  263]  [281  338]  [340  390]" ==> Attention, vous décrivez les blocs définis par Gblocks. A quoi sert Gblocks ? Quel est le but de cette analyse ? C'est à vous de définir les blocs de conservation en fonction des positions conservées (*, . , : ), des gaps dans l'alignement, et croiser ces informations avec les blocs obtenus avec gblocks. Pour ce faire, rien de mieux que d'annoter directement l'alignement multiple avec des codes "A", "B" etc. pour repérer les régions d'intéret, pour y faire ensuite référence dans vos analyses. Ainsi, vos blocs 1 et 3 pourraient être allongés, et les 2 derniers fusionnés en un seul.

- "Ceci nous montre bien que les séquences sont homologues car beaucoup d’AA conservés (un total de 132 AA conservés)." ==> Toutes les séq semblent-elles bien homologues ? (mêmes blocs de conservation, mêmes gaps)

- "Les indels qui sont nombreux définissent les blocs conservés." ==> Insuffisant : Nombre et répartition des INDELS, soyez plus précis. Positions du (des) gap(s) sur l'alignement, ce(s) gap(s) sont-ils partagés entre une majorité de séq ou permettent-ils de mettre en évidence des séq se comportant différemment ? Existe-t-il des sous groupes dans cette grande famille d'homologues (souvent par exemple: groupe étude vs groupe extérieur) ? Dans votre cas, que dire de la séq BPGCCS1 ?

- "Lorsque l’on compare nos analyses de l’alignement multiple avec ceux de INTERPRO, on remarque qu’en fait il n’y a pas toute la région de la position 2 à la position 300 qui est conservée, on remarque qu’il y a des blocs plus ou moins longs qui sont conservés qui sont bien évidemment intégrés dans la région. Ce domaine n’est donc pas présent chez tous les homologues mais il est cohérent avec la conservation observée." ==> NON, mauvaise interprétation, à revoir. Coordonnées du domaine choisi ds Interpro sur votre proteine putative ? Les transposer sur l'alignement multiple : à quelles positions ? cohérent avec la conservation observée ? Càd, est-ce que les fortes conservations observées se répartissent sur toute cette région ?

- "On avait fait l’hypothèse que notre protéine possédait dans ces domaines conservés des AA hydrophobes car sa fonction nous montrait qu’elle transloquait des ions de part et d’autres de la membrane" ==> Vous parlez de Domaines Transmembranaires ? N'oubliez pas qu'il faut en parler dans la partie "Analyse des résultats" du paragraphe "Domaines conservés". Ce sont des domaines structuraux, qu'il ne faut pas faire apparaître dans la table, mais il faut en parler dans l'analyse des résultats (combien, position sur la protéine, cohérence avec la fonction).

- "ceci a été confirmé par l’analyse de l’alignement multiple." ==> Si des acides aminés (ou motifs de plusieurs acides aminés) sont connus comme étant impliqué dans des fonctions/activités de ce type de protéines (cf analyses fiches homologues SWISSPROT et domaines INTERPRO), les repérer dans l'alignement multiple (mettez des codes dans le style "->X<-").

- "En effet, dans les blocs conservés on observe une majorité de ces AA hydrophobes." ==> Reportez les positions de ces domaines TM sur l'alignement multiple.

- "Ce qui montre que ces AA hydrophobes ont un lien avec la fonction de la protéine putative." ==> soyez plus précis.

3. Analyse de l'alignement multiple / informations sur la reconstruction phylogénétique

- "Après curation par GBLOCKS, il y a 239 positions qui sont suffisamment conservées" ==> convenablement alignées, positions les plus fiables. Et donc ? Quelle conclusion / à la reconstruction phylogénétique ? Est-ce un nb suffisant ? comment sera votre arbre phylogénétique ?

Bon Travail,

BW