Forum "Domaines conservés: INTERPRO"

Thread subject: analyse de l'arbre et de l'alignement multiple

[ Return to forums ]
analyse de l'arbre et de l'alignement multiple
bylka
20 Mar 2020 15:05
Non evaluated contribution

bonjour,

Q1) je n'arrive pas à faire le lien entre mes résultats dans l'alignement multiple et ce lui dans interpro, comment dois je procéder ?
 

Q2) vous nous aviez dit de faire deux arbres differents avec des groupes d'études et des groupes externes differents pour chaque arbre, du coup je l'ai fait mais j'ai analysé l'alignemnet multiple que pour le premier arbre, le deuxieme arbre me sert à confirmer le résultat du premier arbre
est ce que je dois commenter aussi l'alignement multiple du 2eme arbre?

Merci

B_Wirth_20
21 Mar 2020 11:12
Game master

Bonjour,

>Q2) ...le deuxieme arbre me sert à confirmer le résultat du premier arbre ==> ouin tout à fait
>est ce que je dois commenter aussi l'alignement multiple du 2eme arbre? ==> Oui, malgré tout, vous pouvez néanmoins le faire de manière plus succincte en mettant uniquement l'essentiel.

Par contre, dans le paragraphe Alignement Multiple :

*Protocole :

- vous avez fait 2 analyses (Alignement Multiple + curation), le protocole doit donc contenir 2 lignes, 2 index

- le protocole doit indiquer : outil utilisé, site où vous avez trouvé l'outil ou url, paramètres utilisés

*Résultats bruts :

- doivent donc contenir 4 alignements : format clustal alignement + curation alignement 1, et idem pour alignement 2

- séparez les résultats en indiquant de quels alignements il s'agit : groupe d'étude et externe utilisés

- vous avez 2 séq partielles en Cter, plus courtes que votre protéine putative (BPAPP1_Bac,  BPARRu1_Ba) qu'il faut retirer de l'alignement multiple (car elles diminuent le nb de positions retenues) : refaites l'alignement multiple sans ces 2 séq et refaire la phylogénie

*Analyse des résultats :

>La taille de notre alignement est de 826 positions avant curation et 168 positions conservées aprés curation

==> NON, c'est le même alignement : 826 positions = taille totale de l'alignement; la taille totale de l'alignement reste la même après curation; 168 positions conservées aprés curation = positions utilisées pour la phylogénie

>La taille des sequences alignées est géneralement la méme Sauf celle de l'ORF qui est largement plus courte. le restes des séquences sont de tailles comparables,

==> faux, vous avez des séq partielles en Nter, qui commencent plus tardivement, et qui ne débutent pas par une méthionine (séq partielles)

>sont plus courtes d'une quanrantaine d'aa aux extrémités en N ter correspond à une variabilité normale des extrémités des protéines.

==> NON, une variabilité normale d'une dizaine d'aa oui, pas une quarantaine

la sequence : exBPGAFF2 a la plus grande longueur au niveau du Nter, elle commence la premier position 1 et termine en positon 826.

>donc notre ORF lui manque en moyenne 310 acides aminés en N-Ter ==> est-ce cohérent avec le résultat précédemment obtenu avec blast ? Attention, vous avez des gaps dans l'alignement. Chaque indel compte également comme une position. Pour déterminer le nb d'aa manquants, il faut donc déduire le nb approximatif d'indels, et vous devriez ainsi retomber sur une valeur comparable à celle précédemment obtenue dans le paragraphe blast.

>et de là on peut dire que notre ORf est incomplet en 5 ==> reformulez : vous saviez dès le paragraphe ORF, que votre ORF est incomplet. Les alignements blast et multiple confirment ou non ce point.

>toutes les séquences se términent dans la meme position du coté Cter en positions 826, ==> faux cf seq partielles à enlever

=> sauf l'ORF qui finit bien avant en position 765, il lui manque donc 61 acides aminés en Cter ==> idem, attention aux idels, valeur à corriger un peu peut-être.

2. Identification des régions conservées:

>depuis les resultats de GBLOCKS  les sequences ont l'air d'etre homologues car on a majoritairement la meme position des gaps et aussi on a des blocs de conservations ==> les blocs définis par Gblocks ne correspondent pas aux blocs de conservations. Ce sont les positions les plus fiables retenues pour la construction des arbres. c'est à vous de définir les blocs, sur la base des blocs Gblocks + les *, : , et .

>Positions des indels dans les 4 blocks : indel : [392  456]  [491  542]  [566  581]  [613  647] 

==> NON, ce sont les blocs définis par gblocks

>Gblocks ce qui confirme l'homologie des sequences à 20%, ==> NON, est ce que l'homologie est quantifiable ?

>les séquences semblent bien homologues elles ont les mêmes blocs de conservation ==> discutez aussi de la répartition des gaps (combien de gaps ? comment sont-ils répartis ? partagés entre une majorité des séq ? ou pouvez-vous identifier des groupes de séq se comportant différemment ? parfois groupes d'étude vs externe).

>en compranant les domaines retenus dans interpro IPR001650 positon 160 à 267 et IPR040498 position de 124 à 149, on remarque qu'il y a des séqeunces qui ne contiennent pas ce domaine, on suppose que ce domaine n'est pas présent chez tout les homologues. ==> ???

==> IPR001650 positon 160 à 267 et IPR040498 position de 124 à 149 : ce sont les coordonnées sur votre protéine => identifiez, reportez ces coordonnées sur l'alignement multiple : avez vous des conservation (*, : , .) dans ces zones.

>en combinant les resultats INTERPRO et alignement multiple on voit qu'on a une conservation de la PRoline "p" sur ces alignments cet acide aminé est impliqué dans la fonction des domaines proteiques conservés (). ==> Bien, mais soyez plus précis : position sur l'aligenment multiple, role de cette proline, lien vers la fiche SP ou interpor où vous avez trouvé cette info.

3. Analyse de l'alignement multiple / informations sur la reconstruction phylogénétique:

>on aura un pourcentage(>20%) qui nous permet de validés l'homologie entre ces séquences choisis .

==> ce n'est pas un % d'homologie, l'homologie n'étant pas quantifiable

==> Le % n'est pas important, il faut au moins 100 positions retenues pour avoir une phylogénie fiable

Bon travail,

BW

 

B_Wirth_20
21 Mar 2020 11:15
Game master

Re,

Q1) je n'arrive pas à faire le lien entre mes résultats dans l'alignement multiple et ce lui dans interpro, comment dois je procéder ?

==> avec interpro, vous avez identifié des domaines sur votre protéine putative

==> IPR001650 positon 160 à 267 et IPR040498 position de 124 à 149 : ce sont les coordonnées sur votre protéine => identifiez, reportez, ces coordonnées sur l'alignement multiple : avez-vous des conservation (*, : , .) dans ces zones, des blocs gblocks ? Si oui, le-les domaines sont présents dans toutes les séquences, par conséquent, vos séq sont bien homologues.

Bon travail,

BW