Forum "Annotathon: généralités, fonctionnement & bugs"

Thread subject: Questions (et réponses) sur les annotations

[ Return to forums ]
Questions (et réponses) sur les annotations
P_Hingamp_16
5 Feb 2016 18:12
Contribution: Pertinent

Je reproduis ci-dessous les questions qui m'ont été envoyées (utilisez de préférence ce forum, accessible en cliquant sur l'icone "oeil" dans votre panier, car ceci permet en outre d'avoir accès à votre fiche d'annotation):

Je rencontre quelques petits problèmes pour les annotations de ma séquence.

1) Je ne trouve pas sur les résultats du Blastp combien de séquences sont homologues ? Combien il y a eu d'alignements ? Dans les paramètres, j'en ai demandé au max 5000 mais ou puis-je trouver le nombre exact ?

Vous pouvez copier/coller la liste de synthèse des séquences avec un alignement (la première partie du BLAST avant les alignements) dans un éditeur de texte (par exemple Notepad++ sous windows, ou gedit sous linux) puis placez votre curseur sur la dernière ligne dans l'éditeur, le numéro de ligne s'affiche (le plus souvent dans le cartouche en bas de la fenêtre). Alternativement, profitez de votre analyse "Rapport Taxonomique" car le nombre de séquences est aussi affiché en haut de la page. Enfin, ce nombre est aussi indiqué dans la page Internet initiale de votgre BLASTp au NCBI: sous "Sequences producing significant alignments:" cliquez sur "Select: All" et hop, le nombre de séquences total est affiché...

2) Mon ORF 2 fait 287 nucléotides (de la position 19 à 306 sur le brin reverse). Cela me donne une taille en AA qui n'est pas un nombre entier car 287 n'est pas un multiple de 3...
Ce n'est pas mon ORF d'étude mais j'aimerais vous inscrire une taille correcte de cet ORF.

Je vois sur votre fiche que pour l'ORF 1 dont les coordonnées sont 1-984, vous avez (correctement, et probablement intuitivement) calculé la longueur: 984 pb. Par contre, pour les coordonnées 19-306, vous faites une petite erreur de calcul: en effet, la longueur est 306-19+1=288 pb, ce qui est bien un multiple de 3 :)

3) Mon ORF d'étude (ORF1) est tronqué en N et C-terminal. Il est constitué de 986 nucléotides. Il débute de la position 1 jusqu'à la position 984.
Par les alignements multiples avec ses homologues, j'apprends qu'il me manque 20 AA en N-terminal et environ 70 en C-terminal.
Donc dans la rubrique Statut de l'annotathon, j'inscris 1 en position de début et je ne sais pas quoi inscrire pour la position de fin ... De plus, il apparait des Gaps lors des alignements de séquences : dois-je ne prendre considération pour définir les extrémités de mon ORF ?

Pas de soucis pour la position de départ (premier nucléotide du premier codon complet disponible), pour la position de fin, indiquez le dernier nucléotide du dernier codon complet (dans ce cas, il semble que ce soit 984). Il reste donc 2 nucléotides au delà de l'ORF, mais pas assez pour former un codon, donc on les ignore.

4) Mon ORF ne présente aucun homologues sur SwissProt. Dois-je laisser la ligne de la table 3 vide ?

Incluez la ligne SP, mais indiquez zéro pour le nombre de protéines alignées (et N/A pour les autres colonnes). Ceci permet d'avoir une vue d'ensemble du panorama des homologues dans les banques principales.

5) Je dois rejeter mes domaines protéiques car non référencés dans INTERPRO. Toutefois, 1 des 2 est celui que j'attendais en terme de fonction.
Puis-je toute de même hypothéser que cet ADN génomique code pour la fonction en question ?

Oui, dans ce cas c'est parfaitement légitime (pas de domaines prédits qui soient intégrés à INTERPRO)! Même quand il y a par ailleurs des domaines prédits intégrés à INTERPRO, rien ne vous interdit de dire un mot ou deux sur les domaines "non intégrés" quand la fonction de ces derniers vous interpelle...

6) En faisant l'arbre par BioNJ les valeurs de robustesse n'apparaissent pas directement à l'inverse de l'arbre généré par PhyML.

Très bonne remarque! Ceci est dû au fait que seul PhyML propose de telles valeurs de robustesse par défaut. Pour BioNJ, la seule méthode disponible pour avoir de telles estimations de la robustesse des noeuds, est de calculer les "boostraps", ce qui correspond à réarranger lègèrement l'alignement multiple (on répète cette opération par exemple 100 ou 1000 fois) et de noter dans les différents arbres produits combien de fois on observe le noeuds (valeurs comprises entre 0 et 1). Faites donc initialement vos arbres BioNJ sans valeurs de robustesse. Mais quand votre alignement est vraiment en version finale, vous pouvez si vous le souhaitez refaire le BioNJ en demandant 100 bootstraps afin de générer ces fameuses (et très utiles) valeurs de robustesse des noeuds (ne faites pas ceci dès le départ, car le temps de calcul de BioNJ dans ce mode est ... 100 fois plus long!). Notez qu'il est aussi possible de faire faire des bootstraps à PhyML (mais les estimations par défaut de PhyML dites "Approximate Likelihood-Ratio Test (aLRT)" sont déjà relativement fiables et ... 100 fois plus rapides).

7) Pouvez-vous m'indiquer les caractéristiques de la/les séquence(s) à choisir pour enraciner l'arbre ? (http://annotathon.org/outils/nw_utils.php)
S'agit-il des séquences du groupe externe ?

Faites en sorte que le noeud à la racine de votre arbre soit celui qui sépare d'un côté le groupe d'étude, et de l'autre le groupe extérieur. Le petit outil en ligne "NEWICK TREE MANIPULATION" permet de le faire, mais souvent il faut un peu tatonner. Indiquez dans le champ "Enraciner l'arbre sur" les identifiants de deux séquences du groupe extérieur dont le dernier ancètre commun remonte au noeud à la base du groupe extérieur. Notez que vous pouvez obtenir exactement le même résultat en prenant deux séquences du groupe d'étude, car la racine sera placée in fine entre ces deux groupes:)

Bonne annotations!

aurcam
6 Feb 2016 12:39
Contribution: Constructive

Bonjour,

Pour la question 1/ savoir combien d'homologue le blast nous donne, on peut aussi avoir le nombre lorsque on les résultats du blast et au niveau de "Sequences producing significant alignments:", si on fait "select all" il donne le nombre de ligne ! (selected: 5000 si il y en a 5000)

JPEST
7 Feb 2016 10:51
Contribution: Pertinent

Bonjour,

Dans la partie alignement multiple, vous posez les questions suivantes :

   -> Toutes les séquences sélectionnées semblent-elles apparentées entre elles : chiffrez avec le nombre de positions identiques et le nombre de positions avec des substitutions conservatives !
   -> Nombre et répartition des INDELS

Ces informations sont-elles disponibles sur l'alignement multiple selon MUSCLE ou Gblocks ?

Est-ce à la fin de l'alignement dans la partie Parameters used de Gblocks ?

Car dans ce cas, nous devons comparer les séquences homologues entre elles et non les comparer une à une à notre séquence d'étude. Ainsi le Blastp n'est pas l'outils à utiliser. Toutefois, on y observait clairement les pourcentages d'identité, de substitutions conservatives et de Gaps ...

JPEST
7 Feb 2016 11:34
Contribution: Pertinent

Bonjour,

pour la question suivante :

   -> Après curation par GBLOCKS: combien de positions sont suffisament conservées (=homologues) pour être exploitées pour l'inférence phylogénétique (stats GBLOCKS)? Est-ce suffisant? Si non avez-vous relaxé les paramètres de stringence de GBLOCKS? Ou de retirer les homologues trop distants ou tronqués qui dégradent la qualité de l'alignement? 

Comment savoir si cela est suffisant ?

E_Talla_16
7 Feb 2016 21:11
Game master
Bonjour,

Vous trouverez les reponses entre les lignes de vos questions:

Bonjour,

Dans la partie alignement multiple, vous posez les questions suivantes :

   -> Toutes les séquences sélectionnées semblent-elles apparentées entre elles : chiffrez avec le nombre de positions identiques et le nombre de positions avec des substitutions conservatives !
   -> Nombre et répartition des INDELS

Ces informations sont-elles disponibles sur l'alignement multiple selon MUSCLE ou Gblocks ?

R: Via Muscle:
(*, identité; :, subtitutions conservatives)



Est-ce à la fin de l'alignement dans la partie Parameters used de Gblocks ?

Car dans ce cas, nous devons comparer les séquences homologues entre elles et non les comparer une à une à notre séquence d'étude. Ainsi le Blastp n'est pas l'outils à utiliser. Toutefois, on y observait clairement les pourcentages d'identité, de substitutions conservatives et de Gaps ...

R: Incomprehensible!!!

Après curation par GBLOCKS: combien de positions sont suffisament conservées (=homologues) pour être exploitées pour l'inférence phylogénétique (stats GBLOCKS)? Est-ce suffisant? Si non avez-vous relaxé les paramètres de stringence de GBLOCKS? Ou de retirer les homologues trop distants ou tronqués qui dégradent la qualité de l'alignement?

Comment savoir si cela est suffisant ?

R: A minima, il faudrait au moins 60 positions retenues par Gblocks. Mais sachez que l'ideal pour avoir une reconstruction phylogénétique qui reflète la realité de l'histoire evolutive des proteines analysees serait d'avoir au moins 100 sites informatifs retenus par Gblocks.


Bon travail,

ET



JPEST
10 Feb 2016 11:01
Contribution: Refer to Rule Book & FAQ

Bonjour à tous,

quelles différences faites-vous entre "groupe monophylétique" et "groupe taxonomique" ?

La rédaction de la partie Arbre nous demande de faire la différence ...

Merci et bonne journée.

E_Talla_16
11 Feb 2016 13:26
Game master
Bonjour,

Le groupe taxonomique fait references aux phyla connus et deja bien definis (ex. Proteobacteria). Un groupe monophyletique est tout simplement un ensemble de branches dont toutes (ou la majorite > 95%) sont issues un seul groupe taxonomique.

Par contre, dans l'analyse des arbre, on ne vous demande pas de faire la difference entre ces deux notions. Vous devez neanmoins utiliser ces deux notions pour l'interpretations des arbres et surtout la topologie de vos arbres.

Bon travail,

ET
aurcam
12 Feb 2016 17:03
Contribution: Pertinent

Bonjour à tous et à toute,

Dans la rubrique analyse et résultats du rapport taxonimique, on doit "​calculez explicitement le différentiel de E-values entre les 2 groupes d'étude et extérieur!"

Seulement je ne comprends pas bien ce qui est demandé, pourrais-je avoir une explication ? 

Merci d'avance 

JPEST
12 Feb 2016 18:49
Contribution: Constructive

Tu dois prendre soit les E-value max ou min de ton groupe d'étude et extérieur puis tu calcules le différentiel des 2 valeurs.

J'espère que tu as compris ce que je voulais dire ;)

aurcam
15 Feb 2016 11:26
Non evaluated contribution

j'avais pas vu ta réponse merci beaucoup !

JPEST
19 Feb 2016 10:52
Contribution: A little confusing

Bonjour à tous,

Dans la Partie Arbre :

Comment faire quand notre protéine d'étude tombe dans un de nos groupes extérieurs et que ce même groupe extérieur tombe dans notre groupe d'étude ? Je me doutais que cela arriverait car les E-valeurs sont très proches voire égales ... Puis-je en conclure que cette protéine est partagée entre les Archaea Crenarchaeota et les Archaea Thaumarchaeota dans mon cas ?

Cette configuration est la même pour l'arbre généré par PhyML et pour celui généré par BioNJ.

Mon rapport taxonomique ne me permet pas d'étudier au niveau du règne : je n'ai que des Archaea (pas de bactérie) ...

Séquence génomique
>TO34D_5393080 ADN génomique (: SharmElSheikh-Jeddah station 34 DCM)

Merci de votre aide.

Bonnes vacances.

P_Hingamp_16
22 Feb 2016 18:31
Contribution: Constructive

Bonjour,

Tout d'abord préférez ouvrir un nouveau fil dans le forum (dans votre fiche d'annotations en mode "visualisation") car ceci donne un lien direct vers votre fiche!
Ensuite j'ai bien tenté de regarder vos arbres, mais ils sont mal formatés (regardez votre fiche en mode "visualisation") et je n'arrive donc pas bien à cerner leur topologie. Peut-être appliquez le style "Formaté" et "Computer Code" à vos arbres, ou alors transférez-les dans le champs "Résultats Bruts")?
Enfin dans votre message, je ne comprends pas comment votre groupe extérieur peut "tomber dans le groupe d'étude", car le propre du groupe extérieur est d'être à la racine (pour cela il vous faut re-raciner vos arbres)?

Bon courage!

JPEST
26 Feb 2016 12:41
Contribution: Constructive

Bonjour

Pour la partie symbole du gene ou peut on trouver l'information ? 

Merci 

E_Talla_16
26 Feb 2016 14:00
Game master
Bonjour,

L'information se trouve dans les fiches de banques swissprot dans le champ "gene name" ou "gene symbol". Si 4 à 5 fiches de banques (pris aleatoirement, bien sur) possèdent le même symboles de gènes, cela implique que ce symbole de gene est unanimement accepté et utilisé par la communauté scientifique. Dans ce cas, vous pouvez egalement utiliser le meme symbole de gene. Dans le cas contraire, il vaut mieux ne pas inscrire de symbole de gene et eviter ainsi la multiplicité des symboles de genes. Comme d'habitude, mais justifiez toujours votre choix.

Bon travail,

ET
P_Hingamp_16
26 Feb 2016 15:09
Game master

En effet SWISSPROT est votre ami pour le symbole de gène (ou de protéine). On peut ajouter qu'une fois que vous avez pris note des symboles de gènes et protéines de quelques exemples d'homologues SWISSPROT à votre ORF comme suggéré par Emmanuel, quelques fois quand on observe les "entrynames" (codes) des fiches SWISSPROT, on remaquera une petite astuce qui permet de constater les situations où tous les homologues possèdent le même symbole de gène/protéine. Par exemple, pour votre séquence TO34D_5393080 remarquez comment toutes les "entrynames" des homologues sont de la forme "EF2_?????" (sachant que dans le contenu des fiches on voit que les protéines sont des EF-2 = 'Elongation factor 2'):

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value
sp|A0RW30.1|EF2_CENSY  RecName: Full=Elongation factor 2; Shor...  668     0.0 
sp|Q975H5.3|EF2_SULTO  RecName: Full=Elongation factor 2; Shor...  445     1e-148
sp|C3N5S0.1|EF2_SULIA  RecName: Full=Elongation factor 2; Shor...  427     1e-141
sp|P30925.3|EF2_SULSO  RecName: Full=Elongation factor 2; Shor...  427     2e-141
sp|P23112.3|EF2_SULAC  RecName: Full=Elongation factor 2; Shor...  426     3e-141
sp|Q9YC19.1|EF2_AERPE  RecName: Full=Elongation factor 2; Shor...  420     7e-139
sp|A4YCV9.1|EF2_METS5  RecName: Full=Elongation factor 2; Shor...  420     8e-139
sp|A3MSN3.1|EF2_PYRCJ  RecName: Full=Elongation factor 2; Shor...  407     8e-134
sp|A3DMV6.1|EF2_STAMF  RecName: Full=Elongation factor 2; Shor...  404     6e-133
sp|Q5JFZ3.1|EF2_THEKO  RecName: Full=Elongation factor 2; Shor...  404     1e-132
sp|B1YE08.1|EF2_PYRNV  RecName: Full=Elongation factor 2; Shor...  401     2e-131
sp|A1RVX2.1|EF2_PYRIL  RecName: Full=Elongation factor 2; Shor...  401     2e-131
sp|A4WMR8.1|EF2_PYRAR  RecName: Full=Elongation factor 2; Shor...  400     2e-131
sp|Q8ZZC1.1|EF2_PYRAE  RecName: Full=Elongation factor 2; Shor...  400     4e-131
sp|O59521.2|EF2_PYRHO  RecName: Full=Elongation factor 2; Shor...  399     8e-131
sp|O28385.1|EF2_ARCFU  RecName: Full=Elongation factor 2; Shor...  398     2e-130
sp|Q58448.1|EF2_METJA  RecName: Full=Elongation factor 2; Shor...  398     2e-130
sp|Q9V1Z8.1|EF2_PYRAB  RecName: Full=Elongation factor 2; Shor...  397     3e-130
sp|P61877.1|EF2_PYRFU  RecName: Full=Elongation factor 2; Shor...  395     2e-129
sp|C6A4M0.1|EF2_THESM  RecName: Full=Elongation factor 2; Shor...  390     2e-127
sp|C5A6N7.1|EF2_THEGJ  RecName: Full=Elongation factor 2; Shor...  390     3e-127
sp|A8ACA7.1|EF2_IGNH4  RecName: Full=Elongation factor 2; Shor...  389     7e-127
sp|Q6LXI2.1|EF2_METMP  RecName: Full=Elongation factor 2; Shor...  388     1e-126
sp|B8D6B2.1|EF2_DESK1  RecName: Full=Elongation factor 2; Shor...  388     2e-126
sp|B6YVG5.1|EF2_THEON  RecName: Full=Elongation factor 2; Shor...  386     6e-126
sp|A6VGV5.1|EF2_METM7  RecName: Full=Elongation factor 2; Shor...  385     1e-125


etc. encore des tonnes de "EF2_TRUCS" et "EF2_BIDULES"

On en déduit dans ce cas qu'il est raisonnable de proposer le symbole EF2 pour l'ORF métagénomique (ou visiblement fus2 comme symbole de gène, cf fiches SWISSPROT). Dans d'autres cas c'est plus délicat, voire impossible, si les homologues ne présentent pas de symboles/noms uniformes, par exemple:

                                                                  Score     E
Sequences producing significant alignments:                       (Bits)  Value
sp|O09174.4|AMACR_MOUSE  RecName: Full=Alpha-methylacyl-CoA ra...  182     1e-54
sp|P70473.3|AMACR_RAT  RecName: Full=Alpha-methylacyl-CoA race...  177     1e-52
sp|Q9UHK6.2|AMACR_HUMAN  RecName: Full=Alpha-methylacyl-CoA ra...  171     5e-50
sp|Q8J0F0.1|CEFD2_ACRCH  RecName: Full=Isopenicillin N epimera...  164     2e-47
sp|Q09618.3|YS74_CAEEL  RecName: Full=CaiB/baiF CoA-transferas...  139     2e-38
sp|A9WGE3.1|SCCT_CHLAA  RecName: Full=Succinyl-CoA--D-citramal...  105     7e-26
sp|Q1KLK1.1|SMTA_CHLAU  RecName: Full=Succinyl-CoA--L-malate C...  99.4    1e-23
sp|A9WC40.1|SMTA_CHLAA  RecName: Full=Succinyl-CoA--L-malate C...  99.8    1e-23
sp|Q7TNE1.2|SUCHY_MOUSE  RecName: Full=Succinate--hydroxymethy...  95.9    2e-22
sp|Q68FU4.1|SUCHY_RAT  RecName: Full=Succinate--hydroxymethylg...  95.1    5e-22
sp|Q9HAC7.2|SUCHY_HUMAN  RecName: Full=Succinate--hydroxymethy...  94.0    2e-21
sp|A9WC39.1|SMTB_CHLAA  RecName: Full=Succinyl-CoA--L-malate C...  92.4    3e-21
sp|A9X6P9.1|ACOCT_ACEAC  RecName: Full=Acetyl-CoA:oxalate CoA-...  90.5    2e-20
sp|Q3YZF6.1|FCTA_SHISS  RecName: Full=Formyl-CoA:oxalate CoA-t...  89.0    8e-20
sp|Q8FFE8.1|FCTA_ECOL6  RecName: Full=Formyl-CoA:oxalate CoA-t...  89.0    9e-20
sp|B2TWX3.1|FCTA_SHIB3  RecName: Full=Formyl-CoA:oxalate CoA-t...  89.0    9e-20
sp|Q8XBR7.1|FCTA_ECO57  RecName: Full=Formyl-CoA:oxalate CoA-t...  88.6    1e-19
sp|P69902.1|FCTA_ECOLI  RecName: Full=Formyl-CoA:oxalate CoA-t...  88.6    1e-19
sp|P76518.2|ACOCT_ECOLI  RecName: Full=Acetyl-CoA:oxalate CoA-...  88.2    1e-19
sp|B7MY33.1|FCTA_ECO81  RecName: Full=Formyl-CoA:oxalate CoA-t...  88.2    1e-19
sp|Q5V468.2|MCT_HALMA  RecName: Full=Succinyl-CoA:mesaconate C...  84.0    4e-18
sp|Q55CV9.1|Y9880_DICDI  RecName: Full=CaiB/baiF CoA-transfera...  84.3    6e-18
sp|Q07Q82.1|FCTA_RHOP5  RecName: Full=Formyl-CoA:oxalate CoA-t...  82.0    2e-17
sp|Q6N8F8.2|FCTA_RHOPA  RecName: Full=Formyl-CoA:oxalate CoA-t...  82.0    3e-17
sp|Q217M3.1|FCTA_RHOPB  RecName: Full=Formyl-CoA:oxalate CoA-t...  82.0    3e-17
sp|B3QBS6.1|FCTA_RHOPT  RecName: Full=Formyl-CoA:oxalate CoA-t...  82.0    3e-17
sp|Q2IUI7.1|FCTA_RHOP2  RecName: Full=Formyl-CoA:oxalate CoA-t...  82.0    3e-17
sp|Q139H7.1|FCTA_RHOPS  RecName: Full=Formyl-CoA:oxalate CoA-t...  82.0    3e-17
sp|A4YXN2.1|FCTA_BRASO  RecName: Full=Formyl-CoA:oxalate CoA-t...  81.6    3e-17
sp|A5EGD7.1|FCTA_BRASB  RecName: Full=Formyl-CoA:oxalate CoA-t...  81.6    3e-17
sp|Q9KJE9.1|BBSF_THAAR  RecName: Full=Succinyl-CoA:(R)-benzyls...  81.6    4e-17
sp|Q89QH2.1|FCTA_BRADU  RecName: Full=Formyl-CoA:oxalate CoA-t...  79.3    2e-16
sp|B6JE29.1|FCTA_OLICO  RecName: Full=Formyl-CoA:oxalate CoA-t...  79.0    3e-16
sp|O87838.1|FCTA_STRCO  RecName: Full=Formyl-CoA:oxalate CoA-t...  77.8    8e-16
sp|Q82M40.1|FCTA_STRAW  RecName: Full=Formyl-CoA:oxalate CoA-t...  75.5    5e-15
sp|A6W2K8.1|DDDD_MARMS  RecName: Full=CoA-transferase/lyase DddD   74.3    2e-14
sp|O06644.3|FCTA_OXAFO  RecName: Full=Formyl-CoA:oxalate CoA-t...  72.4    7e-14
sp|Q9KJF0.1|BBSE_THAAR  RecName: Full=Succinyl-CoA:(R)-benzyls...  67.4    3e-12
sp|P95149.2|Y1866_MYCTU  RecName: Full=Probable CoA-transferas...  65.9    2e-11
sp|Q93AM1.1|FLDA_CLOSG  RecName: Full=E-cinnamoyl-CoA:R-phenyl...  62.4    1e-10

Par ailleurs, sur ce deuxième exemple, vous pourrez facilement deviner ce que signifie en général la deuxième moitié des "entrynames" de SWISSPROT après le "_" :)

Bonnes annotations sur ces dernières heures avant de rendre votre fiche initiale pour votre première séquence...

 

P_Hingamp_16
26 Feb 2016 15:14
Contribution: Pertinent

Oops, si les caractères sont trop petits, à défaut d'une loupe utilisez le "CTRL +" pour agrandir la police de caractères ;)

Et aussi: quand vous postez des nouveaux messages, ne répondez à ce fil que si vos réponses sont en lien direct avec ce fil! Pour les nouvelles question merci d'impérativement utiliser les formulaires spécialement prévus en haut de vos fiches d'annotation en mode "visualisation", car ceci nous donne (et à tous les lecteurs) un lien direct vers votre fiche d'annotation (pour le contexte de la question, c'est essentiel)...

Bon courage!