Annotathon!

Forum "Annotathon: généralités, fonctionnement & bugs"

Sujet de discussion: Questions (et réponses) sur les annotations

Questions (et réponses) sur les annotations

P_Hingamp_16
5 Feb 2016 18:12

Contribution: Pertinent

Je reproduis ci-dessous les questions qui m'ont été envoyées (utilisez de préférence ce forum, accessible en cliquant sur l'icone "oeil" dans votre panier, car ceci permet en outre d'avoir accès à votre fiche d'annotation):

Je rencontre quelques petits problèmes pour les annotations de ma séquence.

1) Je ne trouve pas sur les résultats du Blastp combien de séquences sont homologues ? Combien il y a eu d'alignements ? Dans les paramètres, j'en ai demandé au max 5000 mais ou puis-je trouver le nombre exact ?

Vous pouvez copier/coller la liste de synthèse des séquences avec un alignement (la première partie du BLAST avant les alignements) dans un éditeur de texte (par exemple Notepad++ sous windows, ou gedit sous linux) puis placez votre curseur sur la dernière ligne dans l'éditeur, le numéro de ligne s'affiche (le plus souvent dans le cartouche en bas de la fenêtre). Alternativement, profitez de votre analyse "Rapport Taxonomique" car le nombre de séquences est aussi affiché en haut de la page. Enfin, ce nombre est aussi indiqué dans la page Internet initiale de votgre BLASTp au NCBI: sous "Sequences producing significant alignments:" cliquez sur "Select: All" et hop, le nombre de séquences total est affiché...

2) Mon ORF 2 fait 287 nucléotides (de la position 19 à 306 sur le brin reverse). Cela me donne une taille en AA qui n'est pas un nombre entier car 287 n'est pas un multiple de 3...
Ce n'est pas mon ORF d'étude mais j'aimerais vous inscrire une taille correcte de cet ORF.

Je vois sur votre fiche que pour l'ORF 1 dont les coordonnées sont 1-984, vous avez (correctement, et probablement intuitivement) calculé la longueur: 984 pb. Par contre, pour les coordonnées 19-306, vous faites une petite erreur de calcul: en effet, la longueur est 306-19+1=288 pb, ce qui est bien un multiple de 3 :)

3) Mon ORF d'étude (ORF1) est tronqué en N et C-terminal. Il est constitué de 986 nucléotides. Il débute de la position 1 jusqu'à la position 984.
Par les alignements multiples avec ses homologues, j'apprends qu'il me manque 20 AA en N-terminal et environ 70 en C-terminal.
Donc dans la rubrique Statut de l'annotathon, j'inscris 1 en position de début et je ne sais pas quoi inscrire pour la position de fin ... De plus, il apparait des Gaps lors des alignements de séquences : dois-je ne prendre considération pour définir les extrémités de mon ORF ?

Pas de soucis pour la position de départ (premier nucléotide du premier codon complet disponible), pour la position de fin, indiquez le dernier nucléotide du dernier codon complet (dans ce cas, il semble que ce soit 984). Il reste donc 2 nucléotides au delà de l'ORF, mais pas assez pour former un codon, donc on les ignore.

4) Mon ORF ne présente aucun homologues sur SwissProt. Dois-je laisser la ligne de la table 3 vide ?

Incluez la ligne SP, mais indiquez zéro pour le nombre de protéines alignées (et N/A pour les autres colonnes). Ceci permet d'avoir une vue d'ensemble du panorama des homologues dans les banques principales.

5) Je dois rejeter mes domaines protéiques car non référencés dans INTERPRO. Toutefois, 1 des 2 est celui que j'attendais en terme de fonction.
Puis-je toute de même hypothéser que cet ADN génomique code pour la fonction en question ?

Oui, dans ce cas c'est parfaitement légitime (pas de domaines prédits qui soient intégrés à INTERPRO)! Même quand il y a par ailleurs des domaines prédits intégrés à INTERPRO, rien ne vous interdit de dire un mot ou deux sur les domaines "non intégrés" quand la fonction de ces derniers vous interpelle...

6) En faisant l'arbre par BioNJ les valeurs de robustesse n'apparaissent pas directement à l'inverse de l'arbre généré par PhyML.

Très bonne remarque! Ceci est dû au fait que seul PhyML propose de telles valeurs de robustesse par défaut. Pour BioNJ, la seule méthode disponible pour avoir de telles estimations de la robustesse des noeuds, est de calculer les "boostraps", ce qui correspond à réarranger lègèrement l'alignement multiple (on répète cette opération par exemple 100 ou 1000 fois) et de noter dans les différents arbres produits combien de fois on observe le noeuds (valeurs comprises entre 0 et 1). Faites donc initialement vos arbres BioNJ sans valeurs de robustesse. Mais quand votre alignement est vraiment en version finale, vous pouvez si vous le souhaitez refaire le BioNJ en demandant 100 bootstraps afin de générer ces fameuses (et très utiles) valeurs de robustesse des noeuds (ne faites pas ceci dès le départ, car le temps de calcul de BioNJ dans ce mode est ... 100 fois plus long!). Notez qu'il est aussi possible de faire faire des bootstraps à PhyML (mais les estimations par défaut de PhyML dites "Approximate Likelihood-Ratio Test (aLRT)" sont déjà relativement fiables et ... 100 fois plus rapides).

7) Pouvez-vous m'indiquer les caractéristiques de la/les séquence(s) à choisir pour enraciner l'arbre ? (http://annotathon.org/outils/nw_utils.php)
S'agit-il des séquences du groupe externe ?

Faites en sorte que le noeud à la racine de votre arbre soit celui qui sépare d'un côté le groupe d'étude, et de l'autre le groupe extérieur. Le petit outil en ligne "NEWICK TREE MANIPULATION" permet de le faire, mais souvent il faut un peu tatonner. Indiquez dans le champ "Enraciner l'arbre sur" les identifiants de deux séquences du groupe extérieur dont le dernier ancètre commun remonte au noeud à la base du groupe extérieur. Notez que vous pouvez obtenir exactement le même résultat en prenant deux séquences du groupe d'étude, car la racine sera placée in fine entre ces deux groupes:)

Bonne annotations!

aurcam
6 Feb 2016 12:39

Contribution: Constructif

Bonjour,

Pour la question 1/ savoir combien d'homologue le blast nous donne, on peut aussi avoir le nombre lorsque on les résultats du blast et au niveau de "Sequences producing significant alignments:", si on fait "select all" il donne le nombre de ligne ! (selected: 5000 si il y en a 5000)

JPEST
7 Feb 2016 10:51

Contribution: Pertinent

Bonjour,

Dans la partie alignement multiple, vous posez les questions suivantes :

-> Toutes les séquences sélectionnées semblent-elles apparentées entre elles : chiffrez avec le nombre de positions identiques et le nombre de positions avec des substitutions conservatives !
-> Nombre et répartition des INDELS

Ces informations sont-elles disponibles sur l'alignement multiple selon MUSCLE ou Gblocks ?

Est-ce à la fin de l'alignement dans la partie Parameters used de Gblocks ?

Car dans ce cas, nous devons comparer les séquences homologues entre elles et non les comparer une à une à notre séquence d'étude. Ainsi le Blastp n'est pas l'outils à utiliser. Toutefois, on y observait clairement les pourcentages d'identité, de substitutions conservatives et de Gaps ...

JPEST
7 Feb 2016 11:34

Contribution: Pertinent

Bonjour,

pour la question suivante :

   -> Après curation par GBLOCKS: combien de positions sont suffisament conservées (=homologues) pour être exploitées pour l'inférence phylogénétique (stats GBLOCKS)? Est-ce suffisant? Si non avez-vous relaxé les paramètres de stringence de GBLOCKS? Ou de retirer les homologues trop distants ou tronqués qui dégradent la qualité de l'alignement?

Comment savoir si cela est suffisant ?

E_Talla_16
7 Feb 2016 21:11
Maître de jeu

Bonjour,

Vous trouverez les reponses entre les lignes de vos questions:

Bonjour,

Dans la partie alignement multiple, vous posez les questions suivantes :

-> Toutes les séquences sélectionnées semblent-elles apparentées entre elles : chiffrez avec le nombre de positions identiques et le nombre de positions avec des substitutions conservatives !
-> Nombre et répartition des INDELS

Ces informations sont-elles disponibles sur l'alignement multiple selon MUSCLE ou Gblocks ?

R: Via Muscle:
(*, identité; :, subtitutions conservatives)

Est-ce à la fin de l'alignement dans la partie Parameters used de Gblocks ?

Car dans ce cas, nous devons comparer les séquences homologues entre elles et non les comparer une à une à notre séquence d'étude. Ainsi le Blastp n'est pas l'outils à utiliser. Toutefois, on y observait clairement les pourcentages d'identité, de substitutions conservatives et de Gaps ...

R: Incomprehensible!!!

Après curation par GBLOCKS: combien de positions sont suffisament conservées (=homologues) pour être exploitées pour l'inférence phylogénétique (stats GBLOCKS)? Est-ce suffisant? Si non avez-vous relaxé les paramètres de stringence de GBLOCKS? Ou de retirer les homologues trop distants ou tronqués qui dégradent la qualité de l'alignement?

Comment savoir si cela est suffisant ?

R: A minima, il faudrait au moins 60 positions retenues par Gblocks. Mais sachez que l'ideal pour avoir une reconstruction phylogénétique qui reflète la realité de l'histoire evolutive des proteines analysees serait d'avoir au moins 100 sites informatifs retenus par Gblocks.

Bon travail,

ET

JPEST
10 Feb 2016 11:01

Contribution: Relisez les Règles du Jeu / la FAQ

Bonjour à tous,

quelles différences faites-vous entre "groupe monophylétique" et "groupe taxonomique" ?

La rédaction de la partie Arbre nous demande de faire la différence ...

Merci et bonne journée.

E_Talla_16
11 Feb 2016 13:26
Maître de jeu

Bonjour,

Le groupe taxonomique fait references aux phyla connus et deja bien definis (ex. Proteobacteria). Un groupe monophyletique est tout simplement un ensemble de branches dont toutes (ou la majorite > 95%) sont issues un seul groupe taxonomique.

Par contre, dans l'analyse des arbre, on ne vous demande pas de faire la difference entre ces deux notions. Vous devez neanmoins utiliser ces deux notions pour l'interpretations des arbres et surtout la topologie de vos arbres.

Bon travail,

ET

aurcam
12 Feb 2016 17:03

Contribution: Pertinent

Bonjour à tous et à toute,

Dans la rubrique analyse et résultats du rapport taxonimique, on doit "calculez explicitement le différentiel de E-values entre les 2 groupes d'étude et extérieur!"

Seulement je ne comprends pas bien ce qui est demandé, pourrais-je avoir une explication ?

Merci d'avance

JPEST
12 Feb 2016 18:49

Contribution: Constructif

Tu dois prendre soit les E-value max ou min de ton groupe d'étude et extérieur puis tu calcules le différentiel des 2 valeurs.

J'espère que tu as compris ce que je voulais dire ;)

aurcam
15 Feb 2016 11:26
Contribution non évaluée

j'avais pas vu ta réponse merci beaucoup !

JPEST
19 Feb 2016 10:52

Contribution: Pas assez limpide

Bonjour à tous,

Dans la Partie Arbre :

Comment faire quand notre protéine d'étude tombe dans un de nos groupes extérieurs et que ce même groupe extérieur tombe dans notre groupe d'étude ? Je me doutais que cela arriverait car les E-valeurs sont très proches voire égales ... Puis-je en conclure que cette protéine est partagée entre les Archaea Crenarchaeota et les Archaea Thaumarchaeota dans mon cas ?

Cette configuration est la même pour l'arbre généré par PhyML et pour celui généré par BioNJ.

Mon rapport taxonomique ne me permet pas d'étudier au niveau du règne : je n'ai que des Archaea (pas de bactérie) ...

Séquence génomique

>TO34D_5393080 ADN génomique (: SharmElSheikh-Jeddah station 34 DCM)

Merci de votre aide.

Bonnes vacances.

P_Hingamp_16
22 Feb 2016 18:31

Contribution: Constructif

Bonjour,

Tout d'abord préférez ouvrir un nouveau fil dans le forum (dans votre fiche d'annotations en mode "visualisation") car ceci donne un lien direct vers votre fiche!
Ensuite j'ai bien tenté de regarder vos arbres, mais ils sont mal formatés (regardez votre fiche en mode "visualisation") et je n'arrive donc pas bien à cerner leur topologie. Peut-être appliquez le style "Formaté" et "Computer Code" à vos arbres, ou alors transférez-les dans le champs "Résultats Bruts")?
Enfin dans votre message, je ne comprends pas comment votre groupe extérieur peut "tomber dans le groupe d'étude", car le propre du groupe extérieur est d'être à la racine (pour cela il vous faut re-raciner vos arbres)?

Bon courage!

JPEST
26 Feb 2016 12:41

Contribution: Constructif

Bonjour

Pour la partie symbole du gene ou peut on trouver l'information ?

Merci

E_Talla_16
26 Feb 2016 14:00
Maître de jeu

Bonjour,

L'information se trouve dans les fiches de banques swissprot dans le champ "gene name" ou "gene symbol". Si 4 à 5 fiches de banques (pris aleatoirement, bien sur) possèdent le même symboles de gènes, cela implique que ce symbole de gene est unanimement accepté et utilisé par la communauté scientifique. Dans ce cas, vous pouvez egalement utiliser le meme symbole de gene. Dans le cas contraire, il vaut mieux ne pas inscrire de symbole de gene et eviter ainsi la multiplicité des symboles de genes. Comme d'habitude, mais justifiez toujours votre choix.

Bon travail,

ET

P_Hingamp_16
26 Feb 2016 15:09
Maître de jeu

En effet SWISSPROT est votre ami pour le symbole de gène (ou de protéine). On peut ajouter qu'une fois que vous avez pris note des symboles de gènes et protéines de quelques exemples d'homologues SWISSPROT à votre ORF comme suggéré par Emmanuel, quelques fois quand on observe les "entrynames" (codes) des fiches SWISSPROT, on remaquera une petite astuce qui permet de constater les situations où tous les homologues possèdent le même symbole de gène/protéine. Par exemple, pour votre séquence TO34D_5393080 remarquez comment toutes les "entrynames" des homologues sont de la forme "EF2_?????" (sachant que dans le contenu des fiches on voit que les protéines sont des EF-2 = 'Elongation factor 2'):

Score E Sequences producing significant alignments: (Bits) Value sp|A0RW30.1|EF2_CENSY RecName: Full=Elongation factor 2; Shor... 668 0.0 sp|Q975H5.3|EF2_SULTO RecName: Full=Elongation factor 2; Shor... 445 1e-148 sp|C3N5S0.1|EF2_SULIA RecName: Full=Elongation factor 2; Shor... 427 1e-141 sp|P30925.3|EF2_SULSO RecName: Full=Elongation factor 2; Shor... 427 2e-141 sp|P23112.3|EF2_SULAC RecName: Full=Elongation factor 2; Shor... 426 3e-141 sp|Q9YC19.1|EF2_AERPE RecName: Full=Elongation factor 2; Shor... 420 7e-139 sp|A4YCV9.1|EF2_METS5 RecName: Full=Elongation factor 2; Shor... 420 8e-139 sp|A3MSN3.1|EF2_PYRCJ RecName: Full=Elongation factor 2; Shor... 407 8e-134 sp|A3DMV6.1|EF2_STAMF RecName: Full=Elongation factor 2; Shor... 404 6e-133 sp|Q5JFZ3.1|EF2_THEKO RecName: Full=Elongation factor 2; Shor... 404 1e-132 sp|B1YE08.1|EF2_PYRNV RecName: Full=Elongation factor 2; Shor... 401 2e-131 sp|A1RVX2.1|EF2_PYRIL RecName: Full=Elongation factor 2; Shor... 401 2e-131 sp|A4WMR8.1|EF2_PYRAR RecName: Full=Elongation factor 2; Shor... 400 2e-131 sp|Q8ZZC1.1|EF2_PYRAE RecName: Full=Elongation factor 2; Shor... 400 4e-131 sp|O59521.2|EF2_PYRHO RecName: Full=Elongation factor 2; Shor... 399 8e-131 sp|O28385.1|EF2_ARCFU RecName: Full=Elongation factor 2; Shor... 398 2e-130 sp|Q58448.1|EF2_METJA RecName: Full=Elongation factor 2; Shor... 398 2e-130 sp|Q9V1Z8.1|EF2_PYRAB RecName: Full=Elongation factor 2; Shor... 397 3e-130 sp|P61877.1|EF2_PYRFU RecName: Full=Elongation factor 2; Shor... 395 2e-129 sp|C6A4M0.1|EF2_THESM RecName: Full=Elongation factor 2; Shor... 390 2e-127 sp|C5A6N7.1|EF2_THEGJ RecName: Full=Elongation factor 2; Shor... 390 3e-127 sp|A8ACA7.1|EF2_IGNH4 RecName: Full=Elongation factor 2; Shor... 389 7e-127 sp|Q6LXI2.1|EF2_METMP RecName: Full=Elongation factor 2; Shor... 388 1e-126 sp|B8D6B2.1|EF2_DESK1 RecName: Full=Elongation factor 2; Shor... 388 2e-126 sp|B6YVG5.1|EF2_THEON RecName: Full=Elongation factor 2; Shor... 386 6e-126 sp|A6VGV5.1|EF2_METM7 RecName: Full=Elongation factor 2; Shor... 385 1e-125

etc. encore des tonnes de "EF2_TRUCS" et "EF2_BIDULES"

On en déduit dans ce cas qu'il est raisonnable de proposer le symbole EF2 pour l'ORF métagénomique (ou visiblement fus2 comme symbole de gène, cf fiches SWISSPROT). Dans d'autres cas c'est plus délicat, voire impossible, si les homologues ne présentent pas de symboles/noms uniformes, par exemple:

`Score E Sequences producing significant alignments: (Bits) Value`

sp|O09174.4|AMACR_MOUSE RecName: Full=Alpha-methylacyl-CoA ra... 182 1e-54 sp|P70473.3|AMACR_RAT RecName: Full=Alpha-methylacyl-CoA race... 177 1e-52 sp|Q9UHK6.2|AMACR_HUMAN RecName: Full=Alpha-methylacyl-CoA ra... 171 5e-50 sp|Q8J0F0.1|CEFD2_ACRCH RecName: Full=Isopenicillin N epimera... 164 2e-47 sp|Q09618.3|YS74_CAEEL RecName: Full=CaiB/baiF CoA-transferas... 139 2e-38 sp|A9WGE3.1|SCCT_CHLAA RecName: Full=Succinyl-CoA--D-citramal... 105 7e-26 sp|Q1KLK1.1|SMTA_CHLAU RecName: Full=Succinyl-CoA--L-malate C... 99.4 1e-23 sp|A9WC40.1|SMTA_CHLAA RecName: Full=Succinyl-CoA--L-malate C... 99.8 1e-23 sp|Q7TNE1.2|SUCHY_MOUSE RecName: Full=Succinate--hydroxymethy... 95.9 2e-22 sp|Q68FU4.1|SUCHY_RAT RecName: Full=Succinate--hydroxymethylg... 95.1 5e-22 sp|Q9HAC7.2|SUCHY_HUMAN RecName: Full=Succinate--hydroxymethy... 94.0 2e-21 sp|A9WC39.1|SMTB_CHLAA RecName: Full=Succinyl-CoA--L-malate C... 92.4 3e-21 sp|A9X6P9.1|ACOCT_ACEAC RecName: Full=Acetyl-CoA:oxalate CoA-... 90.5 2e-20 sp|Q3YZF6.1|FCTA_SHISS RecName: Full=Formyl-CoA:oxalate CoA-t... 89.0 8e-20 sp|Q8FFE8.1|FCTA_ECOL6 RecName: Full=Formyl-CoA:oxalate CoA-t... 89.0 9e-20 sp|B2TWX3.1|FCTA_SHIB3 RecName: Full=Formyl-CoA:oxalate CoA-t... 89.0 9e-20 sp|Q8XBR7.1|FCTA_ECO57 RecName: Full=Formyl-CoA:oxalate CoA-t... 88.6 1e-19 sp|P69902.1|FCTA_ECOLI RecName: Full=Formyl-CoA:oxalate CoA-t... 88.6 1e-19 sp|P76518.2|ACOCT_ECOLI RecName: Full=Acetyl-CoA:oxalate CoA-... 88.2 1e-19 sp|B7MY33.1|FCTA_ECO81 RecName: Full=Formyl-CoA:oxalate CoA-t... 88.2 1e-19 sp|Q5V468.2|MCT_HALMA RecName: Full=Succinyl-CoA:mesaconate C... 84.0 4e-18 sp|Q55CV9.1|Y9880_DICDI RecName: Full=CaiB/baiF CoA-transfera... 84.3 6e-18 sp|Q07Q82.1|FCTA_RHOP5 RecName: Full=Formyl-CoA:oxalate CoA-t... 82.0 2e-17 sp|Q6N8F8.2|FCTA_RHOPA RecName: Full=Formyl-CoA:oxalate CoA-t... 82.0 3e-17 sp|Q217M3.1|FCTA_RHOPB RecName: Full=Formyl-CoA:oxalate CoA-t... 82.0 3e-17 sp|B3QBS6.1|FCTA_RHOPT RecName: Full=Formyl-CoA:oxalate CoA-t... 82.0 3e-17 sp|Q2IUI7.1|FCTA_RHOP2 RecName: Full=Formyl-CoA:oxalate CoA-t... 82.0 3e-17 sp|Q139H7.1|FCTA_RHOPS RecName: Full=Formyl-CoA:oxalate CoA-t... 82.0 3e-17 sp|A4YXN2.1|FCTA_BRASO RecName: Full=Formyl-CoA:oxalate CoA-t... 81.6 3e-17 sp|A5EGD7.1|FCTA_BRASB RecName: Full=Formyl-CoA:oxalate CoA-t... 81.6 3e-17 sp|Q9KJE9.1|BBSF_THAAR RecName: Full=Succinyl-CoA:(R)-benzyls... 81.6 4e-17 sp|Q89QH2.1|FCTA_BRADU RecName: Full=Formyl-CoA:oxalate CoA-t... 79.3 2e-16 sp|B6JE29.1|FCTA_OLICO RecName: Full=Formyl-CoA:oxalate CoA-t... 79.0 3e-16 sp|O87838.1|FCTA_STRCO RecName: Full=Formyl-CoA:oxalate CoA-t... 77.8 8e-16 sp|Q82M40.1|FCTA_STRAW RecName: Full=Formyl-CoA:oxalate CoA-t... 75.5 5e-15 sp|A6W2K8.1|DDDD_MARMS RecName: Full=CoA-transferase/lyase DddD 74.3 2e-14 sp|O06644.3|FCTA_OXAFO RecName: Full=Formyl-CoA:oxalate CoA-t... 72.4 7e-14 sp|Q9KJF0.1|BBSE_THAAR RecName: Full=Succinyl-CoA:(R)-benzyls... 67.4 3e-12 sp|P95149.2|Y1866_MYCTU RecName: Full=Probable CoA-transferas... 65.9 2e-11 sp|Q93AM1.1|FLDA_CLOSG RecName: Full=E-cinnamoyl-CoA:R-phenyl... 62.4 1e-10

Par ailleurs, sur ce deuxième exemple, vous pourrez facilement deviner ce que signifie en général la deuxième moitié des "entrynames" de SWISSPROT après le "_" :)

Bonnes annotations sur ces dernières heures avant de rendre votre fiche initiale pour votre première séquence...

P_Hingamp_16
26 Feb 2016 15:14

Contribution: Pertinent

Oops, si les caractères sont trop petits, à défaut d'une loupe utilisez le "CTRL +" pour agrandir la police de caractères ;)

Et aussi: quand vous postez des nouveaux messages, ne répondez à ce fil que si vos réponses sont en lien direct avec ce fil! Pour les nouvelles question merci d'impérativement utiliser les formulaires spécialement prévus en haut de vos fiches d'annotation en mode "visualisation", car ceci nous donne (et à tous les lecteurs) un lien direct vers votre fiche d'annotation (pour le contexte de la question, c'est essentiel)...

Bon courage!