Principe - L'Equipe - Objectifs - Utilisation de l'Annotathon - Annotations de séquences - Evaluations -

Principe


Il y a 150 ans Charles Darwin parcourait les mers à bord du HMS Beagle pour observer la diversité morphologique du vivant; aujourd'hui c'est à bord de la goëlette Tara (ci-contre) que les biologistes sillonnent les océans pour observer la biodiversité à travers le séquençage métagénomique.

De septembre 2009 à novembre 2013, le navire océanographique Tara a sillonné tous les océans de la planète. Les océans produisent la moitié de l’oxygène que nous respirons. Si les forêts sont le premier poumon de notre planète, les océans constituent le second. Ces prairies de plancton constituent, par leur activité photosynthétique, une immense pompe à oxygène. Mais, ces organismes marins sont aussi un important puits à gaz carbonique. Tara Oceans est une expédition pan-océanique dont la mission est de rendre compte de l'état de la biodiversité planctonique: des atolls coralliens tropicaux à l’Antarctique, des isthmes moyen-orientaux au passage du nord ouest.

Le séquençage métagénomique des échantillons Tara a démarré au GENOSCOPE (Evry). Ces séquences vous sont livrées à chaud, en attente d'annotation fonctionnelle. A cette échelle moléculaire, la bioinformatique est l'outil principal pour observer la biodiversité!

Votre mission, est de tenter d'identifier l'origine microbiologique de ces séquences (archae, protistes, bactĂ©ries, virus?), de déterminer quelles séquences sont codantes, et dans l'affirmative conclure s'il s'agit de protéines connues ou nouvelles.

La première opération sera d'identifier d'éventuels cadres ouverts de lecture (ORF). Les ORF qui correspondent vraisemblablement à des gènes codants seront repérables essentiellement à leurs tailles (au delà de 100 à 150 acides aminés) et aux similitudes de séquences avec d'autres gènes déjà connus et présents dans les banques annotées telles que SWISSPROT.

L'objectif est donc double:
-identifier de nouvelles espèces de microorganismes
-identifier des protéines totalement nouvelles ou des membres jusqu'à là inconnus de familles protéiques caractérisées.

Pour en savoir plus, voir le site de l'expédition Tara Océans.

Tara

L'Equipe

Annotateur volontaire

L'équipe "Open access" est ouverte à tous les explorateurs volontaires! Pour participer, ouvrez un compte dans l'équipe "Open Access" en suivant le lien "Créer un compte" en haut de cette page.

Etudiants qui suivent un enseignement universitaire

Veuillez ouvrir un compte dans votre équipe spécifique (par exemple BioCell2016) en ouvrant l'onglet "Créer un compte" en haut de cette page.

Enseignants qui souhaitent gérer une équipe d'étudiants annotateurs

Vous trouverez toutes les informations nécessaires sur la page spécifique Annotathon Instructor Manual (disponible en anglais seulement).

Objectifs

Vous allez collectivement annoter des fragments de séquences d'ADN distincts. Chaque binôme prendra en charge l'annotation de fragments de séquence répartis aléatoirement entre les participants. Les binômes annotateurs devront, pour chacun des fragments dont ils ont la charge, conclure s'ils semblent codants ou non. Dans l'affirmative vous devrez proposer des annotations fonctionnelles pour les nouveaux gènes hypothétiques, ainsi que le groupe taxonomique d'appartenance le plus probable.

Utilisation de l'Annotathon

Authentification

Regroupez-vous en binômes, un binôme par poste de travail. Un seul trinôme éventuel est toléré par groupe de TD.

Organisez votre espace de travail de façon à avoir à l'écran trois fenêtres du Navigateur Internet (ou trois onglets si vous préfèrez) permettant ainsi d'avoir en parallèle:


Si vous n'avez pas encore de compte sur l'Annotathon (ce qui est le cas lors de votre première séance), cliquez sur l'onglet "Nouveau compte" dans le menu en haut de l'Annotathon. Créez un compte par binôme en renseignant les divers champs du formulaire; soyez particulièrement attentifs à choisir la bonne affiliation, à fournir le Code d'équipe, à bien sélectionner les noms des étudiants dans les menus déroulants, ou le cas échéant à les saisir précisemment (condition sine qua non pour avoir une note au TD); si vous n'êtes pas certains, demandez à votre responsable de TD! Vous devez fournir au moins une adresse de courrier électronique pour être tenu au courant des activités (vous pouvez saisir plusieurs adresses séparées par des virgules).

Enfin un clic sur "Ouvrir le Compte" doit faire afficher le message "Le compte 'XYZ' a été créé"; dans le cas contraire suivez les instructions pour corriger les erreurs. Une fois votre compte créé, vous pouvez vous ouvrir une session d'annotation en entrant le 'login/pseudo' et 'mot de passe' de votre binôme dans les champs en haut de la page puis en cliquant sur "Connection".

Un fois connecté à l'Annotathon, contrôlez que votre pseudo et vos noms sont bien indiqués en haut de la page. Notez que vous devrez valider votre adresse de courrier électronique en suivant le lien fourni dans un courriel qui vous sera adressé automatiquement à la création du compte.

La page d'accueil (affichée après connection ou en cliquant sur l'onglet "Accueil") donne un aperçu global de l'état d'avancement du projet d'annotation. Notez qu'après connection avec votre pseudo, les statistiques en blanc sur fond rouge en bas de page représentra après les premières évaluations votre position par rapport au reste des binômes de l'équipe.

Remarque: l'Annotathon est accessible à partir de n'importe quel accès Internet (campus ou non), sur MAC, PC Windows ou PC Linux...

Panier et fragments de séquence

L'objectif étant d'annoter des fragments de séquence, chaque binôme peut consulter la liste des fragments de séquence dont il a pris la charge en cliquant sur l'onglet "Panier". Votre panier de séquences est initialement vide; pour ajouter un fragment de séquence à votre panier, sélectionnez le lieu d'échantillonage souhaité (ex Caribbean Sea: Rosario Bank) puis cliquez sur le bouton "Ajouter un nouveau fragment de séquence à votre panier".

Vous ne pouvez ajouter de nouveaux fragments de séquence à votre panier que lorsque votre panier est vide, ou lorsque vous avez annoté tout ou partie des fragments déjà présents dans votre panier (c'est à dire soumis vos premières séquences à l'évaluation). Des nouveaux fragments de séquence sont donc ajoutés au panier à la discrétion du binôme (à concurrence du nombre maximal de fragments requis par binôme) puis annotés selon le guide proposé ci-dessous, et ce jusqu'à la date de fermeture de l'Annotathon (le nombre de jours d'ouverture restant est indiqué par un j-XX en haut de chaque page, cf. aussi "Evaluation et notation des binômes" en fin des Règles du jeu).

Consulter vos annotations

Cliquez sur l'icone en face du fragment de séquence dont vous souhaitez consulter les annotations. L'annotation initiale des fragments de séquence est succinte: outre le séquence nucléotidique, sa longueur, et l'origine géographique de la séquence, chaque fragment de séquence comporte un numéro d'accession unique au sein de l'Annotathon. Le reste de l'annotation est votre responsabilité.

Modifier vos annotations

Cliquez sur l'icone en face du fragment de séquence souhaité pour avoir accès au formulaire de saisie des annotations des séquences. Après avoir saisi des données dans ce formulaire, n'oubliez pas de cliquer sur le bouton "Enregistrer les annotations" pour soumettre vos analyses au serveur central de l'Annotathon! Si vous quittez ce formulaire sans avoir cliqué sur ce bouton, vous perdez vos modifications en cours... Vu que vous pouvez revenir et modifier l'annotation d'un fragment de séquence autant de fois que vous le souhaitez, ce peut être une bonne habitude que de cliquer régulièrement sur "Enregistrer les annotations" pour ne pas risquer de perdre des annotations en cours!

Codes des fragments

Les codes des fragments de séquence (par ex GOS_21290.1) sont arbitraires et internes à l'Annotathon; le dernier chiffre correspond au numéro de version de vos annotations. Il démarre donc à 1 et s'incrémente de 1 à chaque enregistrement de vos annotations. Vous pouvez consulter les versions antérieures de vos annotations en sélectionnant la version souhaitée dans le menu déroulant en haut de vos fiches de visualisation d'annotations (clic sur l'icone ).

Soumettre vos annotations pour Ă©valuation

Quand vous êtes satisfait de vos annotations, cliquez sur l'icone en face de votre fragment de séquence. Le statut de ce fragment de séquence passe alors de 'Annotation 1' à 'Evaluation 1' et vous ne pouvez plus le modifier le temps que les correcteurs passent en revue votre travail. Après cette première évaluation, le statut des fragments passent à 'Annotation 2'; vous pouvez alors à nouveau modifier vos annotations suite aux éventuels commentaires des correcteurs. Quand votre deuxième passe d'annotations est complétée, cliquez sur pour soumettre définitivement vos fragments de séquence pour l'évaluation finale.

Forum de discussion

L'onglet "Forum" vous permet d'accèder au forum interne de l'Annotathon (le signale qu'un nouveau message non lu a été posté sur le forum). Cliquez sur le sujet du message du forum pour accèder à son contenu. Si vous souhaitez répondre à ce message, utilisez le champ disponible sous le message puis cliquez sur "Poster le message". ATTENTION!: n'utilisez ce cadre QUE POUR REPONDRE AU MESSAGE DIRECTEMENT!

En revanche, si vous souhaitez ouvrir un nouveau fil de discussion, utilisez OBLIGATOIREMENT les formulaires spéciaux disponibles en haut de chacune de vos fiches d'annotation (dans votre "Panier", cliquez sur )! Vous choisirez alors dans quelle rubrique du forum vous souhaitez poster votre nouveau fil de discussion (ex Recherche d'homologues: BLAST).

Notez que les messages que vous envoyez sur le forum sont aussi directement acheminés vers l'adresse email des responsables de TD. Même si les messages s'adressent souvent aux responsables de TD, les étudiants qui connaissent les réponses aux questions postées sur le forum sont encouragés à y répondre. Les réponses pertinentes seront comptabilisées...

Messagerie / Annonces

De temps en temps vos responsables de TD pourront faire des annonces qui s'afficheront en haut de chaque page de l'Annotathon. Une fois lus, il est conseillé de cliquer devant "Lu" pour transférer ces messages vers votre dossier de messages archivés. Ce dossier est disponible à tout moment en bas de la page "Forum".

Annotations de séquences

  1. Principes généraux
  2. Recherche d'ORFs
  3. Masse moléculaire
  4. Domaines protéiques
  5. Recherche d'homologues par BLAST
  6. Alignement multiple de séquences protéiques
  7. Arbre phylogénétique
  8. Taxonomie
  9. Processus Biologique & Fonction Moléculaire
  10. Conclusion

 

Principes généraux

Le formulaire de modification des annotations de séquences contient deux types de champs:

  1. les résultats d'analyses (ex. ORFfinder, BLAST etc.)
  2. vos interprétations, synthèses et conclusions (ex. fonction moléculaire, taxonomie, conclusion etc.)

L'Annotathon tient ainsi lieu à la fois de "cahier de laboratoire" (champs de type 1) et de "rapport de TD" (champs de type 2).

IMPORTANT: pour les champs de type 1 (résultats d'analyses), les champs sont initialement pré-remplis avec la structure suivante:

PROTOCOLE: 

--------------------------------------------------------------------------------------------------- 
ANALYSE DES RÉSULTATS: 

--------------------------------------------------------------------------------------------------- 

RÉSULTATS BRUTS:

 

Sous la rubrique "PROTOCOLE", spécifiez le résumé des informations nécessaires pour pouvoir reproduire l'analyse, au minimum: le nom de l'outil utilisé, son URL et les paramètres d'analyse. Par exemple pour la recherche d'ORF, la ligne de protocole pourra être:

PROTOCOLE:

SMS ORFinder / http://annotathon.org/sms2 / sens direct / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'

Copiez-collez ensuite les résultats in-extenso de vos analyses sous la rubrique "RÉSULTATS BRUTS". Si vous avez effectué plusieurs analyses d'un même type (par exemple deux SMS ORFfinder, un en sens direct, l'autre en sens indirect), alors référencez les deux analyses par un index:

PROTOCOLE:

a) SMS ORFinder / http://annotathon.org/sms2 / sens direct   / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'
b) SMS ORFinder / http://annotathon.org/sms2 / sens indirect / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'

---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

[ici vous rédigerez plus tard vos interprétations]

RÉSULTATS BRUTS:

a) sens direct

>ORF number 1 in reading frame 1 on the direct strand extends from base 511 to base 744.

CGAGTGATAACTGGTCCAGTAATCGCGATACCGATCATCTTGTTGCGGATTGACGATGTT
AAAATCCCGATCAGGGCGGATATCCAGCCCCAGCCTTTCACAACGTTGCTGAATCACTTC
GGGGCGGCCTATGACGATGGGAACTTCGCTGGTTTCTTCCAAAACGGCCTGAGCGGCGCG
CAGCACCCGCTCGTCTTCGCCCTCGGCAAACACAATCCGTCGAGCGCTGCTTGA

>Translation of ORF number 1 in reading frame 1 on the direct strand.
RVITGPVIAIPIILLRIDDVKIPIRADIQPQPFTTLLNHFGAAYDDGNFAGFFQNGLSGA
QHPLVFALGKHNPSSAA*

---------------------------------------------------------------------------------------------------
b) sens indirect

>ORF number 1 in reading frame 1 on the reverse strand extends from base 517 to base 855.
CCTGATCTGTGGCGCTGTGGGCGAATTCAGATGGCATCTGAATTATATCGAGCAAATTTT
AGGCAGCAAAACCTTATCGCCAAGCGGCGCGCTGTCTTTGATGATTTTAGAAGACGGGCC
TCTGTTCATCGCAGACACCCACGTCTGGGCGGATCCCACCCCCATGCAAATTGCCCAAAC
CGCCAAAGGGGCCGCGCGCCATGTGCGCCGTTTTGGCATAGAGCCACAAGTCGCGCTGTG
CTCGCAATCACAATTTGGAAATCTGAACAGCGAGACTGGCAAGAAAATGCGCCAAGCATT
GGATATTCTCGATACCGAAAAGGTGACGTTTACCTATGA

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
PDLWRCGRIQMASELYRANFRQQNLIAKRRAVFDDFRRRASVHRRHPRLGGSHPHANCPN
RQRGRAPCAPFWHRATSRAVLAITIWKSEQRDWQENAPSIGYSRYRKGDVYL*

Enfin utilisez la rubrique "ANALYSE DES RÉSULTATS" de ces champs de type 1 pour exposer les faits saillants que vous êtes en mesure d'observer dans les résultats bruts. L'analyse des résultats, un exercice incontournable du discours scientifique, répond à la question "Qu'avons-nous vu de notable lorsque nous avons tenté l'expérience décrite dans le protocole?".

Remarque: Le dernier champ du formulaire, intitulé "Bloc Note", est à votre disposition pour conserver les informations de votre choix qui ne sont pas prévues par des rubriques spécifiques. Stockez-y tout ce qui pourra vous être utile lors des ré-analyses (par exemple des homologues au format FASTA). Le bloc-note ne fait pas partie des annotations 'officielles', il n'est pas consulté lors les évaluations.

Une aide en ligne pour chaque type d'annotation est disponible en cliquant sur les directement dans le formulaire. Les principales annotations attendues pour chaque fragment de séquence sont décrites brièvement ci-dessous.

N'oubliez pas qu'une Foire aux Questions (FAQ) est à votre disposition pour des conseils plus approfondis (y compris des guides illustrés) sur les outils bioinformatiques que vous serez amenés à utiliser. Attention: Certaines rubriques ne sont pas à jour. Soyez vigilant au niveau des interfaces de programmes et des versions des bases de donnees!!!!

Lors de toutes vos analyses, gardez en vue les trois fils directeurs principaux de votre travail d'annotation qui consiste à proposer:

Aucun résultat individuel d'analyse bioinformatique permet de répondre à lui seul à ces questions; les réponses se construiront en faisant les recoupements et la synthèse de tous ces résultats.

Recherche d'ORFs

La première analyse de chaque fragment de séquence consistera à rechercher les ORF potentiels inclus dans la séquence. Il existe de très nombreux logiciels en ligne pour dresser ce type de liste, dont:

Les ORFS à retenir pour analyse ultérieure vérifieront toutes les conditions suivantes:

  1. ne contiennent pas de codons STOP
  2. contiennent au moins 60 codons
  3. peuvent être sur le brin direct ou indirect
  4. peuvent être dans le cadre 1, 2 ou 3
  5. peuvent être complets ou non en 5' comme en 3'

Copiez-collez les résultats bruts de recherche d'ORF dans le champ 'Recherche ORF' du formulaire de saisie de l'Annotathon. Si vous utilisez SMS, n'oubliez pas de faire l'analyse dans les deux sens! Et n'oubliez pas la ligne de PROTOCOLE pour chaque recherche d'ORF!

Résumez sous "ANALYSE DES RESULTATS" l'ensemble des ORFs détéctés par ORFinder dans un tableau du type:

Table 1: Liste des ORFs détectés dans le fragment d'ADN métagénomique

  Taille 
(nucléotides)
Taille (aa)  Brin position de début position de fin ORF complet en 5' ORF complet en 3' Nb d'alignements BLAST
NR EV<1E-10
Classification de l'ORF
ORF1 267 88 direct 95 361 oui oui 0 ORFan peu probable
 
ORF2 891 297 reverse 120 1010 oui non 4256

KNOWN (étudiée ici)

 

Attention: vous devez impérativement numéroter toutes vos tables (numérotation continue à travers toutes les sections d'annotation, par exemple table 1 pour les ORFs, table 2 pour les domaines protéiques conservés etc.) et leur donner un titre!

Faites un petit schéma résumant les positions des différents ORF sur le fragment d'ADN, par exemple (attention ce schéma ne correspond pas à la table ci-dessus):

Figure 1: Diagramme de répartition des ORFs sur le fragment d'ADN TO72D_5186010

               (50)==ORF1==>(249) (268)====ORF2====>(579)            (744)========ORF3======>(1068)  
DIRECT :     1 ------------------------------------------------------------------------------ 1070
INDRECT : 1070 ------------------------------------------------------------------------------ 1
         (1068)<====================ORF4====================(394)
                                                     (407)<==========ORF5==========(134)
Légende:

==ORFx==> Faux positif
==ORFx==> KNOWN (ORF étudiée ici)
==ORFx==> NOVEL (ORF non étudié ici)


Si votre séquence contient plusieurs ORF, ne considérez a priori que le plus long d'entre eux (sauf si par exemple le plus court présente des homologues alors que le plus long est un ORFan).

Vous devrez classer chaque ORF détecté parmi l'une des catégories suivantes:

Vous pouvez aussi préciser la fiabilité de vos classifications avec des qualificatifs du type "Très Probable" ou "Peu probable" etc.

Pour déterminer si les ORFs détectés dans le fragment de séquence paraissent vraisemblables (vrais ou des faux positifs, KNOWN, NOVEL, ORFan?), les éléments clefs à considérer sont:

Attention, ce dernier critère est très important: le gènes ne se chevauchent pas (quelques codons peut-être aux extrêmités, mais pas sur toute leur longueur!). Ceci est un élément crucial pour argumenter que certains ORFs sans homologues sont des faux positifs très probables!

-Si le fragment de séquence ne semble pas contenir de gène codant (pas d'ORF assez longs et pas d'homologues), cochez la case 'non-codant' de la rubrique 'Statut'. L'annotation de ce fragment de séquence est alors achevée; seuls les champs 'Recherche d'ORF' et 'BLAST' seront donc renseignés (en plus de votre rapport d'analyse dans le champ conclusion bien sûr). Toutefois, dans bien des cas, avant de conclure définitivement à un statut de "non-codant", nous vous conseillons aussi d'effectuer des recherches d'homologues dans les banques environnementales. Demander à un encadrant la procédure à suivre, cette dernière étant tout à fait exceptionnelle. Après avoir enregistré les annotations de ce fragment de séquence, vous pouvez ajouter un nouveau fragment de séquence à votre panier!

-Si la recherche d'homolgues par BLAST suggère qu'un ORF correspond bien à un gène (ou que l'ORF n'a aucun homologue connu mais semble trop long pour être dû au hasard - par exemple 250 codons[1]), cochez la case 'codant' de la rubrique 'Statut'. Indiquez ensuite le brin (direct ou indirect) sur lequel se trouve l'ORF, ainsi que ses positions de début et de fin. Notez que si votre ORF est complet en 3' (c'est à dire qu'il se termine par un codon STOP), il faudra retirer des coordonnées de fin les 3 nucléotides du STOP. Pour valider cet ORF, soumettez déjà ces données à l'Annotathon en cliquant sur "Enregistrer les annotations".

Si l'ORF vérifie les règles citées plus haut, la traduction sera alors affichée automatiquement; dans le cas contraire un message d'erreur vous indiquera par exemple si l'ORF contient des STOP. L'ORF peut être incomplet (codon STOP de fin ou codon d'initiation manquants) auquel cas seul un avertissement est affiché.

[1]en effet l'absence d'homologues dans les banques de séquences ne constitue pas la démonstration qu'un ORF est non-codant; dans ce cas on ne trouverait jamais de gènes complètement nouveaux! Il existe d'autres techniques d'identification de gène dites ab initio (par exemple celles exploitant les biais statisitiques d'utilisation de codons) mais celles-ci ne seront qu'au programme de bioinformatique de Master.

Consultez la Foire aux Questions pour plus de détails sur la recherche d'ORF, notamment sur la question très délicate et cruciale de la position exacte de début d'ORF...

ANALYSE DES RÉSULTATS:

Voici une proposition de structure pour l'analyse des ORFs:

1- Classifications des ORFs
  1.1- Justification des ORFs KNOWN (si présents)
  1.2- Justification des ORFs NOVEL (si présents)
  1.3- Justification des ORFs ORFan (si présents)
  1.4- Justification des ORFs Faux Positifs (si présents)

     -> donnez des arguments explicites et chiffrés!
     -> référez-vous à la table 1 explicitement!
     -> MAIS NE JAMAIS EXACTEMENT PARAPHRASER LE TABLEAU!
     -> citez vos sources, de préférence sous forme de liens, par ex:
        "les homologues sont des epimerase (cf. Fiche SWISSPROT MJ0211)"

2- ORF séléctionnée pour la suite de l'étude
     -> Justifiez!
     -> D'autres ORFs mériteraient-ils un analyse bioinformatique indépendante?
3- Extrêmités de l'ORF sélectionnée
     -> Discutez des positions de début et de fin de l'ORF, et le cas échéant estimer le nombre d'AA manquant (renvoyez à la rubrique alignement multiple pour les détails).

Masse moléculaire

Si l'ORF est complet (codon initiation->STOP), alors calculez la masse moléculaire théorique du polypetide correspondant à cet ORF en utilisant par exemple:

Domaines protéiques

Recherchez si la traduction de votre ORF présente des domaines protéiques conservés, en utilisant par exemple:

Ne soumettez à l'Annotathon que les domaines qui vous paraissent clairement significatifs, c'est à dire

  1. ceux que l'on ne s'attend pas à trouver purement par hasard (dont les signatures/profils sont suffisamment spécifiques). La E-value associée à chaque alignement de domaines fonctionnels sont là pour vous y aider.
  2. ceux dont la fonction concorde avec les autres analyses bioinformatiques effectuées (par exemple un domaine de liaison à l'ADN pour un ORF dont les homologues trouvés par BLAST sont des facteurs de transcription)
  3. non redondants (et non-chevauchants) avec d'autres domaines que vous avez retenu

Si vous êtes convaincu de la vraissemblance de certains domaines prédits (4 au maximum), saisissez-en les noms et coordonnées dans le formulaire de l'Annotathon. Ne répétez pas le même domaine fonctionnel représenté sous différents noms/numéros d'accession dans plusieurs base de données (on retrouve en effet fréquement le même domaine protéique sous des numéros d'accession différents dans PROSITE, PFam, PRINTS etc.). Pour les résultats bruts de la recherche INTERPROscan, copiez vos résultats sous la forme suivante uniquement ("Export" -> "TSV"):

RÉSULTATS BRUTS:

TO82S_4665010	35c27fb0e8e5c87be19799682b0ebae4	205	SUPERFAMILY	SSF52833		79	162	3.44E-7	T	30-09-2014	IPR012336	Thioredoxin-like fold
TO82S_4665010	35c27fb0e8e5c87be19799682b0ebae4	205	Pfam	PF14595	Thioredoxin	44	167	6.3E-32	T	30-09-2014
TO82S_4665010	35c27fb0e8e5c87be19799682b0ebae4	205	Gene3D	G3DSA:3.40.30.10		18	205	4.4E-36	T	30-09-2014	IPR012336	Thioredoxin-like fold

Veuillez résumer ce résultat brut assez indigeste par un tableau (encore un!) de synthèse, par exemple:

Table 2: Liste des domaines protéiques conservés détectés par InterproScan

Code Interpro
 (IPRxxxxxx) 
Banque
d'origine
Code dans la
banque d'origine
Position
de début
Position
de fin 
E-value
  
Intitulé banque d'origine 
(premier sur la ligne) 
Intitulé Interpro
(en fin de ligne) 
IPR012336
SUPERFAMILY
SSF52833
79
162
3.44E-7
Néant
Thioredoxin-like fold
Néant
Pfam
PF14595
44 
167
6.3E-32 
Thioredoxin
Néant  
IPR012336
Gene3D
G3DSA:3.40.30.10 
18 
205
4.4E-36
Néant
Thioredoxin-like fold 

Consultez la Foire aux Questions pour plus de détails sur la recherche de domaines conservés.

ANALYSE DES RÉSULTATS:

1. Domaine(s) retenu(s)
    -> Justifiez, chiffrez vos arguments (longeur du domaine, E-value)!
    -> Mentionnez les autres domaines (aussi des vrais positifs) non retenus qui sont juste redondant avec le domaine retenu: même domaine prédit par une autre méthode / d'une autre base de données de domaines, domaines implicites au domaine retenu (par exemple un domaine transmembranaire pour un transporteur membranaire)
    -> référez-vous à la table 2 explicitement, SANS EXACTEMENT LA PARAPHRASER!

2. Domaines rejetés (le cas échéant)
    -> Justifiez pourquoi certains domaines sont exclus (soucis de E-value, domaines non intégrés dans INTERPRO)!

3. Fonction biologique
    -> Donnez des détails sur la fonction biologique associée au(x) domaine(s) retenu(s) (activité enzymatique, fonction moléculaire, processus biologiques, répartition à travers le vivant etc.)
    -> Croisez avec les résultats du BLAST (notamment contre SWISSPROT)
    -> citez vos sources (par exemple en donnant un lien vers l'URL d'une fiche INTERPRO ou PFAM)!

Recherche d'homologues par BLAST

A partir de cette etape, il n'est pas necessaire de copier les resulats intermediaires dans les champs correspondants. Pour eviter les effets cycliques de l'analyse, vous pouvez utiliser le 'Bloc note' pour ces resultats intermediaires. Une fois que l'origine taxonomique de votre sequence est acquise, vous pouvez alors mettre au propre vos resultats intermediaires dans les champs correspondants. Utilisez BLAST pour rechercher s'il existe d'éventuels homologues de vos ORF dans les banques de séquence. Vous trouverez des serveur Internet BLAST sur:

Deux approches BLAST sont possibles pour chercher des homologues à votre séquence:

Interrogez impérativement les deux banques suivantes:

Copiez-collez dans le champ 'BLAST' de l'Annotathon au minimum (Attention: une version texte du resultat blast est obtenue via le bouton "Reformat"):

  1. l'entête des résultats du/des BLAST (ou indiquez le PROTOCOLE: quel programme a été utilisé contre quelle banque de données et autres paramètres éventuels)
  2. la liste complète des résumés des séquences ayant été alignée suivie des deux colonnes 'Score' et 'E-Value'
  3. la première dizaine d'alignements deux-à-deux
  4. le rapport taxonomique du BLAST (BLAST au NCBI seulement, lien dans l'entête du BLAST) dans le champ "Rapport Taxonomique" de l'Annotathon: ne copiez que la première partie dite Lineage Report!

Si votre ORF présente des homologues connus, précisez impérativement dans votre ANALYSE DES RESULTATS quel est la valeur seuil de E-value qui sépare les homologues (vrais positifs) des non-homologues (faux positifs). Présentez un résumé de synthèse de vos observations BLAST dans un tableau du type:

Table 3: Nombre et qualité des alignements détectés par BLASTp contre NR et SWISSPROT

 
 nombre de protéines alignées
e-value min
e-value max
e-value seuil
 NR 
3124
5e-61
10
4e-07
 SP
105
3e-05
10
< 3e-05

A l'aide de l'outil "Definition List", listez dans une table 4 de la rubrique ANALYSE DES RESULTATS l'ensemble des fonctions des homologues avec leurs gammes de E-values (cf exemple ci-dessous).

Attention: ce petit outil "Definition List" est bien pratique, mais très rudimentaire: il récupère chaque identifiant de votre listing BLAST, va chercher dans NR la ligne de définition complète de chaque fiche protéique (elles sont souvent tronquées dans le listing BLAST), puis compte pour chaque "définition" unique le nombre de fois (et les E-values extrêmes) où cette définition a été vue. Dans certains cas, il vous faudra encore simplifier cette liste de définitions, par exemple en regroupant sous une seule ligne "DNA polymerase B" de votre table 4 l'ensemble des "définitions" suivantes:

Table 4: Catalogue des fonctions des protéines alignées par BLASTp contre NR

   ___________________________________________________________________________________________________
  |    descriptions :                                                     | min e-value | max e-value | 
  |_______________________________________________________________________|_____________|_____________|
  | • carbamoyl phosphate synthase large subunit                          |    5e-61    |       10    |
  | • transcriptional regulator                                           |    7e-33    |    2e-29    |
  | • haloacid dehalogenase                                               |    2e-31    |    3e-10    |
  | • UDP-phosphate galactose phosphotransferase                          |    5e-30    |     0.35    |
  | • pilin glycosyl transferase B2                                       |    2e-28    |    4e-18    |
  | • carboxylate-amine ligase                                            |    9e-25    |      8.3    |
  | • sialic acid O-acetyltransferase NeuD family sugar O-acyltransferase |    5e-19    |    6e-19    |
  | • NAD-dependent epimerase/dehydratase                                 |    1e-17    |    0.040    |
  | • biotin carboxylase                                                  |    7e-17    |      9.9    |
  | • carboxyltransferase                                                 |    5e-16    |      4.1    |
  | • DNA polymerase B                                                    |    2e-01    |      9.9    |
  |_______________________________________________________________________|_____________|_____________|

Vous devrez évidemment discuter si cette liste de fonctions semble cohérente, c'est à dire que toutes ces fonctions sont synonymes ou compatibles. Cette comparaison des différentes fonctions présentes dans les résultats du BLAST servira notamment à définir la valeur seuil de la E-value. Discutez aussi de la cohérence avec les prédictions INTERPRO!

ANALYSE DES RÉSULTATS:

N'oubliez pas:
-Abandonner si aucun homologue (ou très peu, <10)
-Abandonner si ce gène existe déjà dans les banques de données (ADN >95% identique)

Proposition de structure:

1. Panorama des alignements
    -> Description très synthétique des résultats (y-a-t-il des alignements, les protéines alignées sont-elles de fonctions connues, qualité des meilleurs alignements?)
    -> Chiffrez toutes vos observations (E-values, nombre d'alignements, % d'identité + longueurs d'alignements, nombre d'INDEL etc.)!
    -> Citez les tableaux SANS EXACTEMENT LES PARAPHRASER!

2. Identification des homologues
    -> Justifiez les seuils de E-value (NR & SP) qui séparent les homologues probables des homologues improbables (ou incertains)!
    -> Vous devez montrer que les fonctions des homologues (sous le seuil de E-values) sont cohérentes entre elles (faire référence à la table 4)

3. Fonction des homologues dans SWISSPROT
   -> A partir de l'exploration des fiches SWISSPROT des plus proches homologues, faites des hypothèse fonctionelles à propos de votre ORF (acides aminés / domaines avec des rôles spécifiques), croisez avec les résultats d'INTERPRO!

-> Dans tous les cas, citez vos sources (par exemple en donnant un lien vers l'URL d'une fiche SWISSPROT)!

Rapport Taxonomique du BLAST contre NR

Le "Lineage Report" vous permet essentiellement de determiner le Groupe Etude et le Groupe Exterieur qui formeront la base de votre alignement multiple, puis de l'arbre phylogénétique.

IMPORTANT: Vous pouvez obtenir le rapport taxonomique de votre Blast en utilisant l'outil local "tax_report2" TaxReports.

Copiez sous RESULTATS BRUTS l'ensemble du Lineage Taxonomique (mais pas le Organism Report SVP):

RÉSULTATS BRUTS:

Lineage report
.LUCA
. Bacteria
. .Cyanobacteria
. . Prochlorales
. . .Prochlorococcaceae
. . . Prochlorococcus
. . . .Prochlorococcus marinus str. MIT 9515........ 315  4e-103 2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. MIT 9301........ 305  3e-99  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. MIT 9215........ 303  8e-99  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. AS9601.......... 301  4e-98  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. NATL1A.......... 261  2e-82  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. MIT 9303........ 249  1e-77  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . Synechococcus sp. WH 8109....................... 251  1e-78  1 hit   Bacteria:Cyanobacteria:Chroococcales:    Carotene 7,8-desaturase [Synechococcus sp. WH ...   
. . Synechococcus sp. WH 7803....................... 251  2e-78  3 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene dehydrogenase [Synechococcus sp....   
. . Synechococcus sp. CB0205........................ 250  3e-78  1 hit   Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. BL107......................... 250  3e-78  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. WH 8016....................... 250  4e-78  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. CC9311........................ 250  4e-78  6 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene desaturase [Synechococcus sp. CC931...   
. . Synechococcus sp. RS9916........................ 249  1e-77  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. CB0101........................ 248  2e-77  1 hit   Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. RCC307........................ 236  2e-72  3 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene dehydrogenase [Synechococcus sp....   
. . Synechococcus sp. PCC 7002...................... 217  2e-65  3 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene dehydrogenase [Synechococcus sp....   
. . Cyanobium sp. PCC 7001.......................... 249  7e-78  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Cyanobium sp....   
. . Crocosphaera watsonii........................... 231  1e-70  1 hit   Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Crocosphaera ...   
[...]

En vous aidant de l'outil "Taxonomy List", faites sous ANALYSE DES RESULTATS un résumé de vos observations du rapport taxonomique dans un tableau du style suivant (notez que ce tableau de synthèse doit être précis pour les taxa les plus proches, et peut devenir moins précis avec par exemple juste une ligne par Phylum ou même Règne pour les taxa les plus éloignés):

Table 5: Synthèse des classifications taxonomiques des protéines alignées par BLASTp contre NR

Règne
Phylum
Classe
Gamme de e-value
Nombre d'alignements
Bacteria
Proteobacteria
Betaproteobacteria
3E-71 à 8E-38
 400
  
  
Gammaproteobacteria
9E-64 à 7.8
 2500
  
  
Alphaproteobacteria
3E-43 à 0.09
 130
  
  
Deltaproteobacteria
1E-47 à 3.0
 80
  
  
Epsilonproteobacteria
2E-32 à 5E-16
 30
  
Firmicutes
-
7E-51 à 7E-30
 3700
  
Actinobacteria
-
5E-48 à 6E-26
 80
Eukaryota
-
-
8E-24 à 2.5
 80

Vous utiliserez ces résultats du BLAST pour constituer deux groupes de séquences homologues qui serviront, après alignement multiple, à tenter une reconstruction d'arbre phylogénétique:

IMPORTANT: Notez que TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur sont des HOMOLOGUES, c'est à dire au dessous de la E-value seuil déterminée précedemment lors du BLAST.

Consultez la Foire aux Questions pour plus de détails sur le BLAST.

Consultez ce document pour plus de détails sur la constitution des groupes d'étude et exterieur.

ANALYSE DES RÉSULTATS:

1. Panorama taxonomique des homologues
   -> faites un très bref tour d'horizon des origines taxonomiques des homologues (limités à un petit nombre de phyla bactériens, ou présents chez l'ensemble des procaryotes, ou ubiquitaire à l'ensemble des êtres cellulaires etc.).

2. Choix du groupe d'étude
   -> faire explicitement référence à la table 5
   -> Définissez et justifiez le choix de groupe d'étude 
   -> Définissez et justifiez le groupe extérieur qui en découle!
   -> calculez explicitement le différentiel de E-values entre les 2 groupes d'étude et extérieur!
   -> citez vos sources (par exemple en donnant un lien vers l'URL de l'arbre de la vie)!

 

IMPORTANT: Indiquez dans la rubrique ANALYSE DES RÉSULTATS du champ Rapport Taxonomique la liste complète de TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur: pour chaque séquence donnez son numéro d'accession, le nom de code que vous aurez choisi (voir ci-dessous Alignement multiple de séquences protéiques), son E-value donné par BLAST et son groupe taxonomique d'appartenance. Vous pouvez faire du copier-coller à partir des entêtes de vos sequences (au format fasta) issues de l'outil local "tax_report2" (mais ne pas indiquer ici les séquences protéiques!). Par exemple:

PROTOCOLE:
BLASTp contre NR, / wwww.ncbi.nlm.nih.edu / paramètres par défaut, sauf "Number of descriptions=5000"


ANALYSE DES RÉSULTATS:

[ici rédigez votre description du taxonomy report, votre justification des groupes d'étude et exterieur, suivi de la liste des séquences choisies pour les groupes:]

Groupe d'étude: Cyanobacteria

>Bac_Cya_Pro_3 [Bacteria Cyanobacteria Prochlorales]  E-value=1e-15  Bacteria;Cyanobacteria;Prochlorales;Prochlorococcaceae;Prochlorococcus; gi|488894830|ref|WP_002805954.1| zeta-carotene desaturase [Prochlorococcus marinus] 
>Bac_Cya_Chr_2 [Bacteria Cyanobacteria Chroococcales]  E-value=7e-78  Bacteria;Cyanobacteria;Chroococcales;Cyanobium; gi|493968054|ref|WP_006911325.1| 15-cis-phytoene desaturase [Cyanobium sp. PCC 7001] 
>Bac_Cya_Chr_3 [Bacteria Cyanobacteria Chroococcales]  E-value=1e-70  Bacteria;Cyanobacteria;Chroococcales;Crocosphaera; gi|494523610|ref|WP_007313063.1| 15-cis-phytoene desaturase [Crocosphaera watsonii] 
>Bac_Cya_Chr_4 [Bacteria Cyanobacteria Chroococcales]  E-value=9e-68  Bacteria;Cyanobacteria;Chroococcales;Cyanothece; gi|218438147|ref|YP_002376476.1| phytoene desaturase [Cyanothece sp. PCC 7424] 
>Bac_Cya_Chr_5 [Bacteria Cyanobacteria Chroococcales]  E-value=1e-64  Bacteria;Cyanobacteria;Chroococcales;Synechocystis; gi|16330439|ref|NP_441167.1| phytoene desaturase [Synechocystis sp. PCC 6803] 
>Bac_Cya_Osc_1 [Bacteria Cyanobacteria Oscillatoriales]  E-value=3e-72  Bacteria;Cyanobacteria;Oscillatoriales; gi|497454285|ref|WP_009768483.1| phytoene desaturase [Oscillatoriales cyanobacterium JSC-12] 
>Bac_Cya_Osc_3 [Bacteria Cyanobacteria Oscillatoriales]  E-value=1e-16  Bacteria;Cyanobacteria;Oscillatoriales;Microcoleus; gi|493682519|ref|WP_006632676.1| zeta-carotene desaturase [Microcoleus vaginatus] 
>Bac_Cya_Nos_1 [Bacteria Cyanobacteria Nostocales]  E-value=1e-70  Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298491654|ref|YP_003721831.1| phytoene desaturase ['Nostoc azollae' 0708] 
>Bac_Cya_Nos_2 [Bacteria Cyanobacteria Nostocales]  E-value=5e-14  Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298492908|ref|YP_003723085.1| carotene 7,8-desaturase ['Nostoc azollae' 0708] 
>Bac_Cya_Nos_3 [Bacteria Cyanobacteria Nostocales]  E-value=2e-70  Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Anabaena; gi|414079384|ref|YP_007000808.1| phytoene desaturase [Anabaena sp. 90] 
>Bac_Cya_Sti_1 [Bacteria Cyanobacteria Stigonematales]  E-value=2e-68  Bacteria;Cyanobacteria;Stigonematales;Fischerella; gi|497072507|ref|WP_009458406.1| 15-cis-phytoene desaturase [Fischerella] 

Groupe extérieur: autres bacteria non Cyanobacteria (Chloroflexi, Chlorobi, Acidobacteria, Firmicutes, Planctomycetes)

>Bac_Chl_Chl_1 [Bacteria Chloroflexi Chloroflexales]  E-value=3e-32  Bacteria;Chloroflexi;Chloroflexales;Chloroflexaceae;Chloroflexus; gi|163847906|ref|YP_001635950.1| carotene 7,8-desaturase [Chloroflexus aurantiacus J-10-fl] 
>Bac_Chl_Chl_2 [Bacteria Chlorobi Chlorobia]  E-value=2e-30  Bacteria;Chlorobi;Chlorobia;Chlorobiales;Chlorobiaceae;Chlorobaculum; gi|193212415|ref|YP_001998368.1| carotene 7,8-desaturase [Chlorobaculum parvum NCIB 8327] 
>Bac_Aci_Can_1 [Bacteria Acidobacteria Candidatus Chloracidobacterium]  E-value=2e-27  Bacteria;Acidobacteria;Candidatus Chloracidobacterium; gi|347753771|ref|YP_004861335.1| hypothetical protein [Candidatus Chloracidobacterium thermophilum B] 
>Bac_Fir_Bac_1 [Bacteria Firmicutes Bacillales]  E-value=2e-14  Bacteria;Firmicutes;Bacillales;Bacillaceae;Bacillus; gi|407961641|dbj|BAM54881.1| zeta-carotene desaturase [Bacillus subtilis BEST7613]
>Bac_Pla_Pla_1 [Bacteria Planctomycetes Planctomycetacia]  E-value=2e-11  Bacteria;Planctomycetes;Planctomycetacia;Planctomycetales;Planctomycetaceae;Singulisphaera; gi|430745940|ref|YP_007205069.1|

Alignement multiple de séquences protéiques

L'objectif de cet alignement multiple est d'abord de vérifier que l'ORF en question s'intègre correctement dans la famille de ses homologues présumés: l'alignement multiple doit donc présenter des régions conservées convaincantes. D'autre part l'alignement multiple servira à inférer un arbre phylogénétique des homologues présumés (cf. ci-dessous "Arbre phylogénétique"): l'alignement doit donc suggérer suffisamment de mutations (positions informatives) pour pouvoir reconstruire l'histoire évolutive de ces protéines! Attention à ne pas inclure de séquences trop partielles qui réduisent les positions informatives.

Il est fréquent d'avoir à refaire plusieurs fois l'alignement après avoir ajouté ou retiré des séquences plus ou moins divergentes avant d'obtenir un alignement satisfaisant.

IMPORTANT: avant de procéder à l'alignement multiple, vous pouvez insérer des noms des séquences directement dans leur format FASTA afin de créer des étiquettes de séquence lisibles pour l'alignement multiple et les arbres phylogénétiques. Le nom de séquence est constitué des lettres directement après le signe > jusqu'au premier espace, à concurrence de 10 caractères maximum. Si vous avez selectionné vos séquences d'interets à partir du rapport taxonomique issu de TaxReports2 ("Chercher les séquences sélectionnées au format FASTA"), alors des noms de séquence uniques ont déjà été insérés, par exemple:

>AEMMMM1 [Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae Methanosarcina]  E-value=1e-85  Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales; Methanosarcinaceae; Methanosarcina; gi|851310952|ref|WP_048174166.1| UDP-glucose 4-epimerase [Methanosarcina siciliae]
MSFNLADYAELLEDLSPHSQNALQANWHEATKVFSPRGLDNYLKGAAAIRGLGKGDSLVETWIEKAPMVAKEVGEDVVGD
LATASLELASRTSGTVIELLLATSAIAANRLGDAELFIKYLQFINTLIAQAPRGVRPMLDKLEVLFQHLTLGGLRRWALW
GAHAHRTNYEEQIRYFSLDSKESMAMLQKERKGTLLVDVQRRINMYLRALWARDFFMRPTSGDFETREGYRPYIEDYLLH
VPDAFDDFTVEGQEPVSGLELYRATAAHCAAHVVETKLPISAEALNPMQIAVISVIEDARVETLSIRRFPGLKQLWSKLH
TATPEMNGSMGDYLNRLARALLDESYKDKDPWIVEARALFALAQEKLDSNLTSWDIGVQLAHSFGQKRIPFNPRTDLLTA
PYRDDNRYFWEFEEFDFNKAASAGYESIKQVRKYVSVMEMANEIDVETAGDDAEEIWVLGTELFPYENIGDESGGKSFNE
LEGKEPVSDPFHYSEWDYQIQLERPAWATVLEKRAKAGDLQIIEAITAQYKREIHRMKFLLDAMQPQGVQRIRRLEDGDE
IDINAAISSLTDIRLGNQPDPRIMMRSVRKTRDFSILVLLDLSESTNEKVQDQEYSVRELTQQACVLLADAINKVGDPFA
IHGFCSDGRHDVEYYRFKDFDQHWDETPKSRLAGMTGQLSTRMGAAIRHAGHHLQLQRSAKKLLIVITDGEPADVDVRDP
QYLRYDTKKAVEEVAKLGVTTYCMSLDPRADNYVSRIFGQKNYMVVDHVQRLPEKLPLLYAGLTR

Vous noterez que ce code "AEMMMM1" est constitué des premières lettres des 5 premiers niveaux de classification taxonomique (Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae). Quelques fois il peut être pratique d'ajouter des codes pour identifier par exemple les séquences du groupe extérieur:

>exAEMMMM1 [Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae Methanosarcina]  E-value=1e-85  Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales; Methanosarcinaceae; Methanosarcina; gi|851310952|ref|WP_048174166.1| UDP-glucose 4-epimerase [Methanosarcina siciliae]
MSFNLADYAELLEDLSPHSQNALQANWHEATKVFSPRGLDNYLKGAAAIRGLGKGDSLVETWIEKAPMVAKEVGEDVVGD
LATASLELASRTSGTVIELLLATSAIAANRLGDAELFIKYLQFINTLIAQAPRGVRPMLDKLEVLFQHLTLGGLRRWALW
GAHAHRTNYEEQIRYFSLDSKESMAMLQKERKGTLLVDVQRRINMYLRALWARDFFMRPTSGDFETREGYRPYIEDYLLH
VPDAFDDFTVEGQEPVSGLELYRATAAHCAAHVVETKLPISAEALNPMQIAVISVIEDARVETLSIRRFPGLKQLWSKLH
TATPEMNGSMGDYLNRLARALLDESYKDKDPWIVEARALFALAQEKLDSNLTSWDIGVQLAHSFGQKRIPFNPRTDLLTA
PYRDDNRYFWEFEEFDFNKAASAGYESIKQVRKYVSVMEMANEIDVETAGDDAEEIWVLGTELFPYENIGDESGGKSFNE
LEGKEPVSDPFHYSEWDYQIQLERPAWATVLEKRAKAGDLQIIEAITAQYKREIHRMKFLLDAMQPQGVQRIRRLEDGDE
IDINAAISSLTDIRLGNQPDPRIMMRSVRKTRDFSILVLLDLSESTNEKVQDQEYSVRELTQQACVLLADAINKVGDPFA
IHGFCSDGRHDVEYYRFKDFDQHWDETPKSRLAGMTGQLSTRMGAAIRHAGHHLQLQRSAKKLLIVITDGEPADVDVRDP
QYLRYDTKKAVEEVAKLGVTTYCMSLDPRADNYVSRIFGQKNYMVVDHVQRLPEKLPLLYAGLTR
 

Construisez les alignements multiples (séquences du groupe d'étude, du groupe extérieur et n'oubliez pas la traduction de votre ORF!) en utilisant une version Internet d'un des logiciels suivants: ClustalW (classique), MUSCLE (rapide et un peu plus efficace) ou T-COFFEE (plus lent mais très robuste et avec une visualisation en couleur des blocs conservés très utile). Ces logiciels sont disponibles sur:

La seule limite au nombre de séquences à inclure dans votre alignement multiple est liée au temps de calcul des logiciels d'alignement multiple, ainsi qu'au temps de calcul de l'arbre phylogénétique. Ce temps reste en général raisonnable jusqu'à une trentaine (voire une cinquantaine) de séquences ayant chacune une centaine de résidus.

Copiez-collez l'alignement multiple produit (au format CLUSTALW) dans le champ 'Alignement Multiple' de l'Annotathon.

Copiez-collez egalement l'alignement multiple (positions selectionnees / sites informatifs) (au format CLUSTALW) issue de Gblocks dans le champ 'Alignement Multiple' de l'Annotathon. Cet alignement Gblocks est obtenu lors la construction de votre arbre phylogenetique.

ANALYSE DES RÉSULTATS:

1. Qualité de l'alignement multiple
   -> il s'agit ici de confirmer que toutes les séquences sont bien homologues!
   -> Sont-elles toutes de longueur comparable (attention aux séquences tronquées!)?
   -> Toutes les séquences sélectionnées semblent-elles apparentées entre elles: chiffrez avec le nombre de positions identiques et le nombre de positions avec des substitutions conservatives!
   -> Nombre et répartition des INDELS
   -> L'ORF objet de l'étude est-il "typique" de cette famille d'homologues? Justifier!
   -> Existe-t-il des sous groupes dans cette grande famille d'homologues (souvent par exemple: groupe étude vs groupe extérieur)?
   -> Après curation par GBLOCKS: combien de positions sont suffisament conservées (=homologues) pour être exploitées pour l'inférence phylogénétique (stats GBLOCKS)? Est-ce suffisant? Si non avez-vous relaxé les paramètres de stringence de GBLOCKS? Ou de retirer les homologues trop distants ou tronqués qui dégradent la qualité de l'alignement? 

2. Identification des régions conservées
    -> Pour ce faire, rien de mieux que d'annoter directement l'alignement multiple de GBLOCKS avec des codes "A", "B" etc. pour repérer les régions d'intéret, pour y faire ensuite référence dans vos analyses!
    -> Si des acides aminés (ou motifs de plusieurs acides aminés) sont connus comme étant impliqué dans des fonctions/activités de ce type de protéines (cf analyses fiches homologues SWISSPROT et domaines INTERPRO), les repérer dans l'alignement multiple (mettez des codes dans le style "->X<-")!
    -> Sont-il conservés chez tous les homologues, et dans l'ORF?

3. Etude des extrêmités de l'ORF
    3.1 Faire une analyse explicite de la région N-terminale de l'alignement (ORF complet? Quid du codon d'initiation? Nombre d'AA manquants)?
    3.2 Faire une analyse explicite de la région C-terminale de l'alignement (ORF complet? Nombre d'AA manquants)

Arbre phylogénétique

Vous utiliserez l'alignement multiple ci-dessus pour inférer un arbre phylogénétique selon deux approches de reconstruction d'arbres:

Vous pouvez utiliser le service en ligne dédié phylogeny.fr (recommendé, inclu à la fois BioNJ & PhyML).

Consultez la Foire aux Questions pour plus de détails sur l'inférence d'arbres phylogénétiques (y compris un tutorial en images).

 

ATTENTION: Utilisez le site http://annotathon.org/outils/nw_utils.php pour raciner et présenter vos arbres au format "TEXTE" (en effet, les manipulations d'arbres par "TreeDyn" sur le site phylogeny.fr ne sont pas 100% fonctionelles). Vous pouvez ainsi avec cet outil contrôler la dimension (largeur) des arbres, et vous pouvez sélectionner la racine souhaitée (indiquez tout simplement une ou plusieurs noms de séquences du groupe exterieur), le tout en préservant l'affichage des valeur de supports aux noeuds des arbres!

 

Dans tous les cas, copiez-collez la représentation dite 'textuelle' de l'arbre proposé dans le champ 'Arbre' de l'Annotathon. Indiquez aussi dans le champ 'Arbre' la méthode et les paramètres principaux utilisés pour produire votre arbre (ex 'PhyML / http://phylogeny.fr / groupe extérieur: Coccidioides immitis (ascomycetes)').

La représentation textuelle de votre arbre doit être de la forme - notez les (groupe taxonomiques):

PROTOCOLE:

a) Phylogeny.fr / méthode PhyML / Statistical tests for branch support aLRT: SH-like / default substitution model / groupe extérieur: Firmicutes
b) Phylogeny.fr / méthode BioNJ / pas de bootstrap / groupe extérieur: Firmicutes
---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

Important: Identifiez les branches importantes dans vos arbres avec des codes (ex "A", "B"...), puis référez-vous à ces codes dans vos analyses!

Pour une visualisation encore plus aisée et percutante, vous pouvez aussi utiliser des codes couleur pour identifier les différentes branches importantes de vos arbres (dans ce cas pensez à inclure une légende des couleurs). Pour utiliser des codes couleurs, vous devrez insérer vos arbres dans le champ 'Analyses des résultats' au lieu de les insérer dans le champ classique 'Résultats bruts' (mais les arbres colorisés sont tellement pratiques que cette petite entorse vous est plus que pardonnée!).

1. Congruence entre les deux arbres
    -> Décrivez la topologie de chacun des arbres: quels différents groupes monophylétiques observez-vous? 
    -> Est-ce que les deux arbres racontent la même histoire évolutive?
    -> Identifiez les points communs, ainsi que les incohérences éventuelles.

2. Cohérence avec la phylogénie des espèces de référence
    -> Les groupes d'étude et extérieurs sont-ils bien séparés?
    -> vos arbres phylogénétiques de gènes sont-ils cohérents avec les arbres des espèces ("arbre de la vie")? 
    -> repérez tout écart avec la phylogénie de référence, et proposez des hypothèses (HGT, duplication de gènes...)
3. Prédiction de l'origine taxonomique de l'ORF
    -> Dans quelle groupe monophylétique semble émerger la séquence métagénomique? 
    -> faites une hypothèse: groupe taxonomique d'appartenance le plus probable de l'ORF?
    -> Argumentez! Attention de ne pas sur/sous interpréter les arbres obtenus!...
    
			
RÉSULTATS BRUTS:
a)PhyML
LĂ©gende:
Actinobacteria
Chloroflexi
Firmicutes
Cyanobacteria

                                                          ,--------------+ BARSPP1 Bacteria Actinobacteria Rubrobacteridae Solirubrobactera                                         
                                                  ,-------+ 0.92                                                                                                                    
                                                  |       '--------------------+ BAAAPP1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                                   
                                                  |                                                                                                                                 
                                                  |          ,-------------+ BAAACN1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                                       
                                                  |          |                                                                                                                      
                                                  |     ,----+ 0.87           ,-------+ BAAAMI1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                            
                                                  |     |    '----------------+ 0.99                                                                                                
                                                  |,----+ 0.85                '------+ BAAACN2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                             
                                                  ||    |                                                                                                                           
                                                  ||    '-----------------+ BAAASS1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                                        
                                                  ||                                                                                                                                
                                                  ||                                                ,-----+ BAAAPP14 Bacteria Actinobacteria Actinobacteridae Actinomycetale        
                                                  ||                                            ,---+ 0.52                                                                          
                                               ,--+|0.69                            ,-----------+ 0.97------------+ BAAAPP8 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               |  ||                                |           |                                                                                   
                                               |  ||                      ,---------+ 0.98      '--------+ BAAAPP10 Bacteria Actinobacteria Actinobacteridae Actinomycetale         
                                               |  ||                      |         |                                                                                               
                                               |  ||                      |         '---------+ BAAAPP2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                    
                                               |  ||                ,-----+ 0.9                                                                                                     
                                               |  ||                |     |     ,------------------+ BAAAPP13 Bacteria Actinobacteria Actinobacteridae Actinomycetale               
                                               |  ||                |     |     |                                                                                                   
                                               |  ||            ,---+ 0.81'-----+ 0.83     ,----------------+ BAAAPP4 Bacteria Actinobacteria Actinobacteridae Actinomycetales      
                                               |  ||            |   |           '----------+ 0.92                                                                                   
                                               |  ||            |   |                      '-------------+ BAAAPP3 Bacteria Actinobacteria Actinobacteridae Actinomycetales         
                                               |  ||            |   |                                                                                                               
                                               |  ||        ,---+ 0.74-------------------------+ BAAAPN1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                   
                                               |  ||        |   |                                                                                                                   
                                               |  '+ 0.55   |   |   ,----------------------+ BAAAMM3 Bacteria Actinobacteria Actinobacteridae Actinomycetales                       
                                               |   |        |   |   |                                                                                                               
                                               |   |        |   '---+ 0.82           ,-------+ BAAAPP7 Bacteria Actinobacteria Actinobacteridae Actinomycetales                     
                                               |   |        |       |       ,--------+ 0.9                                                                                          
                                               |   |        |       '-------+ 0.89   '---+ BAAAPP5 Bacteria Actinobacteria Actinobacteridae Actinomycetales                         
                                               |   |        |               |                                                                                                       
                                               |   |        |               '------------------------+ BAAAMM4 Bacteria Actinobacteria Actinobacteridae Actinomycetales             
                                               |   |        |                                                                                                                       
                                               |   |   ,----+ 0.82   ,---------------------+ BAAASS2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                       
                                               |   |   |    |        |                                                                                                              
                                               |   |   |    |    ,---+ 0.23     ,----------+ BAAAMI3 Bacteria Actinobacteria Actinobacteridae Actinomycetales                       
                                               |   |   |    |    |   '----------+ 0.94                                                                                              
                                               |   |   |    |    |              '----+ BAAAMI2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                             
                                           ,---+ 0.76  |    |    |                                                                                                                  
                                           |   |   |   |    |    |                    ,+ BAAAMM2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                           
                                           |   |   |   |    |    |    ,---------------+ 1                                                                                           
                                           |   |   |   |    |    |    |               ' BAAAMM1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                            
                                           |   |   |   |    '----+ 0.83                                                                                                             
                                           |   |   |   |         |    |      ,------------------+ BAAAPP9 Bacteria Actinobacteria Actinobacteridae Actinomycetales                  
                                           |   |   |   |         | ,--+ 0.71 |                                                                                                      
                                           |   |   '---+ 0.81    | |  | ,----+ 0.88----------+ BAAAPP6 Bacteria Actinobacteria Actinobacteridae Actinomycetales                     
                                           |   |       |         | |  | |    | |                                                                                                    
                                           |   |       |         | |  | |    '-+ 0.39----------+ BAAAPP11 Bacteria Actinobacteria Actinobacteridae Actinomycetale                   
                                           |   |       |         | |  '-+ 0.7  '--+ 0.076                                                                                           
                                           |   |       |         '-+ 0.35         '-----------------------+ BAAAAA2 Bacteria Actinobacteria Actinobacteridae Actinomycetales        
                                           |   |       |           |    |                                                                                                           
                                           |   |       |           |    '------------------------+ BAAAPP12 Bacteria Actinobacteria Actinobacteridae Actinomycetale                 
                                           |   |       |           |                                                                                                                
                                           |   |       |           |    ,--------------+ BAAAFG1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                           
                                           |   |       |           '----+ 0.52                                                                                                      
                                  ,--------+ 0.83  D    |                '---------+ BAAAST1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                                
                                  |        |   |       |                                                                                                                            
                                  |        |   |       '---------------------------------+ BAAACN3 Bacteria Actinobacteria Actinobacteridae Actinomycetales                         
                                  |        |   |                                                                                                                                    
                                  |        |   |                   ,-------------+ BAA1 Bacteria Actinobacteria Acidimicrobidae E-value3e-75 Bacte                                  
                                  |        |   |            ,------+ 0.2  J                                                                                                         
                                  |        |   |            |      '------------------------+ BA3 Bacteria Actinobacteria E-value1e-68 Bacteria Actinobacteri                       
                                  |        |   |     ,------+ 0.82                                                                                                                  
                                  |        |   |     |      |      ,-------+ BA2 Bacteria Actinobacteria E-value7e-82 Bacteria Actinobacteri                                        
                                  |        |   |     |      '------+ 0.84   I                                                                                                       
                       ,----------+ 0.83  C |   '-----+ 0.88        '-----------------+ BAC1 Bacteria Actinobacteria Candidatus Microthrix E-value4e-74                              
                       |          |        |         |                                                                                                                              
                       |          |        |         |       ,----+ BA1 Bacteria Actinobacteria E-value5e-101 Bacteria Actinobacter                                                 
                       |          |        |         '-------+ 0.94    E                                                                                                            
                       |          |        |                 '-+ ORF7 Translation of ORF number 2 in reading frame 3 on the rever                                                   
                       |          |        |                                                                                                                                        
 ,---------------------+ 1  B      |        |           ,------------------+ exBCCCCC1 Bacteria Chloroflexi Caldilineae Caldilineales Caldili                                        
 |                     |          |        '-----------+ 0.91                                                                                                                       
 |                     |          |                    '------------------------------------------+ exBFLSS1 Bacteria Firmicutes Lactobacillales Streptococcaceae St                
 |                     |          |                                                                                                                                                 
 |                     |          '-----------------------------+ exBCNSS1 Bacteria Cyanobacteria Nostocales Scytonemataceae Scyto                                                  
 |                     |                                                                                                                                                            
 |                     '------------------------+ exBCPPP1 Bacteria Cyanobacteria Prochlorales Prochlorococcaceae                                                                   
 |                                                                                                                                                                                  
 |                                                  ,-------------------------------------------------------------+ exBFBBA1 Bacteria Firmicutes Bacillales Bacillaceae Anoxybacillu
 |                                         ,--------+ 0.77                                                                                                                          
 |                                  ,------+ 0.49   '------------------------------+ exBFBPV1 Bacteria Firmicutes Bacillales Planococcaceae Viridibac                               
 |                                  |      |                                                                                                                                        
 |                                  |      '---------------------------------------------+ exBFCCPD2 Bacteria Firmicutes Clostridia Clostridiales Peptococc                         
 |                                  |                                                                                                                                               
=+  A                               |                 ,-----------------------+ exBFCCPD1 Bacteria Firmicutes Clostridia Clostridiales Peptococc                                    
 |                                  |                 |                                                                                                                             
 |                                  |   ,-------------+ 0.68                               ,+ exBFBPAA2 Bacteria Firmicutes Bacillales Paenibacillaceae Aneuri                      
 |                         ,--------+ 0.75            '------------------------------------+ 1                                                                                      
 |                         |        |   |                                                  '------+ exBFBPAA1 Bacteria Firmicutes Bacillales Paenibacillaceae Aneuri                
 |                         |        |   |                                                                                                                                           
 |                         |        |  ,+ 0                                  ,--------------+ exBFBPS1 Bacteria Firmicutes Bacillales Planococcaceae Sporosarc                      
 |                         |        |  ||                         ,----------+ 0.85                                                                                                 
 |                         |        |  ||                 ,-------+ 0.72     '--------------------+ exBFBBV1 Bacteria Firmicutes Bacillales Bacillaceae Virgibacillu                
 |                         |        |  ||                 |       |                                                                                                                 
 |                         |        '--+'0.69-------------+ 0.9   '-------------+ exBFBBC1 Bacteria Firmicutes Bacillales Bacillaceae Caldalkaliba                                  
 |                         |           |                  |                                                                                                                         
 |                         |           |                  '------------------------+ exBFBBP1 Bacteria Firmicutes Bacillales Bacillaceae Pontibacillu                               
 |                         |           |                                                                                                                                            
 '-------------------------+ 1         '-------------------------------------+ exBFCC1 Bacteria Firmicutes Clostridia Clostridiales E-value7e-                                      
                           |                                                                                                                                                        
                           |                                         ,---------------+ exBFBPU1 Bacteria Firmicutes Bacillales Planococcaceae Ureibacil                             
                           |                                      ,--+ 0.54                                                                                                         
                           |                                      |  '-------------------+ exBFBPS2 Bacteria Firmicutes Bacillales Planococcaceae Solibacil                         
                           |                     ,----------------+ 0.96                                                                                                            
                           |                     |                |          , exBFBBL2 Bacteria Firmicutes Bacillales Bacillaceae Lysinibacill                                     
                           |                     |                '----------+ 0.91                                                                                                 
                           |      ,--------------+ 0.88                      '----+ exBFBBL1 Bacteria Firmicutes Bacillales Bacillaceae Lysinibacill                                
                           |      |              |                                                                                                                                  
                           '------+ 0.78         '--------------------------------------+ exBFBPK1 Bacteria Firmicutes Bacillales Planococcaceae Kurthia E                          
                                  |                                                                                                                                                 
                                  |                               , exBFCC2 Bacteria Firmicutes Clostridia Clostridiales E-value8e-                                                 
                                  '-------------------------------+ 0.99                                                                                                            
                                                                  '-+ exBFCCCP1 Bacteria Firmicutes Clostridia Clostridiales Clostridi                                              
                                                                                                                                                                                    
 |--------------------------|---------------------------|--------------------------|---------------------------|---                                                                 
 0                       0.25                         0.5                       0.75                           1                                                                    
 substitutions/site                                                                                              

 

b) BioNJ
[...]

 

Taxonomie

 

Après analyse de votre arbre phylogénétique, spécifiez le groupe taxonomique le plus proche (par exemple "Alphaproteobacteria") dont semble être issu l'organisme qui porte votre fragment d'ADN. Pour ce faire deux solutions:

Après l'enregistrement de vos annotations, vérifiez que celui des deux champs que vous n'avez pas renseigné s'est bien automatiquement rempli; par exemple si vous avez choisi d'indiquer "Alphaproteobacteria" dans le champ "Nom scientifique", après enregistrement vous devez voir s'afficher automatiquement le code "28211" dans le champ "identifiant numérique NCBI" (et inversement).

Notez que le champ "identifiant numérique NCBI" a précédence sur le champ "Nom scientifique"; donc si vous souhaitez changer d'organisme, il faut effacer le code numérique dans le champ "identifiant numérique NCBI" quand vous souhaitez modifier le contenu du champ "Nom scientifique"!

Quand la taxonomie est correctement spécifiée, s'affiche alors son linéage:

 

Rhodobacterales
Rank: order - Genetic Code: Bacterial and Plant Plastid - NCBI Identifier: 204455
Kingdom: Bacteria - Phylum: Proteobacteria - Class: Alphaproteobacteria - Order: Rhodobacterales
Bacteria; Proteobacteria; Alphaproteobacteria; Rhodobacterales;

 

IMPORTANT: à moins que votre fragment de séquence soit 100% identique à une séquence présente dans GENBANK, ne spécifiez pas un nom d'espèce précis. Puisque l'origine exacte de ce fragment est essentiellement inconnue, spécifiez plutôt le groupe taxonomique du noeud immédiatement au dessus de votre ORF dans l'arbre phylogénétique.

 

Processus Biologique & Fonction Moléculaire

 

Lorsque vos analyses in silico (BLAST, INTERPRO) le permettent, choisissez dans les menus déroulants les termes les plus appropriés et décrivant le plus spécifiquement possible votre ORF. Ces termes font partie d'une liste exhaustive et hierarchique de termes permettant de décrire toutes les activités cellulaires: il s'agit de la "Gene Ontology", souvent cités comme les annotations GO.

Ces annotations GO étant fréquemment assignées aux gènes connus dans les banques de données publiques telles que SWISSPROT ou INTERPRO, n'hésitez pas à vous en inspirer des annotations GO des homologues de vos ORFs ou de ses domaines conservés pour choisir les termes GO les plus appropriés.

Conclusion

Ce champ sera central à votre évaluation: synthétisez dans ce champ vos interprétations et hypothèses bâties sur la base des observations faites dans les rubriques précedentes "ANALYSE DES RÉSULTATS". Imaginez que vous vous adressez à un jury a priori sceptique qu'il faut convaincre! Argumentez, faites référence aux résultats obtenus, chiffrez vos affirmations, croisez les indices, soyez attentif à votre vocabulaire; les analyses bioinformatiques ne peuvent rien démontrer, donc attention aux formules du type "La séquence GOS_12345 provient d'une alphaprotéobactérie de type XYZ". Séparez les faits, vos observations et vos hypothèses ("probablement", "suggère", "putatif")...

Vérifiez que vous avez au moins couvert:

Ce qu'il ne faut pas faire:

Produisez avant tout un argumentaire scientifique, synthétique, complet, rigoureux, chiffré, structuré et implaccable.

Evaluations

Due to lack of manpower, we are no longer able to offer evaluations of annotations outside of specific university teams!

Grille d'Ă©valuation des annotations

Pour vous aider à cerner ce qui est attendu de vos annotations, voici une liste (non exhaustive) des critiques qui sont fréquemment utilisées lors des corrections:
Analyse Rubrique Critique
ORF ORF TB
ORF analysis Please discuss the specific issue of the N- and C-termini of your ORF (you can/must refer to the multiple sequence alignment).
ORF analysis An ORF found with "any codon" as initiation codon with a start position above 3bp can not be incomplete at 5' end (there is a STOP codon just before)!
ORF analysis Discuss if there were any other potentially significant ORFs in the metagenomic sequence
ORF analysis Errors in ORF definition (contains stop codons, larger ORF exists etc.)
ORF analysis Explain which (if any) of the other ORFs appear to be potential true positive protein coding genes (justify).
ORF analysis Please analyze the ORF results (nb of putative ORFs? 5'/3' incomplete?, which ORF did you select ORF?)
ORF analysis Unlikely to be non-coding considering the ORF size?
ORF results Incomplete results (missing strand or phases)
ORF results Missing protocol (strand, inititation codons, genetic code, min ORF size...)
ORF results Protocol: please include the URL of the website used to carry out the analysis.
blast ORF Discuss choice of E-values
blast analysis Incomplete description of BLAST results (nb of hits, E-value distribution, location of HSPs along query...)
blast analysis Incorrect analysis and interpretation of the BLAST results
blast analysis List under PROTOCOL the list of all protocols used (cf Rule Book)
blast analysis No analysis of functionnal information derived from homologues detected by BLAST
blast analysis Please describe & discuss the best pairwise alignments produced by BLASTp (similarities, identities, INDELS etc.)
blast analysis When using percentages to quantify alignment qualities (% identity or % similarity), alway provide the alignment lengths
blast analysis You are confusing "similarity" with "homology"!
blast results Incorrect presentation of results (incomplete sequence list, too few or too many alignments, copy&paste error...)
blast results Missing protocol (BLAST type, database)
blast results Some BLAST's are missing (SP/NR, BLASTx, modified parameters ...)
blast results Too many pairwise alignments!
blast taxonomy Discuss your choice of Study Group
blast taxonomy Incorrect description of the BLAST taxonomy Lineage Report
blast taxonomy Incorrect selection of external group
blast taxonomy Incorrect selection of homologues (non represented groups, and/or over-represented groups...)
blast taxonomy Please fully describe the set of sequences carried over to multiple alignement, with their BLAST scores and identifiers (cf Rule Book)
blast taxonomy Please provide a panoramic diversity overview of the taxonomic origins of the BLAST hits
blast taxonomy Provide the list of in/out-group sequences with their names and E-values, but NOT the full FASTA format
blast taxonomy To correctly identify an external group, you need to resubmit a BLAST asking for more than first 100 hits (250, 500 ou more)
blast taxonomy discuss the E-value log difference between in- and out-group sequences
conclusion ORF Specify if the ORF is complete, and if relevant estimate number of missing amino acids.
conclusion domains Incorrect comparison of functionnal info found through BLAST and INTERPRO
conclusion hypotheses Justify your selection of Gene Ontology terms!
conclusion hypotheses Lacks rigor. Cite evidence in support of your hypotheses! Refer to specific numeric values!
conclusion hypotheses No functionnal hypothesis
conclusion hypotheses a conclusion was expected discussing the putative relationship of the study virus with the human coronaviral pandemics.
divers analysis Plagiarism
divers divers
domains analysis A number of domains listed under RAW RESULTS are not discussed at all?
domains analysis Discuss the predicted conserved domains E-values!
domains analysis Incorrect conserved domains identification (non annotated true positives, redundant domains, false positive domains selected...)
domains analysis Incorrect functionnal interpretation from conserved domains identified
domains analysis Missing conserved domain analysis
domains analysis Only enter in the specific "Domains Form" of the Annotathon just the selected predictions (not all the predictions)
domains analysis Please compare the conserved domains prediction functions with functional information derived from the BLAST results
domains analysis Please discuss why some predicted domains have been excluded (redundant, high E-value etc.)
domains analysis Please provide some details of the biological function of the predicted conserved domains.
domains domains
domains results Incorrect presentation of domains
domains results Missing raw Interpro textual output (RAW OUTPUT button in Interpro results page)
domains results The protocol is incomplete (include method name, website URL and parameters).
molecular weight results Not calculated or not applicable (if partial ORF)
multiple aln ORF Discuss the start/end of the ORF compared to its homologs (eg number of residues missing, or putative location of initiation codon)
multiple aln ORF Error in the interpretation of ORF start position (too long or too short in 5')
multiple aln analysis Are all sequences in the multiple alignment of similar length?
multiple aln analysis Incorrect analysis of Multiple Alignment (conserved/divergent regions, coherence with INTERPRO conserved domains...)
multiple aln analysis Map important residues/regions annotated in homolog database records (in particular SWISSPROT) onto the multiple sequence alignment and check their conservation
multiple aln analysis You have not discussed your ORF's start position compared to its homologs
multiple aln results Alignment contains non-homologous sequences
multiple aln results Incorrect multiple alignement presentation (CLUSTAL format, legible sequence names...)
multiple aln results Incorrect/incomplete Protocol
multiple aln results Multiple alignement contains some sequences which are too partial (incomplete at one or both ends)
multiple aln results Several identical sequences
multiple aln results Where is your ORF?
ontologies analysis Incorrect Biological Process
ontologies analysis Incorrect Molecular Function
ontologies analysis No selection of Gene Ontology terms
phylogeny analysis Incorrect specification of Duplication/Speciation events on tree nodes
phylogeny analysis Incorrect tree interpretation (HGT missed, ORF assigned to wrong group etc...)
phylogeny analysis Missing discussion on tree topology? Congruence if more than one tree?
phylogeny analysis Missing most likely taxonomic classification of organism carrying ORF
phylogeny analysis you must discuss the branch/node robustness values
phylogeny results Add on the tree after the leave names, the taxonomic groups in the form [alpha-protéobactéries]
phylogeny results Incorrect presentation (leaves not reformated with Genus species format, eg 'Ecolix'...)
phylogeny results Missing alternative tree reconstruction method
phylogeny results Missing protocol (method type, ext group used...)
phylogeny results Please add to the protocol that you collapsed (or not) the branches with weak support values (in which case provide this threshold).
phylogeny results Please color the branches according to taxonomic classification (see Rule Book)
phylogeny taxonomy Assign the most probable taxonomic classification, not the full taxonomic classification of the closest homolog!
phylogeny taxonomy Select a most likely taxonomic group (Taxonomy field)
writing Please respect the recommended presentation for RESULTS fields (cf Rule Book)
writing Conclusion should be better structured
writing Conclusion should be more concise
writing Insufficient attention to spelling
writing Lacks rigor. Cite evidence in support of your hypotheses! Refer to specific numeric values!