Il y a 150 ans Charles Darwin parcourait les mers à bord du HMS Beagle pour observer la diversité morphologique du vivant; aujourd'hui c'est à bord de la goëlette Tara (ci-contre) que les biologistes sillonnent les océans pour observer la biodiversité à travers le séquençage métagénomique.
De septembre 2009 à novembre 2013, le navire océanographique Tara a sillonné tous les océans de la planète. Les océans produisent la moitié de l’oxygène que nous respirons. Si les forêts sont le premier poumon de notre planète, les océans constituent le second. Ces prairies de plancton constituent, par leur activité photosynthétique, une immense pompe à oxygène. Mais, ces organismes marins sont aussi un important puits à gaz carbonique. Tara Oceans est une expédition pan-océanique dont la mission est de rendre compte de l'état de la biodiversité planctonique: des atolls coralliens tropicaux à l’Antarctique, des isthmes moyen-orientaux au passage du nord ouest.
Le séquençage métagénomique des échantillons Tara a démarré au GENOSCOPE (Evry). Ces séquences vous sont livrées à chaud, en attente d'annotation fonctionnelle. A cette échelle moléculaire, la bioinformatique est l'outil principal pour observer la biodiversité!
Votre mission, est de tenter d'identifier l'origine microbiologique de ces séquences (archae, protistes, bactĂ©ries, virus?), de déterminer quelles séquences sont codantes, et dans l'affirmative conclure s'il s'agit de protéines connues ou nouvelles.
La première opération sera d'identifier d'éventuels cadres ouverts de lecture (ORF). Les ORF qui correspondent vraisemblablement à des gènes codants seront repérables essentiellement à leurs tailles (au delà de 100 à 150 acides aminés) et aux similitudes de séquences avec d'autres gènes déjà connus et présents dans les banques annotées telles que SWISSPROT.
L'objectif est donc double: -identifier de nouvelles espèces de microorganismes -identifier des protéines totalement nouvelles ou des membres jusqu'à là inconnus de familles protéiques caractérisées.
Pour en savoir plus, voir le site de l'expédition Tara Océans.
Vous allez collectivement annoter des fragments de séquences d'ADN distincts. Chaque binôme prendra en charge l'annotation de fragments de séquence répartis aléatoirement entre les participants. Les binômes annotateurs devront, pour chacun des fragments dont ils ont la charge, conclure s'ils semblent codants ou non. Dans l'affirmative vous devrez proposer des annotations fonctionnelles pour les nouveaux gènes hypothétiques, ainsi que le groupe taxonomique d'appartenance le plus probable. Utilisation de l'Annotathon
Regroupez-vous en binômes, un binôme par poste de travail. Un seul trinôme éventuel est toléré par groupe de TD.
Organisez votre espace de travail de façon à avoir à l'écran trois fenêtres du Navigateur Internet (ou trois onglets si vous préfèrez) permettant ainsi d'avoir en parallèle:
Si vous n'avez pas encore de compte sur l'Annotathon (ce qui est le cas lors de votre première séance), cliquez sur l'onglet "Nouveau compte" dans le menu en haut de l'Annotathon. Créez un compte par binôme en renseignant les divers champs du formulaire; soyez particulièrement attentifs à choisir la bonne affiliation, à fournir le Code d'équipe, à bien sélectionner les noms des étudiants dans les menus déroulants, ou le cas échéant à les saisir précisemment (condition sine qua non pour avoir une note au TD); si vous n'êtes pas certains, demandez à votre responsable de TD! Vous devez fournir au moins une adresse de courrier électronique pour être tenu au courant des activités (vous pouvez saisir plusieurs adresses séparées par des virgules).
Enfin un clic sur "Ouvrir le Compte" doit faire afficher le message "Le compte 'XYZ' a été créé"; dans le cas contraire suivez les instructions pour corriger les erreurs. Une fois votre compte créé, vous pouvez vous ouvrir une session d'annotation en entrant le 'login/pseudo' et 'mot de passe' de votre binôme dans les champs en haut de la page puis en cliquant sur "Connection".
Un fois connecté à l'Annotathon, contrôlez que votre pseudo et vos noms sont bien indiqués en haut de la page. Notez que vous devrez valider votre adresse de courrier électronique en suivant le lien fourni dans un courriel qui vous sera adressé automatiquement à la création du compte.
La page d'accueil (affichée après connection ou en cliquant sur l'onglet "Accueil") donne un aperçu global de l'état d'avancement du projet d'annotation. Notez qu'après connection avec votre pseudo, les statistiques en blanc sur fond rouge en bas de page représentra après les premières évaluations votre position par rapport au reste des binômes de l'équipe.
Remarque: l'Annotathon est accessible à partir de n'importe quel accès Internet (campus ou non), sur MAC, PC Windows ou PC Linux...
Vous ne pouvez ajouter de nouveaux fragments de séquence à votre panier que lorsque votre panier est vide, ou lorsque vous avez annoté tout ou partie des fragments déjà présents dans votre panier (c'est à dire soumis vos premières séquences à l'évaluation). Des nouveaux fragments de séquence sont donc ajoutés au panier à la discrétion du binôme (à concurrence du nombre maximal de fragments requis par binôme) puis annotés selon le guide proposé ci-dessous, et ce jusqu'à la date de fermeture de l'Annotathon (le nombre de jours d'ouverture restant est indiqué par un j-XX en haut de chaque page, cf. aussi "Evaluation et notation des binômes" en fin des Règles du jeu).
Cliquez sur l'icone en face du fragment de séquence dont vous souhaitez consulter les annotations. L'annotation initiale des fragments de séquence est succinte: outre le séquence nucléotidique, sa longueur, et l'origine géographique de la séquence, chaque fragment de séquence comporte un numéro d'accession unique au sein de l'Annotathon. Le reste de l'annotation est votre responsabilité.
Cliquez sur l'icone en face du fragment de séquence souhaité pour avoir accès au formulaire de saisie des annotations des séquences. Après avoir saisi des données dans ce formulaire, n'oubliez pas de cliquer sur le bouton "Enregistrer les annotations" pour soumettre vos analyses au serveur central de l'Annotathon! Si vous quittez ce formulaire sans avoir cliqué sur ce bouton, vous perdez vos modifications en cours... Vu que vous pouvez revenir et modifier l'annotation d'un fragment de séquence autant de fois que vous le souhaitez, ce peut être une bonne habitude que de cliquer régulièrement sur "Enregistrer les annotations" pour ne pas risquer de perdre des annotations en cours!
Quand vous êtes satisfait de vos annotations, cliquez sur l'icone en face de votre fragment de séquence. Le statut de ce fragment de séquence passe alors de 'Annotation 1' à 'Evaluation 1' et vous ne pouvez plus le modifier le temps que les correcteurs passent en revue votre travail. Après cette première évaluation, le statut des fragments passent à 'Annotation 2'; vous pouvez alors à nouveau modifier vos annotations suite aux éventuels commentaires des correcteurs. Quand votre deuxième passe d'annotations est complétée, cliquez sur pour soumettre définitivement vos fragments de séquence pour l'évaluation finale.
L'onglet "Forum" vous permet d'accèder au forum interne de l'Annotathon (le signale qu'un nouveau message non lu a été posté sur le forum). Cliquez sur le sujet du message du forum pour accèder à son contenu. Si vous souhaitez répondre à ce message, utilisez le champ disponible sous le message puis cliquez sur "Poster le message". ATTENTION!: n'utilisez ce cadre QUE POUR REPONDRE AU MESSAGE DIRECTEMENT!
En revanche, si vous souhaitez ouvrir un nouveau fil de discussion, utilisez OBLIGATOIREMENT les formulaires spéciaux disponibles en haut de chacune de vos fiches d'annotation (dans votre "Panier", cliquez sur )! Vous choisirez alors dans quelle rubrique du forum vous souhaitez poster votre nouveau fil de discussion (ex Recherche d'homologues: BLAST).
Notez que les messages que vous envoyez sur le forum sont aussi directement acheminés vers l'adresse email des responsables de TD. Même si les messages s'adressent souvent aux responsables de TD, les étudiants qui connaissent les réponses aux questions postées sur le forum sont encouragés à y répondre. Les réponses pertinentes seront comptabilisées...
De temps en temps vos responsables de TD pourront faire des annonces qui s'afficheront en haut de chaque page de l'Annotathon. Une fois lus, il est conseillé de cliquer devant "Lu" pour transférer ces messages vers votre dossier de messages archivés. Ce dossier est disponible à tout moment en bas de la page "Forum".Annotations de séquences
Le formulaire de modification des annotations de séquences contient deux types de champs:
L'Annotathon tient ainsi lieu à la fois de "cahier de laboratoire" (champs de type 1) et de "rapport de TD" (champs de type 2).
IMPORTANT: pour les champs de type 1 (résultats d'analyses), les champs sont initialement pré-remplis avec la structure suivante:
PROTOCOLE: --------------------------------------------------------------------------------------------------- ANALYSE DES RÉSULTATS: --------------------------------------------------------------------------------------------------- RÉSULTATS BRUTS:
Sous la rubrique "PROTOCOLE", spécifiez le résumé des informations nécessaires pour pouvoir reproduire l'analyse, au minimum: le nom de l'outil utilisé, son URL et les paramètres d'analyse. Par exemple pour la recherche d'ORF, la ligne de protocole pourra être:
PROTOCOLE: SMS ORFinder / http://annotathon.org/sms2 / sens direct / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'
Copiez-collez ensuite les résultats in-extenso de vos analyses sous la rubrique "RÉSULTATS BRUTS". Si vous avez effectué plusieurs analyses d'un même type (par exemple deux SMS ORFfinder, un en sens direct, l'autre en sens indirect), alors référencez les deux analyses par un index:
PROTOCOLE: a) SMS ORFinder / http://annotathon.org/sms2 / sens direct / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel' b) SMS ORFinder / http://annotathon.org/sms2 / sens indirect / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel' --------------------------------------------------------------------------------------------------- ANALYSE DES RÉSULTATS: [ici vous rédigerez plus tard vos interprétations] RÉSULTATS BRUTS: a) sens direct >ORF number 1 in reading frame 1 on the direct strand extends from base 511 to base 744. CGAGTGATAACTGGTCCAGTAATCGCGATACCGATCATCTTGTTGCGGATTGACGATGTT AAAATCCCGATCAGGGCGGATATCCAGCCCCAGCCTTTCACAACGTTGCTGAATCACTTC GGGGCGGCCTATGACGATGGGAACTTCGCTGGTTTCTTCCAAAACGGCCTGAGCGGCGCG CAGCACCCGCTCGTCTTCGCCCTCGGCAAACACAATCCGTCGAGCGCTGCTTGA >Translation of ORF number 1 in reading frame 1 on the direct strand. RVITGPVIAIPIILLRIDDVKIPIRADIQPQPFTTLLNHFGAAYDDGNFAGFFQNGLSGA QHPLVFALGKHNPSSAA* --------------------------------------------------------------------------------------------------- b) sens indirect >ORF number 1 in reading frame 1 on the reverse strand extends from base 517 to base 855. CCTGATCTGTGGCGCTGTGGGCGAATTCAGATGGCATCTGAATTATATCGAGCAAATTTT AGGCAGCAAAACCTTATCGCCAAGCGGCGCGCTGTCTTTGATGATTTTAGAAGACGGGCC TCTGTTCATCGCAGACACCCACGTCTGGGCGGATCCCACCCCCATGCAAATTGCCCAAAC CGCCAAAGGGGCCGCGCGCCATGTGCGCCGTTTTGGCATAGAGCCACAAGTCGCGCTGTG CTCGCAATCACAATTTGGAAATCTGAACAGCGAGACTGGCAAGAAAATGCGCCAAGCATT GGATATTCTCGATACCGAAAAGGTGACGTTTACCTATGA >Translation of ORF number 1 in reading frame 1 on the reverse strand. PDLWRCGRIQMASELYRANFRQQNLIAKRRAVFDDFRRRASVHRRHPRLGGSHPHANCPN RQRGRAPCAPFWHRATSRAVLAITIWKSEQRDWQENAPSIGYSRYRKGDVYL*
Enfin utilisez la rubrique "ANALYSE DES RÉSULTATS" de ces champs de type 1 pour exposer les faits saillants que vous êtes en mesure d'observer dans les résultats bruts. L'analyse des résultats, un exercice incontournable du discours scientifique, répond à la question "Qu'avons-nous vu de notable lorsque nous avons tenté l'expérience décrite dans le protocole?".
Remarque: Le dernier champ du formulaire, intitulé "Bloc Note", est à votre disposition pour conserver les informations de votre choix qui ne sont pas prévues par des rubriques spécifiques. Stockez-y tout ce qui pourra vous être utile lors des ré-analyses (par exemple des homologues au format FASTA). Le bloc-note ne fait pas partie des annotations 'officielles', il n'est pas consulté lors les évaluations.
Une aide en ligne pour chaque type d'annotation est disponible en cliquant sur les directement dans le formulaire. Les principales annotations attendues pour chaque fragment de séquence sont décrites brièvement ci-dessous.
N'oubliez pas qu'une Foire aux Questions (FAQ) est à votre disposition pour des conseils plus approfondis (y compris des guides illustrés) sur les outils bioinformatiques que vous serez amenés à utiliser. Attention: Certaines rubriques ne sont pas à jour. Soyez vigilant au niveau des interfaces de programmes et des versions des bases de donnees!!!!
Lors de toutes vos analyses, gardez en vue les trois fils directeurs principaux de votre travail d'annotation qui consiste à proposer:
Aucun résultat individuel d'analyse bioinformatique permet de répondre à lui seul à ces questions; les réponses se construiront en faisant les recoupements et la synthèse de tous ces résultats.
La première analyse de chaque fragment de séquence consistera à rechercher les ORF potentiels inclus dans la séquence. Il existe de très nombreux logiciels en ligne pour dresser ce type de liste, dont:
Les ORFS à retenir pour analyse ultérieure vérifieront toutes les conditions suivantes:
Copiez-collez les résultats bruts de recherche d'ORF dans le champ 'Recherche ORF' du formulaire de saisie de l'Annotathon. Si vous utilisez SMS, n'oubliez pas de faire l'analyse dans les deux sens! Et n'oubliez pas la ligne de PROTOCOLE pour chaque recherche d'ORF!
Résumez sous "ANALYSE DES RESULTATS" l'ensemble des ORFs détéctés par ORFinder dans un tableau du type:
Table 1: Liste des ORFs détectés dans le fragment d'ADN métagénomique
KNOWN (étudiée ici)
Attention: vous devez impérativement numéroter toutes vos tables (numérotation continue à travers toutes les sections d'annotation, par exemple table 1 pour les ORFs, table 2 pour les domaines protéiques conservés etc.) et leur donner un titre!
Faites un petit schéma résumant les positions des différents ORF sur le fragment d'ADN, par exemple (attention ce schéma ne correspond pas à la table ci-dessus):
Figure 1: Diagramme de répartition des ORFs sur le fragment d'ADN TO72D_5186010
(50)==ORF1==>(249) (268)====ORF2====>(579) (744)========ORF3======>(1068) DIRECT : 1 ------------------------------------------------------------------------------ 1070 INDRECT : 1070 ------------------------------------------------------------------------------ 1 (1068)<====================ORF4====================(394) (407)<==========ORF5==========(134) Légende:
==ORFx==> Faux positif ==ORFx==> KNOWN (ORF étudiée ici) ==ORFx==> NOVEL (ORF non étudié ici)
Si votre séquence contient plusieurs ORF, ne considérez a priori que le plus long d'entre eux (sauf si par exemple le plus court présente des homologues alors que le plus long est un ORFan).
Vous devrez classer chaque ORF détecté parmi l'une des catégories suivantes:
Vous pouvez aussi préciser la fiabilité de vos classifications avec des qualificatifs du type "Très Probable" ou "Peu probable" etc.
Pour déterminer si les ORFs détectés dans le fragment de séquence paraissent vraisemblables (vrais ou des faux positifs, KNOWN, NOVEL, ORFan?), les éléments clefs à considérer sont:
Attention, ce dernier critère est très important: le gènes ne se chevauchent pas (quelques codons peut-être aux extrêmités, mais pas sur toute leur longueur!). Ceci est un élément crucial pour argumenter que certains ORFs sans homologues sont des faux positifs très probables!
-Si le fragment de séquence ne semble pas contenir de gène codant (pas d'ORF assez longs et pas d'homologues), cochez la case 'non-codant' de la rubrique 'Statut'. L'annotation de ce fragment de séquence est alors achevée; seuls les champs 'Recherche d'ORF' et 'BLAST' seront donc renseignés (en plus de votre rapport d'analyse dans le champ conclusion bien sûr). Toutefois, dans bien des cas, avant de conclure définitivement à un statut de "non-codant", nous vous conseillons aussi d'effectuer des recherches d'homologues dans les banques environnementales. Demander à un encadrant la procédure à suivre, cette dernière étant tout à fait exceptionnelle. Après avoir enregistré les annotations de ce fragment de séquence, vous pouvez ajouter un nouveau fragment de séquence à votre panier!
-Si la recherche d'homolgues par BLAST suggère qu'un ORF correspond bien à un gène (ou que l'ORF n'a aucun homologue connu mais semble trop long pour être dû au hasard - par exemple 250 codons[1]), cochez la case 'codant' de la rubrique 'Statut'. Indiquez ensuite le brin (direct ou indirect) sur lequel se trouve l'ORF, ainsi que ses positions de début et de fin. Notez que si votre ORF est complet en 3' (c'est à dire qu'il se termine par un codon STOP), il faudra retirer des coordonnées de fin les 3 nucléotides du STOP. Pour valider cet ORF, soumettez déjà ces données à l'Annotathon en cliquant sur "Enregistrer les annotations".
Si l'ORF vérifie les règles citées plus haut, la traduction sera alors affichée automatiquement; dans le cas contraire un message d'erreur vous indiquera par exemple si l'ORF contient des STOP. L'ORF peut être incomplet (codon STOP de fin ou codon d'initiation manquants) auquel cas seul un avertissement est affiché.
[1]en effet l'absence d'homologues dans les banques de séquences ne constitue pas la démonstration qu'un ORF est non-codant; dans ce cas on ne trouverait jamais de gènes complètement nouveaux! Il existe d'autres techniques d'identification de gène dites ab initio (par exemple celles exploitant les biais statisitiques d'utilisation de codons) mais celles-ci ne seront qu'au programme de bioinformatique de Master.
Consultez la Foire aux Questions pour plus de détails sur la recherche d'ORF, notamment sur la question très délicate et cruciale de la position exacte de début d'ORF...
ANALYSE DES RÉSULTATS: Voici une proposition de structure pour l'analyse des ORFs: 1- Classifications des ORFs 1.1- Justification des ORFs KNOWN (si présents) 1.2- Justification des ORFs NOVEL (si présents) 1.3- Justification des ORFs ORFan (si présents) 1.4- Justification des ORFs Faux Positifs (si présents) -> donnez des arguments explicites et chiffrés! -> référez-vous à la table 1 explicitement! -> MAIS NE JAMAIS EXACTEMENT PARAPHRASER LE TABLEAU! -> citez vos sources, de préférence sous forme de liens, par ex: "les homologues sont des epimerase (cf. Fiche SWISSPROT MJ0211)" 2- ORF séléctionnée pour la suite de l'étude -> Justifiez! -> D'autres ORFs mériteraient-ils un analyse bioinformatique indépendante?
3- Extrêmités de l'ORF sélectionnée -> Discutez des positions de début et de fin de l'ORF, et le cas échéant estimer le nombre d'AA manquant (renvoyez à la rubrique alignement multiple pour les détails).
Si l'ORF est complet (codon initiation->STOP), alors calculez la masse moléculaire théorique du polypetide correspondant à cet ORF en utilisant par exemple:
Recherchez si la traduction de votre ORF présente des domaines protéiques conservés, en utilisant par exemple:
Ne soumettez à l'Annotathon que les domaines qui vous paraissent clairement significatifs, c'est à dire
Si vous êtes convaincu de la vraissemblance de certains domaines prédits (4 au maximum), saisissez-en les noms et coordonnées dans le formulaire de l'Annotathon. Ne répétez pas le même domaine fonctionnel représenté sous différents noms/numéros d'accession dans plusieurs base de données (on retrouve en effet fréquement le même domaine protéique sous des numéros d'accession différents dans PROSITE, PFam, PRINTS etc.). Pour les résultats bruts de la recherche INTERPROscan, copiez vos résultats sous la forme suivante uniquement ("Export" -> "TSV"):
RÉSULTATS BRUTS: TO82S_4665010 35c27fb0e8e5c87be19799682b0ebae4 205 SUPERFAMILY SSF52833 79 162 3.44E-7 T 30-09-2014 IPR012336 Thioredoxin-like fold TO82S_4665010 35c27fb0e8e5c87be19799682b0ebae4 205 Pfam PF14595 Thioredoxin 44 167 6.3E-32 T 30-09-2014 TO82S_4665010 35c27fb0e8e5c87be19799682b0ebae4 205 Gene3D G3DSA:3.40.30.10 18 205 4.4E-36 T 30-09-2014 IPR012336 Thioredoxin-like fold
Veuillez résumer ce résultat brut assez indigeste par un tableau (encore un!) de synthèse, par exemple:
Table 2: Liste des domaines protéiques conservés détectés par InterproScan
Code Interpro
(IPRxxxxxx)
Banque
d'origine
Code dans la banque d'origine
Position
de début
de fin
E-value
Intitulé banque d'origine
(premier sur la ligne)
Intitulé Interpro
(en fin de ligne)
IPR012336
SUPERFAMILY
SSF52833
79
162
3.44E-7
Néant
Thioredoxin-like fold
Pfam
PF14595
44
167
6.3E-32
Thioredoxin
Gene3D
G3DSA:3.40.30.10
18
205
4.4E-36
Consultez la Foire aux Questions pour plus de détails sur la recherche de domaines conservés.
ANALYSE DES RÉSULTATS: 1. Domaine(s) retenu(s) -> Justifiez, chiffrez vos arguments (longeur du domaine, E-value)! -> Mentionnez les autres domaines (aussi des vrais positifs) non retenus qui sont juste redondant avec le domaine retenu: même domaine prédit par une autre méthode / d'une autre base de données de domaines, domaines implicites au domaine retenu (par exemple un domaine transmembranaire pour un transporteur membranaire) -> référez-vous à la table 2 explicitement, SANS EXACTEMENT LA PARAPHRASER! 2. Domaines rejetés (le cas échéant) -> Justifiez pourquoi certains domaines sont exclus (soucis de E-value, domaines non intégrés dans INTERPRO)! 3. Fonction biologique -> Donnez des détails sur la fonction biologique associée au(x) domaine(s) retenu(s) (activité enzymatique, fonction moléculaire, processus biologiques, répartition à travers le vivant etc.) -> Croisez avec les résultats du BLAST (notamment contre SWISSPROT) -> citez vos sources (par exemple en donnant un lien vers l'URL d'une fiche INTERPRO ou PFAM)!
A partir de cette etape, il n'est pas necessaire de copier les resulats intermediaires dans les champs correspondants. Pour eviter les effets cycliques de l'analyse, vous pouvez utiliser le 'Bloc note' pour ces resultats intermediaires. Une fois que l'origine taxonomique de votre sequence est acquise, vous pouvez alors mettre au propre vos resultats intermediaires dans les champs correspondants. Utilisez BLAST pour rechercher s'il existe d'éventuels homologues de vos ORF dans les banques de séquence. Vous trouverez des serveur Internet BLAST sur:
Deux approches BLAST sont possibles pour chercher des homologues à votre séquence:
Interrogez impérativement les deux banques suivantes:
Copiez-collez dans le champ 'BLAST' de l'Annotathon au minimum (Attention: une version texte du resultat blast est obtenue via le bouton "Reformat"):
Si votre ORF présente des homologues connus, précisez impérativement dans votre ANALYSE DES RESULTATS quel est la valeur seuil de E-value qui sépare les homologues (vrais positifs) des non-homologues (faux positifs). Présentez un résumé de synthèse de vos observations BLAST dans un tableau du type:
Table 3: Nombre et qualité des alignements détectés par BLASTp contre NR et SWISSPROT
nombre de protéines alignées
e-value min
e-value max
e-value seuil
NR
3124
5e-61
10
4e-07
SP
105
3e-05
< 3e-05
A l'aide de l'outil "Definition List", listez dans une table 4 de la rubrique ANALYSE DES RESULTATS l'ensemble des fonctions des homologues avec leurs gammes de E-values (cf exemple ci-dessous).
Attention: ce petit outil "Definition List" est bien pratique, mais très rudimentaire: il récupère chaque identifiant de votre listing BLAST, va chercher dans NR la ligne de définition complète de chaque fiche protéique (elles sont souvent tronquées dans le listing BLAST), puis compte pour chaque "définition" unique le nombre de fois (et les E-values extrêmes) où cette définition a été vue. Dans certains cas, il vous faudra encore simplifier cette liste de définitions, par exemple en regroupant sous une seule ligne "DNA polymerase B" de votre table 4 l'ensemble des "définitions" suivantes:
Table 4: Catalogue des fonctions des protéines alignées par BLASTp contre NR
___________________________________________________________________________________________________ | descriptions : | min e-value | max e-value | |_______________________________________________________________________|_____________|_____________| | • carbamoyl phosphate synthase large subunit | 5e-61 | 10 | | • transcriptional regulator | 7e-33 | 2e-29 | | • haloacid dehalogenase | 2e-31 | 3e-10 | | • UDP-phosphate galactose phosphotransferase | 5e-30 | 0.35 | | • pilin glycosyl transferase B2 | 2e-28 | 4e-18 | | • carboxylate-amine ligase | 9e-25 | 8.3 | | • sialic acid O-acetyltransferase NeuD family sugar O-acyltransferase | 5e-19 | 6e-19 | | • NAD-dependent epimerase/dehydratase | 1e-17 | 0.040 | | • biotin carboxylase | 7e-17 | 9.9 | | • carboxyltransferase | 5e-16 | 4.1 | | • DNA polymerase B | 2e-01 | 9.9 | |_______________________________________________________________________|_____________|_____________|
Vous devrez évidemment discuter si cette liste de fonctions semble cohérente, c'est à dire que toutes ces fonctions sont synonymes ou compatibles. Cette comparaison des différentes fonctions présentes dans les résultats du BLAST servira notamment à définir la valeur seuil de la E-value. Discutez aussi de la cohérence avec les prédictions INTERPRO!
ANALYSE DES RÉSULTATS: N'oubliez pas: -Abandonner si aucun homologue (ou très peu, <10) -Abandonner si ce gène existe déjà dans les banques de données (ADN >95% identique) Proposition de structure: 1. Panorama des alignements -> Description très synthétique des résultats (y-a-t-il des alignements, les protéines alignées sont-elles de fonctions connues, qualité des meilleurs alignements?) -> Chiffrez toutes vos observations (E-values, nombre d'alignements, % d'identité + longueurs d'alignements, nombre d'INDEL etc.)! -> Citez les tableaux SANS EXACTEMENT LES PARAPHRASER! 2. Identification des homologues -> Justifiez les seuils de E-value (NR & SP) qui séparent les homologues probables des homologues improbables (ou incertains)! -> Vous devez montrer que les fonctions des homologues (sous le seuil de E-values) sont cohérentes entre elles (faire référence à la table 4) 3. Fonction des homologues dans SWISSPROT -> A partir de l'exploration des fiches SWISSPROT des plus proches homologues, faites des hypothèse fonctionelles à propos de votre ORF (acides aminés / domaines avec des rôles spécifiques), croisez avec les résultats d'INTERPRO! -> Dans tous les cas, citez vos sources (par exemple en donnant un lien vers l'URL d'une fiche SWISSPROT)!
Le "Lineage Report" vous permet essentiellement de determiner le Groupe Etude et le Groupe Exterieur qui formeront la base de votre alignement multiple, puis de l'arbre phylogénétique.
IMPORTANT: Vous pouvez obtenir le rapport taxonomique de votre Blast en utilisant l'outil local "tax_report2" TaxReports.
Copiez sous RESULTATS BRUTS l'ensemble du Lineage Taxonomique (mais pas le Organism Report SVP):
RÉSULTATS BRUTS: Lineage report .LUCA . Bacteria . .Cyanobacteria . . Prochlorales . . .Prochlorococcaceae . . . Prochlorococcus . . . .Prochlorococcus marinus str. MIT 9515........ 315 4e-103 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. MIT 9301........ 305 3e-99 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. MIT 9215........ 303 8e-99 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. AS9601.......... 301 4e-98 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. NATL1A.......... 261 2e-82 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. MIT 9303........ 249 1e-77 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . Synechococcus sp. WH 8109....................... 251 1e-78 1 hit Bacteria:Cyanobacteria:Chroococcales: Carotene 7,8-desaturase [Synechococcus sp. WH ... . . Synechococcus sp. WH 7803....................... 251 2e-78 3 hits Bacteria:Cyanobacteria:Chroococcales: phytoene dehydrogenase [Synechococcus sp.... . . Synechococcus sp. CB0205........................ 250 3e-78 1 hit Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. BL107......................... 250 3e-78 2 hits Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. WH 8016....................... 250 4e-78 2 hits Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. CC9311........................ 250 4e-78 6 hits Bacteria:Cyanobacteria:Chroococcales: phytoene desaturase [Synechococcus sp. CC931... . . Synechococcus sp. RS9916........................ 249 1e-77 2 hits Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. CB0101........................ 248 2e-77 1 hit Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. RCC307........................ 236 2e-72 3 hits Bacteria:Cyanobacteria:Chroococcales: phytoene dehydrogenase [Synechococcus sp.... . . Synechococcus sp. PCC 7002...................... 217 2e-65 3 hits Bacteria:Cyanobacteria:Chroococcales: phytoene dehydrogenase [Synechococcus sp.... . . Cyanobium sp. PCC 7001.......................... 249 7e-78 2 hits Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Cyanobium sp.... . . Crocosphaera watsonii........................... 231 1e-70 1 hit Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Crocosphaera ... [...]
En vous aidant de l'outil "Taxonomy List", faites sous ANALYSE DES RESULTATS un résumé de vos observations du rapport taxonomique dans un tableau du style suivant (notez que ce tableau de synthèse doit être précis pour les taxa les plus proches, et peut devenir moins précis avec par exemple juste une ligne par Phylum ou même Règne pour les taxa les plus éloignés):
Table 5: Synthèse des classifications taxonomiques des protéines alignées par BLASTp contre NR
Règne
Phylum
Classe
Gamme de e-value
Nombre d'alignements
Bacteria
Proteobacteria
Betaproteobacteria
3E-71 à 8E-38
400
Gammaproteobacteria
9E-64 à 7.8
2500
Alphaproteobacteria
3E-43 à 0.09
130
Deltaproteobacteria
1E-47 à 3.0
80
Epsilonproteobacteria
2E-32 à 5E-16
30
Firmicutes
-
7E-51 à 7E-30
3700
Actinobacteria
5E-48 à 6E-26
Eukaryota
8E-24 à 2.5
Vous utiliserez ces résultats du BLAST pour constituer deux groupes de séquences homologues qui serviront, après alignement multiple, à tenter une reconstruction d'arbre phylogénétique:
IMPORTANT: Notez que TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur sont des HOMOLOGUES, c'est à dire au dessous de la E-value seuil déterminée précedemment lors du BLAST.
Consultez la Foire aux Questions pour plus de détails sur le BLAST.
Consultez ce document pour plus de détails sur la constitution des groupes d'étude et exterieur.
ANALYSE DES RÉSULTATS: 1. Panorama taxonomique des homologues -> faites un très bref tour d'horizon des origines taxonomiques des homologues (limités à un petit nombre de phyla bactériens, ou présents chez l'ensemble des procaryotes, ou ubiquitaire à l'ensemble des êtres cellulaires etc.). 2. Choix du groupe d'étude -> faire explicitement référence à la table 5 -> Définissez et justifiez le choix de groupe d'étude -> Définissez et justifiez le groupe extérieur qui en découle! -> calculez explicitement le différentiel de E-values entre les 2 groupes d'étude et extérieur! -> citez vos sources (par exemple en donnant un lien vers l'URL de l'arbre de la vie)!
IMPORTANT: Indiquez dans la rubrique ANALYSE DES RÉSULTATS du champ Rapport Taxonomique la liste complète de TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur: pour chaque séquence donnez son numéro d'accession, le nom de code que vous aurez choisi (voir ci-dessous Alignement multiple de séquences protéiques), son E-value donné par BLAST et son groupe taxonomique d'appartenance. Vous pouvez faire du copier-coller à partir des entêtes de vos sequences (au format fasta) issues de l'outil local "tax_report2" (mais ne pas indiquer ici les séquences protéiques!). Par exemple:
PROTOCOLE: BLASTp contre NR, / wwww.ncbi.nlm.nih.edu / paramètres par défaut, sauf "Number of descriptions=5000" ANALYSE DES RÉSULTATS: [ici rédigez votre description du taxonomy report, votre justification des groupes d'étude et exterieur, suivi de la liste des séquences choisies pour les groupes:] Groupe d'étude: Cyanobacteria >Bac_Cya_Pro_3 [Bacteria Cyanobacteria Prochlorales] E-value=1e-15 Bacteria;Cyanobacteria;Prochlorales;Prochlorococcaceae;Prochlorococcus; gi|488894830|ref|WP_002805954.1| zeta-carotene desaturase [Prochlorococcus marinus] >Bac_Cya_Chr_2 [Bacteria Cyanobacteria Chroococcales] E-value=7e-78 Bacteria;Cyanobacteria;Chroococcales;Cyanobium; gi|493968054|ref|WP_006911325.1| 15-cis-phytoene desaturase [Cyanobium sp. PCC 7001] >Bac_Cya_Chr_3 [Bacteria Cyanobacteria Chroococcales] E-value=1e-70 Bacteria;Cyanobacteria;Chroococcales;Crocosphaera; gi|494523610|ref|WP_007313063.1| 15-cis-phytoene desaturase [Crocosphaera watsonii] >Bac_Cya_Chr_4 [Bacteria Cyanobacteria Chroococcales] E-value=9e-68 Bacteria;Cyanobacteria;Chroococcales;Cyanothece; gi|218438147|ref|YP_002376476.1| phytoene desaturase [Cyanothece sp. PCC 7424] >Bac_Cya_Chr_5 [Bacteria Cyanobacteria Chroococcales] E-value=1e-64 Bacteria;Cyanobacteria;Chroococcales;Synechocystis; gi|16330439|ref|NP_441167.1| phytoene desaturase [Synechocystis sp. PCC 6803] >Bac_Cya_Osc_1 [Bacteria Cyanobacteria Oscillatoriales] E-value=3e-72 Bacteria;Cyanobacteria;Oscillatoriales; gi|497454285|ref|WP_009768483.1| phytoene desaturase [Oscillatoriales cyanobacterium JSC-12] >Bac_Cya_Osc_3 [Bacteria Cyanobacteria Oscillatoriales] E-value=1e-16 Bacteria;Cyanobacteria;Oscillatoriales;Microcoleus; gi|493682519|ref|WP_006632676.1| zeta-carotene desaturase [Microcoleus vaginatus] >Bac_Cya_Nos_1 [Bacteria Cyanobacteria Nostocales] E-value=1e-70 Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298491654|ref|YP_003721831.1| phytoene desaturase ['Nostoc azollae' 0708] >Bac_Cya_Nos_2 [Bacteria Cyanobacteria Nostocales] E-value=5e-14 Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298492908|ref|YP_003723085.1| carotene 7,8-desaturase ['Nostoc azollae' 0708] >Bac_Cya_Nos_3 [Bacteria Cyanobacteria Nostocales] E-value=2e-70 Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Anabaena; gi|414079384|ref|YP_007000808.1| phytoene desaturase [Anabaena sp. 90] >Bac_Cya_Sti_1 [Bacteria Cyanobacteria Stigonematales] E-value=2e-68 Bacteria;Cyanobacteria;Stigonematales;Fischerella; gi|497072507|ref|WP_009458406.1| 15-cis-phytoene desaturase [Fischerella] Groupe extérieur: autres bacteria non Cyanobacteria (Chloroflexi, Chlorobi, Acidobacteria, Firmicutes, Planctomycetes) >Bac_Chl_Chl_1 [Bacteria Chloroflexi Chloroflexales] E-value=3e-32 Bacteria;Chloroflexi;Chloroflexales;Chloroflexaceae;Chloroflexus; gi|163847906|ref|YP_001635950.1| carotene 7,8-desaturase [Chloroflexus aurantiacus J-10-fl] >Bac_Chl_Chl_2 [Bacteria Chlorobi Chlorobia] E-value=2e-30 Bacteria;Chlorobi;Chlorobia;Chlorobiales;Chlorobiaceae;Chlorobaculum; gi|193212415|ref|YP_001998368.1| carotene 7,8-desaturase [Chlorobaculum parvum NCIB 8327] >Bac_Aci_Can_1 [Bacteria Acidobacteria Candidatus Chloracidobacterium] E-value=2e-27 Bacteria;Acidobacteria;Candidatus Chloracidobacterium; gi|347753771|ref|YP_004861335.1| hypothetical protein [Candidatus Chloracidobacterium thermophilum B] >Bac_Fir_Bac_1 [Bacteria Firmicutes Bacillales] E-value=2e-14 Bacteria;Firmicutes;Bacillales;Bacillaceae;Bacillus; gi|407961641|dbj|BAM54881.1| zeta-carotene desaturase [Bacillus subtilis BEST7613] >Bac_Pla_Pla_1 [Bacteria Planctomycetes Planctomycetacia] E-value=2e-11 Bacteria;Planctomycetes;Planctomycetacia;Planctomycetales;Planctomycetaceae;Singulisphaera; gi|430745940|ref|YP_007205069.1|
L'objectif de cet alignement multiple est d'abord de vérifier que l'ORF en question s'intègre correctement dans la famille de ses homologues présumés: l'alignement multiple doit donc présenter des régions conservées convaincantes. D'autre part l'alignement multiple servira à inférer un arbre phylogénétique des homologues présumés (cf. ci-dessous "Arbre phylogénétique"): l'alignement doit donc suggérer suffisamment de mutations (positions informatives) pour pouvoir reconstruire l'histoire évolutive de ces protéines! Attention à ne pas inclure de séquences trop partielles qui réduisent les positions informatives.
Il est fréquent d'avoir à refaire plusieurs fois l'alignement après avoir ajouté ou retiré des séquences plus ou moins divergentes avant d'obtenir un alignement satisfaisant.
IMPORTANT: avant de procéder à l'alignement multiple, vous pouvez insérer des noms des séquences directement dans leur format FASTA afin de créer des étiquettes de séquence lisibles pour l'alignement multiple et les arbres phylogénétiques. Le nom de séquence est constitué des lettres directement après le signe > jusqu'au premier espace, à concurrence de 10 caractères maximum. Si vous avez selectionné vos séquences d'interets à partir du rapport taxonomique issu de TaxReports2 ("Chercher les séquences sélectionnées au format FASTA"), alors des noms de séquence uniques ont déjà été insérés, par exemple:
>AEMMMM1 [Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae Methanosarcina] E-value=1e-85 Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales; Methanosarcinaceae; Methanosarcina; gi|851310952|ref|WP_048174166.1| UDP-glucose 4-epimerase [Methanosarcina siciliae] MSFNLADYAELLEDLSPHSQNALQANWHEATKVFSPRGLDNYLKGAAAIRGLGKGDSLVETWIEKAPMVAKEVGEDVVGD LATASLELASRTSGTVIELLLATSAIAANRLGDAELFIKYLQFINTLIAQAPRGVRPMLDKLEVLFQHLTLGGLRRWALW GAHAHRTNYEEQIRYFSLDSKESMAMLQKERKGTLLVDVQRRINMYLRALWARDFFMRPTSGDFETREGYRPYIEDYLLH VPDAFDDFTVEGQEPVSGLELYRATAAHCAAHVVETKLPISAEALNPMQIAVISVIEDARVETLSIRRFPGLKQLWSKLH TATPEMNGSMGDYLNRLARALLDESYKDKDPWIVEARALFALAQEKLDSNLTSWDIGVQLAHSFGQKRIPFNPRTDLLTA PYRDDNRYFWEFEEFDFNKAASAGYESIKQVRKYVSVMEMANEIDVETAGDDAEEIWVLGTELFPYENIGDESGGKSFNE LEGKEPVSDPFHYSEWDYQIQLERPAWATVLEKRAKAGDLQIIEAITAQYKREIHRMKFLLDAMQPQGVQRIRRLEDGDE IDINAAISSLTDIRLGNQPDPRIMMRSVRKTRDFSILVLLDLSESTNEKVQDQEYSVRELTQQACVLLADAINKVGDPFA IHGFCSDGRHDVEYYRFKDFDQHWDETPKSRLAGMTGQLSTRMGAAIRHAGHHLQLQRSAKKLLIVITDGEPADVDVRDP QYLRYDTKKAVEEVAKLGVTTYCMSLDPRADNYVSRIFGQKNYMVVDHVQRLPEKLPLLYAGLTR
Vous noterez que ce code "AEMMMM1" est constitué des premières lettres des 5 premiers niveaux de classification taxonomique (Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae). Quelques fois il peut être pratique d'ajouter des codes pour identifier par exemple les séquences du groupe extérieur:
>exAEMMMM1 [Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae Methanosarcina] E-value=1e-85 Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales; Methanosarcinaceae; Methanosarcina; gi|851310952|ref|WP_048174166.1| UDP-glucose 4-epimerase [Methanosarcina siciliae] MSFNLADYAELLEDLSPHSQNALQANWHEATKVFSPRGLDNYLKGAAAIRGLGKGDSLVETWIEKAPMVAKEVGEDVVGD LATASLELASRTSGTVIELLLATSAIAANRLGDAELFIKYLQFINTLIAQAPRGVRPMLDKLEVLFQHLTLGGLRRWALW GAHAHRTNYEEQIRYFSLDSKESMAMLQKERKGTLLVDVQRRINMYLRALWARDFFMRPTSGDFETREGYRPYIEDYLLH VPDAFDDFTVEGQEPVSGLELYRATAAHCAAHVVETKLPISAEALNPMQIAVISVIEDARVETLSIRRFPGLKQLWSKLH TATPEMNGSMGDYLNRLARALLDESYKDKDPWIVEARALFALAQEKLDSNLTSWDIGVQLAHSFGQKRIPFNPRTDLLTA PYRDDNRYFWEFEEFDFNKAASAGYESIKQVRKYVSVMEMANEIDVETAGDDAEEIWVLGTELFPYENIGDESGGKSFNE LEGKEPVSDPFHYSEWDYQIQLERPAWATVLEKRAKAGDLQIIEAITAQYKREIHRMKFLLDAMQPQGVQRIRRLEDGDE IDINAAISSLTDIRLGNQPDPRIMMRSVRKTRDFSILVLLDLSESTNEKVQDQEYSVRELTQQACVLLADAINKVGDPFA IHGFCSDGRHDVEYYRFKDFDQHWDETPKSRLAGMTGQLSTRMGAAIRHAGHHLQLQRSAKKLLIVITDGEPADVDVRDP QYLRYDTKKAVEEVAKLGVTTYCMSLDPRADNYVSRIFGQKNYMVVDHVQRLPEKLPLLYAGLTR
Construisez les alignements multiples (séquences du groupe d'étude, du groupe extérieur et n'oubliez pas la traduction de votre ORF!) en utilisant une version Internet d'un des logiciels suivants: ClustalW (classique), MUSCLE (rapide et un peu plus efficace) ou T-COFFEE (plus lent mais très robuste et avec une visualisation en couleur des blocs conservés très utile). Ces logiciels sont disponibles sur:
La seule limite au nombre de séquences à inclure dans votre alignement multiple est liée au temps de calcul des logiciels d'alignement multiple, ainsi qu'au temps de calcul de l'arbre phylogénétique. Ce temps reste en général raisonnable jusqu'à une trentaine (voire une cinquantaine) de séquences ayant chacune une centaine de résidus.
Copiez-collez l'alignement multiple produit (au format CLUSTALW) dans le champ 'Alignement Multiple' de l'Annotathon.
Copiez-collez egalement l'alignement multiple (positions selectionnees / sites informatifs) (au format CLUSTALW) issue de Gblocks dans le champ 'Alignement Multiple' de l'Annotathon. Cet alignement Gblocks est obtenu lors la construction de votre arbre phylogenetique.
ANALYSE DES RÉSULTATS: 1. Qualité de l'alignement multiple -> il s'agit ici de confirmer que toutes les séquences sont bien homologues! -> Sont-elles toutes de longueur comparable (attention aux séquences tronquées!)? -> Toutes les séquences sélectionnées semblent-elles apparentées entre elles: chiffrez avec le nombre de positions identiques et le nombre de positions avec des substitutions conservatives! -> Nombre et répartition des INDELS -> L'ORF objet de l'étude est-il "typique" de cette famille d'homologues? Justifier! -> Existe-t-il des sous groupes dans cette grande famille d'homologues (souvent par exemple: groupe étude vs groupe extérieur)? -> Après curation par GBLOCKS: combien de positions sont suffisament conservées (=homologues) pour être exploitées pour l'inférence phylogénétique (stats GBLOCKS)? Est-ce suffisant? Si non avez-vous relaxé les paramètres de stringence de GBLOCKS? Ou de retirer les homologues trop distants ou tronqués qui dégradent la qualité de l'alignement? 2. Identification des régions conservées -> Pour ce faire, rien de mieux que d'annoter directement l'alignement multiple de GBLOCKS avec des codes "A", "B" etc. pour repérer les régions d'intéret, pour y faire ensuite référence dans vos analyses! -> Si des acides aminés (ou motifs de plusieurs acides aminés) sont connus comme étant impliqué dans des fonctions/activités de ce type de protéines (cf analyses fiches homologues SWISSPROT et domaines INTERPRO), les repérer dans l'alignement multiple (mettez des codes dans le style "->X<-")! -> Sont-il conservés chez tous les homologues, et dans l'ORF? 3. Etude des extrêmités de l'ORF 3.1 Faire une analyse explicite de la région N-terminale de l'alignement (ORF complet? Quid du codon d'initiation? Nombre d'AA manquants)? 3.2 Faire une analyse explicite de la région C-terminale de l'alignement (ORF complet? Nombre d'AA manquants)
Vous utiliserez l'alignement multiple ci-dessus pour inférer un arbre phylogénétique selon deux approches de reconstruction d'arbres:
Vous pouvez utiliser le service en ligne dédié phylogeny.fr (recommendé, inclu à la fois BioNJ & PhyML).
Consultez la Foire aux Questions pour plus de détails sur l'inférence d'arbres phylogénétiques (y compris un tutorial en images).
ATTENTION: Utilisez le site http://annotathon.org/outils/nw_utils.php pour raciner et présenter vos arbres au format "TEXTE" (en effet, les manipulations d'arbres par "TreeDyn" sur le site phylogeny.fr ne sont pas 100% fonctionelles). Vous pouvez ainsi avec cet outil contrôler la dimension (largeur) des arbres, et vous pouvez sélectionner la racine souhaitée (indiquez tout simplement une ou plusieurs noms de séquences du groupe exterieur), le tout en préservant l'affichage des valeur de supports aux noeuds des arbres!
Dans tous les cas, copiez-collez la représentation dite 'textuelle' de l'arbre proposé dans le champ 'Arbre' de l'Annotathon. Indiquez aussi dans le champ 'Arbre' la méthode et les paramètres principaux utilisés pour produire votre arbre (ex 'PhyML / http://phylogeny.fr / groupe extérieur: Coccidioides immitis (ascomycetes)').
La représentation textuelle de votre arbre doit être de la forme - notez les (groupe taxonomiques):
PROTOCOLE: a) Phylogeny.fr / méthode PhyML / Statistical tests for branch support aLRT: SH-like / default substitution model / groupe extérieur: Firmicutes b) Phylogeny.fr / méthode BioNJ / pas de bootstrap / groupe extérieur: Firmicutes --------------------------------------------------------------------------------------------------- ANALYSE DES RÉSULTATS: Important: Identifiez les branches importantes dans vos arbres avec des codes (ex "A", "B"...), puis référez-vous à ces codes dans vos analyses! Pour une visualisation encore plus aisĂ©e et percutante, vous pouvez aussi utiliser des codes couleur pour identifier les diffĂ©rentes branches importantes de vos arbres (dans ce cas pensez Ă inclure une lĂ©gende des couleurs). Pour utiliser des codes couleurs, vous devrez insĂ©rer vos arbres dans le champ 'Analyses des rĂ©sultats' au lieu de les insĂ©rer dans le champ classique 'RĂ©sultats bruts' (mais les arbres colorisĂ©s sont tellement pratiques que cette petite entorse vous est plus que pardonnĂ©e!). 1. Congruence entre les deux arbres -> Décrivez la topologie de chacun des arbres: quels différents groupes monophylétiques observez-vous? -> Est-ce que les deux arbres racontent la même histoire évolutive? -> Identifiez les points communs, ainsi que les incohérences éventuelles. 2. Cohérence avec la phylogénie des espèces de référence -> Les groupes d'étude et extérieurs sont-ils bien séparés? -> vos arbres phylogénétiques de gènes sont-ils cohérents avec les arbres des espèces ("arbre de la vie")? -> repérez tout écart avec la phylogénie de référence, et proposez des hypothèses (HGT, duplication de gènes...)
3. Prédiction de l'origine taxonomique de l'ORF -> Dans quelle groupe monophylétique semble émerger la séquence métagénomique? -> faites une hypothèse: groupe taxonomique d'appartenance le plus probable de l'ORF? -> Argumentez! Attention de ne pas sur/sous interpréter les arbres obtenus!...
RÉSULTATS BRUTS:
a)PhyML
,--------------+ BARSPP1 Bacteria Actinobacteria Rubrobacteridae Solirubrobactera ,-------+ 0.92 | '--------------------+ BAAAPP1 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | ,-------------+ BAAACN1 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | ,----+ 0.87 ,-------+ BAAAMI1 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | '----------------+ 0.99 |,----+ 0.85 '------+ BAAACN2 Bacteria Actinobacteria Actinobacteridae Actinomycetales || | || '-----------------+ BAAASS1 Bacteria Actinobacteria Actinobacteridae Actinomycetales || || ,-----+ BAAAPP14 Bacteria Actinobacteria Actinobacteridae Actinomycetale || ,---+ 0.52 ,--+|0.69 ,-----------+ 0.97------------+ BAAAPP8 Bacteria Actinobacteria Actinobacteridae Actinomycetales | || | | | || ,---------+ 0.98 '--------+ BAAAPP10 Bacteria Actinobacteria Actinobacteridae Actinomycetale | || | | | || | '---------+ BAAAPP2 Bacteria Actinobacteria Actinobacteridae Actinomycetales | || ,-----+ 0.9 | || | | ,------------------+ BAAAPP13 Bacteria Actinobacteria Actinobacteridae Actinomycetale | || | | | | || ,---+ 0.81'-----+ 0.83 ,----------------+ BAAAPP4 Bacteria Actinobacteria Actinobacteridae Actinomycetales | || | | '----------+ 0.92 | || | | '-------------+ BAAAPP3 Bacteria Actinobacteria Actinobacteridae Actinomycetales | || | | | || ,---+ 0.74-------------------------+ BAAAPN1 Bacteria Actinobacteria Actinobacteridae Actinomycetales | || | | | '+ 0.55 | | ,----------------------+ BAAAMM3 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | | | | '---+ 0.82 ,-------+ BAAAPP7 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | ,--------+ 0.9 | | | '-------+ 0.89 '---+ BAAAPP5 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | | | '------------------------+ BAAAMM4 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | ,----+ 0.82 ,---------------------+ BAAASS2 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | | | | | ,---+ 0.23 ,----------+ BAAAMI3 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | '----------+ 0.94 | | | | | '----+ BAAAMI2 Bacteria Actinobacteria Actinobacteridae Actinomycetales ,---+ 0.76 | | | | | | | | | ,+ BAAAMM2 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | | ,---------------+ 1 | | | | | | | ' BAAAMM1 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | '----+ 0.83 | | | | | | ,------------------+ BAAAPP9 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | ,--+ 0.71 | | | '---+ 0.81 | | | ,----+ 0.88----------+ BAAAPP6 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | | | | | | | | | | | | '-+ 0.39----------+ BAAAPP11 Bacteria Actinobacteria Actinobacteridae Actinomycetale | | | | | '-+ 0.7 '--+ 0.076 | | | '-+ 0.35 '-----------------------+ BAAAAA2 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | | | | | '------------------------+ BAAAPP12 Bacteria Actinobacteria Actinobacteridae Actinomycetale | | | | | | | | ,--------------+ BAAAFG1 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | '----+ 0.52 ,--------+ 0.83 D | '---------+ BAAAST1 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | | | '---------------------------------+ BAAACN3 Bacteria Actinobacteria Actinobacteridae Actinomycetales | | | | | | ,-------------+ BAA1 Bacteria Actinobacteria Acidimicrobidae E-value3e-75 Bacte | | | ,------+ 0.2 J | | | | '------------------------+ BA3 Bacteria Actinobacteria E-value1e-68 Bacteria Actinobacteri | | | ,------+ 0.82 | | | | | ,-------+ BA2 Bacteria Actinobacteria E-value7e-82 Bacteria Actinobacteri | | | | '------+ 0.84 I ,----------+ 0.83 C | '-----+ 0.88 '-----------------+ BAC1 Bacteria Actinobacteria Candidatus Microthrix E-value4e-74 | | | | | | | | ,----+ BA1 Bacteria Actinobacteria E-value5e-101 Bacteria Actinobacter | | | '-------+ 0.94 E | | | '-+ ORF7 Translation of ORF number 2 in reading frame 3 on the rever | | | ,---------------------+ 1 B | | ,------------------+ exBCCCCC1 Bacteria Chloroflexi Caldilineae Caldilineales Caldili | | | '-----------+ 0.91 | | | '------------------------------------------+ exBFLSS1 Bacteria Firmicutes Lactobacillales Streptococcaceae St | | | | | '-----------------------------+ exBCNSS1 Bacteria Cyanobacteria Nostocales Scytonemataceae Scyto | | | '------------------------+ exBCPPP1 Bacteria Cyanobacteria Prochlorales Prochlorococcaceae | | ,-------------------------------------------------------------+ exBFBBA1 Bacteria Firmicutes Bacillales Bacillaceae Anoxybacillu | ,--------+ 0.77 | ,------+ 0.49 '------------------------------+ exBFBPV1 Bacteria Firmicutes Bacillales Planococcaceae Viridibac | | | | | '---------------------------------------------+ exBFCCPD2 Bacteria Firmicutes Clostridia Clostridiales Peptococc | | =+ A | ,-----------------------+ exBFCCPD1 Bacteria Firmicutes Clostridia Clostridiales Peptococc | | | | | ,-------------+ 0.68 ,+ exBFBPAA2 Bacteria Firmicutes Bacillales Paenibacillaceae Aneuri | ,--------+ 0.75 '------------------------------------+ 1 | | | | '------+ exBFBPAA1 Bacteria Firmicutes Bacillales Paenibacillaceae Aneuri | | | | | | | ,+ 0 ,--------------+ exBFBPS1 Bacteria Firmicutes Bacillales Planococcaceae Sporosarc | | | || ,----------+ 0.85 | | | || ,-------+ 0.72 '--------------------+ exBFBBV1 Bacteria Firmicutes Bacillales Bacillaceae Virgibacillu | | | || | | | | '--+'0.69-------------+ 0.9 '-------------+ exBFBBC1 Bacteria Firmicutes Bacillales Bacillaceae Caldalkaliba | | | | | | | '------------------------+ exBFBBP1 Bacteria Firmicutes Bacillales Bacillaceae Pontibacillu | | | '-------------------------+ 1 '-------------------------------------+ exBFCC1 Bacteria Firmicutes Clostridia Clostridiales E-value7e- | | ,---------------+ exBFBPU1 Bacteria Firmicutes Bacillales Planococcaceae Ureibacil | ,--+ 0.54 | | '-------------------+ exBFBPS2 Bacteria Firmicutes Bacillales Planococcaceae Solibacil | ,----------------+ 0.96 | | | , exBFBBL2 Bacteria Firmicutes Bacillales Bacillaceae Lysinibacill | | '----------+ 0.91 | ,--------------+ 0.88 '----+ exBFBBL1 Bacteria Firmicutes Bacillales Bacillaceae Lysinibacill | | | '------+ 0.78 '--------------------------------------+ exBFBPK1 Bacteria Firmicutes Bacillales Planococcaceae Kurthia E | | , exBFCC2 Bacteria Firmicutes Clostridia Clostridiales E-value8e- '-------------------------------+ 0.99 '-+ exBFCCCP1 Bacteria Firmicutes Clostridia Clostridiales Clostridi |--------------------------|---------------------------|--------------------------|---------------------------|--- 0 0.25 0.5 0.75 1 substitutions/site
b) BioNJ [...]
Après analyse de votre arbre phylogénétique, spécifiez le groupe taxonomique le plus proche (par exemple "Alphaproteobacteria") dont semble être issu l'organisme qui porte votre fragment d'ADN. Pour ce faire deux solutions:
Après l'enregistrement de vos annotations, vérifiez que celui des deux champs que vous n'avez pas renseigné s'est bien automatiquement rempli; par exemple si vous avez choisi d'indiquer "Alphaproteobacteria" dans le champ "Nom scientifique", après enregistrement vous devez voir s'afficher automatiquement le code "28211" dans le champ "identifiant numérique NCBI" (et inversement).
Notez que le champ "identifiant numérique NCBI" a précédence sur le champ "Nom scientifique"; donc si vous souhaitez changer d'organisme, il faut effacer le code numérique dans le champ "identifiant numérique NCBI" quand vous souhaitez modifier le contenu du champ "Nom scientifique"!
Quand la taxonomie est correctement spécifiée, s'affiche alors son linéage:
Rhodobacterales Rank: order - Genetic Code: Bacterial and Plant Plastid - NCBI Identifier: 204455 Kingdom: Bacteria - Phylum: Proteobacteria - Class: Alphaproteobacteria - Order: Rhodobacterales Bacteria; Proteobacteria; Alphaproteobacteria; Rhodobacterales;
IMPORTANT: à moins que votre fragment de séquence soit 100% identique à une séquence présente dans GENBANK, ne spécifiez pas un nom d'espèce précis. Puisque l'origine exacte de ce fragment est essentiellement inconnue, spécifiez plutôt le groupe taxonomique du noeud immédiatement au dessus de votre ORF dans l'arbre phylogénétique.
Lorsque vos analyses in silico (BLAST, INTERPRO) le permettent, choisissez dans les menus déroulants les termes les plus appropriés et décrivant le plus spécifiquement possible votre ORF. Ces termes font partie d'une liste exhaustive et hierarchique de termes permettant de décrire toutes les activités cellulaires: il s'agit de la "Gene Ontology", souvent cités comme les annotations GO.
Ces annotations GO étant fréquemment assignées aux gènes connus dans les banques de données publiques telles que SWISSPROT ou INTERPRO, n'hésitez pas à vous en inspirer des annotations GO des homologues de vos ORFs ou de ses domaines conservés pour choisir les termes GO les plus appropriés.
Ce champ sera central à votre évaluation: synthétisez dans ce champ vos interprétations et hypothèses bâties sur la base des observations faites dans les rubriques précedentes "ANALYSE DES RÉSULTATS". Imaginez que vous vous adressez à un jury a priori sceptique qu'il faut convaincre! Argumentez, faites référence aux résultats obtenus, chiffrez vos affirmations, croisez les indices, soyez attentif à votre vocabulaire; les analyses bioinformatiques ne peuvent rien démontrer, donc attention aux formules du type "La séquence GOS_12345 provient d'une alphaprotéobactérie de type XYZ". Séparez les faits, vos observations et vos hypothèses ("probablement", "suggère", "putatif")...
Vérifiez que vous avez au moins couvert:
Ce qu'il ne faut pas faire:
Produisez avant tout un argumentaire scientifique, synthétique, complet, rigoureux, chiffré, structuré et implaccable.
Due to lack of manpower, we are no longer able to offer evaluations of annotations outside of specific university teams!