Difference between revisions of "Annotathon: foire aux questions"

From Metagenes
(Quelle séquence génomique analyser?)
(Traduction: comment repérer les ORF?)
Line 5: Line 5:
  
 
== Traduction: comment repérer les ORF? ==
 
== Traduction: comment repérer les ORF? ==
 
+
[[Image:Annotathon_traduc.png|thumb|599px|right|Recherche d'ORF]]
 
# Si la région génomique ne contient aucun ORF (avec les critères arbitraires définis ici:ORF > 60 aa en particulier) => CONCLURE NON CODANT (et cocher la case située juste sous la recherche d'ORF)
 
# Si la région génomique ne contient aucun ORF (avec les critères arbitraires définis ici:ORF > 60 aa en particulier) => CONCLURE NON CODANT (et cocher la case située juste sous la recherche d'ORF)
 
# Si la région génomique contient des ORF => ANALYSER LA PLUS LONGUE (CRITERE 100% ARBITRAIRE). Ensuite on peut aboutir à deux cas de figures suite à l'analyse de l'ORF la + longue :
 
# Si la région génomique contient des ORF => ANALYSER LA PLUS LONGUE (CRITERE 100% ARBITRAIRE). Ensuite on peut aboutir à deux cas de figures suite à l'analyse de l'ORF la + longue :
Line 19: Line 19:
  
 
Si vous utlisez SMS/ORFinder pour rechercher les ORF, pensez à faire l'analyse dans les cadres '''1, 2 & 3''' dans le sens '''direct''' puis '''indirect''' pour couvrir les 6 cadres possibles!
 
Si vous utlisez SMS/ORFinder pour rechercher les ORF, pensez à faire l'analyse dans les cadres '''1, 2 & 3''' dans le sens '''direct''' puis '''indirect''' pour couvrir les 6 cadres possibles!
 
[[Image:Annotathon_traduc.png|thumb|600px|center|Recherche d'ORF]]
 
  
 
== L'ORF présente-t-elle des domaines protéiques conservés? ==
 
== L'ORF présente-t-elle des domaines protéiques conservés? ==

Revision as of 21:42, 9 January 2009

Vous trouverez ici les protocoles détaillés des analyses bioinformatiques nécessaires pour l'Annotathon. Pour l'utilisation technique de l'Annotathon (création de compte, gestion du panier etc.) veuillez consulter le Manuel de l'Utilisateur. Enfin notez que ceci est un Wiki, donc tout le monde est invité à contribuer à cette documentation!


Traduction: comment repérer les ORF?

Recherche d'ORF
  1. Si la région génomique ne contient aucun ORF (avec les critères arbitraires définis ici:ORF > 60 aa en particulier) => CONCLURE NON CODANT (et cocher la case située juste sous la recherche d'ORF)
  2. Si la région génomique contient des ORF => ANALYSER LA PLUS LONGUE (CRITERE 100% ARBITRAIRE). Ensuite on peut aboutir à deux cas de figures suite à l'analyse de l'ORF la + longue :
    • l'analyse de l'ORF LA PLUS LONGUE ne donne aucune similarité & aucun domaine... => Discuter si cet ORF est codant ou non (en tenant compte de la longueur de l'orf par exemple...) et cochez selon votre argumentation CODANT (par exemple si l'ORF fait quelques centaines d'AA) ou NON-CODANT. MAIS NE PAS ANALYSER LES AUTRES ORF PLUS COURTS POTENTIELLEMENT PRESENTS sur le fragment d'ADN génomique
    • l'analyse de l'ORF LA PLUS LONGUE donne des résultats lors des recherches par similarité, par domaine... => conclure que l'ORF est codant (cochez CODANT et entrez les coordonnées de début et de fin de l'ORF dans l'Annotathon) et poursuivre les analyses (phylogénie etc.)
Dans tous les cas, avant de conclure qu'un fragment de séquence génomique est non-codant
il est conseillé d'effectuer un BLASTx de la séquence nucléotidique contre NR!

Pour ce qui est du type des codons d'initiation, commencez par une approche dite gourmande, c'est à dire celle qui produira les ORF les plus grands possibles: donc any codon sur SMS/ORFinder. Si par la suite votre alignement multiple semble suggérer que tous les homologues commencent plus en aval alignés sur une Methionine interne de votre première proposition d'ORF, il est nécessaire de revoir la position de début de votre ORF pour la faire coincider avec ce qui est connu chez les protéines homologues.

Quant au choix du code génétique, réfléchissez sur le code génétique le plus probable vu l'environnement que vous analysez: est-il pertinent de choisir le code vertebrate mitochondiral...

Si vous utlisez SMS/ORFinder pour rechercher les ORF, pensez à faire l'analyse dans les cadres 1, 2 & 3 dans le sens direct puis indirect pour couvrir les 6 cadres possibles!

L'ORF présente-t-elle des domaines protéiques conservés?

Les domaines protéiques sont essentiels pour attribuer une fonction à une protéine inconnue. Si vous arrivez à indentifier un domaine protéique connu dans votre séquence, il est probable que vous seez en mesure de lui associer une fonction biochimique.

Commencez votre recherche de domaines sur le site InterproScan: il permet d'interroger la base InterPro, qui fédère un grand nombre de banques de données sur les domaines protéiques.

Page d'accueil d'InterProScan

Après avoir cliqué sur "Submit Job", vous obtenez une page de résultats similaires à celle-ci:

extrait de la page de résultats

Vous obtenez une liste de domaines InterPro identifiés dans votre séquence. Attention aux points suivant:

  • un domaine InterPro (p.ex. IPR000165) correspond à un ou plusieurs domaines issus d'autres banques de données (ici PR00736 issu de PRINTS et PS00820 issu de PROSITE); nous vous demandons d'indiquer le numéro d'accession InterPro (ici IPR000165)
  • tous les domaines InterPro listé dans cette page ne sont pas forcément indépendants: des domaines peuvent être contenus les uns dans les autres, ou peuvent avoir des relations parent/enfant; pour trouver ces informations supplémentaires, cliquez sur "Table View" en haut de la page de résultats, pour obtenir les résultats sous cette forme
  • cliquez sur le bouton "Raw output" pour avoir les résultats bruts complets au format "texte" simple, que vous copiez-collez ensuite in extenso dans le champs "Domaines: Résultats bruts" de l'Annotathon.
Table View des résultats précédents

On voit sous la rubrique "Children" ou "contains" ou "found in" la liste des domaines InterPro reliés au domaine en question; Règle: ne listez dans le formulaire de résultat que le domaine le plus général, i.e. celui englobe les autres. Dans cet exemple, le premier domaine (IPR000165) a comme "enfant" le domaines IPR008291 (4ème dans la liste des résultats); dans ce cas, vous n'indiquez que IPR000165, et non pas IPR008291.

Vous trouvez également sur cette vue les coordonnées de début de et fin des domaines; pour le domaine IPR000165, indiquées les coordonnées extrémales du domaine PROSITE, et non pas les coordonnées de tous les petits fragments PRINTS !

Domaines protéiques conservés

Dans cette fiche apparaissent aussi des indications sur la fonction liée à ces domaines; utilisez ces informations pour attribuer une focntions biologiques (biological process ou molecular function).

Existe-t-il des protéines similaires (homologues) à mon ORF?

Recherchez d'éventuels protéines similaires à votre ORF (protéines homologues) en effectuant des BLASTs sur le site du NCBI (ou de l'EBI si le NCBI est trop lent). Les types de BLAST les plus usuels sont:

  • BLASTp contre SWISSPROT (trouver des homolgues ayant des fiches bien annotées)
  • BLASTp contre NR (trouver toutes les séquences similaires connues, par ex pour faire une études phylgénétique)
  • BLASTx contre NR (traduit directement votre séquence génomique dans les SIX phases; uniquement si vous n'avez aucun résultat avec les BLAST ci-dessus ou si vous n'avez pas trouvé d'ORF)

Vous commencerez toute recherche BLAST en renseignant le formulaire (Fig. B1) avec au minimum:

  • la séquence requête (Query) avec un copié/collé de la séquence protéique de l'ORF pour les BLASTp et séquence ADN pour les BLASTn ou BLASTx
  • la banque de données dans laquelle rechercher les homologues à la séquence requête
Figure B1: Formulaire BLAST au NCBI

Après avoir soumis le recherche, attendez que la page d'intermède (Fig. B2) se rafraichisse et soit finalement soit remplacée par la page de résultats. Cet page intermède comporte quelque fois un diagramme coloré si des domaines protéiques conservés sont détectés dans votre séquence requête (ici un domaine 'ubiquitin'), mais il ne s'agit en aucun cas du résultat BLAST!

Figure B2: intermède 'analyse en cours' du BLAST au NCBI

Vous reporterez obligatoirement dans l'Annotathon (Fig. B6):

  • une entête résumant quelle analyse a été effectuée (ex: BLASTp de l'ORF de 231 AA contre SWISSPROT)
  • la totalité du résumé des similarités détectées (Fig. B4)
  • les 10 premiers alignements 2 à 2 (Fig. B5)
  • le rapport taxonomique (la première partie Lineage Report Fig B7)
Figure B3: entête des résultats BLAST
Figure B3: graphique synoptique des résultats BLAST au NCBI
Figure B4: liste des séquences détectées par le BLAST
Figure B5: alignements 2 à 2 des résultats BLAST
Figure B6: Annotathon: Les résultats BLAST
Figure B7: Rapport taxonomique du BLAST au NCBI (Lineage report)

Si vous faites plusieurs BLAST (par exemple un contre SP et un contre NR), mettez-les les uns à la suite des autres dans le champ BLAST de l'Annotathon en les séparant par exemple par une ligne de tirets (----------------)

Comment reconstruire un arbre phylogénétique?

Avant d'aller plus loin, consultez ABSOLUMENT le Fileicon-pdf.png guide de sélection des groupes d'études et extérieurs Info_circle.png pour la reconstruction d'arbre phylogénétiques! Ce guide donne aussi de précieux conseils sur l'interprétation des arbres obtenus.

Muni de votre alignement produit par ClustalW (ou de votre jeu de séquences au format FASTA si vous voulez utiliser phylogeny.fr pour également construire votre alignement multiple), rendez-vous sur le serveur http://www.phylogeny.fr/index_v1.html pour construire l'arbre phylogénétique. Vous trouverez ci-dessous un tutorial par l'image de cet outil en ligne (si vous avez déjà fait votre alignement multiple à l'EBI, ne cochez pas la case "Multiple alignment et copiez collez votre alignement à la place du jeu de séquence au format FASTA tel que présenté dans le tutorial):

Serveur www.phylogeny.fr
Serveur www.phylogeny.fr
Serveur www.phylogeny.fr
Serveur www.phylogeny.fr

L'alignement au format "MUSCLE" obtenu en cliquant sur le lien "sequence.aln":

MUSCLE (3.6) multiple sequence alignment

Coprinopsis_cinerea[basidiomycet      ------MSRGVLLEALARNRQPKVITFDAYNCLFSTRLPVAEQYSAVGRRHGVDVAPSVL
Cryptococcus_neoformans[basidiom      -MVPVRIPREVLKNGSLQHSRPKIITFDAYNTLYSIKKPVMEQYCIVGAKYGINGNPQEL
ORF_JG1235460                         ------------------------------------------------------------
Saccharomyces_cerevisiae[ascomyc      MTYPKRIPINAW-SEVHRVARPLIITFDAYNTLYATKLPVMEQYCIVGRKYGIKANPSTL
Candida_glabrata[ascomycetes]         MVFPKKIPIQNW-NSKISLRTPKLITFDAYNTLYATVLPVMEQYSNVASIYGVKVDPQEL
Ashbya_gossypii[ascomycetes]          MIFPKKIPIRNW-NSKISLRTPKLITFDAYNTLYATVLPVMEQYSNVASIYGVKVDPQEL
                                                                                                  

Coprinopsis_cinerea[basidiomycet      AARFPAGMLFRETSARHPDYGKYTGLSVQGWWTLVIQRLFKPAEVGEKMVAEILQRFQGH
Cryptococcus_neoformans[basidiom      TKRFPG--VFSNIRKKYPLYGKNSGITAEQWWEYLIRDMFEPIQIPNEMVEEILERFEGD
ORF_JG1235460                         ------------------------------------------------MVDEILHVFEGF
Saccharomyces_cerevisiae[ascomyc      TNNFPH--VFKKLKEDYPQYGKYSGIKPEQWWSILIRNVFAPNEIPDEMINEILMRFEGF
Candida_glabrata[ascomycetes]         SANFPS--VYSKLKLEHPNYGKNTGISAKQWWQIMITEVFKPIKLSDDVVEAILDRFGSC
Ashbya_gossypii[ascomycetes]          SANFPS--VYSKLKLEHPNYGKYTGISAKQWWQIMITEVFKPIKLSDDVVEAILDRFGSC
                                                                                      ::  **  * . 

Coprinopsis_cinerea[basidiomycet      GAYKVFPDALWLLEELRVRRPEVVVGVLSNSDPTMRQVLLNLGLGSYFTDAIYLSYDLGA
Cryptococcus_neoformans[basidiom      AAYTVYPDVREFLETMRRNHPEVSLGIVSNTDPIVLTLLENLDLKKYFDGNIYLSYDLEI
ORF_JG1235460                         GAYTVYPDLLELLELIQQEHSEVVLGVVSNTDPIMYKLLENIGLKPYFKNHVYLSYDLEL
Saccharomyces_cerevisiae[ascomyc      DSYFVYPDLIKFLKDLKSRHPDVILGIVSNTDPIFYKLLKNIGLFETFSGHIYLSYELNL
Candida_glabrata[ascomycetes]         EAFFVYPDLIALLKGIRQKYPDVIFGVISNADPYAGDVIKSFGLDKYFDGNIYLSYDVGF
Ashbya_gossypii[ascomycetes]          EAFFVYPDLIALLKGIRQKYPDVVFGVISNADPYAGDVIKSFGLKKYFDGNIYLSYDVIF
                                       :: *:**   :*: :.   .:* .*::**:**    :: .:.*   * . :****::  

Coprinopsis_cinerea[basidiomycet      KKPERRAFDAALERILERNPQLLGDLGAEELRAACWHVGDEKSADLCGATGAGWNGILVD
Cryptococcus_neoformans[basidiom      KKPDPAMFNYAVSHMLKRHNTSGQRENLENIRPHVWHVGDEEKTDLGGAFQAGVNGILVD
ORF_JG1235460                         SKPDPVFFEAVLHDVVKQHPELLKNSTLEELKTDCWHVGDEENNDLNCPASAGWNAVLLD
Saccharomyces_cerevisiae[ascomyc      AKPDRAIFQYALDDIISKQPHLLEKYTREEILQHCFHIGDELKNDLEGAEAAGWTGILLD
Candida_glabrata[ascomycetes]         SKPDQKIYEYALDDILNRFPDLIKNCSKEEFKQFCWHIGDEKINDMEGPAKTGLVGILID
Ashbya_gossypii[ascomycetes]          SKPDQKIYEYALDDPLNRFPDLIKNCSKEEFKQFCWGIGDEKINDMEGPAKTGLVGILID
                                       **:   :: .:   :..          *::    : :***   *:  .  :*  .:*:*

Coprinopsis_cinerea[basidiomycet      RQDIYGQLG----------------------------------QGSAVALGLNQFVVPDF
Cryptococcus_neoformans[basidiom      RSNSFGYFDITTPDVCKKELSEDDLSLRKVLHHSEVILQESDAVTDVVQLNSRQYVLPNF
ORF_JG1235460                         RMNKYNHFSESFERAQR---SLHQLYTDKIDNDSGKSWQLSMKQVDAIQLSERRFVISNF
Saccharomyces_cerevisiae[ascomyc      RNDKYGFLSNSISKPMR---DEYKLSIDKIDNNSINTWEANTKQTDTLQLSERKYVVSNL
Candida_glabrata[ascomycetes]         RVNKYGYFDGSFAD------IKHDLDMHKIDNNSLESWEIGIKQTDTFQVSDREYVISNL
Ashbya_gossypii[ascomycetes]          RVNKYGYTDGSFAD------IKHDLDMHKIDNNSLESWEIYIKQTDTFQISDREYVISN-
                                      * : :.  .                                    ... :. . :*:.: 

Coprinopsis_cinerea[basidiomycet      YTVGKLFGLAYNI-----
Cryptococcus_neoformans[basidiom      KSLEALLFQQ--------
ORF_JG1235460                         RTLSQLLFPSTSNGPSSN
Saccharomyces_cerevisiae[ascomyc      EVLEELFP----------
Candida_glabrata[ascomycetes]         RTLATILDVQVNE-----
Ashbya_gossypii[ascomycetes]          ---ATILDVQVND-----

 ::


Serveur www.phylogeny.fr
Serveur www.phylogeny.fr

L'arbre phylogénétique au format "texte":

                     +------------------Coprinopsis_cinerea[basidiomycetes]     
                   +-2 
                 +-3 +-----------ORF_JG1235460     
                 ! ! 
  +--------------4 +---------------Cryptococcus_neoformans[basidiomycetes]     
  !              ! 
  !              +-----------Saccharomyces_cerevisiae[ascomycetes]     
  ! 
  1Candida_glabrata[ascomycetes]     
  ! 
  +Ashbya_gossypii[ascomycetes]     


Vous copierez l'alignement multiple et l'arbre phylogéntique obtenus dans les champs appropriés de l'Annotathon:

Analyse phylogénétique: spéciations & duplications

Qu'est-ce que l'on met en conclusion?

Après avoir collecté et reporté tous les résultats décrits ci-dessus, rédigez une synthèse de vos hypothèses. Cette conclusion n'est pas chronologique; elle est justement l'occasion de croiser les informations et indices obtenus par différentes méthodes pour formuler des hypothèses argumentées!

Vous argumenterez vos hypothèses selon les trois axes suivants:

  • nature codante ou non du fragment d'ADN, délimitation de l'ORF le cas échéant
  • fonction putative du produit de l'ORF
  • classification taxonomique probable de l'organisme portant ce fragment d'ADN!

A quoi sert le bloc Note?

Le Bloc Note est un champ d'annotation libre; utilisez-le pour archiver vos résultats intermédiaires, vos listes de séquences au format FASTA (avec les noms de séquence retravaillés),vos variantes d'arbres etc.

Bloc Note: le fourre-tout