Annotathon: foire aux questions

From Metagenes
Jump to: navigation, search

Vous trouverez ici les protocoles détaillés des analyses bioinformatiques nécessaires pour l'Annotathon. Pour l'utilisation technique de l'Annotathon (création de compte, gestion du panier etc.) veuillez consulter le Manuel de l'Utilisateur. Enfin notez que ceci est un Wiki, donc tout le monde est invité à contribuer à cette documentation!

Contents


Traduction: comment repérer les ORF?

(thumbnail)
Recherche d'ORF
  1. Si la région génomique ne contient aucun ORF (avec les critères arbitraires définis ici:ORF > 60 aa en particulier) => CONCLURE NON CODANT (et cocher la case située juste sous la recherche d'ORF). Dans tous les cas, avant de conclure qu'un fragment de séquence génomique est non-codant, il est conseillé d'effectuer un BLASTx de la séquence nucléotidique contre NR!
  2. Si la région génomique contient des ORF => ANALYSER LA PLUS LONGUE (CRITERE 100% ARBITRAIRE). Ensuite on peut aboutir à deux cas de figures suite à l'analyse de l'ORF la + longue :
    • l'analyse de l'ORF LA PLUS LONGUE ne donne aucune similarité & aucun domaine... => Discuter si cet ORF est codant ou non (en tenant compte de la longueur de l'orf par exemple...) et cochez selon votre argumentation CODANT (par exemple si l'ORF fait quelques centaines d'AA) ou NON-CODANT. MAIS NE PAS ANALYSER LES AUTRES ORF PLUS COURTS POTENTIELLEMENT PRESENTS sur le fragment d'ADN génomique
    • l'analyse de l'ORF LA PLUS LONGUE donne des résultats lors des recherches par similarité, par domaine... => conclure que l'ORF est codant (cochez CODANT et entrez les coordonnées de début et de fin de l'ORF dans l'Annotathon) et poursuivre les analyses (phylogénie etc.)


Pour ce qui est du type des codons d'initiation, commencez par une approche dite gourmande, c'est à dire celle qui produira les ORF les plus grands possibles: donc any codon sur SMS/ORFinder. Si par la suite votre alignement multiple semble suggérer que tous les homologues commencent plus en aval alignés sur une Methionine interne de votre première proposition d'ORF, il est nécessaire de revoir la position de début de votre ORF pour la faire coincider avec ce qui est connu chez les protéines homologues.

Quant au choix du code génétique, réfléchissez sur le code génétique le plus probable vu l'environnement que vous analysez: est-il pertinent de choisir le code vertebrate mitochondiral...

Si vous utlisez SMS/ORFinder pour rechercher les ORF, pensez à faire l'analyse dans les cadres 1, 2 & 3 dans le sens direct puis indirect pour couvrir les 6 cadres possibles!

L'ORF présente-t-elle des domaines protéiques conservés?

Les domaines protéiques sont essentiels pour attribuer une fonction à une protéine inconnue. Si vous arrivez à indentifier un domaine protéique connu dans votre séquence, il est probable que vous seez en mesure de lui associer une fonction biochimique.

Commencez votre recherche de domaines sur le site InterproScan: il permet d'interroger la base InterPro, qui fédère un grand nombre de banques de données sur les domaines protéiques.

(thumbnail)
Page d'accueil d'InterProScan

Après avoir cliqué sur "Submit Job", vous obtenez une page de résultats similaires à celle-ci:

(thumbnail)
extrait de la page de résultats

Vous obtenez une liste de domaines InterPro identifiés dans votre séquence. Attention aux points suivant:

  • un domaine InterPro (p.ex. IPR000165) correspond à un ou plusieurs domaines issus d'autres banques de données (ici PR00736 issu de PRINTS et PS00820 issu de PROSITE); nous vous demandons d'indiquer le numéro d'accession InterPro (ici IPR000165)
  • tous les domaines InterPro listé dans cette page ne sont pas forcément indépendants: des domaines peuvent être contenus les uns dans les autres, ou peuvent avoir des relations parent/enfant; pour trouver ces informations supplémentaires, cliquez sur "Table View" en haut de la page de résultats, pour obtenir les résultats sous cette forme
  • cliquez sur le bouton "Raw output" pour avoir les résultats bruts complets au format "texte" simple, que vous copiez-collez ensuite in extenso dans le champs "Domaines: Résultats bruts" de l'Annotathon.
(thumbnail)
Table View des résultats précédents

On voit sous la rubrique "Children" ou "contains" ou "found in" la liste des domaines InterPro reliés au domaine en question; Règle: ne listez dans le formulaire de résultat que le domaine le plus général, i.e. celui englobe les autres. Dans cet exemple, le premier domaine (IPR000165) a comme "enfant" le domaines IPR008291 (4ème dans la liste des résultats); dans ce cas, vous n'indiquez que IPR000165, et non pas IPR008291.

Vous trouvez également sur cette vue les coordonnées de début de et fin des domaines; pour le domaine IPR000165, indiquées les coordonnées extrémales du domaine PROSITE, et non pas les coordonnées de tous les petits fragments PRINTS !

Dans cette fiche apparaissent aussi des indications sur la fonction liée à ces domaines; utilisez ces informations pour attribuer une focntions biologiques (biological process ou molecular function).

(thumbnail)
Domaines protéiques conservés

Existe-t-il des protéines similaires (homologues) à mon ORF?

(thumbnail)
Figure B1: Formulaire BLAST au NCBI

Recherchez d'éventuels protéines similaires à votre ORF (protéines homologues) en effectuant des BLASTs sur le site du NCBI (ou de l'EBI si le NCBI est trop lent). Les types de BLAST les plus usuels sont:

  • BLASTp contre SWISSPROT (trouver des homolgues ayant des fiches bien annotées)
  • BLASTp contre NR (trouver toutes les séquences similaires connues, par ex pour faire une études phylgénétique)
  • BLASTx contre NR (traduit directement votre séquence génomique dans les SIX phases; uniquement si vous n'avez aucun résultat avec les BLAST ci-dessus ou si vous n'avez pas trouvé d'ORF)

Vous commencerez toute recherche BLAST en renseignant le formulaire (Fig. B1) avec au minimum:

  • la séquence requête (Query) avec un copié/collé de la séquence protéique de l'ORF pour les BLASTp et séquence ADN pour les BLASTn ou BLASTx
  • la banque de données dans laquelle rechercher les homologues à la séquence requête
  • sélectionnez une plus grande valeur pour Max target sequences, par exemple 500 afin d'obtenir un panorama plus large d'homologues potentiels. Si saurez qu'il faut choisir une plus grande valeur de Max target sequences quand vos derniers "hits" BLAST n'atteignent pas le limite haute fixée pour le E-value (=10 par défaut).


(thumbnail)
Figure B2: intermède 'analyse en cours' du BLAST au NCBI

Après avoir soumis le recherche, attendez que la page d'intermède (Fig. B2) se rafraichisse et soit finalement soit remplacée par la page de résultats. Cet page intermède comporte quelque fois un diagramme coloré si des domaines protéiques conservés sont détectés dans votre séquence requête (ici un domaine 'ubiquitin'), mais il ne s'agit en aucun cas du résultat BLAST!


(thumbnail)
Figure B3: entête des résultats BLAST

Entête des résultats BLAST



(thumbnail)
Figure B3: graphique synoptique des résultats BLAST au NCBI

Graphique synoptique des résultats BLAST au NCBI


(thumbnail)
Figure B4: liste des séquences détectées par le BLAST

Liste des séquences détectées par le BLAST


(thumbnail)
Figure B5: alignements 2 à 2 des résultats BLAST

Alignements 2 à 2 des résultats BLAST


(thumbnail)
Figure B6: Annotathon: Les résultats BLAST

Vous reporterez obligatoirement dans l'Annotathon (Fig. B6):

  • une entête résumant quelle analyse a été effectuée (ex: BLASTp de l'ORF de 231 AA contre SWISSPROT)
  • la totalité du résumé des similarités détectées (Fig. B4)
  • les 10 premiers alignements 2 à 2 (Fig. B5)
  • le rapport taxonomique (la première partie Lineage Report Fig B7)


(thumbnail)
Figure B7: Rapport taxonomique du BLAST au NCBI (Lineage report)

Rapport taxonomique du BLAST au NCBI (Lineage report)

Si vous faites plusieurs BLAST (par exemple un contre SP et un contre NR), mettez-les les uns à la suite des autres dans le champ BLAST de l'Annotathon en les séparant par exemple par une ligne de tirets (-------------------------------------------------)

Utiliser BLAST pour compiler une liste au format FASTA des séquences homologues

Blast fasta seqs 1.png

Profitez de votre page de résultats BLAST pour préparer rapidement un jeu de séquences au format FASTA (par exemple vos groupes d'étude et externe pour envoi à l'alignement multiple et la reconstruction d'arbre phylogénétique).

Rendez-vous à la section des alignements deux-à-deux de votre page de résultats BLAST (NCBI seulement), et suivez ce tutorial en images.

Blast fasta seqs 2.png
Blast fasta seqs 3.png
Blast fasta seqs 4.png


L'arbre de la vie, vu par les microbes

Il est essentiel que les annotateurs de séquences métagénomiques gardent cette vue simplifiée de l'arbre de la vie en tête en permanence. Se référer aux embranchements des branches de cet arbre est indispensable pour correctement définir ses groupes d'étude et groupes extérieurs! Vous pourriez imprimer cette image, ou même en faire votre fond d'écran...

A microbial view of the Tree Of Life


Comment reconstruire un arbre phylogénétique?

Avant d'aller plus loin, consultez ABSOLUMENT le Fileicon-pdf.png guide de sélection des groupes d'études et extérieurs Info_circle.png pour la reconstruction d'arbre phylogénétiques! Ce guide donne aussi de précieux conseils sur l'interprétation des arbres obtenus.

Muni de votre jeu de séquences au format FASTA, pointez votre navigateur sur http://www.phylogeny.fr/ pour construire un alignement multiple, puis un arbre phylogénétique. Vous trouverez ci-dessous un tutorial par l'image de cet outil en ligne (si vous avez déjà fait votre alignement multiple à l'EBI, ne cochez pas la case "Multiple alignment et copiez collez votre alignement à la place du jeu de séquence au format FASTA tel que présenté dans le tutorial):

(thumbnail)
www.phylogeny.fr page d'accueil
(thumbnail)
Préparation du process (Workflow)
(thumbnail)
Entrée des données
(thumbnail)
Alignment Multiple


L'alignement multiple au format "MUSCLE" (identique au format CLUSTAL) obtenu en cliquant sur le lien "Alignment in CLUSTAL format" (copiez-le dans le champ de l'Annotathon Alignmentmultiple): ):

MUSCLE (3.7) multiple sequence alignment


gi|8613437      ------------------MSNSRKRHEALLYHAKPKPGKIAVVPTKKYATQHDLALAYSP
GOS_26940       ------------------------------------------------------------
gi|8870682      --------------MDDDKSRQAARDAALRYHAYPKPGKLEIRATKPLANGQDLARAYSP
gi|2066869      -----------------MSDSQNLRQAALNYHEFPRPGKLEIRATKPMANGRDLARAYSP
Spomeroyi       -----------------MSDQPSLRQAALDYHAFPKPGKLEIRATKPMANGRDLARAYSP
gi|1584252      ----------------MSNISEDLKSGALVYHRSPKPGKLEIQATKPLGNQRDLALAYSP
gi|1529713      -------------------MDEQLKQSALDFHEFPVPGKIQVSPTKPLATQRDLALAYSP
gi|7680888      ----------MSTSSSSSSSKEKLREAALDYHEFPTPGKVAIAPTKQMINQRDLALAYSP
gi|1879253      MPSNVYSNPPSEARLMSTPVNSKLREAALDYHEFPTPGKIAIAPTKQMINQRDLALAYSP
                                                                            

gi|8613437      GVAEPCLEIAKDKNNIYKYTSKGNLVAVISNGTAVLGLGDIGPEASKPVMEGKGLLFKIF
GOS_26940       ------------------------------------------------------------
gi|8870682      GVAEACLEIVKDPATAADYTARGNLVAVISNGSAVLGLGNIGGLAAKPVMEGKAVLFKNF
gi|2066869      GVAEACTEIQADAANAARYTSRGNLVAVVSNGSAVLGLGNIGALASKPVMEGKAVLFKNF
Spomeroyi       GVAEACLEIKDNAAHAETYTARGNLVAVVSNGTAVLGLGNIGALASKPVMEGKAVLFKKF
gi|1584252      GVAAACEAIKADPLQAAELTTRANLVAVVSNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
gi|1529713      GVAAPCLEIEKDPLAAYKYTARGNLVAVVSNGTAVLGLGNIGALAGKPVMEGKGVLFKKF
gi|7680888      GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
gi|1879253      GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
                                                                            

gi|8613437      AMKLAAVHALADLAKKSVPEQVNIVYDEVSLNFGKEYIIPKPFDPRLIYEIPPAVAKAAM
GOS_26940       -----------------------------------------PFDPRLSSVVSSAVAEAAM
gi|8870682      AMQLACIDGIAALSRATTSAEAAEAYRGEQLVFGVDYLIPKPFDPRLMGVVASAVASAAM
gi|2066869      EMQIACVDGIAELARATTSAEAAAAYKGEQLNFGADYLIPKPFDPRLVAVVSSAVAKAAM
Spomeroyi       AMQIACVEGIAELARITTSAEAAAAYQGEQLTFGADYLIPKPFDPRLVGVVSSAVARAAM
gi|1584252      EMKMAAVEAIAALARETPSDVVARAYGGETRAFGADSIIPSPFDPRLILRIAPAVAKAAM
gi|1529713      EMKLAAVHAIAELAHAEQSEVVASAYGDQDLSFGPEYIIPKPFDPRLIVKIAPAVAKAAM
gi|7680888      EMEIAAVNAIAELAQQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKIAPAVAQAAM
gi|1879253      EMEIAAVNAIAELARQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKVAPAVAKAAM
                                                         ******   :..*** ***

gi|8613437      ESGVALEPISDWDAYREELMERSGSGSKEIRQIHNRAK---RNKKRIVFAEADHLDVLKA
GOS_26940       QSGVATQPIKDIDAYRDALKQTVVKSAFLMRPVFEAAS---SSARRIVFAEGEDERVLRA
gi|8870682      ETGVATRPVEDLVAYRERLDASVFRSSMIMRPVFAAAA---LSQRRIVFAEGEDERVLRT
gi|2066869      ESGVATRPIEDITAYKQKLNQTVFKSALLMRPVFEAAR---AAARRIVFAEGEDERVLRA
Spomeroyi       ESGVARRPITDLEAYRQKLNQSVFKSALLMRPVFEAAA---KAARRLVFAEGEDERVLRA
gi|1584252      DTGVATRPIADFDAYNEKLDEFVFRSGFIMRPLFQRAK---QDKKRVIYAEGEDERVLRA
gi|1529713      DSGVATRPIADFDAYIEKLSEFVYKTNLFMKPIFSQAR---KEPKRVVLAEGEETRVLHA
gi|7680888      DGGVATRPIEDMEAYKVHLQQFVYHSGTTMKPVFQIARGAPAEKKRVVFAEGEEERVLRA
gi|1879253      DSGVAERPIEDMEAYEQHLQQFVYHSGTTMKPIFQLARGVEPEKKRIVFAEGEEERVLRA
                : ***  *: *  **   *          :. :.  *       .*:: **.:   **.:

gi|8613437      AQRVQEEKLGLPILLGRKEVILELKEEIGFT----EDVPIFDPKTDEEKERRDRFGIAYW
GOS_26940       AQAVLEETSEVPIVIGRPEVIQQRCERLGLDIRPDRDFNIVNPQQD---DRYRDYWTSYH
gi|8870682      AQVIVEEMTDRPILIGRPEIIARRCEKAGLTIKPGEDFEVVNPEDD---SRHRRYWEAYL
gi|2066869      AQAILEETTETPILIGRPEVIERRCEKLGLDVRPGRDFQLVNPEND---PRYYDYWNSYH
Spomeroyi       AQAILEETTETPILIGRPEVIEARCEKMGLSVRPGQDFQIVNPEND---PRYYDYWTSYH
gi|1584252      AQAVIEEGIAHPILVARPSVLEARLQRFGLSIRPGKDFEVINPEDD---PRYRDFVRSYI
gi|1529713      TQELVSLGLAKPILVGRPSVIEMRIQKLGLQIKAGVDFEIVNNESD---PRFKEYWSEYY
gi|7680888      VQIVVDEKLAKPILIGRPAVIEHRIQRYGLRLTPGVDFTIVNTEHD---ERYRDFWQTYF
gi|1879253      MQIIVDEKLAKPILIGRPAVIEQRIARYGLRLIAGQDYTVVNTDHD---ERYRDFWQEYH
                 * : .     **::.*  ::       *:      *  :.: . *    *   :   * 

gi|8613437      ESRQRKGRTLTEAKKLMRERN-YFAAMMVNVGEADALITGYSRPYPTVIRPILESIQKDS
GOS_26940       SLLARRGVSPDLAKSIMRTNTTAIGAVMVHRGEADSLICGAVGEFRWHLNYIEQILGSK-
gi|8870682      QLMSRRGVTPDLAKVIMRTNTTAIAAIMVYCGDADSMVCGSFGQYLWHLNYVRQILAYD-
gi|2066869      KVMQRRGVTPDLAKAIMRTNTTAIGAIMVHRGEADSLLCGTFGEYRWHLNYVQQVLGGG-
Spomeroyi       QLMERRGVTPDIAKAIMRTNTTAIGAIMVHRGEADSLICGTFGEYRWHLNYVEQVLGSK-
gi|1584252      EIAGRRGVTPDAARTLVRTSSTVISALAVKKGEADAMLCGIEGRFSRHLRHVRDIIGLAP
gi|1529713      QLMKRRGITQEQAQRAVISNTTVIGAIMVHRGEADAMICGTIGEYHDHYRVVQPLFGYRD
gi|7680888      KMMARKGISEQLARVEMRRRTTLIGSMLVKKGEADGMICGTISTTHRHLHFIDQVIGKRA
gi|1879253      KMMSRKGISAQMAKLEMRRRTTLIGAMLVEKGEADGMICGTVSTTHRHLHFIDQVIGKKE
                .   *.* :   *.  :   .  :.:: *  *:**.:: *         . :   :    

gi|8613437      GISKVAACNLMLTKQGPMFLADTTINLNPTAKDLVKISQMTSNLVKMFGMKPNVAMLSFS
GOS_26940       TLSPSGALSLMILEDGPLFIADTHVWADPTPMQIAQTAKGAARHVRRFGIEPQVALCSQS
gi|8870682      GAHPRGALSLMITEDEPLFIADTHVHPEPTPEQIADTVMAAANHVRRFGMKPNIALCSHS
gi|2066869      TYSPHGALSMMILEDGPLFIADTHVHVEPTPEQIAETVIGAARHVRRFGLAPKIALCSQS
Spomeroyi       DLRPHGALSLMILEDGPLFIADTHVRSRPSPEELAEITLGAARHVRRFGIEPQIALCSQS
gi|1584252      GVRELAALSLLITPKGNLFLCDTQVQTEPNAADLAEMTILAAAHVRRFGIEPKVALLSHS
gi|1529713      GVSTAGAMNALLLPSGNTFIADTYVNHDPSPEELAEITLMAAESVRRFGIEPRVALLSHS
gi|7680888      GCSVYGAMNALVLPGRQIFLVDTHVNVDPTPAQLAEITIMAAEEVRRFGIEPKVALLSHS
gi|1879253      GAKVYAAMNALVLPNRQIFLVDTHVNVDPTPEQLAEITIMAAEEVRRFGIEPKIALLSHS
                     .* . ::      *: ** :.  *.. ::..    ::  *. **: *.:*: * *

gi|8613437      NFGSTKNESSQKIREAVSYIHRNFPNAVVDGEIQADFALNPEMLAKEFPFSKLNGKKVNV
GOS_26940       QFGNLNSETGKKMRQALDILDTEKVTFTYEGEMNIDTALDPELRARLLPENR--------
gi|8870682      QFGNLDIDSGRRVRQAMALLEAREPDFAYEGEMHIDSALDPDLRARIFPNSRLQG-PANV
gi|2066869      QFGNISCDTGSRLRAAIEILDDKRRDFVYEGEMNIDTALDPELRERIFPNSRLEG-AANV
Spomeroyi       QFGNQAEGSGQRLRQAIEILDSRPRDFVYEGEMNLDSALDPELRQRIFPNSRLYG-AANV
gi|1584252      NFGSNDTVCARRVRAALDILKDRAPELEVDGEMQAELALLPDARERILPHSRLQG-VANV
gi|1529713      NFGSADCPSASKMRKTLELVKARAPELMIDGEMHGDAALVESIRNDRMPDSPLKG-AANI
gi|7680888      NFGTSNAPSAQKMRDTLAILQERAPDLHVDGEMHGDVALDAALRKEILPESTLEG-EANL
gi|1879253      NFGTSNAPTAQKMRDTLAILRERAPDLQVDGEMHGDIALDANLRREVMPDSTLEG-DANL
                :**.     . .:* ::  :         :**:: : **        :* .         

gi|8613437      LIFPNLESANITYKLLKEMQG-AESIGPVILGLSKAVHIVQLGASVDEMVNMAALACVDA
GOS_26940       ------------------------------------------------------------
gi|8870682      LVFAYGDAASGVRNILKMRGG-ALEVGPILMGMGNRAHIVTPSITARGLLNISALAGTDV
gi|2066869      LIFAHADAASGVRNILKMRAG-GLEVGPILMGMGNRAHIVSPSITARGLLNMAAIAGTPV
Spomeroyi       LIFAHADAASGVRNVLKMKAN-GIEVGPILMGMGNRAHIVTPSITARGLLNMAAIAGTPV
gi|1584252      LVMPDLDAADIAYNMIKVLGD-ALPVGPILMGTAKPAHILGPTVTARGIVNMTAVAVVEA
gi|1529713      LVMPNMEAARISYNLLRVSSSEGVTVGPVLMGVAKPVHILTPIASVRRIVNMVALAVVEA
gi|7680888      LVLPNIDAANIAYNLLKTAAGNNIAIGPILLGAAQPVHVLTESATVRRIVNMTALLVADV
gi|1879253      LVLPNIDAANISYNLLKTAAGNNIAIGPMLLGAAKPVHVLTASATVRRIVNMTALLVADV
                                                                            

gi|8613437      QQREKK
GOS_26940       ------
gi|8870682      THYS--
gi|2066869      AHYG--
Spomeroyi       AHYG--
gi|1584252      QSEA--
gi|1529713      QTEPL-
gi|7680888      NAVR--
gi|1879253      IAAR--


(thumbnail)
Formulaire de "nettoyage" de l'alignement
(thumbnail)
Verification de l'alignement "nettoyé"


L'alignement multiple GBLOCKS après "nettoyage" (copiez-le dans le champ de l'Annotathon Alignement multiple):

Gblocks 0.91b Results

Processed file: input.fasta
Number of sequences: 9
Alignment assumed to be: Protein
New number of positions: 288 (selected positions are underlined in blue)

                         10        20        30        40        50        60
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  ------------------MSNSRKRHEALLYHAKPKPGKIAVVPTKKYATQHDLALAYSP
GOS_26940_Trans  ------------------------------------------------------------
gi|88706826|ref  --------------MDDDKSRQAARDAALRYHAYPKPGKLEIRATKPLANGQDLARAYSP
gi|206686971|gb  -----------------MSDSQNLRQAALNYHEFPRPGKLEIRATKPMANGRDLARAYSP
Spomeroyi_gi|56  -----------------MSDQPSLRQAALDYHAFPKPGKLEIRATKPMANGRDLARAYSP
gi|158425280|re  ----------------MSNISEDLKSGALVYHRSPKPGKLEIQATKPLGNQRDLALAYSP
gi|152971328|re  -------------------MDEQLKQSALDFHEFPVPGKIQVSPTKPLATQRDLALAYSP
gi|76808889|ref  ----------MSTSSSSSSSKEKLREAALDYHEFPTPGKVAIAPTKQMINQRDLALAYSP
gi|187925371|re  MPSNVYSNPPSEARLMSTPVNSKLREAALDYHEFPTPGKIAIAPTKQMINQRDLALAYSP
                                                                             


                         70        80        90       100       110       120
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  GVAEPCLEIAKDKNNIYKYTSKGNLVAVISNGTAVLGLGDIGPEASKPVMEGKGLLFKIF
GOS_26940_Trans  ------------------------------------------------------------
gi|88706826|ref  GVAEACLEIVKDPATAADYTARGNLVAVISNGSAVLGLGNIGGLAAKPVMEGKAVLFKNF
gi|206686971|gb  GVAEACTEIQADAANAARYTSRGNLVAVVSNGSAVLGLGNIGALASKPVMEGKAVLFKNF
Spomeroyi_gi|56  GVAEACLEIKDNAAHAETYTARGNLVAVVSNGTAVLGLGNIGALASKPVMEGKAVLFKKF
gi|158425280|re  GVAAACEAIKADPLQAAELTTRANLVAVVSNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
gi|152971328|re  GVAAPCLEIEKDPLAAYKYTARGNLVAVVSNGTAVLGLGNIGALAGKPVMEGKGVLFKKF
gi|76808889|ref  GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
gi|187925371|re  GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
                                                                             


                        370       380       390       400       410       420
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  AMKLAAVHALADLAKKSVPEQVNIVYDEVSLNFGKEYIIPKPFDPRLIYEIPPAVAKAAM
GOS_26940_Trans  -----------------------------------------PFDPRLSSVVSSAVAEAAM
gi|88706826|ref  AMQLACIDGIAALSRATTSAEAAEAYRGEQLVFGVDYLIPKPFDPRLMGVVASAVASAAM
gi|206686971|gb  EMQIACVDGIAELARATTSAEAAAAYKGEQLNFGADYLIPKPFDPRLVAVVSSAVAKAAM
Spomeroyi_gi|56  AMQIACVEGIAELARITTSAEAAAAYQGEQLTFGADYLIPKPFDPRLVGVVSSAVARAAM
gi|158425280|re  EMKMAAVEAIAALARETPSDVVARAYGGETRAFGADSIIPSPFDPRLILRIAPAVAKAAM
gi|152971328|re  EMKLAAVHAIAELAHAEQSEVVASAYGDQDLSFGPEYIIPKPFDPRLIVKIAPAVAKAAM
gi|76808889|ref  EMEIAAVNAIAELAQQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKIAPAVAQAAM
gi|187925371|re  EMEIAAVNAIAELARQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKVAPAVAKAAM
                                                          ###################


                        430       440       450       460       470       480
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  ESGVALEPISDWDAYREELMERSGSGSKEIRQIHNRAK---RNKKRIVFAEADHLDVLKA
GOS_26940_Trans  QSGVATQPIKDIDAYRDALKQTVVKSAFLMRPVFEAAS---SSARRIVFAEGEDERVLRA
gi|88706826|ref  ETGVATRPVEDLVAYRERLDASVFRSSMIMRPVFAAAA---LSQRRIVFAEGEDERVLRT
gi|206686971|gb  ESGVATRPIEDITAYKQKLNQTVFKSALLMRPVFEAAR---AAARRIVFAEGEDERVLRA
Spomeroyi_gi|56  ESGVARRPITDLEAYRQKLNQSVFKSALLMRPVFEAAA---KAARRLVFAEGEDERVLRA
gi|158425280|re  DTGVATRPIADFDAYNEKLDEFVFRSGFIMRPLFQRAK---QDKKRVIYAEGEDERVLRA
gi|152971328|re  DSGVATRPIADFDAYIEKLSEFVYKTNLFMKPIFSQAR---KEPKRVVLAEGEETRVLHA
gi|76808889|ref  DGGVATRPIEDMEAYKVHLQQFVYHSGTTMKPVFQIARGAPAEKKRVVFAEGEEERVLRA
gi|187925371|re  DSGVAERPIEDMEAYEQHLQQFVYHSGTTMKPIFQLARGVEPEKKRIVFAEGEEERVLRA
                 #####################################       ################


                        490       500       510       520       530       540
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  AQRVQEEKLGLPILLGRKEVILELKEEIGFT----EDVPIFDPKTDEEKERRDRFGIAYW
GOS_26940_Trans  AQAVLEETSEVPIVIGRPEVIQQRCERLGLDIRPDRDFNIVNPQQD---DRYRDYWTSYH
gi|88706826|ref  AQVIVEEMTDRPILIGRPEIIARRCEKAGLTIKPGEDFEVVNPEDD---SRHRRYWEAYL
gi|206686971|gb  AQAILEETTETPILIGRPEVIERRCEKLGLDVRPGRDFQLVNPEND---PRYYDYWNSYH
Spomeroyi_gi|56  AQAILEETTETPILIGRPEVIEARCEKMGLSVRPGQDFQIVNPEND---PRYYDYWTSYH
gi|158425280|re  AQAVIEEGIAHPILVARPSVLEARLQRFGLSIRPGKDFEVINPEDD---PRYRDFVRSYI
gi|152971328|re  TQELVSLGLAKPILVGRPSVIEMRIQKLGLQIKAGVDFEIVNNESD---PRFKEYWSEYY
gi|76808889|ref  VQIVVDEKLAKPILIGRPAVIEHRIQRYGLRLTPGVDFTIVNTEHD---ERYRDFWQTYF
gi|187925371|re  MQIIVDEKLAKPILIGRPAVIEQRIARYGLRLIAGQDYTVVNTDHD---ERYRDFWQEYH
                 ##############################      ##########    ##########


                        550       560       570       580       590       600
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  ESRQRKGRTLTEAKKLMRERN-YFAAMMVNVGEADALITGYSRPYPTVIRPILESIQKDS
GOS_26940_Trans  SLLARRGVSPDLAKSIMRTNTTAIGAVMVHRGEADSLICGAVGEFRWHLNYIEQILGSK-
gi|88706826|ref  QLMSRRGVTPDLAKVIMRTNTTAIAAIMVYCGDADSMVCGSFGQYLWHLNYVRQILAYD-
gi|206686971|gb  KVMQRRGVTPDLAKAIMRTNTTAIGAIMVHRGEADSLLCGTFGEYRWHLNYVQQVLGGG-
Spomeroyi_gi|56  QLMERRGVTPDIAKAIMRTNTTAIGAIMVHRGEADSLICGTFGEYRWHLNYVEQVLGSK-
gi|158425280|re  EIAGRRGVTPDAARTLVRTSSTVISALAVKKGEADAMLCGIEGRFSRHLRHVRDIIGLAP
gi|152971328|re  QLMKRRGITQEQAQRAVISNTTVIGAIMVHRGEADAMICGTIGEYHDHYRVVQPLFGYRD
gi|76808889|ref  KMMARKGISEQLARVEMRRRTTLIGSMLVKKGEADGMICGTISTTHRHLHFIDQVIGKRA
gi|187925371|re  KMMSRKGISAQMAKLEMRRRTTLIGAMLVEKGEADGMICGTVSTTHRHLHFIDQVIGKKE
                 #####################  ##################################   


                        610       620       630       640       650       660
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  GISKVAACNLMLTKQGPMFLADTTINLNPTAKDLVKISQMTSNLVKMFGMKPNVAMLSFS
GOS_26940_Trans  TLSPSGALSLMILEDGPLFIADTHVWADPTPMQIAQTAKGAARHVRRFGIEPQVALCSQS
gi|88706826|ref  GAHPRGALSLMITEDEPLFIADTHVHPEPTPEQIADTVMAAANHVRRFGMKPNIALCSHS
gi|206686971|gb  TYSPHGALSMMILEDGPLFIADTHVHVEPTPEQIAETVIGAARHVRRFGLAPKIALCSQS
Spomeroyi_gi|56  DLRPHGALSLMILEDGPLFIADTHVRSRPSPEELAEITLGAARHVRRFGIEPQIALCSQS
gi|158425280|re  GVRELAALSLLITPKGNLFLCDTQVQTEPNAADLAEMTILAAAHVRRFGIEPKVALLSHS
gi|152971328|re  GVSTAGAMNALLLPSGNTFIADTYVNHDPSPEELAEITLMAAESVRRFGIEPRVALLSHS
gi|76808889|ref  GCSVYGAMNALVLPGRQIFLVDTHVNVDPTPAQLAEITIMAAEEVRRFGIEPKVALLSHS
gi|187925371|re  GAKVYAAMNALVLPNRQIFLVDTHVNVDPTPEQLAEITIMAAEEVRRFGIEPKIALLSHS
                 ############################################################


                        670       680       690       700       710       720
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  NFGSTKNESSQKIREAVSYIHRNFPNAVVDGEIQADFALNPEMLAKEFPFSKLNGKKVNV
GOS_26940_Trans  QFGNLNSETGKKMRQALDILDTEKVTFTYEGEMNIDTALDPELRARLLPENR--------
gi|88706826|ref  QFGNLDIDSGRRVRQAMALLEAREPDFAYEGEMHIDSALDPDLRARIFPNSRLQG-PANV
gi|206686971|gb  QFGNISCDTGSRLRAAIEILDDKRRDFVYEGEMNIDTALDPELRERIFPNSRLEG-AANV
Spomeroyi_gi|56  QFGNQAEGSGQRLRQAIEILDSRPRDFVYEGEMNLDSALDPELRQRIFPNSRLYG-AANV
gi|158425280|re  NFGSNDTVCARRVRAALDILKDRAPELEVDGEMQAELALLPDARERILPHSRLQG-VANV
gi|152971328|re  NFGSADCPSASKMRKTLELVKARAPELMIDGEMHGDAALVESIRNDRMPDSPLKG-AANI
gi|76808889|ref  NFGTSNAPSAQKMRDTLAILQERAPDLHVDGEMHGDVALDAALRKEILPESTLEG-EANL
gi|187925371|re  NFGTSNAPTAQKMRDTLAILRERAPDLQVDGEMHGDIALDANLRREVMPDSTLEG-DANL
                 ###################################################         


                        730       740       750       760       770       780
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  LIFPNLESANITYKLLKEMQG-AESIGPVILGLSKAVHIVQLGASVDEMVNMAALACVDA
GOS_26940_Trans  ------------------------------------------------------------
gi|88706826|ref  LVFAYGDAASGVRNILKMRGG-ALEVGPILMGMGNRAHIVTPSITARGLLNISALAGTDV
gi|206686971|gb  LIFAHADAASGVRNILKMRAG-GLEVGPILMGMGNRAHIVSPSITARGLLNMAAIAGTPV
Spomeroyi_gi|56  LIFAHADAASGVRNVLKMKAN-GIEVGPILMGMGNRAHIVTPSITARGLLNMAAIAGTPV
gi|158425280|re  LVMPDLDAADIAYNMIKVLGD-ALPVGPILMGTAKPAHILGPTVTARGIVNMTAVAVVEA
gi|152971328|re  LVMPNMEAARISYNLLRVSSSEGVTVGPVLMGVAKPVHILTPIASVRRIVNMVALAVVEA
gi|76808889|ref  LVLPNIDAANIAYNLLKTAAGNNIAIGPILLGAAQPVHVLTESATVRRIVNMTALLVADV
gi|187925371|re  LVLPNIDAANISYNLLKTAAGNNIAIGPMLLGAAKPVHVLTASATVRRIVNMTALLVADV
                                                                             


                 
                 ======
gi|86134375|ref  QQREKK
GOS_26940_Trans  ------
gi|88706826|ref  THYS--
gi|206686971|gb  AHYG--
Spomeroyi_gi|56  AHYG--
gi|158425280|re  QSEA--
gi|152971328|re  QTEPL-
gi|76808889|ref  NAVR--
gi|187925371|re  IAAR--
                       

Parameters used
Minimum Number Of Sequences For A Conserved Position: 5
Minimum Number Of Sequences For A Flanking Position: 8
Maximum Number Of Contiguous Nonconserved Positions: 8
Minimum Length Of A Block: 10
Allowed Gap Positions: None
Use Similarity Matrices: Yes


Flank positions of the 6 selected block(s)
Flanks: [402  457]  [465  510]  [517  526]  [531  561]  [564  597]  [601  711]  

New number of positions in input.fasta-gb:  288  (36% of the original 786 positions)

(thumbnail)
Formulaire de méthode d'inférence d'arbre
(thumbnail)
Arbre inféré
(thumbnail)
Formulaire de rendu de l'arbre
(thumbnail)
Renommage des feuilles
(thumbnail)
Re-enracinement de l'arbre et export au format texte

L'arbre au format "text" est copié/collé dans le champ "Arbre" de l'Annotathon (souvenez-vous d'ajouter les groupes taxonomiques pour chaque feuille):

                                                                                                    -------0.2-----
 
                                          +------------------Congregibacter_litoralis_KT71_gi_88706826          [Add taxonomic group here!]
                                          |
                                          |       +------Rhodobacterales_bacterium_Y4I_gi_206686971             [Add taxonomic group here!]
                    +---------------------+       |
                    |                     |      ++
                    |                     +------++--------Silicibacter_pomeroyi_DSS-3_gi_56697770              [Add taxonomic group here!]
                    |                            |
                    |                            +-----------------GOS_26940_Translation_11-922_indirect_strand
                    |
 +------------------+                               +-----Burkholderia_pseudomallei_1710b_gi_76808889           [Add taxonomic group here!]
 |                  |                               |
 |                  |            +------------------+
 |                  |  +---------+                  +------Burkholderia_phytofirmans_PsJN_gi_187925371          [Add taxonomic group here!]
 |                  |  |         |
 |                  |  |         +------------------------Klebsiella_pneumoniae_subsp._pneumoniae_gi_152971328  [Add taxonomic group here!]
 |                  +--+
 |                     |
 |                     +----------------------------Azorhizobium_caulinodans_ORS_571_gi_158425280               [Add taxonomic group here!]
 |
 +-----------------------------------------------------------------Polaribacter_dokdonensis_MED152_gi_86134375  [Add taxonomic group here!]


A quoi sert le bloc Note?

Le Bloc Note est un champ d'annotation libre; utilisez-le pour archiver vos résultats intermédiaires, vos listes de séquences au format FASTA (avec les noms de séquence retravaillés),vos variantes d'arbres etc.

(thumbnail)
Bloc Note: le fourre-tout
Personal tools