Annotathon: foire aux questions
Vous trouverez ici les protocoles détaillés des analyses bioinformatiques nécessaires pour l'Annotathon. Pour l'utilisation technique de l'Annotathon (création de compte, gestion du panier etc.) veuillez consulter le Manuel de l'Utilisateur. Enfin notez que ceci est un Wiki, donc tout le monde est invité à contribuer à cette documentation!
Contents
[hide]- 1 Traduction: comment repérer les ORF?
- 2 L'ORF présente-t-elle des domaines protéiques conservés?
- 3 Existe-t-il des protéines similaires (homologues) à mon ORF?
- 4 Utiliser BLAST pour compiler une liste au format FASTA des séquences homologues
- 5 L'arbre de la vie, vu par les microbes
- 6 Comment reconstruire un arbre phylogénétique?
- 7 A quoi sert le bloc Note?
Traduction: comment repérer les ORF?
- Si la région génomique ne contient aucun ORF (avec les critères arbitraires définis ici:ORF > 60 aa en particulier) => CONCLURE NON CODANT (et cocher la case située juste sous la recherche d'ORF). Dans tous les cas, avant de conclure qu'un fragment de séquence génomique est non-codant, il est conseillé d'effectuer un BLASTx de la séquence nucléotidique contre NR!
- Si la région génomique contient des ORF => ANALYSER LA PLUS
LONGUE (CRITERE 100% ARBITRAIRE). Ensuite on peut aboutir à deux cas de
figures suite à l'analyse de l'ORF la + longue :
- l'analyse de l'ORF LA PLUS LONGUE ne donne aucune similarité & aucun domaine... => Discuter si cet ORF est codant ou non (en tenant compte de la longueur de l'orf par exemple...) et cochez selon votre argumentation CODANT (par exemple si l'ORF fait quelques centaines d'AA) ou NON-CODANT. MAIS NE PAS ANALYSER LES AUTRES ORF PLUS COURTS POTENTIELLEMENT PRESENTS sur le fragment d'ADN génomique
- l'analyse de l'ORF LA PLUS LONGUE donne des résultats lors des recherches par similarité, par domaine... => conclure que l'ORF est codant (cochez CODANT et entrez les coordonnées de début et de fin de l'ORF dans l'Annotathon) et poursuivre les analyses (phylogénie etc.)
Pour ce qui est du type des codons d'initiation, commencez par une approche dite gourmande, c'est à dire celle qui produira les ORF les plus grands possibles: donc any codon
sur SMS/ORFinder. Si par la suite votre alignement multiple semble
suggérer que tous les homologues commencent plus en aval alignés sur une
Methionine interne de votre première proposition d'ORF, il est nécessaire de revoir la position de début de votre ORF pour la faire coincider avec ce qui est connu chez les protéines homologues.
Quant au choix du code génétique, réfléchissez sur le code génétique le plus probable vu l'environnement que vous analysez: est-il pertinent de choisir le code vertebrate mitochondiral...
Si vous utlisez SMS/ORFinder pour rechercher les ORF, pensez à faire l'analyse dans les cadres 1, 2 & 3 dans le sens direct puis indirect pour couvrir les 6 cadres possibles!
L'ORF présente-t-elle des domaines protéiques conservés?
Les domaines protéiques sont essentiels pour attribuer une fonction à une protéine inconnue. Si vous arrivez à indentifier un domaine protéique connu dans votre séquence, il est probable que vous seez en mesure de lui associer une fonction biochimique.
Commencez votre recherche de domaines sur le site InterproScan: il permet d'interroger la base InterPro, qui fédère un grand nombre de banques de données sur les domaines protéiques.
Après avoir cliqué sur "Submit Job", vous obtenez une page de résultats similaires à celle-ci:
Vous obtenez une liste de domaines InterPro identifiés dans votre séquence. Attention aux points suivant:
- un domaine InterPro (p.ex. IPR000165) correspond à un ou plusieurs domaines issus d'autres banques de données (ici PR00736 issu de PRINTS et PS00820 issu de PROSITE); nous vous demandons d'indiquer le numéro d'accession InterPro (ici IPR000165)
- tous les domaines InterPro listé dans cette page ne sont pas forcément indépendants: des domaines peuvent être contenus les uns dans les autres, ou peuvent avoir des relations parent/enfant; pour trouver ces informations supplémentaires, cliquez sur "Table View" en haut de la page de résultats, pour obtenir les résultats sous cette forme
- cliquez sur le bouton "Raw output" pour avoir les résultats bruts complets au format "texte" simple, que vous copiez-collez ensuite in extenso dans le champs "Domaines: Résultats bruts" de l'Annotathon.
On voit sous la rubrique "Children" ou "contains" ou "found in" la liste des domaines InterPro reliés au domaine en question; Règle: ne listez dans le formulaire de résultat que le domaine le plus général, i.e. celui englobe les autres. Dans cet exemple, le premier domaine (IPR000165) a comme "enfant" le domaines IPR008291 (4ème dans la liste des résultats); dans ce cas, vous n'indiquez que IPR000165, et non pas IPR008291.
Vous trouvez également sur cette vue les coordonnées de début de et fin des domaines; pour le domaine IPR000165, indiquées les coordonnées extrémales du domaine PROSITE, et non pas les coordonnées de tous les petits fragments PRINTS !
Dans cette fiche apparaissent aussi des indications sur la fonction liée à ces domaines; utilisez ces informations pour attribuer une focntions biologiques (biological process ou molecular function).
Existe-t-il des protéines similaires (homologues) à mon ORF?
Recherchez d'éventuels protéines similaires à votre ORF (protéines homologues) en effectuant des BLASTs sur le site du NCBI (ou de l'EBI si le NCBI est trop lent). Les types de BLAST les plus usuels sont:
- BLASTp contre SWISSPROT (trouver des homolgues ayant des fiches bien annotées)
- BLASTp contre NR (trouver toutes les séquences similaires connues, par ex pour faire une études phylgénétique)
- BLASTx contre NR (traduit directement votre séquence génomique dans les SIX phases; uniquement si vous n'avez aucun résultat avec les BLAST ci-dessus ou si vous n'avez pas trouvé d'ORF)
Vous commencerez toute recherche BLAST en renseignant le formulaire (Fig. B1) avec au minimum:
- la séquence requête (Query) avec un copié/collé de la séquence protéique de l'ORF pour les BLASTp et séquence ADN pour les BLASTn ou BLASTx
- la banque de données dans laquelle rechercher les homologues à la séquence requête
- sélectionnez une plus grande valeur pour Max target sequences, par exemple 500 afin d'obtenir un panorama plus large d'homologues potentiels. Si saurez qu'il faut choisir une plus grande valeur de Max target sequences quand vos derniers "hits" BLAST n'atteignent pas le limite haute fixée pour le E-value (=10 par défaut).
Après avoir soumis le recherche, attendez que la page d'intermède (Fig. B2) se rafraichisse et soit finalement soit remplacée par la page de résultats. Cet page intermède comporte quelque fois un diagramme coloré si des domaines protéiques conservés sont détectés dans votre séquence requête (ici un domaine 'ubiquitin'), mais il ne s'agit en aucun cas du résultat BLAST!
Entête des résultats BLAST
Graphique synoptique des résultats BLAST au NCBI
Liste des séquences détectées par le BLAST
Alignements 2 à 2 des résultats BLAST
Vous reporterez obligatoirement dans l'Annotathon (Fig. B6):
- une entête résumant quelle analyse a été effectuée (ex: BLASTp de l'ORF de 231 AA contre SWISSPROT)
- la totalité du résumé des similarités détectées (Fig. B4)
- les 10 premiers alignements 2 à 2 (Fig. B5)
- le rapport taxonomique (la première partie Lineage Report Fig B7)
Rapport taxonomique du BLAST au NCBI (Lineage report)
Si vous faites plusieurs BLAST (par exemple un contre SP et un
contre NR), mettez-les les uns à la suite des autres dans le champ BLAST
de l'Annotathon en les séparant par exemple par une ligne de tirets
(-------------------------------------------------)
Utiliser BLAST pour compiler une liste au format FASTA des séquences homologues
Profitez de votre page de résultats BLAST pour préparer rapidement un jeu de séquences au format FASTA (par exemple vos groupes d'étude et externe pour envoi à l'alignement multiple et la reconstruction d'arbre phylogénétique).
Rendez-vous à la section des alignements deux-à-deux de votre page de résultats BLAST (NCBI seulement), et suivez ce tutorial en images.
L'arbre de la vie, vu par les microbes
Il est essentiel que les annotateurs de séquences métagénomiques gardent cette vue simplifiée de l'arbre de la vie en tête en permanence. Se référer aux embranchements des branches de cet arbre est indispensable pour correctement définir ses groupes d'étude et groupes extérieurs! Vous pourriez imprimer cette image, ou même en faire votre fond d'écran...
Comment reconstruire un arbre phylogénétique?
Avant d'aller plus loin, consultez ABSOLUMENT le guide de sélection des groupes d'études et extérieurs pour la reconstruction d'arbre phylogénétiques! Ce guide donne aussi de précieux conseils sur l'interprétation des arbres obtenus.
Muni de votre jeu de séquences au format FASTA, pointez votre navigateur sur http://www.phylogeny.fr/ pour construire un alignement multiple, puis un arbre phylogénétique. Vous trouverez ci-dessous un tutorial par l'image de cet outil en ligne (si vous avez déjà fait votre alignement multiple à l'EBI, ne cochez pas la case "Multiple alignment et copiez collez votre alignement à la place du jeu de séquence au format FASTA tel que présenté dans le tutorial):
L'alignement multiple au format "MUSCLE" (identique au format CLUSTAL)
obtenu en cliquant sur le lien "Alignment in CLUSTAL format" (copiez-le
dans le champ de l'Annotathon Alignmentmultiple):
):
MUSCLE (3.7) multiple sequence alignment gi|8613437 ------------------MSNSRKRHEALLYHAKPKPGKIAVVPTKKYATQHDLALAYSP GOS_26940 ------------------------------------------------------------ gi|8870682 --------------MDDDKSRQAARDAALRYHAYPKPGKLEIRATKPLANGQDLARAYSP gi|2066869 -----------------MSDSQNLRQAALNYHEFPRPGKLEIRATKPMANGRDLARAYSP Spomeroyi -----------------MSDQPSLRQAALDYHAFPKPGKLEIRATKPMANGRDLARAYSP gi|1584252 ----------------MSNISEDLKSGALVYHRSPKPGKLEIQATKPLGNQRDLALAYSP gi|1529713 -------------------MDEQLKQSALDFHEFPVPGKIQVSPTKPLATQRDLALAYSP gi|7680888 ----------MSTSSSSSSSKEKLREAALDYHEFPTPGKVAIAPTKQMINQRDLALAYSP gi|1879253 MPSNVYSNPPSEARLMSTPVNSKLREAALDYHEFPTPGKIAIAPTKQMINQRDLALAYSP gi|8613437 GVAEPCLEIAKDKNNIYKYTSKGNLVAVISNGTAVLGLGDIGPEASKPVMEGKGLLFKIF GOS_26940 ------------------------------------------------------------ gi|8870682 GVAEACLEIVKDPATAADYTARGNLVAVISNGSAVLGLGNIGGLAAKPVMEGKAVLFKNF gi|2066869 GVAEACTEIQADAANAARYTSRGNLVAVVSNGSAVLGLGNIGALASKPVMEGKAVLFKNF Spomeroyi GVAEACLEIKDNAAHAETYTARGNLVAVVSNGTAVLGLGNIGALASKPVMEGKAVLFKKF gi|1584252 GVAAACEAIKADPLQAAELTTRANLVAVVSNGTAVLGLGNIGPLASKPVMEGKAVLFKKF gi|1529713 GVAAPCLEIEKDPLAAYKYTARGNLVAVVSNGTAVLGLGNIGALAGKPVMEGKGVLFKKF gi|7680888 GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF gi|1879253 GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF gi|8613437 AMKLAAVHALADLAKKSVPEQVNIVYDEVSLNFGKEYIIPKPFDPRLIYEIPPAVAKAAM GOS_26940 -----------------------------------------PFDPRLSSVVSSAVAEAAM gi|8870682 AMQLACIDGIAALSRATTSAEAAEAYRGEQLVFGVDYLIPKPFDPRLMGVVASAVASAAM gi|2066869 EMQIACVDGIAELARATTSAEAAAAYKGEQLNFGADYLIPKPFDPRLVAVVSSAVAKAAM Spomeroyi AMQIACVEGIAELARITTSAEAAAAYQGEQLTFGADYLIPKPFDPRLVGVVSSAVARAAM gi|1584252 EMKMAAVEAIAALARETPSDVVARAYGGETRAFGADSIIPSPFDPRLILRIAPAVAKAAM gi|1529713 EMKLAAVHAIAELAHAEQSEVVASAYGDQDLSFGPEYIIPKPFDPRLIVKIAPAVAKAAM gi|7680888 EMEIAAVNAIAELAQQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKIAPAVAQAAM gi|1879253 EMEIAAVNAIAELARQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKVAPAVAKAAM ****** :..*** *** gi|8613437 ESGVALEPISDWDAYREELMERSGSGSKEIRQIHNRAK---RNKKRIVFAEADHLDVLKA GOS_26940 QSGVATQPIKDIDAYRDALKQTVVKSAFLMRPVFEAAS---SSARRIVFAEGEDERVLRA gi|8870682 ETGVATRPVEDLVAYRERLDASVFRSSMIMRPVFAAAA---LSQRRIVFAEGEDERVLRT gi|2066869 ESGVATRPIEDITAYKQKLNQTVFKSALLMRPVFEAAR---AAARRIVFAEGEDERVLRA Spomeroyi ESGVARRPITDLEAYRQKLNQSVFKSALLMRPVFEAAA---KAARRLVFAEGEDERVLRA gi|1584252 DTGVATRPIADFDAYNEKLDEFVFRSGFIMRPLFQRAK---QDKKRVIYAEGEDERVLRA gi|1529713 DSGVATRPIADFDAYIEKLSEFVYKTNLFMKPIFSQAR---KEPKRVVLAEGEETRVLHA gi|7680888 DGGVATRPIEDMEAYKVHLQQFVYHSGTTMKPVFQIARGAPAEKKRVVFAEGEEERVLRA gi|1879253 DSGVAERPIEDMEAYEQHLQQFVYHSGTTMKPIFQLARGVEPEKKRIVFAEGEEERVLRA : *** *: * ** * :. :. * .*:: **.: **.: gi|8613437 AQRVQEEKLGLPILLGRKEVILELKEEIGFT----EDVPIFDPKTDEEKERRDRFGIAYW GOS_26940 AQAVLEETSEVPIVIGRPEVIQQRCERLGLDIRPDRDFNIVNPQQD---DRYRDYWTSYH gi|8870682 AQVIVEEMTDRPILIGRPEIIARRCEKAGLTIKPGEDFEVVNPEDD---SRHRRYWEAYL gi|2066869 AQAILEETTETPILIGRPEVIERRCEKLGLDVRPGRDFQLVNPEND---PRYYDYWNSYH Spomeroyi AQAILEETTETPILIGRPEVIEARCEKMGLSVRPGQDFQIVNPEND---PRYYDYWTSYH gi|1584252 AQAVIEEGIAHPILVARPSVLEARLQRFGLSIRPGKDFEVINPEDD---PRYRDFVRSYI gi|1529713 TQELVSLGLAKPILVGRPSVIEMRIQKLGLQIKAGVDFEIVNNESD---PRFKEYWSEYY gi|7680888 VQIVVDEKLAKPILIGRPAVIEHRIQRYGLRLTPGVDFTIVNTEHD---ERYRDFWQTYF gi|1879253 MQIIVDEKLAKPILIGRPAVIEQRIARYGLRLIAGQDYTVVNTDHD---ERYRDFWQEYH * : . **::.* :: *: * :.: . * * : * gi|8613437 ESRQRKGRTLTEAKKLMRERN-YFAAMMVNVGEADALITGYSRPYPTVIRPILESIQKDS GOS_26940 SLLARRGVSPDLAKSIMRTNTTAIGAVMVHRGEADSLICGAVGEFRWHLNYIEQILGSK- gi|8870682 QLMSRRGVTPDLAKVIMRTNTTAIAAIMVYCGDADSMVCGSFGQYLWHLNYVRQILAYD- gi|2066869 KVMQRRGVTPDLAKAIMRTNTTAIGAIMVHRGEADSLLCGTFGEYRWHLNYVQQVLGGG- Spomeroyi QLMERRGVTPDIAKAIMRTNTTAIGAIMVHRGEADSLICGTFGEYRWHLNYVEQVLGSK- gi|1584252 EIAGRRGVTPDAARTLVRTSSTVISALAVKKGEADAMLCGIEGRFSRHLRHVRDIIGLAP gi|1529713 QLMKRRGITQEQAQRAVISNTTVIGAIMVHRGEADAMICGTIGEYHDHYRVVQPLFGYRD gi|7680888 KMMARKGISEQLARVEMRRRTTLIGSMLVKKGEADGMICGTISTTHRHLHFIDQVIGKRA gi|1879253 KMMSRKGISAQMAKLEMRRRTTLIGAMLVEKGEADGMICGTVSTTHRHLHFIDQVIGKKE . *.* : *. : . :.:: * *:**.:: * . : : gi|8613437 GISKVAACNLMLTKQGPMFLADTTINLNPTAKDLVKISQMTSNLVKMFGMKPNVAMLSFS GOS_26940 TLSPSGALSLMILEDGPLFIADTHVWADPTPMQIAQTAKGAARHVRRFGIEPQVALCSQS gi|8870682 GAHPRGALSLMITEDEPLFIADTHVHPEPTPEQIADTVMAAANHVRRFGMKPNIALCSHS gi|2066869 TYSPHGALSMMILEDGPLFIADTHVHVEPTPEQIAETVIGAARHVRRFGLAPKIALCSQS Spomeroyi DLRPHGALSLMILEDGPLFIADTHVRSRPSPEELAEITLGAARHVRRFGIEPQIALCSQS gi|1584252 GVRELAALSLLITPKGNLFLCDTQVQTEPNAADLAEMTILAAAHVRRFGIEPKVALLSHS gi|1529713 GVSTAGAMNALLLPSGNTFIADTYVNHDPSPEELAEITLMAAESVRRFGIEPRVALLSHS gi|7680888 GCSVYGAMNALVLPGRQIFLVDTHVNVDPTPAQLAEITIMAAEEVRRFGIEPKVALLSHS gi|1879253 GAKVYAAMNALVLPNRQIFLVDTHVNVDPTPEQLAEITIMAAEEVRRFGIEPKIALLSHS .* . :: *: ** :. *.. ::.. :: *. **: *.:*: * * gi|8613437 NFGSTKNESSQKIREAVSYIHRNFPNAVVDGEIQADFALNPEMLAKEFPFSKLNGKKVNV GOS_26940 QFGNLNSETGKKMRQALDILDTEKVTFTYEGEMNIDTALDPELRARLLPENR-------- gi|8870682 QFGNLDIDSGRRVRQAMALLEAREPDFAYEGEMHIDSALDPDLRARIFPNSRLQG-PANV gi|2066869 QFGNISCDTGSRLRAAIEILDDKRRDFVYEGEMNIDTALDPELRERIFPNSRLEG-AANV Spomeroyi QFGNQAEGSGQRLRQAIEILDSRPRDFVYEGEMNLDSALDPELRQRIFPNSRLYG-AANV gi|1584252 NFGSNDTVCARRVRAALDILKDRAPELEVDGEMQAELALLPDARERILPHSRLQG-VANV gi|1529713 NFGSADCPSASKMRKTLELVKARAPELMIDGEMHGDAALVESIRNDRMPDSPLKG-AANI gi|7680888 NFGTSNAPSAQKMRDTLAILQERAPDLHVDGEMHGDVALDAALRKEILPESTLEG-EANL gi|1879253 NFGTSNAPTAQKMRDTLAILRERAPDLQVDGEMHGDIALDANLRREVMPDSTLEG-DANL :**. . .:* :: : :**:: : ** :* . gi|8613437 LIFPNLESANITYKLLKEMQG-AESIGPVILGLSKAVHIVQLGASVDEMVNMAALACVDA GOS_26940 ------------------------------------------------------------ gi|8870682 LVFAYGDAASGVRNILKMRGG-ALEVGPILMGMGNRAHIVTPSITARGLLNISALAGTDV gi|2066869 LIFAHADAASGVRNILKMRAG-GLEVGPILMGMGNRAHIVSPSITARGLLNMAAIAGTPV Spomeroyi LIFAHADAASGVRNVLKMKAN-GIEVGPILMGMGNRAHIVTPSITARGLLNMAAIAGTPV gi|1584252 LVMPDLDAADIAYNMIKVLGD-ALPVGPILMGTAKPAHILGPTVTARGIVNMTAVAVVEA gi|1529713 LVMPNMEAARISYNLLRVSSSEGVTVGPVLMGVAKPVHILTPIASVRRIVNMVALAVVEA gi|7680888 LVLPNIDAANIAYNLLKTAAGNNIAIGPILLGAAQPVHVLTESATVRRIVNMTALLVADV gi|1879253 LVLPNIDAANISYNLLKTAAGNNIAIGPMLLGAAKPVHVLTASATVRRIVNMTALLVADV gi|8613437 QQREKK GOS_26940 ------ gi|8870682 THYS-- gi|2066869 AHYG-- Spomeroyi AHYG-- gi|1584252 QSEA-- gi|1529713 QTEPL- gi|7680888 NAVR-- gi|1879253 IAAR--
L'alignement multiple GBLOCKS après "nettoyage" (copiez-le dans le champ de l'Annotathon Alignement multiple):
Gblocks 0.91b Results Processed file: input.fasta Number of sequences: 9 Alignment assumed to be: Protein New number of positions: 288 (selected positions are underlined in blue) 10 20 30 40 50 60 =========+=========+=========+=========+=========+=========+ gi|86134375|ref ------------------MSNSRKRHEALLYHAKPKPGKIAVVPTKKYATQHDLALAYSP GOS_26940_Trans ------------------------------------------------------------ gi|88706826|ref --------------MDDDKSRQAARDAALRYHAYPKPGKLEIRATKPLANGQDLARAYSP gi|206686971|gb -----------------MSDSQNLRQAALNYHEFPRPGKLEIRATKPMANGRDLARAYSP Spomeroyi_gi|56 -----------------MSDQPSLRQAALDYHAFPKPGKLEIRATKPMANGRDLARAYSP gi|158425280|re ----------------MSNISEDLKSGALVYHRSPKPGKLEIQATKPLGNQRDLALAYSP gi|152971328|re -------------------MDEQLKQSALDFHEFPVPGKIQVSPTKPLATQRDLALAYSP gi|76808889|ref ----------MSTSSSSSSSKEKLREAALDYHEFPTPGKVAIAPTKQMINQRDLALAYSP gi|187925371|re MPSNVYSNPPSEARLMSTPVNSKLREAALDYHEFPTPGKIAIAPTKQMINQRDLALAYSP 70 80 90 100 110 120 =========+=========+=========+=========+=========+=========+ gi|86134375|ref GVAEPCLEIAKDKNNIYKYTSKGNLVAVISNGTAVLGLGDIGPEASKPVMEGKGLLFKIF GOS_26940_Trans ------------------------------------------------------------ gi|88706826|ref GVAEACLEIVKDPATAADYTARGNLVAVISNGSAVLGLGNIGGLAAKPVMEGKAVLFKNF gi|206686971|gb GVAEACTEIQADAANAARYTSRGNLVAVVSNGSAVLGLGNIGALASKPVMEGKAVLFKNF Spomeroyi_gi|56 GVAEACLEIKDNAAHAETYTARGNLVAVVSNGTAVLGLGNIGALASKPVMEGKAVLFKKF gi|158425280|re GVAAACEAIKADPLQAAELTTRANLVAVVSNGTAVLGLGNIGPLASKPVMEGKAVLFKKF gi|152971328|re GVAAPCLEIEKDPLAAYKYTARGNLVAVVSNGTAVLGLGNIGALAGKPVMEGKGVLFKKF gi|76808889|ref GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF gi|187925371|re GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF 370 380 390 400 410 420 =========+=========+=========+=========+=========+=========+ gi|86134375|ref AMKLAAVHALADLAKKSVPEQVNIVYDEVSLNFGKEYIIPKPFDPRLIYEIPPAVAKAAM GOS_26940_Trans -----------------------------------------PFDPRLSSVVSSAVAEAAM gi|88706826|ref AMQLACIDGIAALSRATTSAEAAEAYRGEQLVFGVDYLIPKPFDPRLMGVVASAVASAAM gi|206686971|gb EMQIACVDGIAELARATTSAEAAAAYKGEQLNFGADYLIPKPFDPRLVAVVSSAVAKAAM Spomeroyi_gi|56 AMQIACVEGIAELARITTSAEAAAAYQGEQLTFGADYLIPKPFDPRLVGVVSSAVARAAM gi|158425280|re EMKMAAVEAIAALARETPSDVVARAYGGETRAFGADSIIPSPFDPRLILRIAPAVAKAAM gi|152971328|re EMKLAAVHAIAELAHAEQSEVVASAYGDQDLSFGPEYIIPKPFDPRLIVKIAPAVAKAAM gi|76808889|ref EMEIAAVNAIAELAQQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKIAPAVAQAAM gi|187925371|re EMEIAAVNAIAELARQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKVAPAVAKAAM ################### 430 440 450 460 470 480 =========+=========+=========+=========+=========+=========+ gi|86134375|ref ESGVALEPISDWDAYREELMERSGSGSKEIRQIHNRAK---RNKKRIVFAEADHLDVLKA GOS_26940_Trans QSGVATQPIKDIDAYRDALKQTVVKSAFLMRPVFEAAS---SSARRIVFAEGEDERVLRA gi|88706826|ref ETGVATRPVEDLVAYRERLDASVFRSSMIMRPVFAAAA---LSQRRIVFAEGEDERVLRT gi|206686971|gb ESGVATRPIEDITAYKQKLNQTVFKSALLMRPVFEAAR---AAARRIVFAEGEDERVLRA Spomeroyi_gi|56 ESGVARRPITDLEAYRQKLNQSVFKSALLMRPVFEAAA---KAARRLVFAEGEDERVLRA gi|158425280|re DTGVATRPIADFDAYNEKLDEFVFRSGFIMRPLFQRAK---QDKKRVIYAEGEDERVLRA gi|152971328|re DSGVATRPIADFDAYIEKLSEFVYKTNLFMKPIFSQAR---KEPKRVVLAEGEETRVLHA gi|76808889|ref DGGVATRPIEDMEAYKVHLQQFVYHSGTTMKPVFQIARGAPAEKKRVVFAEGEEERVLRA gi|187925371|re DSGVAERPIEDMEAYEQHLQQFVYHSGTTMKPIFQLARGVEPEKKRIVFAEGEEERVLRA ##################################### ################ 490 500 510 520 530 540 =========+=========+=========+=========+=========+=========+ gi|86134375|ref AQRVQEEKLGLPILLGRKEVILELKEEIGFT----EDVPIFDPKTDEEKERRDRFGIAYW GOS_26940_Trans AQAVLEETSEVPIVIGRPEVIQQRCERLGLDIRPDRDFNIVNPQQD---DRYRDYWTSYH gi|88706826|ref AQVIVEEMTDRPILIGRPEIIARRCEKAGLTIKPGEDFEVVNPEDD---SRHRRYWEAYL gi|206686971|gb AQAILEETTETPILIGRPEVIERRCEKLGLDVRPGRDFQLVNPEND---PRYYDYWNSYH Spomeroyi_gi|56 AQAILEETTETPILIGRPEVIEARCEKMGLSVRPGQDFQIVNPEND---PRYYDYWTSYH gi|158425280|re AQAVIEEGIAHPILVARPSVLEARLQRFGLSIRPGKDFEVINPEDD---PRYRDFVRSYI gi|152971328|re TQELVSLGLAKPILVGRPSVIEMRIQKLGLQIKAGVDFEIVNNESD---PRFKEYWSEYY gi|76808889|ref VQIVVDEKLAKPILIGRPAVIEHRIQRYGLRLTPGVDFTIVNTEHD---ERYRDFWQTYF gi|187925371|re MQIIVDEKLAKPILIGRPAVIEQRIARYGLRLIAGQDYTVVNTDHD---ERYRDFWQEYH ############################## ########## ########## 550 560 570 580 590 600 =========+=========+=========+=========+=========+=========+ gi|86134375|ref ESRQRKGRTLTEAKKLMRERN-YFAAMMVNVGEADALITGYSRPYPTVIRPILESIQKDS GOS_26940_Trans SLLARRGVSPDLAKSIMRTNTTAIGAVMVHRGEADSLICGAVGEFRWHLNYIEQILGSK- gi|88706826|ref QLMSRRGVTPDLAKVIMRTNTTAIAAIMVYCGDADSMVCGSFGQYLWHLNYVRQILAYD- gi|206686971|gb KVMQRRGVTPDLAKAIMRTNTTAIGAIMVHRGEADSLLCGTFGEYRWHLNYVQQVLGGG- Spomeroyi_gi|56 QLMERRGVTPDIAKAIMRTNTTAIGAIMVHRGEADSLICGTFGEYRWHLNYVEQVLGSK- gi|158425280|re EIAGRRGVTPDAARTLVRTSSTVISALAVKKGEADAMLCGIEGRFSRHLRHVRDIIGLAP gi|152971328|re QLMKRRGITQEQAQRAVISNTTVIGAIMVHRGEADAMICGTIGEYHDHYRVVQPLFGYRD gi|76808889|ref KMMARKGISEQLARVEMRRRTTLIGSMLVKKGEADGMICGTISTTHRHLHFIDQVIGKRA gi|187925371|re KMMSRKGISAQMAKLEMRRRTTLIGAMLVEKGEADGMICGTVSTTHRHLHFIDQVIGKKE ##################### ################################## 610 620 630 640 650 660 =========+=========+=========+=========+=========+=========+ gi|86134375|ref GISKVAACNLMLTKQGPMFLADTTINLNPTAKDLVKISQMTSNLVKMFGMKPNVAMLSFS GOS_26940_Trans TLSPSGALSLMILEDGPLFIADTHVWADPTPMQIAQTAKGAARHVRRFGIEPQVALCSQS gi|88706826|ref GAHPRGALSLMITEDEPLFIADTHVHPEPTPEQIADTVMAAANHVRRFGMKPNIALCSHS gi|206686971|gb TYSPHGALSMMILEDGPLFIADTHVHVEPTPEQIAETVIGAARHVRRFGLAPKIALCSQS Spomeroyi_gi|56 DLRPHGALSLMILEDGPLFIADTHVRSRPSPEELAEITLGAARHVRRFGIEPQIALCSQS gi|158425280|re GVRELAALSLLITPKGNLFLCDTQVQTEPNAADLAEMTILAAAHVRRFGIEPKVALLSHS gi|152971328|re GVSTAGAMNALLLPSGNTFIADTYVNHDPSPEELAEITLMAAESVRRFGIEPRVALLSHS gi|76808889|ref GCSVYGAMNALVLPGRQIFLVDTHVNVDPTPAQLAEITIMAAEEVRRFGIEPKVALLSHS gi|187925371|re GAKVYAAMNALVLPNRQIFLVDTHVNVDPTPEQLAEITIMAAEEVRRFGIEPKIALLSHS ############################################################ 670 680 690 700 710 720 =========+=========+=========+=========+=========+=========+ gi|86134375|ref NFGSTKNESSQKIREAVSYIHRNFPNAVVDGEIQADFALNPEMLAKEFPFSKLNGKKVNV GOS_26940_Trans QFGNLNSETGKKMRQALDILDTEKVTFTYEGEMNIDTALDPELRARLLPENR-------- gi|88706826|ref QFGNLDIDSGRRVRQAMALLEAREPDFAYEGEMHIDSALDPDLRARIFPNSRLQG-PANV gi|206686971|gb QFGNISCDTGSRLRAAIEILDDKRRDFVYEGEMNIDTALDPELRERIFPNSRLEG-AANV Spomeroyi_gi|56 QFGNQAEGSGQRLRQAIEILDSRPRDFVYEGEMNLDSALDPELRQRIFPNSRLYG-AANV gi|158425280|re NFGSNDTVCARRVRAALDILKDRAPELEVDGEMQAELALLPDARERILPHSRLQG-VANV gi|152971328|re NFGSADCPSASKMRKTLELVKARAPELMIDGEMHGDAALVESIRNDRMPDSPLKG-AANI gi|76808889|ref NFGTSNAPSAQKMRDTLAILQERAPDLHVDGEMHGDVALDAALRKEILPESTLEG-EANL gi|187925371|re NFGTSNAPTAQKMRDTLAILRERAPDLQVDGEMHGDIALDANLRREVMPDSTLEG-DANL ################################################### 730 740 750 760 770 780 =========+=========+=========+=========+=========+=========+ gi|86134375|ref LIFPNLESANITYKLLKEMQG-AESIGPVILGLSKAVHIVQLGASVDEMVNMAALACVDA GOS_26940_Trans ------------------------------------------------------------ gi|88706826|ref LVFAYGDAASGVRNILKMRGG-ALEVGPILMGMGNRAHIVTPSITARGLLNISALAGTDV gi|206686971|gb LIFAHADAASGVRNILKMRAG-GLEVGPILMGMGNRAHIVSPSITARGLLNMAAIAGTPV Spomeroyi_gi|56 LIFAHADAASGVRNVLKMKAN-GIEVGPILMGMGNRAHIVTPSITARGLLNMAAIAGTPV gi|158425280|re LVMPDLDAADIAYNMIKVLGD-ALPVGPILMGTAKPAHILGPTVTARGIVNMTAVAVVEA gi|152971328|re LVMPNMEAARISYNLLRVSSSEGVTVGPVLMGVAKPVHILTPIASVRRIVNMVALAVVEA gi|76808889|ref LVLPNIDAANIAYNLLKTAAGNNIAIGPILLGAAQPVHVLTESATVRRIVNMTALLVADV gi|187925371|re LVLPNIDAANISYNLLKTAAGNNIAIGPMLLGAAKPVHVLTASATVRRIVNMTALLVADV ====== gi|86134375|ref QQREKK GOS_26940_Trans ------ gi|88706826|ref THYS-- gi|206686971|gb AHYG-- Spomeroyi_gi|56 AHYG-- gi|158425280|re QSEA-- gi|152971328|re QTEPL- gi|76808889|ref NAVR-- gi|187925371|re IAAR-- Parameters used Minimum Number Of Sequences For A Conserved Position: 5 Minimum Number Of Sequences For A Flanking Position: 8 Maximum Number Of Contiguous Nonconserved Positions: 8 Minimum Length Of A Block: 10 Allowed Gap Positions: None Use Similarity Matrices: Yes Flank positions of the 6 selected block(s) Flanks: [402 457] [465 510] [517 526] [531 561] [564 597] [601 711] New number of positions in input.fasta-gb: 288 (36% of the original 786 positions)
L'arbre au format "text" est copié/collé dans le champ "Arbre" de l'Annotathon (souvenez-vous d'ajouter les groupes taxonomiques pour chaque feuille):
-------0.2----- +------------------Congregibacter_litoralis_KT71_gi_88706826 [Add taxonomic group here!] | | +------Rhodobacterales_bacterium_Y4I_gi_206686971 [Add taxonomic group here!] +---------------------+ | | | ++ | +------++--------Silicibacter_pomeroyi_DSS-3_gi_56697770 [Add taxonomic group here!] | | | +-----------------GOS_26940_Translation_11-922_indirect_strand | +------------------+ +-----Burkholderia_pseudomallei_1710b_gi_76808889 [Add taxonomic group here!] | | | | | +------------------+ | | +---------+ +------Burkholderia_phytofirmans_PsJN_gi_187925371 [Add taxonomic group here!] | | | | | | | +------------------------Klebsiella_pneumoniae_subsp._pneumoniae_gi_152971328 [Add taxonomic group here!] | +--+ | | | +----------------------------Azorhizobium_caulinodans_ORS_571_gi_158425280 [Add taxonomic group here!] | +-----------------------------------------------------------------Polaribacter_dokdonensis_MED152_gi_86134375 [Add taxonomic group here!]
A quoi sert le bloc Note?
Le Bloc Note est un champ d'annotation libre; utilisez-le pour archiver vos résultats intermédiaires, vos listes de séquences au format FASTA (avec les noms de séquence retravaillés),vos variantes d'arbres etc.