Difference between revisions of "Annotathon: foire aux questions"

From Metagenes
(Comment reconstruire un arbre phylogénétique?)
(Comment reconstruire un arbre phylogénétique?)
Line 117: Line 117:
 
Avant d'aller plus loin, consultez '''ABSOLUMENT''' le {{pdf|Phylogenie_pour_les_nuls.pdf|guide de sélection des groupes d'études et extérieurs}} pour la reconstruction d'arbre phylogénétiques! Ce guide donne aussi de précieux conseils sur l''''interprétation''' des arbres obtenus.
 
Avant d'aller plus loin, consultez '''ABSOLUMENT''' le {{pdf|Phylogenie_pour_les_nuls.pdf|guide de sélection des groupes d'études et extérieurs}} pour la reconstruction d'arbre phylogénétiques! Ce guide donne aussi de précieux conseils sur l''''interprétation''' des arbres obtenus.
  
Muni de votre alignement produit par ClustalW (ou de votre jeu de séquences au format FASTA si vous voulez utiliser phylogeny.fr pour également construire votre alignement multiple), rendez-vous sur le serveur http://www.phylogeny.fr/index_v1.html pour construire l'arbre phylogénétique. Vous trouverez ci-dessous un tutorial par l'image de cet outil en ligne (si vous avez déjà fait votre alignement multiple à l'EBI, ne cochez pas la case "Multiple alignment et copiez collez votre alignement à la place du jeu de séquence au format FASTA tel que présenté dans le tutorial):
+
Muni de votre jeu de séquences au format FASTA, pointez votre navigateur sur http://www.phylogeny.fr/ pour construire un alignement multiple, puis un arbre phylogénétique. Vous trouverez ci-dessous un tutorial par l'image de cet outil en ligne (si vous avez déjà fait votre alignement multiple à l'EBI, ne cochez pas la case "Multiple alignment et copiez collez votre alignement à la place du jeu de séquence au format FASTA tel que présenté dans le tutorial):
  
[[Image:Phylo1b.jpg|thumb|450px|center|Serveur www.phylogeny.fr]]
+
[[Image:Phylogeny_fr_tutorial_1.png|thumb|800px|left|www.phylogeny.fr page d'accueil]]
[[Image:Phylo2.jpeg|thumb|450px|center|Serveur www.phylogeny.fr]]
+
[[Image:Phylogeny_fr_tutorial_2.png|thumb|800px|center|Préparation du process (Workflow)]]
[[Image:Phylo4.jpeg|thumb|450px|center|Serveur www.phylogeny.fr]]
+
[[Image:Phylogeny_fr_tutorial_3.png|thumb|800px|left|Entrée des données]]
[[Image:Phylo6.jpeg|thumb|450px|center|Serveur www.phylogeny.fr]]
+
[[Image:Phylogeny_fr_tutorial_4.png|thumb|800px|center|Alignment Multiple]]
  
L'alignement au format "MUSCLE" obtenu en cliquant sur le lien "sequence.aln":
+
<br clear=both>
 +
L'alignement multiple au format "MUSCLE" (identique au format CLUSTAL) obtenu en cliquant sur le lien "Alignment in CLUSTAL format" (copiez-le dans le champ de l'Annotathon '''Alignmentmultiple'''):
 +
):
 
<small><pre>
 
<small><pre>
MUSCLE (3.6) multiple sequence alignment
+
MUSCLE (3.7) multiple sequence alignment
  
Coprinopsis_cinerea[basidiomycet      ------MSRGVLLEALARNRQPKVITFDAYNCLFSTRLPVAEQYSAVGRRHGVDVAPSVL
 
Cryptococcus_neoformans[basidiom      -MVPVRIPREVLKNGSLQHSRPKIITFDAYNTLYSIKKPVMEQYCIVGAKYGINGNPQEL
 
ORF_JG1235460                        ------------------------------------------------------------
 
Saccharomyces_cerevisiae[ascomyc      MTYPKRIPINAW-SEVHRVARPLIITFDAYNTLYATKLPVMEQYCIVGRKYGIKANPSTL
 
Candida_glabrata[ascomycetes]        MVFPKKIPIQNW-NSKISLRTPKLITFDAYNTLYATVLPVMEQYSNVASIYGVKVDPQEL
 
Ashbya_gossypii[ascomycetes]          MIFPKKIPIRNW-NSKISLRTPKLITFDAYNTLYATVLPVMEQYSNVASIYGVKVDPQEL
 
                                                                                                 
 
  
Coprinopsis_cinerea[basidiomycet     AARFPAGMLFRETSARHPDYGKYTGLSVQGWWTLVIQRLFKPAEVGEKMVAEILQRFQGH
+
gi|8613437     ------------------MSNSRKRHEALLYHAKPKPGKIAVVPTKKYATQHDLALAYSP
Cryptococcus_neoformans[basidiom     TKRFPG--VFSNIRKKYPLYGKNSGITAEQWWEYLIRDMFEPIQIPNEMVEEILERFEGD
+
GOS_26940      ------------------------------------------------------------
ORF_JG1235460                        ------------------------------------------------MVDEILHVFEGF
+
gi|8870682     --------------MDDDKSRQAARDAALRYHAYPKPGKLEIRATKPLANGQDLARAYSP
Saccharomyces_cerevisiae[ascomyc     TNNFPH--VFKKLKEDYPQYGKYSGIKPEQWWSILIRNVFAPNEIPDEMINEILMRFEGF
+
gi|2066869      -----------------MSDSQNLRQAALNYHEFPRPGKLEIRATKPMANGRDLARAYSP
Candida_glabrata[ascomycetes]        SANFPS--VYSKLKLEHPNYGKNTGISAKQWWQIMITEVFKPIKLSDDVVEAILDRFGSC
+
Spomeroyi      -----------------MSDQPSLRQAALDYHAFPKPGKLEIRATKPMANGRDLARAYSP
Ashbya_gossypii[ascomycetes]          SANFPS--VYSKLKLEHPNYGKYTGISAKQWWQIMITEVFKPIKLSDDVVEAILDRFGSC
+
gi|1584252      ----------------MSNISEDLKSGALVYHRSPKPGKLEIQATKPLGNQRDLALAYSP
                                                                                      ::  **  * .
+
gi|1529713     -------------------MDEQLKQSALDFHEFPVPGKIQVSPTKPLATQRDLALAYSP
 +
gi|7680888      ----------MSTSSSSSSSKEKLREAALDYHEFPTPGKVAIAPTKQMINQRDLALAYSP
 +
gi|1879253      MPSNVYSNPPSEARLMSTPVNSKLREAALDYHEFPTPGKIAIAPTKQMINQRDLALAYSP
 +
                                                                           
  
Coprinopsis_cinerea[basidiomycet     GAYKVFPDALWLLEELRVRRPEVVVGVLSNSDPTMRQVLLNLGLGSYFTDAIYLSYDLGA
+
gi|8613437     GVAEPCLEIAKDKNNIYKYTSKGNLVAVISNGTAVLGLGDIGPEASKPVMEGKGLLFKIF
Cryptococcus_neoformans[basidiom     AAYTVYPDVREFLETMRRNHPEVSLGIVSNTDPIVLTLLENLDLKKYFDGNIYLSYDLEI
+
GOS_26940      ------------------------------------------------------------
ORF_JG1235460                        GAYTVYPDLLELLELIQQEHSEVVLGVVSNTDPIMYKLLENIGLKPYFKNHVYLSYDLEL
+
gi|8870682      GVAEACLEIVKDPATAADYTARGNLVAVISNGSAVLGLGNIGGLAAKPVMEGKAVLFKNF
Saccharomyces_cerevisiae[ascomyc     DSYFVYPDLIKFLKDLKSRHPDVILGIVSNTDPIFYKLLKNIGLFETFSGHIYLSYELNL
+
gi|2066869     GVAEACTEIQADAANAARYTSRGNLVAVVSNGSAVLGLGNIGALASKPVMEGKAVLFKNF
Candida_glabrata[ascomycetes]        EAFFVYPDLIALLKGIRQKYPDVIFGVISNADPYAGDVIKSFGLDKYFDGNIYLSYDVGF
+
Spomeroyi      GVAEACLEIKDNAAHAETYTARGNLVAVVSNGTAVLGLGNIGALASKPVMEGKAVLFKKF
Ashbya_gossypii[ascomycetes]          EAFFVYPDLIALLKGIRQKYPDVVFGVISNADPYAGDVIKSFGLKKYFDGNIYLSYDVIF
+
gi|1584252     GVAAACEAIKADPLQAAELTTRANLVAVVSNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
                                      :: *:**  :*: :.  .:* .*::**:**    :: .:.*  * . :****:: 
+
gi|1529713      GVAAPCLEIEKDPLAAYKYTARGNLVAVVSNGTAVLGLGNIGALAGKPVMEGKGVLFKKF
 +
gi|7680888      GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
 +
gi|1879253      GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
 +
                                                                           
  
Coprinopsis_cinerea[basidiomycet     KKPERRAFDAALERILERNPQLLGDLGAEELRAACWHVGDEKSADLCGATGAGWNGILVD
+
gi|8613437     AMKLAAVHALADLAKKSVPEQVNIVYDEVSLNFGKEYIIPKPFDPRLIYEIPPAVAKAAM
Cryptococcus_neoformans[basidiom     KKPDPAMFNYAVSHMLKRHNTSGQRENLENIRPHVWHVGDEEKTDLGGAFQAGVNGILVD
+
GOS_26940      -----------------------------------------PFDPRLSSVVSSAVAEAAM
ORF_JG1235460                        SKPDPVFFEAVLHDVVKQHPELLKNSTLEELKTDCWHVGDEENNDLNCPASAGWNAVLLD
+
gi|8870682      AMQLACIDGIAALSRATTSAEAAEAYRGEQLVFGVDYLIPKPFDPRLMGVVASAVASAAM
Saccharomyces_cerevisiae[ascomyc     AKPDRAIFQYALDDIISKQPHLLEKYTREEILQHCFHIGDELKNDLEGAEAAGWTGILLD
+
gi|2066869     EMQIACVDGIAELARATTSAEAAAAYKGEQLNFGADYLIPKPFDPRLVAVVSSAVAKAAM
Candida_glabrata[ascomycetes]        SKPDQKIYEYALDDILNRFPDLIKNCSKEEFKQFCWHIGDEKINDMEGPAKTGLVGILID
+
Spomeroyi      AMQIACVEGIAELARITTSAEAAAAYQGEQLTFGADYLIPKPFDPRLVGVVSSAVARAAM
Ashbya_gossypii[ascomycetes]          SKPDQKIYEYALDDPLNRFPDLIKNCSKEEFKQFCWGIGDEKINDMEGPAKTGLVGILID
+
gi|1584252      EMKMAAVEAIAALARETPSDVVARAYGGETRAFGADSIIPSPFDPRLILRIAPAVAKAAM
                                      **:  :: .:   :..         *::    : :***   *:  .  :*  .:*:*
+
gi|1529713     EMKLAAVHAIAELAHAEQSEVVASAYGDQDLSFGPEYIIPKPFDPRLIVKIAPAVAKAAM
 +
gi|7680888      EMEIAAVNAIAELAQQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKIAPAVAQAAM
 +
gi|1879253      EMEIAAVNAIAELARQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKVAPAVAKAAM
 +
                                                        ******  :..*** ***
  
Coprinopsis_cinerea[basidiomycet     RQDIYGQLG----------------------------------QGSAVALGLNQFVVPDF
+
gi|8613437     ESGVALEPISDWDAYREELMERSGSGSKEIRQIHNRAK---RNKKRIVFAEADHLDVLKA
Cryptococcus_neoformans[basidiom     RSNSFGYFDITTPDVCKKELSEDDLSLRKVLHHSEVILQESDAVTDVVQLNSRQYVLPNF
+
GOS_26940      QSGVATQPIKDIDAYRDALKQTVVKSAFLMRPVFEAAS---SSARRIVFAEGEDERVLRA
ORF_JG1235460                        RMNKYNHFSESFERAQR---SLHQLYTDKIDNDSGKSWQLSMKQVDAIQLSERRFVISNF
+
gi|8870682      ETGVATRPVEDLVAYRERLDASVFRSSMIMRPVFAAAA---LSQRRIVFAEGEDERVLRT
Saccharomyces_cerevisiae[ascomyc     RNDKYGFLSNSISKPMR---DEYKLSIDKIDNNSINTWEANTKQTDTLQLSERKYVVSNL
+
gi|2066869      ESGVATRPIEDITAYKQKLNQTVFKSALLMRPVFEAAR---AAARRIVFAEGEDERVLRA
Candida_glabrata[ascomycetes]        RVNKYGYFDGSFAD------IKHDLDMHKIDNNSLESWEIGIKQTDTFQVSDREYVISNL
+
Spomeroyi      ESGVARRPITDLEAYRQKLNQSVFKSALLMRPVFEAAA---KAARRLVFAEGEDERVLRA
Ashbya_gossypii[ascomycetes]          RVNKYGYTDGSFAD------IKHDLDMHKIDNNSLESWEIYIKQTDTFQISDREYVISN-
+
gi|1584252     DTGVATRPIADFDAYNEKLDEFVFRSGFIMRPLFQRAK---QDKKRVIYAEGEDERVLRA
                                      * : :.  .                                   ... :. . :*:.:  
+
gi|1529713     DSGVATRPIADFDAYIEKLSEFVYKTNLFMKPIFSQAR---KEPKRVVLAEGEETRVLHA
 +
gi|7680888      DGGVATRPIEDMEAYKVHLQQFVYHSGTTMKPVFQIARGAPAEKKRVVFAEGEEERVLRA
 +
gi|1879253      DSGVAERPIEDMEAYEQHLQQFVYHSGTTMKPIFQLARGVEPEKKRIVFAEGEEERVLRA
 +
                : ***  *: *  **  *          :. :.  *      .*:: **.:   **.:
  
Coprinopsis_cinerea[basidiomycet     YTVGKLFGLAYNI-----
+
gi|8613437     AQRVQEEKLGLPILLGRKEVILELKEEIGFT----EDVPIFDPKTDEEKERRDRFGIAYW
Cryptococcus_neoformans[basidiom      KSLEALLFQQ--------
+
GOS_26940      AQAVLEETSEVPIVIGRPEVIQQRCERLGLDIRPDRDFNIVNPQQD---DRYRDYWTSYH
ORF_JG1235460                        RTLSQLLFPSTSNGPSSN
+
gi|8870682      AQVIVEEMTDRPILIGRPEIIARRCEKAGLTIKPGEDFEVVNPEDD---SRHRRYWEAYL
Saccharomyces_cerevisiae[ascomyc     EVLEELFP----------
+
gi|2066869     AQAILEETTETPILIGRPEVIERRCEKLGLDVRPGRDFQLVNPEND---PRYYDYWNSYH
Candida_glabrata[ascomycetes]        RTLATILDVQVNE-----
+
Spomeroyi      AQAILEETTETPILIGRPEVIEARCEKMGLSVRPGQDFQIVNPEND---PRYYDYWTSYH
Ashbya_gossypii[ascomycetes]          ---ATILDVQVND-----
+
gi|1584252      AQAVIEEGIAHPILVARPSVLEARLQRFGLSIRPGKDFEVINPEDD---PRYRDFVRSYI
</pre> </small>                                        ::          
+
gi|1529713      TQELVSLGLAKPILVGRPSVIEMRIQKLGLQIKAGVDFEIVNNESD---PRFKEYWSEYY
 +
gi|7680888      VQIVVDEKLAKPILIGRPAVIEHRIQRYGLRLTPGVDFTIVNTEHD---ERYRDFWQTYF
 +
gi|1879253      MQIIVDEKLAKPILIGRPAVIEQRIARYGLRLIAGQDYTVVNTDHD---ERYRDFWQEYH
 +
                * : .    **::.* ::       *:      *  :.: . *    *  :  *
  
 +
gi|8613437      ESRQRKGRTLTEAKKLMRERN-YFAAMMVNVGEADALITGYSRPYPTVIRPILESIQKDS
 +
GOS_26940      SLLARRGVSPDLAKSIMRTNTTAIGAVMVHRGEADSLICGAVGEFRWHLNYIEQILGSK-
 +
gi|8870682      QLMSRRGVTPDLAKVIMRTNTTAIAAIMVYCGDADSMVCGSFGQYLWHLNYVRQILAYD-
 +
gi|2066869      KVMQRRGVTPDLAKAIMRTNTTAIGAIMVHRGEADSLLCGTFGEYRWHLNYVQQVLGGG-
 +
Spomeroyi      QLMERRGVTPDIAKAIMRTNTTAIGAIMVHRGEADSLICGTFGEYRWHLNYVEQVLGSK-
 +
gi|1584252      EIAGRRGVTPDAARTLVRTSSTVISALAVKKGEADAMLCGIEGRFSRHLRHVRDIIGLAP
 +
gi|1529713      QLMKRRGITQEQAQRAVISNTTVIGAIMVHRGEADAMICGTIGEYHDHYRVVQPLFGYRD
 +
gi|7680888      KMMARKGISEQLARVEMRRRTTLIGSMLVKKGEADGMICGTISTTHRHLHFIDQVIGKRA
 +
gi|1879253      KMMSRKGISAQMAKLEMRRRTTLIGAMLVEKGEADGMICGTVSTTHRHLHFIDQVIGKKE
 +
                .  *.* :  *.  :  .  :.:: *  *:**.:: *        . :  :   
  
[[Image:Phylo10.jpeg|thumb|400px|center|Serveur www.phylogeny.fr]]
+
gi|8613437      GISKVAACNLMLTKQGPMFLADTTINLNPTAKDLVKISQMTSNLVKMFGMKPNVAMLSFS
[[Image:Phylo11.jpeg|thumb|400px|center|Serveur www.phylogeny.fr]]
+
GOS_26940      TLSPSGALSLMILEDGPLFIADTHVWADPTPMQIAQTAKGAARHVRRFGIEPQVALCSQS
 +
gi|8870682      GAHPRGALSLMITEDEPLFIADTHVHPEPTPEQIADTVMAAANHVRRFGMKPNIALCSHS
 +
gi|2066869      TYSPHGALSMMILEDGPLFIADTHVHVEPTPEQIAETVIGAARHVRRFGLAPKIALCSQS
 +
Spomeroyi      DLRPHGALSLMILEDGPLFIADTHVRSRPSPEELAEITLGAARHVRRFGIEPQIALCSQS
 +
gi|1584252      GVRELAALSLLITPKGNLFLCDTQVQTEPNAADLAEMTILAAAHVRRFGIEPKVALLSHS
 +
gi|1529713      GVSTAGAMNALLLPSGNTFIADTYVNHDPSPEELAEITLMAAESVRRFGIEPRVALLSHS
 +
gi|7680888      GCSVYGAMNALVLPGRQIFLVDTHVNVDPTPAQLAEITIMAAEEVRRFGIEPKVALLSHS
 +
gi|1879253      GAKVYAAMNALVLPNRQIFLVDTHVNVDPTPEQLAEITIMAAEEVRRFGIEPKIALLSHS
 +
                    .* . ::      *: ** :.  *.. ::..   ::  *. **: *.:*: * *
  
L'arbre phylogénétique au format "texte":
+
gi|8613437      NFGSTKNESSQKIREAVSYIHRNFPNAVVDGEIQADFALNPEMLAKEFPFSKLNGKKVNV
<pre>
+
GOS_26940      QFGNLNSETGKKMRQALDILDTEKVTFTYEGEMNIDTALDPELRARLLPENR--------
                    +------------------Coprinopsis_cinerea[basidiomycetes]   
+
gi|8870682      QFGNLDIDSGRRVRQAMALLEAREPDFAYEGEMHIDSALDPDLRARIFPNSRLQG-PANV
                  +-2
+
gi|2066869      QFGNISCDTGSRLRAAIEILDDKRRDFVYEGEMNIDTALDPELRERIFPNSRLEG-AANV
                 +-3 +-----------ORF_JG1235460   
+
Spomeroyi      QFGNQAEGSGQRLRQAIEILDSRPRDFVYEGEMNLDSALDPELRQRIFPNSRLYG-AANV
                 ! !
+
gi|1584252      NFGSNDTVCARRVRAALDILKDRAPELEVDGEMQAELALLPDARERILPHSRLQG-VANV
  +--------------4 +---------------Cryptococcus_neoformans[basidiomycetes]   
+
gi|1529713      NFGSADCPSASKMRKTLELVKARAPELMIDGEMHGDAALVESIRNDRMPDSPLKG-AANI
   !              !
+
gi|7680888      NFGTSNAPSAQKMRDTLAILQERAPDLHVDGEMHGDVALDAALRKEILPESTLEG-EANL
  !              +-----------Saccharomyces_cerevisiae[ascomycetes]   
+
gi|1879253      NFGTSNAPTAQKMRDTLAILRERAPDLQVDGEMHGDIALDANLRREVMPDSTLEG-DANL
  !
+
                :**.    . .:* ::  :        :**:: : **        :* .       
  1Candida_glabrata[ascomycetes]   
+
 
  !
+
gi|8613437      LIFPNLESANITYKLLKEMQG-AESIGPVILGLSKAVHIVQLGASVDEMVNMAALACVDA
  +Ashbya_gossypii[ascomycetes]    
+
GOS_26940      ------------------------------------------------------------
</pre>   
+
gi|8870682      LVFAYGDAASGVRNILKMRGG-ALEVGPILMGMGNRAHIVTPSITARGLLNISALAGTDV
 +
gi|2066869      LIFAHADAASGVRNILKMRAG-GLEVGPILMGMGNRAHIVSPSITARGLLNMAAIAGTPV
 +
Spomeroyi      LIFAHADAASGVRNVLKMKAN-GIEVGPILMGMGNRAHIVTPSITARGLLNMAAIAGTPV
 +
gi|1584252      LVMPDLDAADIAYNMIKVLGD-ALPVGPILMGTAKPAHILGPTVTARGIVNMTAVAVVEA
 +
gi|1529713      LVMPNMEAARISYNLLRVSSSEGVTVGPVLMGVAKPVHILTPIASVRRIVNMVALAVVEA
 +
gi|7680888      LVLPNIDAANIAYNLLKTAAGNNIAIGPILLGAAQPVHVLTESATVRRIVNMTALLVADV
 +
gi|1879253      LVLPNIDAANISYNLLKTAAGNNIAIGPMLLGAAKPVHVLTASATVRRIVNMTALLVADV
 +
                                                                           
 +
 
 +
gi|8613437      QQREKK
 +
GOS_26940      ------
 +
gi|8870682      THYS--
 +
gi|2066869      AHYG--
 +
Spomeroyi      AHYG--
 +
gi|1584252      QSEA--
 +
gi|1529713      QTEPL-
 +
gi|7680888      NAVR--
 +
gi|1879253      IAAR--
 +
</pre>  </small>
 +
 
 +
 
 +
 
 +
[[Image:Phylogeny_fr_tutorial_5.png|thumb|800px|center|Formulaire de "nettoyage" de l'alignement]]
 +
[[Image:Phylogeny_fr_tutorial_6.png|thumb|800px|left|Verification de l'alignement "nettoyé"]]
 +
<br clear=both>
 +
L'alignement multiple GBLOCKS après "nettoyage" (copiez-le dans le champ de l'Annotathon '''Alignement multiple'''):
 +
<small><pre>
 +
Gblocks 0.91b Results
 +
 
 +
Processed file: input.fasta
 +
Number of sequences: 9
 +
Alignment assumed to be: Protein
 +
New number of positions: 288 (selected positions are underlined in blue)
 +
 
 +
                        10        20        30        40        50        60
 +
                =========+=========+=========+=========+=========+=========+
 +
gi|86134375|ref  ------------------MSNSRKRHEALLYHAKPKPGKIAVVPTKKYATQHDLALAYSP
 +
GOS_26940_Trans  ------------------------------------------------------------
 +
gi|88706826|ref  --------------MDDDKSRQAARDAALRYHAYPKPGKLEIRATKPLANGQDLARAYSP
 +
gi|206686971|gb  -----------------MSDSQNLRQAALNYHEFPRPGKLEIRATKPMANGRDLARAYSP
 +
Spomeroyi_gi|56  -----------------MSDQPSLRQAALDYHAFPKPGKLEIRATKPMANGRDLARAYSP
 +
gi|158425280|re  ----------------MSNISEDLKSGALVYHRSPKPGKLEIQATKPLGNQRDLALAYSP
 +
gi|152971328|re  -------------------MDEQLKQSALDFHEFPVPGKIQVSPTKPLATQRDLALAYSP
 +
gi|76808889|ref  ----------MSTSSSSSSSKEKLREAALDYHEFPTPGKVAIAPTKQMINQRDLALAYSP
 +
gi|187925371|re  MPSNVYSNPPSEARLMSTPVNSKLREAALDYHEFPTPGKIAIAPTKQMINQRDLALAYSP
 +
                                                                           
 +
 
 +
 
 +
                        70        80        90      100      110      120
 +
                =========+=========+=========+=========+=========+=========+
 +
gi|86134375|ref  GVAEPCLEIAKDKNNIYKYTSKGNLVAVISNGTAVLGLGDIGPEASKPVMEGKGLLFKIF
 +
GOS_26940_Trans  ------------------------------------------------------------
 +
gi|88706826|ref  GVAEACLEIVKDPATAADYTARGNLVAVISNGSAVLGLGNIGGLAAKPVMEGKAVLFKNF
 +
gi|206686971|gb  GVAEACTEIQADAANAARYTSRGNLVAVVSNGSAVLGLGNIGALASKPVMEGKAVLFKNF
 +
Spomeroyi_gi|56  GVAEACLEIKDNAAHAETYTARGNLVAVVSNGTAVLGLGNIGALASKPVMEGKAVLFKKF
 +
gi|158425280|re  GVAAACEAIKADPLQAAELTTRANLVAVVSNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
 +
gi|152971328|re  GVAAPCLEIEKDPLAAYKYTARGNLVAVVSNGTAVLGLGNIGALAGKPVMEGKGVLFKKF
 +
gi|76808889|ref  GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
 +
gi|187925371|re  GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
 +
                                                                           
 +
 
 +
 
 +
                        370      380      390      400      410      420
 +
                 =========+=========+=========+=========+=========+=========+
 +
gi|86134375|ref  AMKLAAVHALADLAKKSVPEQVNIVYDEVSLNFGKEYIIPKPFDPRLIYEIPPAVAKAAM
 +
GOS_26940_Trans  -----------------------------------------PFDPRLSSVVSSAVAEAAM
 +
gi|88706826|ref  AMQLACIDGIAALSRATTSAEAAEAYRGEQLVFGVDYLIPKPFDPRLMGVVASAVASAAM
 +
gi|206686971|gb  EMQIACVDGIAELARATTSAEAAAAYKGEQLNFGADYLIPKPFDPRLVAVVSSAVAKAAM
 +
Spomeroyi_gi|56  AMQIACVEGIAELARITTSAEAAAAYQGEQLTFGADYLIPKPFDPRLVGVVSSAVARAAM
 +
gi|158425280|re  EMKMAAVEAIAALARETPSDVVARAYGGETRAFGADSIIPSPFDPRLILRIAPAVAKAAM
 +
gi|152971328|re  EMKLAAVHAIAELAHAEQSEVVASAYGDQDLSFGPEYIIPKPFDPRLIVKIAPAVAKAAM
 +
gi|76808889|ref  EMEIAAVNAIAELAQQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKIAPAVAQAAM
 +
gi|187925371|re  EMEIAAVNAIAELARQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKVAPAVAKAAM
 +
                                                          ###################
 +
 
 +
 
 +
                        430      440      450      460      470      480
 +
                =========+=========+=========+=========+=========+=========+
 +
gi|86134375|ref  ESGVALEPISDWDAYREELMERSGSGSKEIRQIHNRAK---RNKKRIVFAEADHLDVLKA
 +
GOS_26940_Trans  QSGVATQPIKDIDAYRDALKQTVVKSAFLMRPVFEAAS---SSARRIVFAEGEDERVLRA
 +
gi|88706826|ref  ETGVATRPVEDLVAYRERLDASVFRSSMIMRPVFAAAA---LSQRRIVFAEGEDERVLRT
 +
gi|206686971|gb  ESGVATRPIEDITAYKQKLNQTVFKSALLMRPVFEAAR---AAARRIVFAEGEDERVLRA
 +
Spomeroyi_gi|56  ESGVARRPITDLEAYRQKLNQSVFKSALLMRPVFEAAA---KAARRLVFAEGEDERVLRA
 +
gi|158425280|re  DTGVATRPIADFDAYNEKLDEFVFRSGFIMRPLFQRAK---QDKKRVIYAEGEDERVLRA
 +
gi|152971328|re  DSGVATRPIADFDAYIEKLSEFVYKTNLFMKPIFSQAR---KEPKRVVLAEGEETRVLHA
 +
gi|76808889|ref  DGGVATRPIEDMEAYKVHLQQFVYHSGTTMKPVFQIARGAPAEKKRVVFAEGEEERVLRA
 +
gi|187925371|re  DSGVAERPIEDMEAYEQHLQQFVYHSGTTMKPIFQLARGVEPEKKRIVFAEGEEERVLRA
 +
                 #####################################      ################
 +
 
 +
 
 +
                        490      500      510      520      530      540
 +
                =========+=========+=========+=========+=========+=========+
 +
gi|86134375|ref  AQRVQEEKLGLPILLGRKEVILELKEEIGFT----EDVPIFDPKTDEEKERRDRFGIAYW
 +
GOS_26940_Trans  AQAVLEETSEVPIVIGRPEVIQQRCERLGLDIRPDRDFNIVNPQQD---DRYRDYWTSYH
 +
gi|88706826|ref  AQVIVEEMTDRPILIGRPEIIARRCEKAGLTIKPGEDFEVVNPEDD---SRHRRYWEAYL
 +
gi|206686971|gb  AQAILEETTETPILIGRPEVIERRCEKLGLDVRPGRDFQLVNPEND---PRYYDYWNSYH
 +
Spomeroyi_gi|56  AQAILEETTETPILIGRPEVIEARCEKMGLSVRPGQDFQIVNPEND---PRYYDYWTSYH
 +
gi|158425280|re  AQAVIEEGIAHPILVARPSVLEARLQRFGLSIRPGKDFEVINPEDD---PRYRDFVRSYI
 +
gi|152971328|re  TQELVSLGLAKPILVGRPSVIEMRIQKLGLQIKAGVDFEIVNNESD---PRFKEYWSEYY
 +
gi|76808889|ref  VQIVVDEKLAKPILIGRPAVIEHRIQRYGLRLTPGVDFTIVNTEHD---ERYRDFWQTYF
 +
gi|187925371|re  MQIIVDEKLAKPILIGRPAVIEQRIARYGLRLIAGQDYTVVNTDHD---ERYRDFWQEYH
 +
                ##############################      ##########    ##########
 +
 
 +
 
 +
                        550      560      570      580      590      600
 +
                =========+=========+=========+=========+=========+=========+
 +
gi|86134375|ref  ESRQRKGRTLTEAKKLMRERN-YFAAMMVNVGEADALITGYSRPYPTVIRPILESIQKDS
 +
GOS_26940_Trans  SLLARRGVSPDLAKSIMRTNTTAIGAVMVHRGEADSLICGAVGEFRWHLNYIEQILGSK-
 +
gi|88706826|ref  QLMSRRGVTPDLAKVIMRTNTTAIAAIMVYCGDADSMVCGSFGQYLWHLNYVRQILAYD-
 +
gi|206686971|gb  KVMQRRGVTPDLAKAIMRTNTTAIGAIMVHRGEADSLLCGTFGEYRWHLNYVQQVLGGG-
 +
Spomeroyi_gi|56  QLMERRGVTPDIAKAIMRTNTTAIGAIMVHRGEADSLICGTFGEYRWHLNYVEQVLGSK-
 +
gi|158425280|re  EIAGRRGVTPDAARTLVRTSSTVISALAVKKGEADAMLCGIEGRFSRHLRHVRDIIGLAP
 +
gi|152971328|re  QLMKRRGITQEQAQRAVISNTTVIGAIMVHRGEADAMICGTIGEYHDHYRVVQPLFGYRD
 +
gi|76808889|ref  KMMARKGISEQLARVEMRRRTTLIGSMLVKKGEADGMICGTISTTHRHLHFIDQVIGKRA
 +
gi|187925371|re  KMMSRKGISAQMAKLEMRRRTTLIGAMLVEKGEADGMICGTVSTTHRHLHFIDQVIGKKE
 +
                #####################  ##################################    
 +
 
 +
 
 +
                        610      620      630      640      650      660
 +
                =========+=========+=========+=========+=========+=========+
 +
gi|86134375|ref  GISKVAACNLMLTKQGPMFLADTTINLNPTAKDLVKISQMTSNLVKMFGMKPNVAMLSFS
 +
GOS_26940_Trans  TLSPSGALSLMILEDGPLFIADTHVWADPTPMQIAQTAKGAARHVRRFGIEPQVALCSQS
 +
gi|88706826|ref  GAHPRGALSLMITEDEPLFIADTHVHPEPTPEQIADTVMAAANHVRRFGMKPNIALCSHS
 +
gi|206686971|gb  TYSPHGALSMMILEDGPLFIADTHVHVEPTPEQIAETVIGAARHVRRFGLAPKIALCSQS
 +
Spomeroyi_gi|56  DLRPHGALSLMILEDGPLFIADTHVRSRPSPEELAEITLGAARHVRRFGIEPQIALCSQS
 +
gi|158425280|re  GVRELAALSLLITPKGNLFLCDTQVQTEPNAADLAEMTILAAAHVRRFGIEPKVALLSHS
 +
gi|152971328|re  GVSTAGAMNALLLPSGNTFIADTYVNHDPSPEELAEITLMAAESVRRFGIEPRVALLSHS
 +
gi|76808889|ref  GCSVYGAMNALVLPGRQIFLVDTHVNVDPTPAQLAEITIMAAEEVRRFGIEPKVALLSHS
 +
gi|187925371|re  GAKVYAAMNALVLPNRQIFLVDTHVNVDPTPEQLAEITIMAAEEVRRFGIEPKIALLSHS
 +
                ############################################################
 +
 
 +
 
 +
                        670      680      690      700      710      720
 +
                =========+=========+=========+=========+=========+=========+
 +
gi|86134375|ref  NFGSTKNESSQKIREAVSYIHRNFPNAVVDGEIQADFALNPEMLAKEFPFSKLNGKKVNV
 +
GOS_26940_Trans  QFGNLNSETGKKMRQALDILDTEKVTFTYEGEMNIDTALDPELRARLLPENR--------
 +
gi|88706826|ref  QFGNLDIDSGRRVRQAMALLEAREPDFAYEGEMHIDSALDPDLRARIFPNSRLQG-PANV
 +
gi|206686971|gb  QFGNISCDTGSRLRAAIEILDDKRRDFVYEGEMNIDTALDPELRERIFPNSRLEG-AANV
 +
Spomeroyi_gi|56  QFGNQAEGSGQRLRQAIEILDSRPRDFVYEGEMNLDSALDPELRQRIFPNSRLYG-AANV
 +
gi|158425280|re  NFGSNDTVCARRVRAALDILKDRAPELEVDGEMQAELALLPDARERILPHSRLQG-VANV
 +
gi|152971328|re  NFGSADCPSASKMRKTLELVKARAPELMIDGEMHGDAALVESIRNDRMPDSPLKG-AANI
 +
gi|76808889|ref  NFGTSNAPSAQKMRDTLAILQERAPDLHVDGEMHGDVALDAALRKEILPESTLEG-EANL
 +
gi|187925371|re  NFGTSNAPTAQKMRDTLAILRERAPDLQVDGEMHGDIALDANLRREVMPDSTLEG-DANL
 +
                ###################################################       
 +
 
 +
 
 +
                        730      740      750      760      770      780
 +
                =========+=========+=========+=========+=========+=========+
 +
gi|86134375|ref  LIFPNLESANITYKLLKEMQG-AESIGPVILGLSKAVHIVQLGASVDEMVNMAALACVDA
 +
GOS_26940_Trans  ------------------------------------------------------------
 +
gi|88706826|ref  LVFAYGDAASGVRNILKMRGG-ALEVGPILMGMGNRAHIVTPSITARGLLNISALAGTDV
 +
gi|206686971|gb  LIFAHADAASGVRNILKMRAG-GLEVGPILMGMGNRAHIVSPSITARGLLNMAAIAGTPV
 +
Spomeroyi_gi|56  LIFAHADAASGVRNVLKMKAN-GIEVGPILMGMGNRAHIVTPSITARGLLNMAAIAGTPV
 +
gi|158425280|re  LVMPDLDAADIAYNMIKVLGD-ALPVGPILMGTAKPAHILGPTVTARGIVNMTAVAVVEA
 +
gi|152971328|re  LVMPNMEAARISYNLLRVSSSEGVTVGPVLMGVAKPVHILTPIASVRRIVNMVALAVVEA
 +
gi|76808889|ref  LVLPNIDAANIAYNLLKTAAGNNIAIGPILLGAAQPVHVLTESATVRRIVNMTALLVADV
 +
gi|187925371|re  LVLPNIDAANISYNLLKTAAGNNIAIGPMLLGAAKPVHVLTASATVRRIVNMTALLVADV
 +
                                                                           
 +
 
 +
 
 +
               
 +
                ======
 +
gi|86134375|ref  QQREKK
 +
GOS_26940_Trans  ------
 +
gi|88706826|ref  THYS--
 +
gi|206686971|gb  AHYG--
 +
Spomeroyi_gi|56  AHYG--
 +
gi|158425280|re  QSEA--
 +
gi|152971328|re  QTEPL-
 +
gi|76808889|ref  NAVR--
 +
gi|187925371|re  IAAR--
 +
                     
 +
 
 +
Parameters used
 +
Minimum Number Of Sequences For A Conserved Position: 5
 +
Minimum Number Of Sequences For A Flanking Position: 8
 +
Maximum Number Of Contiguous Nonconserved Positions: 8
 +
Minimum Length Of A Block: 10
 +
Allowed Gap Positions: None
 +
Use Similarity Matrices: Yes
 +
 
 +
 
 +
Flank positions of the 6 selected block(s)
 +
Flanks: [402  457]  [465  510]  [517  526]  [531  561]  [564  597]  [601  711]
 +
 
 +
New number of positions in input.fasta-gb:  288  (36% of the original 786 positions)
 +
 
 +
</pre>  </small>
  
 +
[[Image:Phylogeny_fr_tutorial_7.png|thumb|800px|center|Formulaire de méthode d'inférence d'arbre]]
 +
[[Image:Phylogeny_fr_tutorial_8.png|thumb|800px|left|Arbre inféré]]
 +
[[Image:Phylogeny_fr_tutorial_9.png|thumb|800px|center|Formulaire de rendu de l'arbre]]
 +
[[Image:Phylogeny_fr_tutorial_10.png|thumb|800px|left|Renommage des feuilles]]
 +
[[Image:Phylogeny_fr_tutorial_11.png|thumb|800px|center|Re-enracinement de l'arbre et export au format texte]]
  
Vous copierez l'alignement multiple et l'arbre phylogéntique obtenus dans les champs appropriés de l'Annotathon:
+
L'arbre au format "text" est copié/collé dans le champ "Arbre" de l'Annotathon (souvenez-vous d'ajouter les groupes taxonomiques pour chaque feuille):
[[Image:Annotathon_phylo.png|thumb|600px|center|Analyse phylogénétique: spéciations & duplications]]
+
<pre>
 +
                                                                                                    -------0.2-----
 +
 +
                                          +------------------Congregibacter_litoralis_KT71_gi_88706826          [Add taxonomic group here!]
 +
                                          |
 +
                                          |      +------Rhodobacterales_bacterium_Y4I_gi_206686971            [Add taxonomic group here!]
 +
                    +---------------------+      |
 +
                    |                    |      ++
 +
                    |                    +------++--------Silicibacter_pomeroyi_DSS-3_gi_56697770              [Add taxonomic group here!]
 +
                    |                            |
 +
                    |                            +-----------------GOS_26940_Translation_11-922_indirect_strand
 +
                    |
 +
+------------------+                              +-----Burkholderia_pseudomallei_1710b_gi_76808889          [Add taxonomic group here!]
 +
|                  |                              |
 +
|                  |            +------------------+
 +
|                  |  +---------+                  +------Burkholderia_phytofirmans_PsJN_gi_187925371          [Add taxonomic group here!]
 +
|                  |  |        |
 +
|                  |  |        +------------------------Klebsiella_pneumoniae_subsp._pneumoniae_gi_152971328  [Add taxonomic group here!]
 +
|                 +--+
 +
|                     |
 +
|                     +----------------------------Azorhizobium_caulinodans_ORS_571_gi_158425280              [Add taxonomic group here!]
 +
|
 +
+-----------------------------------------------------------------Polaribacter_dokdonensis_MED152_gi_86134375  [Add taxonomic group here!]
 +
</pre>
  
 
== Qu'est-ce que l'on met en conclusion? ==
 
== Qu'est-ce que l'on met en conclusion? ==

Revision as of 23:16, 9 January 2009

Vous trouverez ici les protocoles détaillés des analyses bioinformatiques nécessaires pour l'Annotathon. Pour l'utilisation technique de l'Annotathon (création de compte, gestion du panier etc.) veuillez consulter le Manuel de l'Utilisateur. Enfin notez que ceci est un Wiki, donc tout le monde est invité à contribuer à cette documentation!


Traduction: comment repérer les ORF?

Recherche d'ORF
  1. Si la région génomique ne contient aucun ORF (avec les critères arbitraires définis ici:ORF > 60 aa en particulier) => CONCLURE NON CODANT (et cocher la case située juste sous la recherche d'ORF). Dans tous les cas, avant de conclure qu'un fragment de séquence génomique est non-codant, il est conseillé d'effectuer un BLASTx de la séquence nucléotidique contre NR!
  2. Si la région génomique contient des ORF => ANALYSER LA PLUS LONGUE (CRITERE 100% ARBITRAIRE). Ensuite on peut aboutir à deux cas de figures suite à l'analyse de l'ORF la + longue :
    • l'analyse de l'ORF LA PLUS LONGUE ne donne aucune similarité & aucun domaine... => Discuter si cet ORF est codant ou non (en tenant compte de la longueur de l'orf par exemple...) et cochez selon votre argumentation CODANT (par exemple si l'ORF fait quelques centaines d'AA) ou NON-CODANT. MAIS NE PAS ANALYSER LES AUTRES ORF PLUS COURTS POTENTIELLEMENT PRESENTS sur le fragment d'ADN génomique
    • l'analyse de l'ORF LA PLUS LONGUE donne des résultats lors des recherches par similarité, par domaine... => conclure que l'ORF est codant (cochez CODANT et entrez les coordonnées de début et de fin de l'ORF dans l'Annotathon) et poursuivre les analyses (phylogénie etc.)


Pour ce qui est du type des codons d'initiation, commencez par une approche dite gourmande, c'est à dire celle qui produira les ORF les plus grands possibles: donc any codon sur SMS/ORFinder. Si par la suite votre alignement multiple semble suggérer que tous les homologues commencent plus en aval alignés sur une Methionine interne de votre première proposition d'ORF, il est nécessaire de revoir la position de début de votre ORF pour la faire coincider avec ce qui est connu chez les protéines homologues.

Quant au choix du code génétique, réfléchissez sur le code génétique le plus probable vu l'environnement que vous analysez: est-il pertinent de choisir le code vertebrate mitochondiral...

Si vous utlisez SMS/ORFinder pour rechercher les ORF, pensez à faire l'analyse dans les cadres 1, 2 & 3 dans le sens direct puis indirect pour couvrir les 6 cadres possibles!

L'ORF présente-t-elle des domaines protéiques conservés?

Les domaines protéiques sont essentiels pour attribuer une fonction à une protéine inconnue. Si vous arrivez à indentifier un domaine protéique connu dans votre séquence, il est probable que vous seez en mesure de lui associer une fonction biochimique.

Commencez votre recherche de domaines sur le site InterproScan: il permet d'interroger la base InterPro, qui fédère un grand nombre de banques de données sur les domaines protéiques.

Page d'accueil d'InterProScan

Après avoir cliqué sur "Submit Job", vous obtenez une page de résultats similaires à celle-ci:

extrait de la page de résultats

Vous obtenez une liste de domaines InterPro identifiés dans votre séquence. Attention aux points suivant:

  • un domaine InterPro (p.ex. IPR000165) correspond à un ou plusieurs domaines issus d'autres banques de données (ici PR00736 issu de PRINTS et PS00820 issu de PROSITE); nous vous demandons d'indiquer le numéro d'accession InterPro (ici IPR000165)
  • tous les domaines InterPro listé dans cette page ne sont pas forcément indépendants: des domaines peuvent être contenus les uns dans les autres, ou peuvent avoir des relations parent/enfant; pour trouver ces informations supplémentaires, cliquez sur "Table View" en haut de la page de résultats, pour obtenir les résultats sous cette forme
  • cliquez sur le bouton "Raw output" pour avoir les résultats bruts complets au format "texte" simple, que vous copiez-collez ensuite in extenso dans le champs "Domaines: Résultats bruts" de l'Annotathon.
Table View des résultats précédents

On voit sous la rubrique "Children" ou "contains" ou "found in" la liste des domaines InterPro reliés au domaine en question; Règle: ne listez dans le formulaire de résultat que le domaine le plus général, i.e. celui englobe les autres. Dans cet exemple, le premier domaine (IPR000165) a comme "enfant" le domaines IPR008291 (4ème dans la liste des résultats); dans ce cas, vous n'indiquez que IPR000165, et non pas IPR008291.

Vous trouvez également sur cette vue les coordonnées de début de et fin des domaines; pour le domaine IPR000165, indiquées les coordonnées extrémales du domaine PROSITE, et non pas les coordonnées de tous les petits fragments PRINTS !

Dans cette fiche apparaissent aussi des indications sur la fonction liée à ces domaines; utilisez ces informations pour attribuer une focntions biologiques (biological process ou molecular function).

Domaines protéiques conservés

Existe-t-il des protéines similaires (homologues) à mon ORF?

Figure B1: Formulaire BLAST au NCBI

Recherchez d'éventuels protéines similaires à votre ORF (protéines homologues) en effectuant des BLASTs sur le site du NCBI (ou de l'EBI si le NCBI est trop lent). Les types de BLAST les plus usuels sont:

  • BLASTp contre SWISSPROT (trouver des homolgues ayant des fiches bien annotées)
  • BLASTp contre NR (trouver toutes les séquences similaires connues, par ex pour faire une études phylgénétique)
  • BLASTx contre NR (traduit directement votre séquence génomique dans les SIX phases; uniquement si vous n'avez aucun résultat avec les BLAST ci-dessus ou si vous n'avez pas trouvé d'ORF)

Vous commencerez toute recherche BLAST en renseignant le formulaire (Fig. B1) avec au minimum:

  • la séquence requête (Query) avec un copié/collé de la séquence protéique de l'ORF pour les BLASTp et séquence ADN pour les BLASTn ou BLASTx
  • la banque de données dans laquelle rechercher les homologues à la séquence requête
  • sélectionnez une plus grande valeur pour Max target sequences, par exemple 500 afin d'obtenir un panorama plus large d'homologues potentiels. Si saurez qu'il faut choisir une plus grande valeur de Max target sequences quand vos derniers "hits" BLAST n'atteignent pas le limite haute fixée pour le E-value (=10 par défaut).


Figure B2: intermède 'analyse en cours' du BLAST au NCBI

Après avoir soumis le recherche, attendez que la page d'intermède (Fig. B2) se rafraichisse et soit finalement soit remplacée par la page de résultats. Cet page intermède comporte quelque fois un diagramme coloré si des domaines protéiques conservés sont détectés dans votre séquence requête (ici un domaine 'ubiquitin'), mais il ne s'agit en aucun cas du résultat BLAST!


Figure B3: entête des résultats BLAST

Entête des résultats BLAST



Figure B3: graphique synoptique des résultats BLAST au NCBI

Graphique synoptique des résultats BLAST au NCBI


Figure B4: liste des séquences détectées par le BLAST

Liste des séquences détectées par le BLAST


Figure B5: alignements 2 à 2 des résultats BLAST

Alignements 2 à 2 des résultats BLAST


Figure B6: Annotathon: Les résultats BLAST

Vous reporterez obligatoirement dans l'Annotathon (Fig. B6):

  • une entête résumant quelle analyse a été effectuée (ex: BLASTp de l'ORF de 231 AA contre SWISSPROT)
  • la totalité du résumé des similarités détectées (Fig. B4)
  • les 10 premiers alignements 2 à 2 (Fig. B5)
  • le rapport taxonomique (la première partie Lineage Report Fig B7)


Figure B7: Rapport taxonomique du BLAST au NCBI (Lineage report)

Rapport taxonomique du BLAST au NCBI (Lineage report)

Si vous faites plusieurs BLAST (par exemple un contre SP et un contre NR), mettez-les les uns à la suite des autres dans le champ BLAST de l'Annotathon en les séparant par exemple par une ligne de tirets (-------------------------------------------------)

Utiliser BLAST pour compiler une liste au format FASTA des séquences homologues

Blast fasta seqs 1.png

Profitez de votre page de résultats BLAST pour préparer rapidement un jeu de séquences au format FASTA (par exemple vos groupes d'étude et externe pour envoi à l'alignement multiple et la reconstruction d'arbre phylogénétique).

Rendez-vous à la section des alignements deux-à-deux de votre page de résultats BLAST (NCBI seulement), et suivez ce tutorial en images.

Blast fasta seqs 2.png
Blast fasta seqs 3.png
Blast fasta seqs 4.png


L'arbre de la vie, vu par les microbes

Il est essentiel que les annotateurs de séquences métagénomiques gardent cette vue simplifiée de l'arbre de la vie en tête en permanence. Se référer aux embranchements des branches de cet arbre est indispensable pour correctement définir ses groupes d'étude et groupes extérieurs! Vous pourriez imprimer cette image, ou même en faire votre fond d'écran...

A microbial view of the Tree Of Life


Comment reconstruire un arbre phylogénétique?

Avant d'aller plus loin, consultez ABSOLUMENT le Fileicon-pdf.png guide de sélection des groupes d'études et extérieurs Info_circle.png pour la reconstruction d'arbre phylogénétiques! Ce guide donne aussi de précieux conseils sur l'interprétation des arbres obtenus.

Muni de votre jeu de séquences au format FASTA, pointez votre navigateur sur http://www.phylogeny.fr/ pour construire un alignement multiple, puis un arbre phylogénétique. Vous trouverez ci-dessous un tutorial par l'image de cet outil en ligne (si vous avez déjà fait votre alignement multiple à l'EBI, ne cochez pas la case "Multiple alignment et copiez collez votre alignement à la place du jeu de séquence au format FASTA tel que présenté dans le tutorial):

www.phylogeny.fr page d'accueil
Préparation du process (Workflow)
Entrée des données
Alignment Multiple


L'alignement multiple au format "MUSCLE" (identique au format CLUSTAL) obtenu en cliquant sur le lien "Alignment in CLUSTAL format" (copiez-le dans le champ de l'Annotathon Alignmentmultiple): ):

MUSCLE (3.7) multiple sequence alignment


gi|8613437      ------------------MSNSRKRHEALLYHAKPKPGKIAVVPTKKYATQHDLALAYSP
GOS_26940       ------------------------------------------------------------
gi|8870682      --------------MDDDKSRQAARDAALRYHAYPKPGKLEIRATKPLANGQDLARAYSP
gi|2066869      -----------------MSDSQNLRQAALNYHEFPRPGKLEIRATKPMANGRDLARAYSP
Spomeroyi       -----------------MSDQPSLRQAALDYHAFPKPGKLEIRATKPMANGRDLARAYSP
gi|1584252      ----------------MSNISEDLKSGALVYHRSPKPGKLEIQATKPLGNQRDLALAYSP
gi|1529713      -------------------MDEQLKQSALDFHEFPVPGKIQVSPTKPLATQRDLALAYSP
gi|7680888      ----------MSTSSSSSSSKEKLREAALDYHEFPTPGKVAIAPTKQMINQRDLALAYSP
gi|1879253      MPSNVYSNPPSEARLMSTPVNSKLREAALDYHEFPTPGKIAIAPTKQMINQRDLALAYSP
                                                                            

gi|8613437      GVAEPCLEIAKDKNNIYKYTSKGNLVAVISNGTAVLGLGDIGPEASKPVMEGKGLLFKIF
GOS_26940       ------------------------------------------------------------
gi|8870682      GVAEACLEIVKDPATAADYTARGNLVAVISNGSAVLGLGNIGGLAAKPVMEGKAVLFKNF
gi|2066869      GVAEACTEIQADAANAARYTSRGNLVAVVSNGSAVLGLGNIGALASKPVMEGKAVLFKNF
Spomeroyi       GVAEACLEIKDNAAHAETYTARGNLVAVVSNGTAVLGLGNIGALASKPVMEGKAVLFKKF
gi|1584252      GVAAACEAIKADPLQAAELTTRANLVAVVSNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
gi|1529713      GVAAPCLEIEKDPLAAYKYTARGNLVAVVSNGTAVLGLGNIGALAGKPVMEGKGVLFKKF
gi|7680888      GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
gi|1879253      GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
                                                                            

gi|8613437      AMKLAAVHALADLAKKSVPEQVNIVYDEVSLNFGKEYIIPKPFDPRLIYEIPPAVAKAAM
GOS_26940       -----------------------------------------PFDPRLSSVVSSAVAEAAM
gi|8870682      AMQLACIDGIAALSRATTSAEAAEAYRGEQLVFGVDYLIPKPFDPRLMGVVASAVASAAM
gi|2066869      EMQIACVDGIAELARATTSAEAAAAYKGEQLNFGADYLIPKPFDPRLVAVVSSAVAKAAM
Spomeroyi       AMQIACVEGIAELARITTSAEAAAAYQGEQLTFGADYLIPKPFDPRLVGVVSSAVARAAM
gi|1584252      EMKMAAVEAIAALARETPSDVVARAYGGETRAFGADSIIPSPFDPRLILRIAPAVAKAAM
gi|1529713      EMKLAAVHAIAELAHAEQSEVVASAYGDQDLSFGPEYIIPKPFDPRLIVKIAPAVAKAAM
gi|7680888      EMEIAAVNAIAELAQQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKIAPAVAQAAM
gi|1879253      EMEIAAVNAIAELARQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKVAPAVAKAAM
                                                         ******   :..*** ***

gi|8613437      ESGVALEPISDWDAYREELMERSGSGSKEIRQIHNRAK---RNKKRIVFAEADHLDVLKA
GOS_26940       QSGVATQPIKDIDAYRDALKQTVVKSAFLMRPVFEAAS---SSARRIVFAEGEDERVLRA
gi|8870682      ETGVATRPVEDLVAYRERLDASVFRSSMIMRPVFAAAA---LSQRRIVFAEGEDERVLRT
gi|2066869      ESGVATRPIEDITAYKQKLNQTVFKSALLMRPVFEAAR---AAARRIVFAEGEDERVLRA
Spomeroyi       ESGVARRPITDLEAYRQKLNQSVFKSALLMRPVFEAAA---KAARRLVFAEGEDERVLRA
gi|1584252      DTGVATRPIADFDAYNEKLDEFVFRSGFIMRPLFQRAK---QDKKRVIYAEGEDERVLRA
gi|1529713      DSGVATRPIADFDAYIEKLSEFVYKTNLFMKPIFSQAR---KEPKRVVLAEGEETRVLHA
gi|7680888      DGGVATRPIEDMEAYKVHLQQFVYHSGTTMKPVFQIARGAPAEKKRVVFAEGEEERVLRA
gi|1879253      DSGVAERPIEDMEAYEQHLQQFVYHSGTTMKPIFQLARGVEPEKKRIVFAEGEEERVLRA
                : ***  *: *  **   *          :. :.  *       .*:: **.:   **.:

gi|8613437      AQRVQEEKLGLPILLGRKEVILELKEEIGFT----EDVPIFDPKTDEEKERRDRFGIAYW
GOS_26940       AQAVLEETSEVPIVIGRPEVIQQRCERLGLDIRPDRDFNIVNPQQD---DRYRDYWTSYH
gi|8870682      AQVIVEEMTDRPILIGRPEIIARRCEKAGLTIKPGEDFEVVNPEDD---SRHRRYWEAYL
gi|2066869      AQAILEETTETPILIGRPEVIERRCEKLGLDVRPGRDFQLVNPEND---PRYYDYWNSYH
Spomeroyi       AQAILEETTETPILIGRPEVIEARCEKMGLSVRPGQDFQIVNPEND---PRYYDYWTSYH
gi|1584252      AQAVIEEGIAHPILVARPSVLEARLQRFGLSIRPGKDFEVINPEDD---PRYRDFVRSYI
gi|1529713      TQELVSLGLAKPILVGRPSVIEMRIQKLGLQIKAGVDFEIVNNESD---PRFKEYWSEYY
gi|7680888      VQIVVDEKLAKPILIGRPAVIEHRIQRYGLRLTPGVDFTIVNTEHD---ERYRDFWQTYF
gi|1879253      MQIIVDEKLAKPILIGRPAVIEQRIARYGLRLIAGQDYTVVNTDHD---ERYRDFWQEYH
                 * : .     **::.*  ::       *:      *  :.: . *    *   :   * 

gi|8613437      ESRQRKGRTLTEAKKLMRERN-YFAAMMVNVGEADALITGYSRPYPTVIRPILESIQKDS
GOS_26940       SLLARRGVSPDLAKSIMRTNTTAIGAVMVHRGEADSLICGAVGEFRWHLNYIEQILGSK-
gi|8870682      QLMSRRGVTPDLAKVIMRTNTTAIAAIMVYCGDADSMVCGSFGQYLWHLNYVRQILAYD-
gi|2066869      KVMQRRGVTPDLAKAIMRTNTTAIGAIMVHRGEADSLLCGTFGEYRWHLNYVQQVLGGG-
Spomeroyi       QLMERRGVTPDIAKAIMRTNTTAIGAIMVHRGEADSLICGTFGEYRWHLNYVEQVLGSK-
gi|1584252      EIAGRRGVTPDAARTLVRTSSTVISALAVKKGEADAMLCGIEGRFSRHLRHVRDIIGLAP
gi|1529713      QLMKRRGITQEQAQRAVISNTTVIGAIMVHRGEADAMICGTIGEYHDHYRVVQPLFGYRD
gi|7680888      KMMARKGISEQLARVEMRRRTTLIGSMLVKKGEADGMICGTISTTHRHLHFIDQVIGKRA
gi|1879253      KMMSRKGISAQMAKLEMRRRTTLIGAMLVEKGEADGMICGTVSTTHRHLHFIDQVIGKKE
                .   *.* :   *.  :   .  :.:: *  *:**.:: *         . :   :    

gi|8613437      GISKVAACNLMLTKQGPMFLADTTINLNPTAKDLVKISQMTSNLVKMFGMKPNVAMLSFS
GOS_26940       TLSPSGALSLMILEDGPLFIADTHVWADPTPMQIAQTAKGAARHVRRFGIEPQVALCSQS
gi|8870682      GAHPRGALSLMITEDEPLFIADTHVHPEPTPEQIADTVMAAANHVRRFGMKPNIALCSHS
gi|2066869      TYSPHGALSMMILEDGPLFIADTHVHVEPTPEQIAETVIGAARHVRRFGLAPKIALCSQS
Spomeroyi       DLRPHGALSLMILEDGPLFIADTHVRSRPSPEELAEITLGAARHVRRFGIEPQIALCSQS
gi|1584252      GVRELAALSLLITPKGNLFLCDTQVQTEPNAADLAEMTILAAAHVRRFGIEPKVALLSHS
gi|1529713      GVSTAGAMNALLLPSGNTFIADTYVNHDPSPEELAEITLMAAESVRRFGIEPRVALLSHS
gi|7680888      GCSVYGAMNALVLPGRQIFLVDTHVNVDPTPAQLAEITIMAAEEVRRFGIEPKVALLSHS
gi|1879253      GAKVYAAMNALVLPNRQIFLVDTHVNVDPTPEQLAEITIMAAEEVRRFGIEPKIALLSHS
                     .* . ::      *: ** :.  *.. ::..    ::  *. **: *.:*: * *

gi|8613437      NFGSTKNESSQKIREAVSYIHRNFPNAVVDGEIQADFALNPEMLAKEFPFSKLNGKKVNV
GOS_26940       QFGNLNSETGKKMRQALDILDTEKVTFTYEGEMNIDTALDPELRARLLPENR--------
gi|8870682      QFGNLDIDSGRRVRQAMALLEAREPDFAYEGEMHIDSALDPDLRARIFPNSRLQG-PANV
gi|2066869      QFGNISCDTGSRLRAAIEILDDKRRDFVYEGEMNIDTALDPELRERIFPNSRLEG-AANV
Spomeroyi       QFGNQAEGSGQRLRQAIEILDSRPRDFVYEGEMNLDSALDPELRQRIFPNSRLYG-AANV
gi|1584252      NFGSNDTVCARRVRAALDILKDRAPELEVDGEMQAELALLPDARERILPHSRLQG-VANV
gi|1529713      NFGSADCPSASKMRKTLELVKARAPELMIDGEMHGDAALVESIRNDRMPDSPLKG-AANI
gi|7680888      NFGTSNAPSAQKMRDTLAILQERAPDLHVDGEMHGDVALDAALRKEILPESTLEG-EANL
gi|1879253      NFGTSNAPTAQKMRDTLAILRERAPDLQVDGEMHGDIALDANLRREVMPDSTLEG-DANL
                :**.     . .:* ::  :         :**:: : **        :* .         

gi|8613437      LIFPNLESANITYKLLKEMQG-AESIGPVILGLSKAVHIVQLGASVDEMVNMAALACVDA
GOS_26940       ------------------------------------------------------------
gi|8870682      LVFAYGDAASGVRNILKMRGG-ALEVGPILMGMGNRAHIVTPSITARGLLNISALAGTDV
gi|2066869      LIFAHADAASGVRNILKMRAG-GLEVGPILMGMGNRAHIVSPSITARGLLNMAAIAGTPV
Spomeroyi       LIFAHADAASGVRNVLKMKAN-GIEVGPILMGMGNRAHIVTPSITARGLLNMAAIAGTPV
gi|1584252      LVMPDLDAADIAYNMIKVLGD-ALPVGPILMGTAKPAHILGPTVTARGIVNMTAVAVVEA
gi|1529713      LVMPNMEAARISYNLLRVSSSEGVTVGPVLMGVAKPVHILTPIASVRRIVNMVALAVVEA
gi|7680888      LVLPNIDAANIAYNLLKTAAGNNIAIGPILLGAAQPVHVLTESATVRRIVNMTALLVADV
gi|1879253      LVLPNIDAANISYNLLKTAAGNNIAIGPMLLGAAKPVHVLTASATVRRIVNMTALLVADV
                                                                            

gi|8613437      QQREKK
GOS_26940       ------
gi|8870682      THYS--
gi|2066869      AHYG--
Spomeroyi       AHYG--
gi|1584252      QSEA--
gi|1529713      QTEPL-
gi|7680888      NAVR--
gi|1879253      IAAR--


Formulaire de "nettoyage" de l'alignement
Verification de l'alignement "nettoyé"


L'alignement multiple GBLOCKS après "nettoyage" (copiez-le dans le champ de l'Annotathon Alignement multiple):

Gblocks 0.91b Results

Processed file: input.fasta
Number of sequences: 9
Alignment assumed to be: Protein
New number of positions: 288 (selected positions are underlined in blue)

                         10        20        30        40        50        60
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  ------------------MSNSRKRHEALLYHAKPKPGKIAVVPTKKYATQHDLALAYSP
GOS_26940_Trans  ------------------------------------------------------------
gi|88706826|ref  --------------MDDDKSRQAARDAALRYHAYPKPGKLEIRATKPLANGQDLARAYSP
gi|206686971|gb  -----------------MSDSQNLRQAALNYHEFPRPGKLEIRATKPMANGRDLARAYSP
Spomeroyi_gi|56  -----------------MSDQPSLRQAALDYHAFPKPGKLEIRATKPMANGRDLARAYSP
gi|158425280|re  ----------------MSNISEDLKSGALVYHRSPKPGKLEIQATKPLGNQRDLALAYSP
gi|152971328|re  -------------------MDEQLKQSALDFHEFPVPGKIQVSPTKPLATQRDLALAYSP
gi|76808889|ref  ----------MSTSSSSSSSKEKLREAALDYHEFPTPGKVAIAPTKQMINQRDLALAYSP
gi|187925371|re  MPSNVYSNPPSEARLMSTPVNSKLREAALDYHEFPTPGKIAIAPTKQMINQRDLALAYSP
                                                                             


                         70        80        90       100       110       120
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  GVAEPCLEIAKDKNNIYKYTSKGNLVAVISNGTAVLGLGDIGPEASKPVMEGKGLLFKIF
GOS_26940_Trans  ------------------------------------------------------------
gi|88706826|ref  GVAEACLEIVKDPATAADYTARGNLVAVISNGSAVLGLGNIGGLAAKPVMEGKAVLFKNF
gi|206686971|gb  GVAEACTEIQADAANAARYTSRGNLVAVVSNGSAVLGLGNIGALASKPVMEGKAVLFKNF
Spomeroyi_gi|56  GVAEACLEIKDNAAHAETYTARGNLVAVVSNGTAVLGLGNIGALASKPVMEGKAVLFKKF
gi|158425280|re  GVAAACEAIKADPLQAAELTTRANLVAVVSNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
gi|152971328|re  GVAAPCLEIEKDPLAAYKYTARGNLVAVVSNGTAVLGLGNIGALAGKPVMEGKGVLFKKF
gi|76808889|ref  GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
gi|187925371|re  GVAFACEEIVENPLNAARFTARSNLVGVVTNGTAVLGLGNIGPLASKPVMEGKAVLFKKF
                                                                             


                        370       380       390       400       410       420
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  AMKLAAVHALADLAKKSVPEQVNIVYDEVSLNFGKEYIIPKPFDPRLIYEIPPAVAKAAM
GOS_26940_Trans  -----------------------------------------PFDPRLSSVVSSAVAEAAM
gi|88706826|ref  AMQLACIDGIAALSRATTSAEAAEAYRGEQLVFGVDYLIPKPFDPRLMGVVASAVASAAM
gi|206686971|gb  EMQIACVDGIAELARATTSAEAAAAYKGEQLNFGADYLIPKPFDPRLVAVVSSAVAKAAM
Spomeroyi_gi|56  AMQIACVEGIAELARITTSAEAAAAYQGEQLTFGADYLIPKPFDPRLVGVVSSAVARAAM
gi|158425280|re  EMKMAAVEAIAALARETPSDVVARAYGGETRAFGADSIIPSPFDPRLILRIAPAVAKAAM
gi|152971328|re  EMKLAAVHAIAELAHAEQSEVVASAYGDQDLSFGPEYIIPKPFDPRLIVKIAPAVAKAAM
gi|76808889|ref  EMEIAAVNAIAELAQQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKIAPAVAQAAM
gi|187925371|re  EMEIAAVNAIAELARQEQSDIVATAYGIQDLSFGPEYLIPKPFDPRLIVKVAPAVAKAAM
                                                          ###################


                        430       440       450       460       470       480
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  ESGVALEPISDWDAYREELMERSGSGSKEIRQIHNRAK---RNKKRIVFAEADHLDVLKA
GOS_26940_Trans  QSGVATQPIKDIDAYRDALKQTVVKSAFLMRPVFEAAS---SSARRIVFAEGEDERVLRA
gi|88706826|ref  ETGVATRPVEDLVAYRERLDASVFRSSMIMRPVFAAAA---LSQRRIVFAEGEDERVLRT
gi|206686971|gb  ESGVATRPIEDITAYKQKLNQTVFKSALLMRPVFEAAR---AAARRIVFAEGEDERVLRA
Spomeroyi_gi|56  ESGVARRPITDLEAYRQKLNQSVFKSALLMRPVFEAAA---KAARRLVFAEGEDERVLRA
gi|158425280|re  DTGVATRPIADFDAYNEKLDEFVFRSGFIMRPLFQRAK---QDKKRVIYAEGEDERVLRA
gi|152971328|re  DSGVATRPIADFDAYIEKLSEFVYKTNLFMKPIFSQAR---KEPKRVVLAEGEETRVLHA
gi|76808889|ref  DGGVATRPIEDMEAYKVHLQQFVYHSGTTMKPVFQIARGAPAEKKRVVFAEGEEERVLRA
gi|187925371|re  DSGVAERPIEDMEAYEQHLQQFVYHSGTTMKPIFQLARGVEPEKKRIVFAEGEEERVLRA
                 #####################################       ################


                        490       500       510       520       530       540
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  AQRVQEEKLGLPILLGRKEVILELKEEIGFT----EDVPIFDPKTDEEKERRDRFGIAYW
GOS_26940_Trans  AQAVLEETSEVPIVIGRPEVIQQRCERLGLDIRPDRDFNIVNPQQD---DRYRDYWTSYH
gi|88706826|ref  AQVIVEEMTDRPILIGRPEIIARRCEKAGLTIKPGEDFEVVNPEDD---SRHRRYWEAYL
gi|206686971|gb  AQAILEETTETPILIGRPEVIERRCEKLGLDVRPGRDFQLVNPEND---PRYYDYWNSYH
Spomeroyi_gi|56  AQAILEETTETPILIGRPEVIEARCEKMGLSVRPGQDFQIVNPEND---PRYYDYWTSYH
gi|158425280|re  AQAVIEEGIAHPILVARPSVLEARLQRFGLSIRPGKDFEVINPEDD---PRYRDFVRSYI
gi|152971328|re  TQELVSLGLAKPILVGRPSVIEMRIQKLGLQIKAGVDFEIVNNESD---PRFKEYWSEYY
gi|76808889|ref  VQIVVDEKLAKPILIGRPAVIEHRIQRYGLRLTPGVDFTIVNTEHD---ERYRDFWQTYF
gi|187925371|re  MQIIVDEKLAKPILIGRPAVIEQRIARYGLRLIAGQDYTVVNTDHD---ERYRDFWQEYH
                 ##############################      ##########    ##########


                        550       560       570       580       590       600
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  ESRQRKGRTLTEAKKLMRERN-YFAAMMVNVGEADALITGYSRPYPTVIRPILESIQKDS
GOS_26940_Trans  SLLARRGVSPDLAKSIMRTNTTAIGAVMVHRGEADSLICGAVGEFRWHLNYIEQILGSK-
gi|88706826|ref  QLMSRRGVTPDLAKVIMRTNTTAIAAIMVYCGDADSMVCGSFGQYLWHLNYVRQILAYD-
gi|206686971|gb  KVMQRRGVTPDLAKAIMRTNTTAIGAIMVHRGEADSLLCGTFGEYRWHLNYVQQVLGGG-
Spomeroyi_gi|56  QLMERRGVTPDIAKAIMRTNTTAIGAIMVHRGEADSLICGTFGEYRWHLNYVEQVLGSK-
gi|158425280|re  EIAGRRGVTPDAARTLVRTSSTVISALAVKKGEADAMLCGIEGRFSRHLRHVRDIIGLAP
gi|152971328|re  QLMKRRGITQEQAQRAVISNTTVIGAIMVHRGEADAMICGTIGEYHDHYRVVQPLFGYRD
gi|76808889|ref  KMMARKGISEQLARVEMRRRTTLIGSMLVKKGEADGMICGTISTTHRHLHFIDQVIGKRA
gi|187925371|re  KMMSRKGISAQMAKLEMRRRTTLIGAMLVEKGEADGMICGTVSTTHRHLHFIDQVIGKKE
                 #####################  ##################################   


                        610       620       630       640       650       660
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  GISKVAACNLMLTKQGPMFLADTTINLNPTAKDLVKISQMTSNLVKMFGMKPNVAMLSFS
GOS_26940_Trans  TLSPSGALSLMILEDGPLFIADTHVWADPTPMQIAQTAKGAARHVRRFGIEPQVALCSQS
gi|88706826|ref  GAHPRGALSLMITEDEPLFIADTHVHPEPTPEQIADTVMAAANHVRRFGMKPNIALCSHS
gi|206686971|gb  TYSPHGALSMMILEDGPLFIADTHVHVEPTPEQIAETVIGAARHVRRFGLAPKIALCSQS
Spomeroyi_gi|56  DLRPHGALSLMILEDGPLFIADTHVRSRPSPEELAEITLGAARHVRRFGIEPQIALCSQS
gi|158425280|re  GVRELAALSLLITPKGNLFLCDTQVQTEPNAADLAEMTILAAAHVRRFGIEPKVALLSHS
gi|152971328|re  GVSTAGAMNALLLPSGNTFIADTYVNHDPSPEELAEITLMAAESVRRFGIEPRVALLSHS
gi|76808889|ref  GCSVYGAMNALVLPGRQIFLVDTHVNVDPTPAQLAEITIMAAEEVRRFGIEPKVALLSHS
gi|187925371|re  GAKVYAAMNALVLPNRQIFLVDTHVNVDPTPEQLAEITIMAAEEVRRFGIEPKIALLSHS
                 ############################################################


                        670       680       690       700       710       720
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  NFGSTKNESSQKIREAVSYIHRNFPNAVVDGEIQADFALNPEMLAKEFPFSKLNGKKVNV
GOS_26940_Trans  QFGNLNSETGKKMRQALDILDTEKVTFTYEGEMNIDTALDPELRARLLPENR--------
gi|88706826|ref  QFGNLDIDSGRRVRQAMALLEAREPDFAYEGEMHIDSALDPDLRARIFPNSRLQG-PANV
gi|206686971|gb  QFGNISCDTGSRLRAAIEILDDKRRDFVYEGEMNIDTALDPELRERIFPNSRLEG-AANV
Spomeroyi_gi|56  QFGNQAEGSGQRLRQAIEILDSRPRDFVYEGEMNLDSALDPELRQRIFPNSRLYG-AANV
gi|158425280|re  NFGSNDTVCARRVRAALDILKDRAPELEVDGEMQAELALLPDARERILPHSRLQG-VANV
gi|152971328|re  NFGSADCPSASKMRKTLELVKARAPELMIDGEMHGDAALVESIRNDRMPDSPLKG-AANI
gi|76808889|ref  NFGTSNAPSAQKMRDTLAILQERAPDLHVDGEMHGDVALDAALRKEILPESTLEG-EANL
gi|187925371|re  NFGTSNAPTAQKMRDTLAILRERAPDLQVDGEMHGDIALDANLRREVMPDSTLEG-DANL
                 ###################################################         


                        730       740       750       760       770       780
                 =========+=========+=========+=========+=========+=========+
gi|86134375|ref  LIFPNLESANITYKLLKEMQG-AESIGPVILGLSKAVHIVQLGASVDEMVNMAALACVDA
GOS_26940_Trans  ------------------------------------------------------------
gi|88706826|ref  LVFAYGDAASGVRNILKMRGG-ALEVGPILMGMGNRAHIVTPSITARGLLNISALAGTDV
gi|206686971|gb  LIFAHADAASGVRNILKMRAG-GLEVGPILMGMGNRAHIVSPSITARGLLNMAAIAGTPV
Spomeroyi_gi|56  LIFAHADAASGVRNVLKMKAN-GIEVGPILMGMGNRAHIVTPSITARGLLNMAAIAGTPV
gi|158425280|re  LVMPDLDAADIAYNMIKVLGD-ALPVGPILMGTAKPAHILGPTVTARGIVNMTAVAVVEA
gi|152971328|re  LVMPNMEAARISYNLLRVSSSEGVTVGPVLMGVAKPVHILTPIASVRRIVNMVALAVVEA
gi|76808889|ref  LVLPNIDAANIAYNLLKTAAGNNIAIGPILLGAAQPVHVLTESATVRRIVNMTALLVADV
gi|187925371|re  LVLPNIDAANISYNLLKTAAGNNIAIGPMLLGAAKPVHVLTASATVRRIVNMTALLVADV
                                                                             


                 
                 ======
gi|86134375|ref  QQREKK
GOS_26940_Trans  ------
gi|88706826|ref  THYS--
gi|206686971|gb  AHYG--
Spomeroyi_gi|56  AHYG--
gi|158425280|re  QSEA--
gi|152971328|re  QTEPL-
gi|76808889|ref  NAVR--
gi|187925371|re  IAAR--
                       

Parameters used
Minimum Number Of Sequences For A Conserved Position: 5
Minimum Number Of Sequences For A Flanking Position: 8
Maximum Number Of Contiguous Nonconserved Positions: 8
Minimum Length Of A Block: 10
Allowed Gap Positions: None
Use Similarity Matrices: Yes


Flank positions of the 6 selected block(s)
Flanks: [402  457]  [465  510]  [517  526]  [531  561]  [564  597]  [601  711]  

New number of positions in input.fasta-gb:  288  (36% of the original 786 positions)

Formulaire de méthode d'inférence d'arbre
Arbre inféré
Formulaire de rendu de l'arbre
Renommage des feuilles
Re-enracinement de l'arbre et export au format texte

L'arbre au format "text" est copié/collé dans le champ "Arbre" de l'Annotathon (souvenez-vous d'ajouter les groupes taxonomiques pour chaque feuille):

                                                                                                    -------0.2-----
 
                                          +------------------Congregibacter_litoralis_KT71_gi_88706826          [Add taxonomic group here!]
                                          |
                                          |       +------Rhodobacterales_bacterium_Y4I_gi_206686971             [Add taxonomic group here!]
                    +---------------------+       |
                    |                     |      ++
                    |                     +------++--------Silicibacter_pomeroyi_DSS-3_gi_56697770              [Add taxonomic group here!]
                    |                            |
                    |                            +-----------------GOS_26940_Translation_11-922_indirect_strand
                    |
 +------------------+                               +-----Burkholderia_pseudomallei_1710b_gi_76808889           [Add taxonomic group here!]
 |                  |                               |
 |                  |            +------------------+
 |                  |  +---------+                  +------Burkholderia_phytofirmans_PsJN_gi_187925371          [Add taxonomic group here!]
 |                  |  |         |
 |                  |  |         +------------------------Klebsiella_pneumoniae_subsp._pneumoniae_gi_152971328  [Add taxonomic group here!]
 |                  +--+
 |                     |
 |                     +----------------------------Azorhizobium_caulinodans_ORS_571_gi_158425280               [Add taxonomic group here!]
 |
 +-----------------------------------------------------------------Polaribacter_dokdonensis_MED152_gi_86134375  [Add taxonomic group here!]

Qu'est-ce que l'on met en conclusion?

Après avoir collecté et reporté tous les résultats décrits ci-dessus, rédigez une synthèse de vos hypothèses. Cette conclusion n'est pas chronologique; elle est justement l'occasion de croiser les informations et indices obtenus par différentes méthodes pour formuler des hypothèses argumentées!

Vous argumenterez vos hypothèses selon les trois axes suivants:

  • nature codante ou non du fragment d'ADN, délimitation de l'ORF le cas échéant
  • fonction putative du produit de l'ORF
  • classification taxonomique probable de l'organisme portant ce fragment d'ADN!

A quoi sert le bloc Note?

Le Bloc Note est un champ d'annotation libre; utilisez-le pour archiver vos résultats intermédiaires, vos listes de séquences au format FASTA (avec les noms de séquence retravaillés),vos variantes d'arbres etc.

Bloc Note: le fourre-tout