GOS 711010
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary! |
Sequence | |||
---|---|---|---|
CAMERA AccNum : | JCVI_READ_1091118859768 | ||
Annotathon code: | GOS_711010 | ||
Sample : |
| ||
Authors | |||
Team : | BioCell2008 | ||
Username : | fowen | ||
Annotated on : | 2009-02-04 21:56:41
| ||
Contents
Synopsis
- Gene symbol: Unknown gene symbol
- Biological Process: unknown biological process
- Molecular Function: unknown molecular function
- Taxonomy: unknown organism (NCBI info)
Genomic Sequence
>JCVI_READ_1091118859768 GOS_711010 genomic DNA GTGTATCTCATAACGATTGTAGGGGACTTGCTATTAATGGTGGTTACTCTCATTTATTACATTTAGAAAGTGATGTTATTTGCCCTACTGATACTATTGA AAATTTATACTTACATAAAAAGCAAGTTGCTGGAGGTTTATTTTACAGAGATAGTGGAATAAGTCGTAAATTAATGGCACAAAGACGTATTTATAGAAGT CCTAGAAATATTATAAGCGAAAACTTTTTACCGAGTGAGGATATACATTTTATTGACGGCACACTAAAAACGGCTGCTCATATAGGTTTAGGCTGTATTT TAATTAATGTAGAAACTTTAAAAAAGATTAAATTTAGATTTGTAGAAAATGTAGATATGCACCCCGATACATATTTTGCAGAGGATTGTTTTAGAAATAA CATTAAGATATTTGCAGATACTAATATAATTTGCAAACATAATAATGAAGATTGGGGAGTTTACGGTTATACTTGGAAATAATATATAATATAAATAAAT ATGGATATAAGAGAACTTAGAATAGGAAATTTGTATGATAATAATGGTAATTACTTTGTAGTTACGCCAAATACAATAGAATCACTTTTTGAAAGAGAAA GAGTATGGTGTAAACCAATACCATTAACAGAGGAAATACTTTTGAAATGTGGTTTTGAGAAATTTAATACTATTGGAGGGTGCTTTTACTACATCAATGG ATTGAGAATTGATTACATTTTGTGTAAATTTGTATTATTAGGCTATGATAGATGTAATTTGAATTACTTGCACGAATTACAAAATATTTACTCATGCCTT TGTGGAGATGAGTTAAAAATAAACTTATAAGTATGGAAAAAATAATATTCCTTGATATTGATGGCGTAATAAATCCGATTCATTACATGAACGCTACATA TAAAATGTGGAAAGCAAGTTTTGGAGAATTAAAAGCCATGATGATATGGGCAGTTATTCTTTTAT
Translation
[3 - 479/965] direct strand
>GOS_711010 Translation [3-479 direct strand] VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQRRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCIL INVETLKKIKFRFVENVDMHPDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK
[ Warning ] 5' incomplete: does not start with a Methionine
Phylogeny
PROTOCOLE: phylogeny.fr ProtDist/DnaDist-Neighbor et protpars ; paramètres par défaut --------------------------------------------------------------------------------------------------- ANALYSE DES RÉSULTATS: Les deux arbres obtenus par parsimonie et distance sont non congruents. Nous pouvons seulement conclure que marine 1 est bien la protéine la plus proche de notre séquence. Marine 1 est homologue à notre séquence : c'est notre protéine. Cette protéine ferait partie d'un groupe incluant marine 2, marine 4, marine 5 et marine 6. Puisque les 2 arbres donnent des résultats différents, nous ne pouvons pas conclure sur les séquences les plus proches de notre séquence d'intérêt. On peut seulement dire qu'il y a des homologies entre toutes ces protéines marines. Nous ne pouvons pas définir de groupe extérieur car les seules séquences homologues obtenues sont des séquences marines. --------------------------------------------------------------------------------------------------- RÉSULTATS BRUTS: protdist +------------marine_7 ! ! +marine_1 ! +-----------------1 ! +----------5 +GOS_711010 ! ! ! ! ! +------------marine_2 ! +--------6 ! ! ! +-------marine_4 ! ! ! +--------------2 3----------7 +----------4 +-------------marine_6 ! ! ! ! ! +--------------------marine_5 ! ! ! +---------------------------------marine_8 ! +------------marine_3 --------------------------------------------------------------------------------------------------- Protein parsimony algorithm, version 3.66 One most parsimonious tree found: +-----------marine_8 | +--------8 +--marine_6 | | +-----6 | | | +--marine_4 | +--5 +--2 | +--GOS_711010 | | +-----3 | | +--marine_1 | | | | +-----marine_5 1 +--------------7 | | +--marine_2 | +--4 | +--marine_7 | +-----------------------marine_3 remember: this is an unrooted tree! requires a total of 1532.000
Annotator commentaries
La séquence analysée est probablement codante. Il s'agit bien d'une séquence environnementale.
La protéine codée par cette séquence n'a pas de fonction connue. Notre séquence n'appartient pas à un groupe taxonomique connu.
Cette séquence n'a pas d'homologues connus. Elle présente cependant des similarités avec d'autres séquences environnementales marines : toutes ces séquences sont phylogénétiquement proches. Les protéines codées par ces séquences appartiennent donc à un même groupe de protéines marines ayant toutes des fonctions inconnues. Nous n'avons pas pu conclure sur la position exacte de notre protéine avec les autres protéines marines, car nous avons obtenu des arbres phylogénétiques non congruents.
Multiple Alignement
PROTOCOLE: phylogeny.fr Clustal W2.0.3 ; paramètres par défaut --------------------------------------------------------------------------------------------------- ANALYSE DES RÉSULTATS: Nous avons choisi comme séquences pour réaliser l'alignement multiple les séquences présentant le plus d'homologies, à partir du BLAST P contre env nr. Nous avons décidé de conserver les huit séquences avec le e-value le plus faible (de 2e-90 à 4e-08) et nous avons donc éliminé les séquences ayant un e-value plus élevé car elles ne nous semblaient pas pertinentes. Nous observons deux régions qui semblent conservées entre ces diverses protéines : on a des substitutions conservatives ainsi que des identités absolues. On peut donc faire l'hypothèse que chaque région code pour un domaine impliqué dans une même fonction pour toutes ces protéines. --------------------------------------------------------------------------------------------------- RÉSULTATS BRUTS: marine_3 -----------------YHEYALDEYTEAVKTLTYPNYDILLVDNSKGNTYS-------- marine_7 -----MKKILVGSPVNEMYDYCIKEYIESLKSLTYKNHDILLVDNSEGNGFY-------- marine_1 ------------------------------------------------------------ GOS_711010 ------------------------------------------------------------ marine_2 ---MNFEKVLICAPTASAKNYCFEEWIKNVMDFTYPNFEVALFDNTIDKGKNAKYLNKRY marine_4 ------------------------------------------------------------ marine_6 ------------------------------------------------------------ marine_5 MMAWKPPKILLGGPTAIVKQYCADDWIENIRKIVYPAEIDILLADNSEDESNVEFW---- marine_8 -------------------------------SFFYG------------------------ marine_3 ----KKLKSLGFNVIKGSWHEEARERIVSSRNILRQYVLDNNYDYFLSLEQDVIPPKDMI marine_7 ----KKLKSMKMPVIKGKFFQEPRDRMVHSRNILREMAIEENYDYFLNIDQDVIPPKDII marine_1 ----------------------------VSHNDCRGLAINGGYSHLLHLESDVICPTDTI GOS_711010 ----------------------------VSHNDCRGLAINGGYSHLLHLESDVICPTDTI marine_2 TEIFGNNGKFKAYHSNTDKISSVIERMCVSHNMCRDMALKEGYKYILHLESDIFPERDII marine_4 -----------------------------SHNQLRRYCIDEGYDYLLHLESDVFPQPDII marine_6 --------------------------------QLRRYFLESDNEYMLHLESDIFPPSNIL marine_5 -----KSRGVECERVRFSKAEPIISRITKSHNLLRERALEGGYDFLFHVETDVFPEPDVL marine_8 ------------------------YNIAQIRNLIAHWAER--YDYLFSVDSDIVFEKDTL ..:: :: *:. : : marine_3 ERLLQHKKRVISGIYFNHIN-----------TRDGITLAPVVWSKVNLEKEERYFLKPSQ marine_7 ERFLKHKKRIITGIYFNYKSFTPRKLGEDKGTRHG-DLFPTVWWFTKK-KDVLRQMREEE marine_1 ENLYLHKKQVAGGLFYRDSG-------ISRK--LMAQRRIYRSPRNIISENFLPSEDIHF GOS_711010 ENLYLHKKQVAGGLFYRDSG-------ISRK--LMAQRRIYRSPRNIISENFLPSEDIHF marine_2 ECLMFHDKRIVGALYDRDEG-------KWRK--TMLQWRVYSSNYSVESINFDAGQELWV marine_4 EQLLWARKPIICAMYQIFDG-------AWRTPCLKLMDNKHELSKEFSFYTDLTNFHHWF marine_6 MELLYCRKSIVNGFYQVFNG-------SHRQPCIRLHDKLHELHNTYVFHKELGNFYHYW marine_5 IRLLSHRKAVVSVSYDIFDM-------HDREPVMLQIEDEYDGEAHAAIKR--GKYIHTE marine_8 KKLLSHNKDVVSGIYIQRKE-----------------EKVLEIYRLNGNGGVSNIPFSEI : * : : marine_3 LNKGVIKIAVSGVGCVLIHKSVLEKIKFR-------YEKKYPSFDDIFFGLDCKENKINV marine_7 LTGELKQIASCGSGCLFIHNSILKKIRFR-------YSKDHDKPERNYF----------V marine_1 IDGTLKTAAHIGLGCILINVETLKKIKFR-------FVENVDMHPDTYFAEDCFRNNIKI GOS_711010 IDGTLKTAAHIGLGCILINVETLKKIKFR-------FVENVDMHPDTYFAEDCFRNNIKI marine_2 LSGGLKEFSHVGLGCVLIKTNVFDKIKX-------------------------------- marine_4 VDGTIKETHIAGIGCCLMKRKVCENFPFR-------WSKENYNPPDSYFSEDLKNAGVQN marine_6 VEGKLQKTFIAGIGCCLMTRQLMENFEFR-------YDNIENHPPDTYFAEDLRKAGIQN marine_5 YDGTLKQAWANGIGCILLHRSVLDKFEFR-------YDRDRDGFCDSWLAYDLRAMGIPI marine_8 QGNQLAEISACGFGCVLIKSDVIRKIGYPQFIYRDALDHKDTVSEDVYFCARAIEEGFKI : * ** :: . :: marine_3 YADTSLICKHLLKKRPWSWRDLK------- marine_7 FDDAYF------------------------ marine_1 FADTNIICKHNNEDWGVYGYTWK------- GOS_711010 FADTNIICKHNNEDWGVYGYTWK------- marine_2 ------------------------------ marine_4 YVHTGLLAFHWNKEDWGRHSEFIKYHKSE- marine_6 WVHTGQLCFHWNREEWGRHYEYINYDKSE- marine_5 HVDTSMYAYHKNKDWRNFGDDFVSKVHTNF marine_8 WADTTVLCEHIGNKKYKVIE---------- ---------------------------------------------------------------------------------------------------
BLAST
PROTOCOLE: NCBI, BLAST P contre Swissprot, nr et env nr ; BLAST X contre Swissprot et nr ; paramètres par défaut --------------------------------------------------------------------------------------------------- ANALYSE DES RÉSULTATS: Le BLAST P contre Swissprot et nr n'a pas donné de résultats pertinents. En effet, les e-value sont très élevées (largement supérieures à 10-10 ; la plus élévée étant de 0.029 contre Swissprot et 0.23 contre nr). Nous avons donc réalisé un BLAST X à partir de la séquence nucléotidique complète, afin de vérifier qu'un ORF plus petit n'était pas plus pertinent. Les résultats contre Swissprot ne sont pas pertinents (plus faible e-value : 0.77). En revanche, contre nr, nous avons obtenu un résultat ayant un e-value de 5e-06. L'alignement a confirmé deux régions intéressantes (nucléotides 501 à 531 et nucléotides 614 à 663). Cependant, l'alignement présente trois indel importants et est donc inexploitable. Pour finir, nous avons fait un BLAST P contre env nr. Nous avons retrouvé notre séquence (e-value : 2e-90 ; 100% d'identités ; 100% d'homologies). Les résultats confirment que nous avons bien affaire à une séquence marine. Nous obtenons sept autres séquences marines, avec des e-value allant de 7e-21 à 4e-08; et des identités comprises entre 27 et 44%. Nous n'obtenons pas d'informations en ce qui concerne la taxonomie. --------------------------------------------------------------------------------------------------- RÉSULTATS BRUTS: BLAST P contre Swissprot ; paramètres par défaut Score E Sequences producing significant alignments: (Bits) Value sp|B2UNU8.1|GLAB_AKKM8 RecName: Full=Alpha-1,3-galactosidase ... 37.4 0.029 sp|Q01043|CGH2_SHV21 Cyclin homolog (V-cyclin) 32.0 1.2 sp|Q3SYW6.1|EIF3C_BOVIN Eukaryotic translation initiation fac... 31.2 1.8 Gene info sp|Q5RAT8.1|EIF3C_PONAB Eukaryotic translation initiation fac... 31.2 1.8 Gene info sp|Q99613.1|EIF3C_HUMAN RecName: Full=Eukaryotic translation ... 31.2 1.9 Gene info sp|P77481.2|YCJV_ECOLI Uncharacterized ABC transporter ATP-bi... 30.8 2.7 sp|Q487H5|SYA_COLP3 Alanyl-tRNA synthetase (Alanine--tRNA lig... 30.8 2.7 Gene info sp|Q8FHR3|YCJV_ECOL6 Uncharacterized ABC transporter ATP-bind... 30.8 2.9 sp|Q0TI47|YCJV_ECOL5 Uncharacterized ABC transporter ATP-bind... 30.8 2.9 sp|Q1RC47|YCJV_ECOUT Uncharacterized ABC transporter ATP-bind... 30.8 2.9 Gene info sp|Q8X8K4|YCJV_ECO57 Uncharacterized ABC transporter ATP-bind... 30.0 4.9 sp|Q6CWT7|PPN1_KLULA Endopolyphosphatase 28.9 9.1 sp|O80608|FB96_ARATH Putative F-box protein At2g02890 28.9 9.6 --------------------------------------------------------------------------------------------------- BLAST P contre nr ; paramètres par défaut Score E Sequences producing significant alignments: (Bits) Value ref|YP_001426841.1| hypothetical protein ATCV1_Z360R [Acantho... 38.1 0.23 Gene info ref|YP_001877099.1| Glycosyl hydrolase family 98 putative car... 37.4 0.35 Gene info ref|YP_418217.1| hypothetical protein PPEV_gp184 [Pseudomonas... 35.4 1.2 Gene info ref|YP_697034.1| putative maltose/maltodextrin ABC transporte... 34.7 2.1 Gene info ref|NP_563261.1| maltose ABC transportor [Clostridium perfrin... 34.7 2.1 Gene info ref|YP_699605.1| ABC transporter [Clostridium perfringens SM1... 34.7 2.1 Gene info ref|NP_348967.1| glycosyltransferase [Clostridium acetobutyli... 34.3 3.1 Gene info ref|ZP_01882153.1| hypothetical protein PBAL39_22095 [Pedobac... 34.3 3.4 ref|YP_001112765.1| glycosyl transferase family protein [Desu... 33.1 6.9 Gene info ref|XP_001465461.1| protein kinase [Leishmania infantum JPCM5... 33.1 7.0 Gene info ref|XP_001956662.1| GF24473 [Drosophila ananassae] >gb|EDV394... 33.1 7.3 Gene info ref|XP_002095492.1| GE22417 [Drosophila yakuba] >gb|EDW95204.... 33.1 7.5 Gene info ref|XP_002086301.1| GE22949 [Drosophila yakuba] >gb|EDW99702.... 32.7 7.8 Gene info ref|XP_001973462.1| GG13328 [Drosophila erecta] >gb|EDV52488.... 32.7 7.8 Gene info ref|NP_730511.1| CG32225 CG32225-PA [Drosophila melanogaster]... 32.7 8.2 UniGene infoGene info ref|XP_002040636.1| GM22229 [Drosophila sechellia] >gb|EDW441... 32.7 8.7 Gene info ref|XP_002085626.1| GD12201 [Drosophila simulans] >gb|EDX1121... 32.7 8.8 Gene info gb|AAY84938.1| IP09895p [Drosophila melanogaster] 32.7 9.7 ref|ZP_02642315.1| putative maltose/maltodextrin ABC transpor... 32.7 9.8 --------------------------------------------------------------------------------------------- BLAST X contre Swissprot ; paramètres par défaut Score E Sequences producing significant alignments: (Bits) Value sp|B2UNU8.1|GLAB_AKKM8 RecName: Full=Alpha-1,3-galactosidase ... 34.7 0.77 sp|Q0SS32.1|MOAA_CLOPS Molybdenum cofactor biosynthesis prote... 32.0 5.0 Gene info sp|Q0TPG6.1|MOAA_CLOP1 Molybdenum cofactor biosynthesis prote... 32.0 5.0 Gene info sp|Q3SYW6.1|EIF3C_BOVIN Eukaryotic translation initiation fac... 32.0 5.0 Gene info sp|Q5RAT8.1|EIF3C_PONAB Eukaryotic translation initiation fac... 32.0 5.0 Gene info sp|Q99613.1|EIF3C_HUMAN RecName: Full=Eukaryotic translation ... 32.0 5.0 Gene info sp|Q9WX96|MOAA_CLOPE Molybdenum cofactor biosynthesis protein A 32.0 5.0 sp|Q5UQI8.1|YR837_MIMIV RecName: Full=Putative ankyrin repeat... 31.6 6.6 sp|O80608|FB96_ARATH Putative F-box protein At2g02890 31.2 8.6 Gene info ---------------------------------------------------------------------------------------------- BLAST X contre nr ; paramètres par défaut Score E Sequences producing significant alignments: (Bits) Value ref|ZP_02032035.1| hypothetical protein PARMER_02043 [Parabac... 55.8 5e-06 ref|ZP_03012243.1| hypothetical protein BACCOP_04177 [Bactero... 42.4 0.057 ref|ZP_01885383.1| hypothetical protein PBAL39_13060 [Pedobac... 42.4 0.057 ref|YP_001426841.1| hypothetical protein ATCV1_Z360R [Acantho... 38.5 0.82 Gene info ref|XP_001650624.1| chymotrypsin, putative [Aedes aegypti] >g... 36.6 3.1 Gene info gb|ABW77007.1| envelope glycoprotein [Human immunodeficiency ... 36.2 4.1 ref|NP_348967.1| glycosyltransferase [Clostridium acetobutyli... 35.8 5.3 Gene info ref|YP_418217.1| hypothetical protein PPEV_gp184 [Pseudomonas... 35.8 5.3 Gene info ref|ZP_02425074.1| hypothetical protein ALIPUT_01210 [Alistip... 35.0 9.1 ref|YP_699605.1| ABC transporter [Clostridium perfringens SM1... 35.0 9.1 Gene info ref|NP_563261.1| maltose ABC transportor [Clostridium perfrin... 35.0 9.1 Gene info ref|YP_697034.1| putative maltose/maltodextrin ABC transporte... 35.0 9.1 Gene info >ref|ZP_02032035.1| hypothetical protein PARMER_02043 [Parabacteroides merdae ATCC 43184] gb|EDN86679.1| hypothetical protein PARMER_02043 [Parabacteroides merdae ATCC 43184] Length=124 Score = 55.8 bits (133), Expect = 5e-06 Identities = 46/127 (36%), Positives = 62/127 (48%), Gaps = 22/127 (17%) Frame = +3 Query 501 MDIRELRIGNLY--DNNGNYFVVT---------PNTIESLFERERVW------CKPIPLT 629 +D+REL+IGN N+ + +T P S E V+ PIPLT Sbjct 2 VDVRELKIGNYVYLQNSKTPYKITEIGYSEIEYPKYEASGISSEAVFRTYVENLNPIPLT 61 Query 630 EEILLKCGFEKFNTIGGCFYYINGLRIDYILCKFVLLGYD-RCNLNYLHELQNIYSCLCG 806 EE+LLKCGFEK + G YY +D F L G D + LH+LQN+Y L G Sbjct 62 EELLLKCGFEK-HKWGVVTYYSPLFELD---ADFHLKGVDYNIQVKSLHQLQNLYFDLTG 117 Query 807 DELKINL 827 +L++ L Sbjct 118 QKLEVKL 124 ---------------------------------------------------------------------------------------------- BLAST P contre env nr ; paramètres par défaut Score E Sequences producing significant alignments: (Bits) Value gb|EBM51571.1| hypothetical protein GOS_8397596 [marine metag... 332 2e-90 gb|ECB53846.1| hypothetical protein GOS_3979566 [marine metag... 101 7e-21 gb|EBG64213.1| hypothetical protein GOS_9398928 [marine metag... 87.8 1e-16 gb|EBU99429.1| hypothetical protein GOS_6973064 [marine metag... 77.0 2e-13 gb|EBC60954.1| hypothetical protein GOS_42497 [marine metagen... 70.5 2e-11 gb|ECQ53784.1| hypothetical protein GOS_5256063 [marine metag... 67.0 2e-10 gb|EBG64214.1| hypothetical protein GOS_9398929 [marine metag... 60.8 2e-08 gb|ECG02446.1| hypothetical protein GOS_3922485 [marine metag... 59.3 4e-08 gb|EBM12807.1| hypothetical protein GOS_8458594 [marine metag... 52.4 6e-06 gb|ECR93315.1| hypothetical protein GOS_3228945 [marine metag... 46.2 3e-04 gb|EBG04448.1| hypothetical protein GOS_9498884 [marine metag... 42.0 0.006 gb|EBV86885.1| hypothetical protein GOS_6837981 [marine metag... 42.0 0.008 gb|ECX45963.1| hypothetical protein GOS_2534373 [marine metag... 41.6 0.010 gb|EBG71016.1| hypothetical protein GOS_9387325 [marine metag... 41.2 0.011 gb|EBZ31825.1| hypothetical protein GOS_5838044 [marine metag... 40.0 0.024 gb|EBM47124.1| hypothetical protein GOS_8404652 [marine metag... 40.0 0.024 gb|EDE29499.1| hypothetical protein GOS_1155566 [marine metag... 40.0 0.025 gb|EDE17324.1| hypothetical protein GOS_1176872 [marine metag... 39.7 0.033 gb|EBM36524.1| hypothetical protein GOS_8421566 [marine metag... 39.3 0.041 gb|ECP99176.1| hypothetical protein GOS_3905118 [marine metag... 37.7 0.13 gb|EBA61214.1| hypothetical protein GOS_2272 [marine metagenome] 35.8 0.47 gb|EDF94888.1| hypothetical protein GOS_866654 [marine metage... 35.4 0.61 gb|EBT23149.1| hypothetical protein GOS_7307482 [marine metag... 35.0 0.79 gb|EDE63331.1| hypothetical protein GOS_1096774 [marine metag... 34.7 1.2 gb|ECI11163.1| hypothetical protein GOS_6104219 [marine metag... 34.3 1.4 gb|EDG90115.1| hypothetical protein GOS_701155 [marine metage... 33.9 1.9 gb|ECY61218.1| hypothetical protein GOS_2329705 [marine metag... 33.9 2.1 gb|EBZ31566.1| hypothetical protein GOS_5847118 [marine metag... 33.5 2.2 gb|EDE13698.1| hypothetical protein GOS_1183247 [marine metag... 33.5 2.4 gb|ECI34765.1| hypothetical protein GOS_5149518 [marine metag... 33.5 2.7 gb|EBY43454.1| hypothetical protein GOS_5861219 [marine metag... 33.5 2.8 gb|EBK58680.1| hypothetical protein GOS_8708015 [marine metag... 33.1 3.5 gb|ECQ60723.1| hypothetical protein GOS_4986386 [marine metag... 33.1 3.6 gb|EBM13167.1| hypothetical protein GOS_8457994 [marine metag... 32.7 4.7 gb|ECV67072.1| hypothetical protein GOS_2855838 [marine metag... 32.3 5.0 gb|EDC75515.1| hypothetical protein GOS_1420147 [marine metag... 32.3 5.1 gb|ECT19358.1| hypothetical protein GOS_7077424 [marine metag... 32.3 5.6 gb|EDC65736.1| hypothetical protein GOS_1437545 [marine metag... 32.3 5.8 gb|EBK48612.1| hypothetical protein GOS_8724713 [marine metag... 32.0 6.4 gb|EBM38755.1| hypothetical protein GOS_8418131 [marine metag... 32.0 6.6 gb|EBD36452.1| hypothetical protein GOS_9941346 [marine metag... 32.0 6.6 gb|EDB82772.1| hypothetical protein GOS_1585607 [marine metag... 32.0 7.2 gb|EBE15971.1| hypothetical protein GOS_9810689 [marine metag... 32.0 7.9 gb|ECH34444.1| hypothetical protein GOS_5631227 [marine metag... 31.6 8.3 gb|ECV69626.1| hypothetical protein GOS_2851366 [marine metag... 31.6 8.6 gb|EBK55302.1| hypothetical protein GOS_8713524 [marine metag... 31.6 8.8 gb|ECP05376.1| hypothetical protein GOS_3043390 [marine metag... 31.6 9.1 gb|EBV68717.1| hypothetical protein GOS_6865986 [marine metag... 31.6 9.1 gb|ECB63357.1| hypothetical protein GOS_3615104 [marine metag... 31.6 9.4 gb|EBV53310.1| hypothetical protein GOS_6890751 [marine metag... 31.6 9.8 gb|EBZ74818.1| hypothetical protein GOS_4106986 [marine metag... 31.6 9.8 gb|EDC12077.1| hypothetical protein GOS_1532612 [marine metag... 31.6 9.9 >gb|EBM51571.1| hypothetical protein GOS_8397596 [marine metagenome] Length=159 Score = 332 bits (852), Expect = 2e-90, Method: Compositional matrix adjust. Identities = 159/159 (100%), Positives = 159/159 (100%), Gaps = 0/159 (0%) Query 1 VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ 60 VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ Sbjct 1 VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ 60 Query 61 RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMH 120 RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMH Sbjct 61 RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMH 120 Query 121 PDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK 159 PDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK Sbjct 121 PDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK 159 >gb|ECB53846.1| hypothetical protein GOS_3979566 [marine metagenome] Length=196 Score = 101 bits (252), Expect = 7e-21, Method: Compositional matrix adjust. Identities = 49/110 (44%), Positives = 67/110 (60%), Gaps = 0/110 (0%) Query 1 VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ 60 VSHN CR +A+ GY ++LHLESD+ D IE L H K++ G L+ RD G RK M Q Sbjct 86 VSHNMCRDMALKEGYKYILHLESDIFPERDIIECLMFHDKRIVGALYDRDEGKWRKTMLQ 145 Query 61 RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIK 110 R+Y S ++ S NF +++ + G LK +H+GLGC+LI KIK Sbjct 146 WRVYSSNYSVESINFDAGQELWVLSGGLKEFSHVGLGCVLIKTNVFDKIK 195 >gb|EBG64213.1| hypothetical protein GOS_9398928 [marine metagenome] Length=216 Score = 87.8 bits (216), Expect = 1e-16, Method: Compositional matrix adjust. Identities = 53/147 (36%), Positives = 78/147 (53%), Gaps = 6/147 (4%) Query 2 SHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQR 61 S N R ++ Y + L LE DVI P D IE L HKK+V G+++ +R + Sbjct 61 SRNILRQYVLDNNYDYFLSLEQDVIPPKDMIERLLQHKKRVISGIYFNHIN-TRDGITLA 119 Query 62 RIYRSPRNIISEN--FLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDM 119 + S N+ E FL ++ G +K A G+GC+LI+ L+KIKFR+ + Sbjct 120 PVVWSKVNLEKEERYFLKPSQLN--KGVIKIAVS-GVGCVLIHKSVLEKIKFRYEKKYPS 176 Query 120 HPDTYFAEDCFRNNIKIFADTNIICKH 146 D +F DC N I ++ADT++ICKH Sbjct 177 FDDIFFGLDCKENKINVYADTSLICKH 203 >gb|EBU99429.1| hypothetical protein GOS_6973064 [marine metagenome] Length=166 Score = 77.0 bits (188), Expect = 2e-13, Method: Compositional matrix adjust. Identities = 50/156 (32%), Positives = 76/156 (48%), Gaps = 7/156 (4%) Query 2 SHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISR----KL 57 SHN R I+ GY +LLHLESDV D IE L +K + ++ G R KL Sbjct 1 SHNQLRRYCIDEGYDYLLHLESDVFPQPDIIEQLLWARKPIICAMYQIFDGAWRTPCLKL 60 Query 58 MAQRRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENV 117 M + + ++ L + F+DGT+K G+GC L+ + + FR+ + Sbjct 61 MDNKHELSKEFSFYTD--LTNFHHWFVDGTIKETHIAGIGCCLMKRKVCENFPFRWSKEN 118 Query 118 DMHPDTYFAEDCFRNNIKIFADTNIICKH-NNEDWG 152 PD+YF+ED ++ + T ++ H N EDWG Sbjct 119 YNPPDSYFSEDLKNAGVQNYVHTGLLAFHWNKEDWG 154 >gb|EBC60954.1| hypothetical protein GOS_42497 [marine metagenome] Length=245 Score = 70.5 bits (171), Expect = 2e-11, Method: Compositional matrix adjust. Identities = 52/164 (31%), Positives = 73/164 (44%), Gaps = 20/164 (12%) Query 2 SHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQR 61 SHN R A+ GGY L H+E+DV D + L H+K V +S + Sbjct 81 SHNLLRERALEGGYDFLFHVETDVFPEPDVLIRLLSHRKAVVS--------VSYDIFDMH 132 Query 62 RIYRSPRNIISENFLPSEDIHFI----------DGTLKTAAHIGLGCILINVETLKKIKF 111 R P + E+ E I DGTLK A G+GCIL++ L K +F Sbjct 133 D--REPVMLQIEDEYDGEAHAAIKRGKYIHTEYDGTLKQAWANGIGCILLHRSVLDKFEF 190 Query 112 RFVENVDMHPDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYG 155 R+ + D D++ A D I I DT++ H N+DW +G Sbjct 191 RYDRDRDGFCDSWLAYDLRAMGIPIHVDTSMYAYHKNKDWRNFG 234 >gb|ECQ53784.1| hypothetical protein GOS_5256063 [marine metagenome] Length=163 Score = 67.0 bits (162), Expect = 2e-10, Method: Compositional matrix adjust. Identities = 39/141 (27%), Positives = 76/141 (53%), Gaps = 5/141 (3%) Query 16 SHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRK--LMAQRRIYRSPRNIISE 73 ++LHLESD+ P++ + L +K + G + +G R+ + +++ + Sbjct 12 EYMLHLESDIFPPSNILMELLYCRKSIVNGFYQVFNGSHRQPCIRLHDKLHELHNTYVFH 71 Query 74 NFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMHP-DTYFAEDCFRN 132 L + ++++G L+ G+GC L+ + ++ +FR+ +N++ HP DTYFAED + Sbjct 72 KELGNFYHYWVEGKLQKTFIAGIGCCLMTRQLMENFEFRY-DNIENHPPDTYFAEDLRKA 130 Query 133 NIKIFADTNIICKH-NNEDWG 152 I+ + T +C H N E+WG Sbjct 131 GIQNWVHTGQLCFHWNREEWG 151 >gb|EBG64214.1| hypothetical protein GOS_9398929 [marine metagenome] Length=210 Score = 60.8 bits (146), Expect = 2e-08, Method: Compositional matrix adjust. Identities = 42/134 (31%), Positives = 62/134 (46%), Gaps = 7/134 (5%) Query 2 SHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYR-DSGISRKLMAQ 60 S N R +AI Y + L+++ DVI P D IE HKK++ G+++ S RKL Sbjct 73 SRNILREMAIEENYDYFLNIDQDVIPPKDIIERFLKHKKRIITGIYFNYKSFTPRKLGED 132 Query 61 RRIYRSPRNIISENFLPSEDI------HFIDGTLKTAAHIGLGCILINVETLKKIKFRFV 114 + F +D+ + G LK A G GC+ I+ LKKI+FR+ Sbjct 133 KGTRHGDLFPTVWWFTKKKDVLRQMREEELTGELKQIASCGSGCLFIHNSILKKIRFRYS 192 Query 115 ENVDMHPDTYFAED 128 ++ D YF D Sbjct 193 KDHDKPERNYFVFD 206 >gb|ECG02446.1| hypothetical protein GOS_3922485 [marine metagenome] Length=162 Score = 59.3 bits (142), Expect = 4e-08, Method: Compositional matrix adjust. Identities = 41/139 (29%), Positives = 66/139 (47%), Gaps = 15/139 (10%) Query 15 YSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQRRIYRSPRNIISEN 74 Y +L ++SD++ DT++ L H K V G++ I RK IYR N N Sbjct 22 YDYLFSVDSDIVFEKDTLKKLLSHNKDVVSGIY-----IQRKEEKVLEIYRLNGNGGVSN 76 Query 75 FLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKI---KFRFVENVD----MHPDTYFAE 127 +P +I L + G GC+LI + ++KI +F + + +D + D YF Sbjct 77 -IPFSEIQ--GNQLAEISACGFGCVLIKSDVIRKIGYPQFIYRDALDHKDTVSEDVYFCA 133 Query 128 DCFRNNIKIFADTNIICKH 146 KI+ADT ++C+H Sbjct 134 RAIEEGFKIWADTTVLCEH 152
ORF finding
PROTOCOLE:SMS ORF FINDER, paramètres : "any codon", cadre 1,2,3 sens direct et indirect, 60 codons minimum, code génétique bactérien --------------------------------------------------------------------------------------------------- ANALYSE DES RÉSULTATS: Nous avons fait la recherche d'ORF avec les mêmes paramètres mais en utilisant le code standard : nous avons obtenu les mêmes résultats qu'avec le code bactérien. L'ORF le plus grand est situé dans le cadre 3 de lecture, du nucléotide 3 au nucléotide 482 (en incluant le codon "STOP"), sur le brin direct. C'est à partir de cet ORF que nous ferons les diverses analyses. Cet ORF est assez grand pour dire qu'il s'agit d'une séquence codante (159 acides aminés). La traduction de cet ORF ne commence pas par une méthionine, on en déduit que le début de la séquence codante se situe en 5' de la séquence analysée. Etant donné que l'on n'obtient que la partie C-terminale de la protéine, on ne peut pas calculer le poids moléculaire. --------------------------------------------------------------------------------------------------- RÉSULTATS BRUTS: SMS ORF FINDER, paramètres : "any codon", cadre 1,2,3 sens direct, 60 codons minimum, code génétique bactérien No ORFs were found in reading frame 1. No ORFs were found in reading frame 2. >ORF number 1 in reading frame 3 on the direct strand extends from base 3 to base 482. GTATCTCATAACGATTGTAGGGGACTTGCTATTAATGGTGGTTACTCTCATTTATTACAT TTAGAAAGTGATGTTATTTGCCCTACTGATACTATTGAAAATTTATACTTACATAAAAAG CAAGTTGCTGGAGGTTTATTTTACAGAGATAGTGGAATAAGTCGTAAATTAATGGCACAA AGACGTATTTATAGAAGTCCTAGAAATATTATAAGCGAAAACTTTTTACCGAGTGAGGAT ATACATTTTATTGACGGCACACTAAAAACGGCTGCTCATATAGGTTTAGGCTGTATTTTA ATTAATGTAGAAACTTTAAAAAAGATTAAATTTAGATTTGTAGAAAATGTAGATATGCAC CCCGATACATATTTTGCAGAGGATTGTTTTAGAAATAACATTAAGATATTTGCAGATACT AATATAATTTGCAAACATAATAATGAAGATTGGGGAGTTTACGGTTATACTTGGAAATAA >Translation of ORF number 1 in reading frame 3 on the direct strand. VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMH PDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK* >ORF number 2 in reading frame 3 on the direct strand extends from base 495 to base 830. ATAAATATGGATATAAGAGAACTTAGAATAGGAAATTTGTATGATAATAATGGTAATTAC TTTGTAGTTACGCCAAATACAATAGAATCACTTTTTGAAAGAGAAAGAGTATGGTGTAAA CCAATACCATTAACAGAGGAAATACTTTTGAAATGTGGTTTTGAGAAATTTAATACTATT GGAGGGTGCTTTTACTACATCAATGGATTGAGAATTGATTACATTTTGTGTAAATTTGTA TTATTAGGCTATGATAGATGTAATTTGAATTACTTGCACGAATTACAAAATATTTACTCA TGCCTTTGTGGAGATGAGTTAAAAATAAACTTATAA >Translation of ORF number 2 in reading frame 3 on the direct strand. INMDIRELRIGNLYDNNGNYFVVTPNTIESLFERERVWCKPIPLTEEILLKCGFEKFNTI GGCFYYINGLRIDYILCKFVLLGYDRCNLNYLHELQNIYSCLCGDELKINL* --------------------------------------------------------------------------------------------------- SMS ORF FINDER, paramètres : "any codon", cadre 1,2,3 sens indirect, 60 codons minimum, code génétique bactérien >ORF number 1 in reading frame 1 on the reverse strand extends from base 385 to base 648. TTCTATTGTATTTGGCGTAACTACAAAGTAATTACCATTATTATCATACAAATTTCCTAT TCTAAGTTCTCTTATATCCATATTTATTTATATTATATATTATTTCCAAGTATAACCGTA AACTCCCCAATCTTCATTATTATGTTTGCAAATTATATTAGTATCTGCAAATATCTTAAT GTTATTTCTAAAACAATCCTCTGCAAAATATGTATCGGGGTGCATATCTACATTTTCTAC AAATCTAAATTTAATCTTTTTTAA >Translation of ORF number 1 in reading frame 1 on the reverse strand. FYCIWRNYKVITIIIIQISYSKFSYIHIYLYYILFPSITVNSPIFIIMFANYISICKYLN VISKTILCKICIGVHIYIFYKSKFNLF* >ORF number 1 in reading frame 2 on the reverse strand extends from base 506 to base 688. ACTCCCCAATCTTCATTATTATGTTTGCAAATTATATTAGTATCTGCAAATATCTTAATG TTATTTCTAAAACAATCCTCTGCAAAATATGTATCGGGGTGCATATCTACATTTTCTACA AATCTAAATTTAATCTTTTTTAAAGTTTCTACATTAATTAAAATACAGCCTAAACCTATA TGA >Translation of ORF number 1 in reading frame 2 on the reverse strand. TPQSSLLCLQIILVSANILMLFLKQSSAKYVSGCISTFSTNLNLIFFKVSTLIKIQPKPI * >ORF number 1 in reading frame 3 on the reverse strand extends from base 87 to base 272. ATCGGATTTATTACGCCATCAATATCAAGGAATATTATTTTTTCCATACTTATAAGTTTA TTTTTAACTCATCTCCACAAAGGCATGAGTAAATATTTTGTAATTCGTGCAAGTAATTCA AATTACATCTATCATAGCCTAATAATACAAATTTACACAAAATGTAATCAATTCTCAATC CATTGA >Translation of ORF number 1 in reading frame 3 on the reverse strand. IGFITPSISRNIIFSILISLFLTHLHKGMSKYFVIRASNSNYIYHSLIIQIYTKCNQFSI H*