GOS 711010

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : JCVI_READ_1091118859768
Annotathon code: GOS_711010
Sample :
  • GPS :9°9'52n; 79°50'10w
  • Panama Canal: Lake Gatun - Panama
  • Fresh Water (-2m, 28.6°C, 0.1-0.8 microns)
Authors
Team : BioCell2008
Username : fowen
Annotated on : 2009-02-04 21:56:41
  • FORAY Chloé
  • WENGLER Aude

Synopsis

Genomic Sequence

>JCVI_READ_1091118859768 GOS_711010 genomic DNA
GTGTATCTCATAACGATTGTAGGGGACTTGCTATTAATGGTGGTTACTCTCATTTATTACATTTAGAAAGTGATGTTATTTGCCCTACTGATACTATTGA
AAATTTATACTTACATAAAAAGCAAGTTGCTGGAGGTTTATTTTACAGAGATAGTGGAATAAGTCGTAAATTAATGGCACAAAGACGTATTTATAGAAGT
CCTAGAAATATTATAAGCGAAAACTTTTTACCGAGTGAGGATATACATTTTATTGACGGCACACTAAAAACGGCTGCTCATATAGGTTTAGGCTGTATTT
TAATTAATGTAGAAACTTTAAAAAAGATTAAATTTAGATTTGTAGAAAATGTAGATATGCACCCCGATACATATTTTGCAGAGGATTGTTTTAGAAATAA
CATTAAGATATTTGCAGATACTAATATAATTTGCAAACATAATAATGAAGATTGGGGAGTTTACGGTTATACTTGGAAATAATATATAATATAAATAAAT
ATGGATATAAGAGAACTTAGAATAGGAAATTTGTATGATAATAATGGTAATTACTTTGTAGTTACGCCAAATACAATAGAATCACTTTTTGAAAGAGAAA
GAGTATGGTGTAAACCAATACCATTAACAGAGGAAATACTTTTGAAATGTGGTTTTGAGAAATTTAATACTATTGGAGGGTGCTTTTACTACATCAATGG
ATTGAGAATTGATTACATTTTGTGTAAATTTGTATTATTAGGCTATGATAGATGTAATTTGAATTACTTGCACGAATTACAAAATATTTACTCATGCCTT
TGTGGAGATGAGTTAAAAATAAACTTATAAGTATGGAAAAAATAATATTCCTTGATATTGATGGCGTAATAAATCCGATTCATTACATGAACGCTACATA
TAAAATGTGGAAAGCAAGTTTTGGAGAATTAAAAGCCATGATGATATGGGCAGTTATTCTTTTAT

Translation

[3 - 479/965]   direct strand
>GOS_711010 Translation [3-479   direct strand]
VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQRRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCIL
INVETLKKIKFRFVENVDMHPDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK

[ Warning ] 5' incomplete: does not start with a Methionine

Phylogeny

PROTOCOLE: phylogeny.fr ProtDist/DnaDist-Neighbor et protpars ; paramètres par défaut

---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS: 

Les deux arbres obtenus par parsimonie et distance sont non congruents. Nous pouvons seulement 
conclure que marine 1 est bien la protéine la plus proche de notre séquence. Marine 1 est homologue 
à notre séquence : c'est notre protéine. Cette protéine ferait partie d'un groupe incluant marine 2,
marine 4, marine 5 et marine 6. Puisque les 2 arbres donnent des résultats différents, nous ne pouvons 
pas conclure sur les séquences les plus proches de notre séquence d'intérêt. On peut seulement dire 
qu'il y a des homologies entre toutes ces protéines marines.

Nous ne pouvons pas définir de groupe extérieur car les seules séquences homologues obtenues sont des 
séquences marines.

---------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:

protdist


  +------------marine_7     
  ! 
  !                                                +marine_1     
  !                              +-----------------1 
  !                   +----------5                 +GOS_711010     
  !                   !          ! 
  !                   !          +------------marine_2     
  !          +--------6 
  !          !        !                         +-------marine_4     
  !          !        !          +--------------2 
  3----------7        +----------4              +-------------marine_6     
  !          !                   ! 
  !          !                   +--------------------marine_5     
  !          ! 
  !          +---------------------------------marine_8     
  ! 
  +------------marine_3     
   


---------------------------------------------------------------------------------------------------

Protein parsimony algorithm, version 3.66



One most parsimonious tree found:




              +-----------marine_8     
              |  
     +--------8        +--marine_6     
     |        |  +-----6  
     |        |  |     +--marine_4     
     |        +--5  
  +--2           |     +--GOS_711010     
  |  |           +-----3  
  |  |                 +--marine_1     
  |  |  
  |  |              +-----marine_5     
  1  +--------------7  
  |                 |  +--marine_2     
  |                 +--4  
  |                    +--marine_7     
  |  
  +-----------------------marine_3     

  remember: this is an unrooted tree!


requires a total of   1532.000

Annotator commentaries

La séquence analysée est probablement codante. Il s'agit bien d'une séquence environnementale.

La protéine codée par cette séquence n'a pas de fonction connue. Notre séquence n'appartient pas à un groupe taxonomique connu.

Cette séquence n'a pas d'homologues connus. Elle présente cependant des similarités avec d'autres séquences environnementales marines : toutes ces séquences sont phylogénétiquement proches. Les protéines codées par ces séquences appartiennent donc à un même groupe de protéines marines ayant toutes des fonctions inconnues. Nous n'avons pas pu conclure sur la position exacte de notre protéine avec les autres protéines marines, car nous avons obtenu des arbres phylogénétiques non congruents.

Multiple Alignement

PROTOCOLE: phylogeny.fr Clustal W2.0.3 ; paramètres par défaut

---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS: 

Nous avons choisi comme séquences pour réaliser l'alignement multiple les séquences présentant le 
plus d'homologies, à partir du BLAST P contre env nr. Nous avons décidé de conserver les huit 
séquences avec le e-value le plus faible (de 2e-90 à 4e-08) et nous avons donc éliminé les séquences
ayant un e-value plus élevé car elles ne nous semblaient pas pertinentes.

Nous observons deux régions qui semblent conservées entre ces diverses protéines : on a des 
substitutions conservatives ainsi que des identités absolues. On peut donc faire l'hypothèse que 
chaque région code pour un domaine impliqué dans une même fonction pour toutes ces protéines.

---------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:


marine_3        -----------------YHEYALDEYTEAVKTLTYPNYDILLVDNSKGNTYS--------
marine_7        -----MKKILVGSPVNEMYDYCIKEYIESLKSLTYKNHDILLVDNSEGNGFY--------
marine_1        ------------------------------------------------------------
GOS_711010      ------------------------------------------------------------
marine_2        ---MNFEKVLICAPTASAKNYCFEEWIKNVMDFTYPNFEVALFDNTIDKGKNAKYLNKRY
marine_4        ------------------------------------------------------------
marine_6        ------------------------------------------------------------
marine_5        MMAWKPPKILLGGPTAIVKQYCADDWIENIRKIVYPAEIDILLADNSEDESNVEFW----
marine_8        -------------------------------SFFYG------------------------
                                                                            

marine_3        ----KKLKSLGFNVIKGSWHEEARERIVSSRNILRQYVLDNNYDYFLSLEQDVIPPKDMI
marine_7        ----KKLKSMKMPVIKGKFFQEPRDRMVHSRNILREMAIEENYDYFLNIDQDVIPPKDII
marine_1        ----------------------------VSHNDCRGLAINGGYSHLLHLESDVICPTDTI
GOS_711010      ----------------------------VSHNDCRGLAINGGYSHLLHLESDVICPTDTI
marine_2        TEIFGNNGKFKAYHSNTDKISSVIERMCVSHNMCRDMALKEGYKYILHLESDIFPERDII
marine_4        -----------------------------SHNQLRRYCIDEGYDYLLHLESDVFPQPDII
marine_6        --------------------------------QLRRYFLESDNEYMLHLESDIFPPSNIL
marine_5        -----KSRGVECERVRFSKAEPIISRITKSHNLLRERALEGGYDFLFHVETDVFPEPDVL
marine_8        ------------------------YNIAQIRNLIAHWAER--YDYLFSVDSDIVFEKDTL
                                                           ..:: :: *:.   : :

marine_3        ERLLQHKKRVISGIYFNHIN-----------TRDGITLAPVVWSKVNLEKEERYFLKPSQ
marine_7        ERFLKHKKRIITGIYFNYKSFTPRKLGEDKGTRHG-DLFPTVWWFTKK-KDVLRQMREEE
marine_1        ENLYLHKKQVAGGLFYRDSG-------ISRK--LMAQRRIYRSPRNIISENFLPSEDIHF
GOS_711010      ENLYLHKKQVAGGLFYRDSG-------ISRK--LMAQRRIYRSPRNIISENFLPSEDIHF
marine_2        ECLMFHDKRIVGALYDRDEG-------KWRK--TMLQWRVYSSNYSVESINFDAGQELWV
marine_4        EQLLWARKPIICAMYQIFDG-------AWRTPCLKLMDNKHELSKEFSFYTDLTNFHHWF
marine_6        MELLYCRKSIVNGFYQVFNG-------SHRQPCIRLHDKLHELHNTYVFHKELGNFYHYW
marine_5        IRLLSHRKAVVSVSYDIFDM-------HDREPVMLQIEDEYDGEAHAAIKR--GKYIHTE
marine_8        KKLLSHNKDVVSGIYIQRKE-----------------EKVLEIYRLNGNGGVSNIPFSEI
                  :    * :    :                                             

marine_3        LNKGVIKIAVSGVGCVLIHKSVLEKIKFR-------YEKKYPSFDDIFFGLDCKENKINV
marine_7        LTGELKQIASCGSGCLFIHNSILKKIRFR-------YSKDHDKPERNYF----------V
marine_1        IDGTLKTAAHIGLGCILINVETLKKIKFR-------FVENVDMHPDTYFAEDCFRNNIKI
GOS_711010      IDGTLKTAAHIGLGCILINVETLKKIKFR-------FVENVDMHPDTYFAEDCFRNNIKI
marine_2        LSGGLKEFSHVGLGCVLIKTNVFDKIKX--------------------------------
marine_4        VDGTIKETHIAGIGCCLMKRKVCENFPFR-------WSKENYNPPDSYFSEDLKNAGVQN
marine_6        VEGKLQKTFIAGIGCCLMTRQLMENFEFR-------YDNIENHPPDTYFAEDLRKAGIQN
marine_5        YDGTLKQAWANGIGCILLHRSVLDKFEFR-------YDRDRDGFCDSWLAYDLRAMGIPI
marine_8        QGNQLAEISACGFGCVLIKSDVIRKIGYPQFIYRDALDHKDTVSEDVYFCARAIEEGFKI
                    :      * ** ::  .   ::                                  

marine_3        YADTSLICKHLLKKRPWSWRDLK-------
marine_7        FDDAYF------------------------
marine_1        FADTNIICKHNNEDWGVYGYTWK-------
GOS_711010      FADTNIICKHNNEDWGVYGYTWK-------
marine_2        ------------------------------
marine_4        YVHTGLLAFHWNKEDWGRHSEFIKYHKSE-
marine_6        WVHTGQLCFHWNREEWGRHYEYINYDKSE-
marine_5        HVDTSMYAYHKNKDWRNFGDDFVSKVHTNF
marine_8        WADTTVLCEHIGNKKYKVIE----------
                                              
  

---------------------------------------------------------------------------------------------------

BLAST

PROTOCOLE: NCBI, BLAST P contre Swissprot, nr et env nr ; BLAST X contre Swissprot et nr ; paramètres par défaut

---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS: Le BLAST P contre Swissprot et nr n'a pas donné de résultats pertinents. 
En effet, les e-value sont très élevées (largement supérieures à 10-10 ; la plus élévée étant de 
0.029 contre Swissprot et 0.23 contre nr).

Nous avons donc réalisé un BLAST X à partir de la séquence nucléotidique complète, afin de vérifier 
qu'un ORF plus petit n'était pas plus pertinent. Les résultats contre Swissprot ne sont pas pertinents
(plus faible e-value : 0.77). En revanche, contre nr, nous avons obtenu un résultat ayant un e-value 
de 5e-06. L'alignement a confirmé deux régions intéressantes (nucléotides 501 à 531 et nucléotides
614 à 663). Cependant, l'alignement présente trois indel importants et est donc inexploitable. 

Pour finir, nous avons fait un BLAST P contre env nr. Nous avons retrouvé notre séquence (e-value : 
2e-90 ; 100% d'identités ; 100% d'homologies). Les résultats confirment que nous avons bien affaire 
à une séquence marine. Nous obtenons sept autres séquences marines, avec des e-value allant de 
7e-21 à 4e-08; et des identités comprises entre 27 et 44%. 

Nous n'obtenons pas d'informations en ce qui concerne la taxonomie.


---------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:

BLAST P contre Swissprot ; paramètres par défaut
                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

sp|B2UNU8.1|GLAB_AKKM8  RecName: Full=Alpha-1,3-galactosidase ...  37.4    0.029
sp|Q01043|CGH2_SHV21  Cyclin homolog (V-cyclin)                    32.0    1.2  
sp|Q3SYW6.1|EIF3C_BOVIN  Eukaryotic translation initiation fac...  31.2    1.8   Gene info
sp|Q5RAT8.1|EIF3C_PONAB  Eukaryotic translation initiation fac...  31.2    1.8   Gene info
sp|Q99613.1|EIF3C_HUMAN  RecName: Full=Eukaryotic translation ...  31.2    1.9   Gene info
sp|P77481.2|YCJV_ECOLI  Uncharacterized ABC transporter ATP-bi...  30.8    2.7  
sp|Q487H5|SYA_COLP3  Alanyl-tRNA synthetase (Alanine--tRNA lig...  30.8    2.7   Gene info
sp|Q8FHR3|YCJV_ECOL6  Uncharacterized ABC transporter ATP-bind...  30.8    2.9  
sp|Q0TI47|YCJV_ECOL5  Uncharacterized ABC transporter ATP-bind...  30.8    2.9  
sp|Q1RC47|YCJV_ECOUT  Uncharacterized ABC transporter ATP-bind...  30.8    2.9   Gene info
sp|Q8X8K4|YCJV_ECO57  Uncharacterized ABC transporter ATP-bind...  30.0    4.9  
sp|Q6CWT7|PPN1_KLULA  Endopolyphosphatase                          28.9    9.1  
sp|O80608|FB96_ARATH  Putative F-box protein At2g02890             28.9    9.6  



---------------------------------------------------------------------------------------------------


BLAST P contre nr ; paramètres par défaut

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|YP_001426841.1|  hypothetical protein ATCV1_Z360R [Acantho...  38.1    0.23  Gene info
ref|YP_001877099.1|  Glycosyl hydrolase family 98 putative car...  37.4    0.35  Gene info
ref|YP_418217.1|  hypothetical protein PPEV_gp184 [Pseudomonas...  35.4    1.2   Gene info
ref|YP_697034.1|  putative maltose/maltodextrin ABC transporte...  34.7    2.1   Gene info
ref|NP_563261.1|  maltose ABC transportor [Clostridium perfrin...  34.7    2.1   Gene info
ref|YP_699605.1|  ABC transporter [Clostridium perfringens SM1...  34.7    2.1   Gene info
ref|NP_348967.1|  glycosyltransferase [Clostridium acetobutyli...  34.3    3.1   Gene info
ref|ZP_01882153.1|  hypothetical protein PBAL39_22095 [Pedobac...  34.3    3.4  
ref|YP_001112765.1|  glycosyl transferase family protein [Desu...  33.1    6.9   Gene info
ref|XP_001465461.1|  protein kinase [Leishmania infantum JPCM5...  33.1    7.0   Gene info
ref|XP_001956662.1|  GF24473 [Drosophila ananassae] >gb|EDV394...  33.1    7.3   Gene info
ref|XP_002095492.1|  GE22417 [Drosophila yakuba] >gb|EDW95204....  33.1    7.5   Gene info
ref|XP_002086301.1|  GE22949 [Drosophila yakuba] >gb|EDW99702....  32.7    7.8   Gene info
ref|XP_001973462.1|  GG13328 [Drosophila erecta] >gb|EDV52488....  32.7    7.8   Gene info
ref|NP_730511.1|  CG32225 CG32225-PA [Drosophila melanogaster]...  32.7    8.2   UniGene infoGene info
ref|XP_002040636.1|  GM22229 [Drosophila sechellia] >gb|EDW441...  32.7    8.7   Gene info
ref|XP_002085626.1|  GD12201 [Drosophila simulans] >gb|EDX1121...  32.7    8.8   Gene info
gb|AAY84938.1|  IP09895p [Drosophila melanogaster]                 32.7    9.7  
ref|ZP_02642315.1|  putative maltose/maltodextrin ABC transpor...  32.7    9.8  



---------------------------------------------------------------------------------------------


BLAST X contre Swissprot ; paramètres par défaut


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

sp|B2UNU8.1|GLAB_AKKM8  RecName: Full=Alpha-1,3-galactosidase ...  34.7    0.77 
sp|Q0SS32.1|MOAA_CLOPS  Molybdenum cofactor biosynthesis prote...  32.0    5.0   Gene info
sp|Q0TPG6.1|MOAA_CLOP1  Molybdenum cofactor biosynthesis prote...  32.0    5.0   Gene info
sp|Q3SYW6.1|EIF3C_BOVIN  Eukaryotic translation initiation fac...  32.0    5.0   Gene info
sp|Q5RAT8.1|EIF3C_PONAB  Eukaryotic translation initiation fac...  32.0    5.0   Gene info
sp|Q99613.1|EIF3C_HUMAN  RecName: Full=Eukaryotic translation ...  32.0    5.0   Gene info
sp|Q9WX96|MOAA_CLOPE  Molybdenum cofactor biosynthesis protein A   32.0    5.0  
sp|Q5UQI8.1|YR837_MIMIV  RecName: Full=Putative ankyrin repeat...  31.6    6.6  
sp|O80608|FB96_ARATH  Putative F-box protein At2g02890             31.2    8.6   Gene info



----------------------------------------------------------------------------------------------



BLAST X contre nr ; paramètres par défaut


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|ZP_02032035.1|  hypothetical protein PARMER_02043 [Parabac...  55.8    5e-06
ref|ZP_03012243.1|  hypothetical protein BACCOP_04177 [Bactero...  42.4    0.057
ref|ZP_01885383.1|  hypothetical protein PBAL39_13060 [Pedobac...  42.4    0.057
ref|YP_001426841.1|  hypothetical protein ATCV1_Z360R [Acantho...  38.5    0.82  Gene info
ref|XP_001650624.1|  chymotrypsin, putative [Aedes aegypti] >g...  36.6    3.1   Gene info
gb|ABW77007.1|  envelope glycoprotein [Human immunodeficiency ...  36.2    4.1  
ref|NP_348967.1|  glycosyltransferase [Clostridium acetobutyli...  35.8    5.3   Gene info
ref|YP_418217.1|  hypothetical protein PPEV_gp184 [Pseudomonas...  35.8    5.3   Gene info
ref|ZP_02425074.1|  hypothetical protein ALIPUT_01210 [Alistip...  35.0    9.1  
ref|YP_699605.1|  ABC transporter [Clostridium perfringens SM1...  35.0    9.1   Gene info
ref|NP_563261.1|  maltose ABC transportor [Clostridium perfrin...  35.0    9.1   Gene info
ref|YP_697034.1|  putative maltose/maltodextrin ABC transporte...  35.0    9.1   Gene info



>ref|ZP_02032035.1|  hypothetical protein PARMER_02043 [Parabacteroides merdae ATCC 
43184]
 gb|EDN86679.1|  hypothetical protein PARMER_02043 [Parabacteroides merdae ATCC 
43184]
Length=124

 Score = 55.8 bits (133),  Expect = 5e-06
 Identities = 46/127 (36%), Positives = 62/127 (48%), Gaps = 22/127 (17%)
 Frame = +3

Query  501  MDIRELRIGNLY--DNNGNYFVVT---------PNTIESLFERERVW------CKPIPLT  629
            +D+REL+IGN     N+   + +T         P    S    E V+        PIPLT
Sbjct  2    VDVRELKIGNYVYLQNSKTPYKITEIGYSEIEYPKYEASGISSEAVFRTYVENLNPIPLT  61

Query  630  EEILLKCGFEKFNTIGGCFYYINGLRIDYILCKFVLLGYD-RCNLNYLHELQNIYSCLCG  806
            EE+LLKCGFEK +  G   YY     +D     F L G D    +  LH+LQN+Y  L G
Sbjct  62   EELLLKCGFEK-HKWGVVTYYSPLFELD---ADFHLKGVDYNIQVKSLHQLQNLYFDLTG  117

Query  807  DELKINL  827
             +L++ L
Sbjct  118  QKLEVKL  124



----------------------------------------------------------------------------------------------



BLAST P contre env nr ; paramètres par défaut


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|EBM51571.1|  hypothetical protein GOS_8397596 [marine metag...   332    2e-90
gb|ECB53846.1|  hypothetical protein GOS_3979566 [marine metag...   101    7e-21
gb|EBG64213.1|  hypothetical protein GOS_9398928 [marine metag...  87.8    1e-16
gb|EBU99429.1|  hypothetical protein GOS_6973064 [marine metag...  77.0    2e-13
gb|EBC60954.1|  hypothetical protein GOS_42497 [marine metagen...  70.5    2e-11
gb|ECQ53784.1|  hypothetical protein GOS_5256063 [marine metag...  67.0    2e-10
gb|EBG64214.1|  hypothetical protein GOS_9398929 [marine metag...  60.8    2e-08
gb|ECG02446.1|  hypothetical protein GOS_3922485 [marine metag...  59.3    4e-08
gb|EBM12807.1|  hypothetical protein GOS_8458594 [marine metag...  52.4    6e-06
gb|ECR93315.1|  hypothetical protein GOS_3228945 [marine metag...  46.2    3e-04
gb|EBG04448.1|  hypothetical protein GOS_9498884 [marine metag...  42.0    0.006
gb|EBV86885.1|  hypothetical protein GOS_6837981 [marine metag...  42.0    0.008
gb|ECX45963.1|  hypothetical protein GOS_2534373 [marine metag...  41.6    0.010
gb|EBG71016.1|  hypothetical protein GOS_9387325 [marine metag...  41.2    0.011
gb|EBZ31825.1|  hypothetical protein GOS_5838044 [marine metag...  40.0    0.024
gb|EBM47124.1|  hypothetical protein GOS_8404652 [marine metag...  40.0    0.024
gb|EDE29499.1|  hypothetical protein GOS_1155566 [marine metag...  40.0    0.025
gb|EDE17324.1|  hypothetical protein GOS_1176872 [marine metag...  39.7    0.033
gb|EBM36524.1|  hypothetical protein GOS_8421566 [marine metag...  39.3    0.041
gb|ECP99176.1|  hypothetical protein GOS_3905118 [marine metag...  37.7    0.13 
gb|EBA61214.1|  hypothetical protein GOS_2272 [marine metagenome]  35.8    0.47 
gb|EDF94888.1|  hypothetical protein GOS_866654 [marine metage...  35.4    0.61 
gb|EBT23149.1|  hypothetical protein GOS_7307482 [marine metag...  35.0    0.79 
gb|EDE63331.1|  hypothetical protein GOS_1096774 [marine metag...  34.7    1.2  
gb|ECI11163.1|  hypothetical protein GOS_6104219 [marine metag...  34.3    1.4  
gb|EDG90115.1|  hypothetical protein GOS_701155 [marine metage...  33.9    1.9  
gb|ECY61218.1|  hypothetical protein GOS_2329705 [marine metag...  33.9    2.1  
gb|EBZ31566.1|  hypothetical protein GOS_5847118 [marine metag...  33.5    2.2  
gb|EDE13698.1|  hypothetical protein GOS_1183247 [marine metag...  33.5    2.4  
gb|ECI34765.1|  hypothetical protein GOS_5149518 [marine metag...  33.5    2.7  
gb|EBY43454.1|  hypothetical protein GOS_5861219 [marine metag...  33.5    2.8  
gb|EBK58680.1|  hypothetical protein GOS_8708015 [marine metag...  33.1    3.5  
gb|ECQ60723.1|  hypothetical protein GOS_4986386 [marine metag...  33.1    3.6  
gb|EBM13167.1|  hypothetical protein GOS_8457994 [marine metag...  32.7    4.7  
gb|ECV67072.1|  hypothetical protein GOS_2855838 [marine metag...  32.3    5.0  
gb|EDC75515.1|  hypothetical protein GOS_1420147 [marine metag...  32.3    5.1  
gb|ECT19358.1|  hypothetical protein GOS_7077424 [marine metag...  32.3    5.6  
gb|EDC65736.1|  hypothetical protein GOS_1437545 [marine metag...  32.3    5.8  
gb|EBK48612.1|  hypothetical protein GOS_8724713 [marine metag...  32.0    6.4  
gb|EBM38755.1|  hypothetical protein GOS_8418131 [marine metag...  32.0    6.6  
gb|EBD36452.1|  hypothetical protein GOS_9941346 [marine metag...  32.0    6.6  
gb|EDB82772.1|  hypothetical protein GOS_1585607 [marine metag...  32.0    7.2  
gb|EBE15971.1|  hypothetical protein GOS_9810689 [marine metag...  32.0    7.9  
gb|ECH34444.1|  hypothetical protein GOS_5631227 [marine metag...  31.6    8.3  
gb|ECV69626.1|  hypothetical protein GOS_2851366 [marine metag...  31.6    8.6  
gb|EBK55302.1|  hypothetical protein GOS_8713524 [marine metag...  31.6    8.8  
gb|ECP05376.1|  hypothetical protein GOS_3043390 [marine metag...  31.6    9.1  
gb|EBV68717.1|  hypothetical protein GOS_6865986 [marine metag...  31.6    9.1  
gb|ECB63357.1|  hypothetical protein GOS_3615104 [marine metag...  31.6    9.4  
gb|EBV53310.1|  hypothetical protein GOS_6890751 [marine metag...  31.6    9.8  
gb|EBZ74818.1|  hypothetical protein GOS_4106986 [marine metag...  31.6    9.8  
gb|EDC12077.1|  hypothetical protein GOS_1532612 [marine metag...  31.6    9.9  



>gb|EBM51571.1|  hypothetical protein GOS_8397596 [marine metagenome]
Length=159

 Score =  332 bits (852),  Expect = 2e-90, Method: Compositional matrix adjust.
 Identities = 159/159 (100%), Positives = 159/159 (100%), Gaps = 0/159 (0%)

Query  1    VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ  60
            VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ
Sbjct  1    VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ  60

Query  61   RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMH  120
            RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMH
Sbjct  61   RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMH  120

Query  121  PDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK  159
            PDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK
Sbjct  121  PDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK  159


>gb|ECB53846.1|  hypothetical protein GOS_3979566 [marine metagenome]
Length=196

 Score =  101 bits (252),  Expect = 7e-21, Method: Compositional matrix adjust.
 Identities = 49/110 (44%), Positives = 67/110 (60%), Gaps = 0/110 (0%)

Query  1    VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ  60
            VSHN CR +A+  GY ++LHLESD+    D IE L  H K++ G L+ RD G  RK M Q
Sbjct  86   VSHNMCRDMALKEGYKYILHLESDIFPERDIIECLMFHDKRIVGALYDRDEGKWRKTMLQ  145

Query  61   RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIK  110
             R+Y S  ++ S NF   +++  + G LK  +H+GLGC+LI      KIK
Sbjct  146  WRVYSSNYSVESINFDAGQELWVLSGGLKEFSHVGLGCVLIKTNVFDKIK  195


>gb|EBG64213.1|  hypothetical protein GOS_9398928 [marine metagenome]
Length=216

 Score = 87.8 bits (216),  Expect = 1e-16, Method: Compositional matrix adjust.
 Identities = 53/147 (36%), Positives = 78/147 (53%), Gaps = 6/147 (4%)

Query  2    SHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQR  61
            S N  R   ++  Y + L LE DVI P D IE L  HKK+V  G+++     +R  +   
Sbjct  61   SRNILRQYVLDNNYDYFLSLEQDVIPPKDMIERLLQHKKRVISGIYFNHIN-TRDGITLA  119

Query  62   RIYRSPRNIISEN--FLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDM  119
             +  S  N+  E   FL    ++   G +K A   G+GC+LI+   L+KIKFR+ +    
Sbjct  120  PVVWSKVNLEKEERYFLKPSQLN--KGVIKIAVS-GVGCVLIHKSVLEKIKFRYEKKYPS  176

Query  120  HPDTYFAEDCFRNNIKIFADTNIICKH  146
              D +F  DC  N I ++ADT++ICKH
Sbjct  177  FDDIFFGLDCKENKINVYADTSLICKH  203


>gb|EBU99429.1|  hypothetical protein GOS_6973064 [marine metagenome]
Length=166

 Score = 77.0 bits (188),  Expect = 2e-13, Method: Compositional matrix adjust.
 Identities = 50/156 (32%), Positives = 76/156 (48%), Gaps = 7/156 (4%)

Query  2    SHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISR----KL  57
            SHN  R   I+ GY +LLHLESDV    D IE L   +K +   ++    G  R    KL
Sbjct  1    SHNQLRRYCIDEGYDYLLHLESDVFPQPDIIEQLLWARKPIICAMYQIFDGAWRTPCLKL  60

Query  58   MAQRRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENV  117
            M  +       +  ++  L +    F+DGT+K     G+GC L+  +  +   FR+ +  
Sbjct  61   MDNKHELSKEFSFYTD--LTNFHHWFVDGTIKETHIAGIGCCLMKRKVCENFPFRWSKEN  118

Query  118  DMHPDTYFAEDCFRNNIKIFADTNIICKH-NNEDWG  152
               PD+YF+ED     ++ +  T ++  H N EDWG
Sbjct  119  YNPPDSYFSEDLKNAGVQNYVHTGLLAFHWNKEDWG  154


>gb|EBC60954.1|  hypothetical protein GOS_42497 [marine metagenome]
Length=245

 Score = 70.5 bits (171),  Expect = 2e-11, Method: Compositional matrix adjust.
 Identities = 52/164 (31%), Positives = 73/164 (44%), Gaps = 20/164 (12%)

Query  2    SHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQR  61
            SHN  R  A+ GGY  L H+E+DV    D +  L  H+K V          +S  +    
Sbjct  81   SHNLLRERALEGGYDFLFHVETDVFPEPDVLIRLLSHRKAVVS--------VSYDIFDMH  132

Query  62   RIYRSPRNIISENFLPSEDIHFI----------DGTLKTAAHIGLGCILINVETLKKIKF  111
               R P  +  E+    E    I          DGTLK A   G+GCIL++   L K +F
Sbjct  133  D--REPVMLQIEDEYDGEAHAAIKRGKYIHTEYDGTLKQAWANGIGCILLHRSVLDKFEF  190

Query  112  RFVENVDMHPDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYG  155
            R+  + D   D++ A D     I I  DT++   H N+DW  +G
Sbjct  191  RYDRDRDGFCDSWLAYDLRAMGIPIHVDTSMYAYHKNKDWRNFG  234


>gb|ECQ53784.1|  hypothetical protein GOS_5256063 [marine metagenome]
Length=163

 Score = 67.0 bits (162),  Expect = 2e-10, Method: Compositional matrix adjust.
 Identities = 39/141 (27%), Positives = 76/141 (53%), Gaps = 5/141 (3%)

Query  16   SHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRK--LMAQRRIYRSPRNIISE  73
             ++LHLESD+  P++ +  L   +K +  G +   +G  R+  +    +++      +  
Sbjct  12   EYMLHLESDIFPPSNILMELLYCRKSIVNGFYQVFNGSHRQPCIRLHDKLHELHNTYVFH  71

Query  74   NFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMHP-DTYFAEDCFRN  132
              L +   ++++G L+     G+GC L+  + ++  +FR+ +N++ HP DTYFAED  + 
Sbjct  72   KELGNFYHYWVEGKLQKTFIAGIGCCLMTRQLMENFEFRY-DNIENHPPDTYFAEDLRKA  130

Query  133  NIKIFADTNIICKH-NNEDWG  152
             I+ +  T  +C H N E+WG
Sbjct  131  GIQNWVHTGQLCFHWNREEWG  151


>gb|EBG64214.1|  hypothetical protein GOS_9398929 [marine metagenome]
Length=210

 Score = 60.8 bits (146),  Expect = 2e-08, Method: Compositional matrix adjust.
 Identities = 42/134 (31%), Positives = 62/134 (46%), Gaps = 7/134 (5%)

Query  2    SHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYR-DSGISRKLMAQ  60
            S N  R +AI   Y + L+++ DVI P D IE    HKK++  G+++   S   RKL   
Sbjct  73   SRNILREMAIEENYDYFLNIDQDVIPPKDIIERFLKHKKRIITGIYFNYKSFTPRKLGED  132

Query  61   RRIYRSPRNIISENFLPSEDI------HFIDGTLKTAAHIGLGCILINVETLKKIKFRFV  114
            +             F   +D+        + G LK  A  G GC+ I+   LKKI+FR+ 
Sbjct  133  KGTRHGDLFPTVWWFTKKKDVLRQMREEELTGELKQIASCGSGCLFIHNSILKKIRFRYS  192

Query  115  ENVDMHPDTYFAED  128
            ++ D     YF  D
Sbjct  193  KDHDKPERNYFVFD  206


>gb|ECG02446.1|  hypothetical protein GOS_3922485 [marine metagenome]
Length=162

 Score = 59.3 bits (142),  Expect = 4e-08, Method: Compositional matrix adjust.
 Identities = 41/139 (29%), Positives = 66/139 (47%), Gaps = 15/139 (10%)

Query  15   YSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQRRIYRSPRNIISEN  74
            Y +L  ++SD++   DT++ L  H K V  G++     I RK      IYR   N    N
Sbjct  22   YDYLFSVDSDIVFEKDTLKKLLSHNKDVVSGIY-----IQRKEEKVLEIYRLNGNGGVSN  76

Query  75   FLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKI---KFRFVENVD----MHPDTYFAE  127
             +P  +I      L   +  G GC+LI  + ++KI   +F + + +D    +  D YF  
Sbjct  77   -IPFSEIQ--GNQLAEISACGFGCVLIKSDVIRKIGYPQFIYRDALDHKDTVSEDVYFCA  133

Query  128  DCFRNNIKIFADTNIICKH  146
                   KI+ADT ++C+H
Sbjct  134  RAIEEGFKIWADTTVLCEH  152

ORF finding

PROTOCOLE:SMS ORF FINDER, paramètres : "any codon", cadre 1,2,3 sens direct et indirect, 60 codons minimum, code génétique bactérien

---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

Nous avons fait la recherche d'ORF avec les mêmes paramètres mais en utilisant le code standard : 
nous avons obtenu les mêmes résultats qu'avec le code bactérien.

L'ORF le plus grand est situé dans le cadre 3 de lecture, du nucléotide 3 au nucléotide 482 (en 
incluant le codon "STOP"), sur le brin direct. C'est à partir de cet ORF que nous ferons les 
diverses analyses. 

Cet ORF est assez grand pour dire qu'il s'agit d'une séquence codante (159 acides  aminés).

La traduction de cet ORF ne commence pas par une méthionine, on en déduit que le début de la 
séquence codante se situe en 5' de la séquence analysée. Etant donné que l'on n'obtient que la 
partie C-terminale de la protéine, on ne peut pas calculer le poids moléculaire.


---------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:

SMS ORF FINDER, paramètres : "any codon", cadre 1,2,3 sens direct, 60 codons minimum, code génétique bactérien


No ORFs were found in reading frame 1.

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the direct strand extends from base 3 to base 482.
GTATCTCATAACGATTGTAGGGGACTTGCTATTAATGGTGGTTACTCTCATTTATTACAT
TTAGAAAGTGATGTTATTTGCCCTACTGATACTATTGAAAATTTATACTTACATAAAAAG
CAAGTTGCTGGAGGTTTATTTTACAGAGATAGTGGAATAAGTCGTAAATTAATGGCACAA
AGACGTATTTATAGAAGTCCTAGAAATATTATAAGCGAAAACTTTTTACCGAGTGAGGAT
ATACATTTTATTGACGGCACACTAAAAACGGCTGCTCATATAGGTTTAGGCTGTATTTTA
ATTAATGTAGAAACTTTAAAAAAGATTAAATTTAGATTTGTAGAAAATGTAGATATGCAC
CCCGATACATATTTTGCAGAGGATTGTTTTAGAAATAACATTAAGATATTTGCAGATACT
AATATAATTTGCAAACATAATAATGAAGATTGGGGAGTTTACGGTTATACTTGGAAATAA


>Translation of ORF number 1 in reading frame 3 on the direct strand.
VSHNDCRGLAINGGYSHLLHLESDVICPTDTIENLYLHKKQVAGGLFYRDSGISRKLMAQ
RRIYRSPRNIISENFLPSEDIHFIDGTLKTAAHIGLGCILINVETLKKIKFRFVENVDMH
PDTYFAEDCFRNNIKIFADTNIICKHNNEDWGVYGYTWK*

>ORF number 2 in reading frame 3 on the direct strand extends from base 495 to base 830.
ATAAATATGGATATAAGAGAACTTAGAATAGGAAATTTGTATGATAATAATGGTAATTAC
TTTGTAGTTACGCCAAATACAATAGAATCACTTTTTGAAAGAGAAAGAGTATGGTGTAAA
CCAATACCATTAACAGAGGAAATACTTTTGAAATGTGGTTTTGAGAAATTTAATACTATT
GGAGGGTGCTTTTACTACATCAATGGATTGAGAATTGATTACATTTTGTGTAAATTTGTA
TTATTAGGCTATGATAGATGTAATTTGAATTACTTGCACGAATTACAAAATATTTACTCA
TGCCTTTGTGGAGATGAGTTAAAAATAAACTTATAA

>Translation of ORF number 2 in reading frame 3 on the direct strand.
INMDIRELRIGNLYDNNGNYFVVTPNTIESLFERERVWCKPIPLTEEILLKCGFEKFNTI
GGCFYYINGLRIDYILCKFVLLGYDRCNLNYLHELQNIYSCLCGDELKINL*


---------------------------------------------------------------------------------------------------


SMS ORF FINDER, paramètres : "any codon", cadre 1,2,3 sens indirect, 60 codons minimum, code génétique bactérien

>ORF number 1 in reading frame 1 on the reverse strand extends from base 385 to base 648.
TTCTATTGTATTTGGCGTAACTACAAAGTAATTACCATTATTATCATACAAATTTCCTAT
TCTAAGTTCTCTTATATCCATATTTATTTATATTATATATTATTTCCAAGTATAACCGTA
AACTCCCCAATCTTCATTATTATGTTTGCAAATTATATTAGTATCTGCAAATATCTTAAT
GTTATTTCTAAAACAATCCTCTGCAAAATATGTATCGGGGTGCATATCTACATTTTCTAC
AAATCTAAATTTAATCTTTTTTAA

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
FYCIWRNYKVITIIIIQISYSKFSYIHIYLYYILFPSITVNSPIFIIMFANYISICKYLN
VISKTILCKICIGVHIYIFYKSKFNLF*

>ORF number 1 in reading frame 2 on the reverse strand extends from base 506 to base 688.
ACTCCCCAATCTTCATTATTATGTTTGCAAATTATATTAGTATCTGCAAATATCTTAATG
TTATTTCTAAAACAATCCTCTGCAAAATATGTATCGGGGTGCATATCTACATTTTCTACA
AATCTAAATTTAATCTTTTTTAAAGTTTCTACATTAATTAAAATACAGCCTAAACCTATA
TGA

>Translation of ORF number 1 in reading frame 2 on the reverse strand.
TPQSSLLCLQIILVSANILMLFLKQSSAKYVSGCISTFSTNLNLIFFKVSTLIKIQPKPI
*

>ORF number 1 in reading frame 3 on the reverse strand extends from base 87 to base 272.
ATCGGATTTATTACGCCATCAATATCAAGGAATATTATTTTTTCCATACTTATAAGTTTA
TTTTTAACTCATCTCCACAAAGGCATGAGTAAATATTTTGTAATTCGTGCAAGTAATTCA
AATTACATCTATCATAGCCTAATAATACAAATTTACACAAAATGTAATCAATTCTCAATC
CATTGA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
IGFITPSISRNIIFSILISLFLTHLHKGMSKYFVIRASNSNYIYHSLIIQIYTKCNQFSI
H*