GOS 707020

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : AACY01160516.1
Annotathon code: GOS_707020
Sample :
  • GPS :31°10'30n; 64°19'27.6w
  • Sargasso Sea: Sargasso Sea, Stations 3-11 - Bermuda (UK)
  • Open Ocean (-5m, 20°C, 0.1-0.8 microns)
Authors
Team : BioCell2008
Username : mariecaro
Annotated on : 2009-02-09 18:25:49
  • CAGNON Caroline
  • CLEMOT Marie

Synopsis

Genomic Sequence

>AACY01160516.1 GOS_707020 genomic DNA
GGAGTACGAGCACTACTTCTTCTTCGCGCTCCTGATGCTTCTCATCTATCCGATCGGAAGTAAGATTTACTCCTCAACCTCTGAAATCGATCCACCCTCA
CACTACCCTCGCTTCGCTCGCTCAACAGTCCCAGCATTGTACTACGTCATGCTTCGTAGCCATCATGTCATTTTGAGTGATCGCGTCGCCAGTGCCGAAG
AAGAAGCCGCTGGGTTCCCGACGACTGGACACGTGCATTTTCTCATCGAAGGCTACGAGCCACCGTACTACTGGTTTGAGGTTTTGGACTGCGTGCGGCG
TCTGCTGTTGGCAGCGATAATCGGAGTGGTATCATTCACGGCCACTGCGGCGCCGGTGGCTGGCTTCGCCATCAGTATCGGCTTCACGTGGGTGTTCACA
TACTTGAAGCCGTTCACGAATAACGCCGACAACACGCTGAGCATCACGCTTTCCTACGTGACGGTCTTTTCTTTCCAAGCGGCGTTGCTGGTCAAAGTCA
ATGCCACGAGTGACGACGAAGACGATCAGGCCGTATTCGGAGCTCTTCTCATTTTCTTCATCTTTTCGGGCCCGCTGGTGATGGTATTCCTGACATTGCG
GGATTTCCATCGCGCGGGAAAGTGCTTCGTTGAATCGACGGAGGAAAGTGGCGACGTTGAATTGACGGAGGAAAGTAGTGACGTTGACGCGCCGGCGCCC
ACGAGTGAGTCGAGTCCAACGCGGTCTCTGTCCGCCGATCGCCCTCCACGTGATGATGCAAAGACACCTATGATGCAACTTGGATCTACCCTCGACGGGG
GGCGCGGCGAGCCGTACATCATGCTGTAGGCAGAGATCAATCAGTAAGTCAGTCAGTAGAGAGCAAGTGAAGTGAATTGAATTGAAAGCAAGTCTGAGAA
CAAGAGAAAATGAGAAGAGAAGTCAAGAGGAGGAGGTA

Translation

[2 - 826/938]   direct strand
>GOS_707020 Translation [2-826   direct strand]
EYEHYFFFALLMLLIYPIGSKIYSSTSEIDPPSHYPRFARSTVPALYYVMLRSHHVILSDRVASAEEEAAGFPTTGHVHFLIEGYEPPYYWFEVLDCVRR
LLLAAIIGVVSFTATAAPVAGFAISIGFTWVFTYLKPFTNNADNTLSITLSYVTVFSFQAALLVKVNATSDDEDDQAVFGALLIFFIFSGPLVMVFLTLR
DFHRAGKCFVESTEESGDVELTEESSDVDAPAPTSESSPTRSLSADRPPRDDAKTPMMQLGSTLDGGRGEPYIML

[ Warning ] 5' incomplete: does not start with a Methionine

Phylogeny

PROTOCOLE:

a) Phylogeny.fr / Phylogenie par parcimonie ("Protpars") à partir de l'alignement multiple Clustal / visualisation Treedyn / Step by Step / Sans Use Group

b) Phylogeny.fr / Phylogenie par méthode des distances ("Protdist Neighbor") à partir de l'alignement Clustal/ visualisation Treedyn / Step by Step / Sans Use Group

---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

Les deux arbres paraissent congruents, mais on ne peut pas véritablement les interpréter car ils reposent sur un faible nombre
de séquences a priori homologues, d'autant plus qu'il s'agit de séquences hypothétiques. L'absence de 
groupe extérieur ne permet pas d'enraciner les arbres. Notre séquence semble bien s'inclure dans le groupe 
des marines metagénomiques. D'aprés l'arbre réalisé par parcimonie, elle paraît plus proche d'un point de vue taxonomique
de marine 3 que des autres espèces alors que d'aprés l'arbre réalisé par la méthode NJ, elle semble plus proche de marine 1.

---------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:

a) Phylogenie par parcimonie

Protein parsimony algorithm, version 3.66



One most parsimonious tree found:




        +-----sequence     
     +--3  
     |  |  +--marine1     [marine metagenome]
  +--2  +--4  
  |  |     +--marine3     [marine metagenome]
  1  |  
  |  +--------marine4     [marine metagenome]
  |  
  +-----------marine2     [marine metagenome]

  remember: this is an unrooted tree!


requires a total of   1550.000




b) Phylogenie par méthode des distances



  +-----------marine3                                             [marine metagenome]                                    
  ! 
  !  +---marine4                                                  [marine metagenome]
  2--3 
  !  !       +-----sequence     
  !  +-------1 
  !          +-----------------------------------------marine1    [marine metagenome] 
  ! 
  +---marine2                                                     [marine metagenome]


---------------------------------------------------------------------------------------------------

Annotator commentaries

La séquence d’ADN étudiée provient de la Mer des Sargasses et a une longueur de 938pb.

La recherche d’ORF permet de mettre en évidence un ORF de 828 nucléotides s'étendant de la position 2 à la position 829, nettement plus long que les autres, dans le sens direct. Cet ORF est incomplet en 5' mais complet en 3' car il se termine par un codon STOP. Il coderait pour un polypeptide de taille supérieure à 275 acides aminés. On peut supposer qu'il s'agit donc probablement d'une séquence codante.

La recherche de domaines protéiques conservés à partir de la traduction de cet ORF n'apporte pas de résultats satisfaisants avec Interpro: on trouve seulement des domaines structuraux, sans fonction connue, et surtout sans e-value associée, ce qui ne permet pas de juger de leur pertinence. Par contre, l'analyse de cet ORF avec CDD suggère un domaine conservé potentiel, avec un e-value de 0.004. Ce domaine serait impliqué dans la croissance cellulaire et dans la synthèse de la paroi cellulaire et serait conservé essentiellement chez des organismes microbiens, ce qui nous paraît intéressant dans le cadre de notre étude, puisque l'on s'attend effectivement à trouver des séquences provenant d'organismes microscopiques. Cependant, les résultats des Blast ne permettent pas de confirmer cette fonction hypothétique. En effet, en faisant un Blastp contre NR, on n'obtient qu'une seule séquence protéique potentiellement homologue avec un e-value de 6e10-6, mais aucune information n'est disponible sur la fonction de cette séquence. Les autres séquences ont des e-values trop élevés (>0.31), pour être considérées comme homologues. Devant ces résultats non significatifs, nous avons lancé un blastp contre la banque des séquences environnementales qui n'est pas incluse dans NR. Seulement 4 séquences peuvent être considérées comme homologues, malgré un e-value moyen, de l'ordre de 10-4, qui ne permet pas de l'affirmer avec beaucoup de certitude et qui ne permet pas la constitution du groupe d'étude et d'un groupe extérieur avec pertinence. Malheureusement, on ne dispose pas d'informations sur ces séquences métagénomiques, on sait seulement qu'elles sont d'origine marine, ce qui est cohérent avec notre étude. Nous estimons donc que nous ne disposons pas de suffisamment d'informations pour proposer une fonction à l'ORF considéré.

L'alignement multiple obtenu à partir des séquences que nous supposons homolgues est plutôt décevant car il ne met pas en évidence de régions significativement conservées. Par contre il nous permet d'obtenir deux arbres, par les méthodes de parcimonie et de distances qui, bien que peu informatifs car non enracinés et réalisés avec un nombre trop faible de séquences, permettent néanmoins de vérifier que notre ORF s'intègre bien dans le groupe des séquences métagénomiques marines et n'est donc pas isolé.

Le fragment d'ADN étudié contiendrait donc la fin d'une séquence codant pour une protéine appartenant à un groupe encore inconnu.

Multiple Alignement

PROTOCOLE:

ClustalW / Infobiogen / paramètres par défaut

---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

L'alignement multiple ne montre pas de régions conservées, bien que plusieurs substitutions conservatrices sont
regroupées de la position 128 à la position 143.

---------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:

CLUSTAL W (1.82) multiple sequence alignment


marine2         ------------------------------------------------------------
marine4         ------------------------------------------------------------
marine3         HRCCWQRLPALSGETAADFPLACAPGISGASESSSAQNGPWCTELCPPGKICAADFAVVC
sequence        ---------------------------------------EYEHYFFFALLMLLIYPIGSK
marine1         --------------------SAILPATLRGFYLTLLKITDLNPFAAFGLSCANHALRSFK
                                                                            

marine2         -------------MKALAYVFIALWPVGTVALYAALLAACRPRLRANAP-DALTRATRFL
marine4         ------------------------------ALFLAVQRRNRVAIVEHVP-TDLSRAAAFL
marine3         IDGDGSPTAEHERVRSIAIVAIVLYPVCVPLLYFVLFWKVRHAIWRDEGGTKLSKSIGFL
sequence        IYSSTSEIDPPSHYPRFARSTVPALYYVMLRSHHVILSDRVASAEEEAAGFPTTGHVHFL
marine1         ARLIFAITAPIVVSAVLLAYALVQVHVLRRNPEKCFTRYAHIQLIVLFLVLPGASTTIFR
                                                   .                 :    * 

marine2         HGEYELAFYWWELIELVRRTILVGYVLLIPAEQAVARILFGLLLSMLYLIGLLATRPYRH
marine4         WRDYKPAYWWWESAELLRKLFLTGFVLLIPQEQAMLRLIIGQLVAVGALALYTTCRPYAR
marine3         TEEYSPTYFFWELVEVLKKLVLVGLMSVVLPG-EINQLVLGFVTMLVFLVALLVARPYKR
sequence        IEGYEPPYYWFEVLDCVRRLLLAAIIGVVSFT-ATAAPVAGFAISIGFTWVFTYLKPFTN
marine1         TFLCDKGFVEDESVSFLEADLTLSCESSEYKQLEVLAFIGLLLYPVGVNALYAGLLFRAR
                    .  :   *  . :.  .  .              :      :             .

marine2         AADGTLATACASALVFVFQGALLVRIHDRTAAKHGIADAAELLHFESTESLSAVLIALCL
marine4         VLDNGLAAIAHVVLVFFLVACAGIKLCGGSDGDGSIADLCDTVGGSKFGFATASFAAIVV
marine3         PEDDVIALSASFGLVMFFFFSLILKYQTLTEAVKESLEGTLLDKVFSVDPKTSAALLIAS
sequence        NADNTLSITLSYVTVFSFQAALLVKVNATSDDE---DDQAVFGALLIFFIFSGPLVMVFL
marine1         DAIQHRDGAGAEHLSFLFRSYAPKYFAFDVVDSVRRILLSGGLVFFSERGRAAGGTIIAL
                               : :                                 :.    :  

marine2         GSVALLLVLALDVARRERRERLEAARWAAQTLEPPTFDWRPTRRYAAFLSHYKMESATDA
marine4         IVTLLAAGVAHEVYAAIQRQR-DADRWSTTSIEPPHCEWHCTRHYAAFISHYKAETASLA
marine3         TLGALVLGGTMVVIEISAAAATEAAEKKKQADLQAELVELRRQQKASAEEKEALQQVLST
sequence        TLRDFHRAGKCFVESTEESGDVELTEESSDVDAPAPTSESSPTRSLSADRPPRDDAKTPM
marine1         FFYGLYENVKPYKREENNVITSIANGAIAAVMLLLTILQGELMPKPTVGNLCIVISVVIF
                    :                                         :             

marine2         RYLYDLLR----------------------------------------------------
marine4         RYLHDLLRKMLREPIYLDSSALTDLRTLFEDGIDRSEVVVIICSASVLTRPWCLLELLEA
marine3         EKIPDVMKRCMX------------------------------------------------
sequence        MQLGSTLDGGRGEPYIML------------------------------------------
marine1         PVIAAFQLRSIKRRKA--------------------------------------------
                  :                                                         

marine2         -----------------------------
marine4         SQRGVPVVPLLIDGHDEWDPDAMRRLASX
marine3         -----------------------------
sequence        -----------------------------
marine1         -----------------------------
                                             


---------------------------------------------------------------------------------------------------

BLAST

PROTOCOLE:

a) Blastp / contre nr / paramètres par défaut du NCBI

b) Blastp / contre env_nr / paramètres par défaut du NCBI

c) Blastx / contre nr / paramètres par défaut du NCBI


---------------------------------------------------------------------------------------------------

ANALYSE DES RÉSULTATS:

a) Blastp contre nr

Le blast propose une seule séquence potentiellement homologue à l'ORF étudié avec un e-value de 6e-06.
Les autres séquences proposées ont des e-values élevés (>0.31). On les considère donc comme faux positifs
L'alignement deux à deux montre peu de régions conservées.

b) Blastp contre env_nr

On observe quatre séquences avec des e-value plus significatifs (inférieur à 10-4). On peut considérer
qu'il s'agit de séquences homologues, bien qu'hypothétiques.

c) Blastx contre nr

Devant le peu de résultats fournis par les Blastp, un Blastx pourrait permettre de déceler des possibles
homologues pour les autres ORF potentiels trouvés dans d'autres cardres de lecture.
Le meilleur hit proposé par le blastx contre nr correspond à la même séquence que celle trouvée avec le blastp contre nr
effectué à partir de l'ORF le plus long. Cet ORF semble donc être le seul ORF potentiellement codant dans notre séquence.

---------------------------------------------------------------------------------------------------

RÉSULTATS BRUTS:

a) Blastp contre nr 


   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|XP_001624307.1|  predicted protein [Nematostella vectensis...  55.1    6e-06 
ref|XP_001638921.1|  predicted protein [Nematostella vectensis...  39.3    0.31  
ref|XP_001025848.1|  hypothetical protein [Tetrahymena thermop...  38.1    0.82  
ref|XP_001229572.1|  conserved hypothetical protein [Chaetomiu...  37.7    1.0   
ref|XP_001021001.2|  hypothetical protein [Tetrahymena thermop...  37.4    1.1   
ref|XP_001384259.2|  hypothetical protein PICST_59493 [Pichia ...  37.4    1.2   
gb|ACG36039.1|  unknown [Zea mays]                                 37.0    1.5  
ref|XP_957401.1|  hypothetical protein NCU07176 [Neurospora cr...  37.0    1.6   
gb|EEA98042.1|  hypothetical protein, conserved [Toxoplasma go...  36.6    2.4  
ref|XP_001907969.1|  unnamed protein product [Podospora anseri...  35.8    3.3   
gb|ACG38931.1|  unknown [Zea mays]                                 35.8    3.9  
emb|CAO89656.1|  unnamed protein product [Microcystis aerugino...  35.8    4.3  
gb|EEA94373.1|  pH adaption potassium efflux system protein Ph...  35.4    5.0  
emb|CAO61265.1|  unnamed protein product [Vitis vinifera]          35.0    6.1  
ref|XP_001481495.1|  cAMP receptor-like protein [Aspergillus f...  35.0    6.3   
gb|EAW68436.1|  ATP-binding cassette, sub-family C (CFTR/MRP),...  34.7    9.0   
pir||T15653  hypothetical protein C27D6.2 - Caenorhabditis ele...  34.7    9.2  

ref|XP_001624307.1|  predicted protein [Nematostella vectensis]
 gb|EDO32207.1|  predicted protein [Nematostella vectensis]
Length=1094

 GENE ID: 5503221 NEMVEDRAFT_v1g218200 | predicted protein
[Nematostella vectensis] (10 or fewer PubMed links)

 Score = 55.1 bits (131),  Expect = 6e-06, Method: Composition-based stats.
 Identities = 36/126 (28%), Positives = 65/126 (51%), Gaps = 14/126 (11%)

Query  78   VHFLIEGYEPPYYWFEVLDCVRRLLLAA---IIGVVSFTATAAPVAGFAISIGFTWVFTY  134
            + FL EGY+P YY++E+++  R+ ++ +   ++  VS T    P     IS  +  VF Y
Sbjct  823  MRFLYEGYKPEYYYWELIEMYRQFVVVSSTVLMDAVSRTFIVLPA---LISGIYAVVFAY  879

Query  135  LKPFTNNADNTLSITLSYVTVFSFQAALLVKVNATSDDE-----DDQAVFGALLIFFIFS  189
            +KP  +  D+ + IT   +T  + Q A+L+++    +DE     D Q     LL+  +  
Sbjct  880  VKPMKHTCDHVMQITALIMTTVNAQVAILIRI---PEDELEYVIDRQTHSDGLLVLVLIG  936

Query  190  GPLVMV  195
              LV++
Sbjct  937  NILVLL  942


                                                                
b) Blastp contre env_nr

                                                                                                           Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|EBR13881.1|  hypothetical protein GOS_7647240 [marine metag...  50.4    4e-05
gb|EBL26127.1|  hypothetical protein GOS_8599620 [marine metag...  50.4    5e-05
gb|ECB82091.1|  hypothetical protein GOS_6351505 [marine metag...  48.9    1e-04
gb|EBY82619.1|  hypothetical protein GOS_4284871 [marine metag...  46.6    7e-04
gb|EBQ96071.1|  hypothetical protein GOS_7671663 [marine metag...  46.2    0.001
gb|ECD60316.1|  hypothetical protein GOS_6303359 [marine metag...  44.7    0.003
gb|ECE51213.1|  hypothetical protein GOS_6401330 [marine metag...  44.3    0.004
gb|EBZ70536.1|  hypothetical protein GOS_4274467 [marine metag...  44.3    0.004
gb|EBZ69605.1|  hypothetical protein GOS_4304683 [marine metag...  43.9    0.005
gb|ECU45921.1|  hypothetical protein GOS_4285603 [marine metag...  43.1    0.007
gb|ECJ64624.1|  hypothetical protein GOS_3518365 [marine metag...  43.1    0.008
gb|ECF92059.1|  hypothetical protein GOS_4315567 [marine metag...  42.4    0.014
gb|ECO72041.1|  hypothetical protein GOS_4313586 [marine metag...  42.0    0.016
gb|EBV21251.1|  hypothetical protein GOS_6939645 [marine metag...  41.6    0.019
gb|ECD57764.1|  hypothetical protein GOS_6393331 [marine metag...  41.6    0.024
gb|ECP09520.1|  hypothetical protein GOS_6361982 [marine metag...  40.4    0.046
gb|ECF40564.1|  hypothetical protein GOS_6380059 [marine metag...  39.7    0.072
gb|ECD38335.1|  hypothetical protein GOS_3666128 [marine metag...  39.7    0.091
gb|EBY35567.1|  hypothetical protein GOS_6190264 [marine metag...  38.9    0.13 
gb|ECT86489.1|  hypothetical protein GOS_4272314 [marine metag...  38.9    0.15 
gb|EBY31760.1|  hypothetical protein GOS_6341130 [marine metag...  38.5    0.18 
gb|ECF92507.1|  hypothetical protein GOS_4299432 [marine metag...  38.1    0.24 
gb|ECA06312.1|  hypothetical protein GOS_6370825 [marine metag...  37.7    0.30 
gb|EBC14433.1|  hypothetical protein GOS_117085 [marine metage...  37.0    0.51 
gb|ECC33226.1|  hypothetical protein GOS_4308890 [marine metag...  36.6    0.75 
gb|ECO21154.1|  hypothetical protein GOS_6376660 [marine metag...  35.8    1.0  
gb|ECI56444.1|  hypothetical protein GOS_4296802 [marine metag...  35.8    1.1  
gb|ECU45198.1|  hypothetical protein GOS_4310786 [marine metag...  35.8    1.3  
gb|EBQ35133.1|  hypothetical protein GOS_7764434 [marine metag...  35.4    1.6  
gb|ECA13462.1|  hypothetical protein GOS_6076701 [marine metag...  35.0    1.7  
gb|ECC75856.1|  hypothetical protein GOS_6145946 [marine metag...  35.0    1.9  
gb|ECB79828.1|  hypothetical protein GOS_6444239 [marine metag...  35.0    2.1  
gb|EDJ38274.1|  hypothetical protein GOS_1705266 [marine metag...  33.5    5.1  
gb|ECX31745.1|  hypothetical protein GOS_2560350 [marine metag...  33.5    6.0  
gb|ECY06674.1|  hypothetical protein GOS_2423725 [marine metag...  33.5    6.5  
gb|ECJ80867.1|  hypothetical protein GOS_6365524 [marine metag...  33.1    6.8  
gb|EDJ30433.1|  hypothetical protein GOS_1719184 [marine metag...  33.1    7.3  
gb|EBP13999.1|  hypothetical protein GOS_7960385 [marine metag...  33.1    8.0  
gb|ECO26879.1|  hypothetical protein GOS_6151397 [marine metag...  33.1    8.6  
gb|EBY81391.1|  hypothetical protein GOS_4328151 [marine metag...  32.7    9.8  


>gb|EBR13881.1|  hypothetical protein GOS_7647240 [marine metagenome]
Length=296

 Score = 50.4 bits (119),  Expect = 4e-05, Method: Compositional matrix adjust.
 Identities = 41/148 (27%), Positives = 64/148 (43%), Gaps = 36/148 (24%)

Query  1    EYEHYFFFALLMLLIYPIGSKIYSSTSEIDPPSHYPRFARSTVPALYYVML-RSHHVILS  59
            EY+     A + LL+YP+G                       V ALY  +L R+   I  
Sbjct  129  EYKQLEVLAFIGLLLYPVG-----------------------VNALYAGLLFRARDAIQH  165

Query  60   DRVASAEEEAAGFPTTGHVHFLIEGYEPPYYWFEVLDCVRRLLLAAIIGVVSFTATAAPV  119
               A AE          H+ FL   Y P Y+ F+V+D VRR+LL+   G+V F+      
Sbjct  166  RDGAGAE----------HLSFLFRSYAPKYFAFDVVDSVRRILLSG--GLVFFSERGRAA  213

Query  120  AGFAISIGFTWVFTYLKPFTNNADNTLS  147
             G  I++ F  ++  +KP+    +N ++
Sbjct  214  GGTIIALFFYGLYENVKPYKREENNVIT  241


>gb|EBL26127.1|  hypothetical protein GOS_8599620 [marine metagenome]
Length=234

 Score = 50.4 bits (119),  Expect = 5e-05, Method: Compositional matrix adjust.
 Identities = 29/94 (30%), Positives = 51/94 (54%), Gaps = 1/94 (1%)

Query  75   TGHVHFLIEGYEPPYYWFEVLDCVRRLLLAAIIGVV-SFTATAAPVAGFAISIGFTWVFT  133
            T    FL   YE  +YW+E+++ VRR +L   + ++ +  A A  + G  +S+ +     
Sbjct  40   TRATRFLHGEYELAFYWWELIELVRRTILVGYVLLIPAEQAVARILFGLLLSMLYLIGLL  99

Query  134  YLKPFTNNADNTLSITLSYVTVFSFQAALLVKVN  167
              +P+ + AD TL+   +   VF FQ ALLV+++
Sbjct  100  ATRPYRHAADGTLATACASALVFVFQGALLVRIH  133


>gb|ECB82091.1|  hypothetical protein GOS_6351505 [marine metagenome]
Length=311

 Score = 48.9 bits (115),  Expect = 1e-04, Method: Compositional matrix adjust.
 Identities = 31/131 (23%), Positives = 62/131 (47%), Gaps = 9/131 (6%)

Query  42   TVPALYYVML-RSHHVILSDRVASAEEEAAGFPTTGHVHFLIEGYEPPYYWFEVLDCVRR  100
             VP LY+V+  +  H I  D          G   +  + FL E Y P Y+++E+++ +++
Sbjct  88   CVPLLYFVLFWKVRHAIWRDE--------GGTKLSKSIGFLTEEYSPTYFFWELVEVLKK  139

Query  101  LLLAAIIGVVSFTATAAPVAGFAISIGFTWVFTYLKPFTNNADNTLSITLSYVTVFSFQA  160
            L+L  ++ VV        V GF   + F       +P+    D+ ++++ S+  V  F  
Sbjct  140  LVLVGLMSVVLPGEINQLVLGFVTMLVFLVALLVARPYKRPEDDVIALSASFGLVMFFFF  199

Query  161  ALLVKVNATSD  171
            +L++K    ++
Sbjct  200  SLILKYQTLTE  210


>gb|EBY82619.1|  hypothetical protein GOS_4284871 [marine metagenome]
Length=297

 Score = 46.6 bits (109),  Expect = 7e-04, Method: Compositional matrix adjust.
 Identities = 32/130 (24%), Positives = 59/130 (45%), Gaps = 9/130 (6%)

Query  45   ALYYVMLRSHHVILSDRVASAEEEAAGFPTTGHVHFLIEGYEPPYYWFEVLDCVRRLLLA  104
            AL+  + R + V + + V +    AA F        L   Y+P Y+W+E  + +R+L L 
Sbjct  1    ALFLAVQRRNRVAIVEHVPTDLSRAAAF--------LWRDYKPAYWWWESAELLRKLFLT  52

Query  105  AIIGVV-SFTATAAPVAGFAISIGFTWVFTYLKPFTNNADNTLSITLSYVTVFSFQAALL  163
              + ++    A    + G  +++G   ++T  +P+    DN L+     V VF   A   
Sbjct  53   GFVLLIPQEQAMLRLIIGQLVAVGALALYTTCRPYARVLDNGLAAIAHVVLVFFLVACAG  112

Query  164  VKVNATSDDE  173
            +K+   SD +
Sbjct  113  IKLCGGSDGD  122



c) Blastx contre nr


      Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|XP_001624307.1|  predicted protein [Nematostella vectensis...  55.5    6e-06 
ref|XP_001025848.1|  hypothetical protein [Tetrahymena thermop...  39.7    0.36  
ref|XP_957401.1|  hypothetical protein NCU07176 [Neurospora cr...  38.5    0.79  
ref|ZP_01872131.1|  proton-translocating NADH-quinone oxidored...  38.1    1.0  
sp|Q06666|T2_MOUSE  Octapeptide-repeat protein T2 >emb|CAA4804...  37.7    1.4   
emb|CAP97660.1|  Pc22g03720 [Penicillium chrysogenum Wisconsin...  36.2    3.9  
gb|EAZ24685.1|  hypothetical protein OsJ_008168 [Oryza sativa ...  36.2    3.9  
ref|YP_114069.1|  hypothetical protein MCA1625 [Methylococcus ...  36.2    3.9   
ref|XP_380759.1|  hypothetical protein FG00583.1 [Gibberella z...  36.2    3.9   
gb|ACG36039.1|  unknown [Zea mays]                                 35.8    5.1  
ref|NP_494965.1|  Serpentine Receptor, class B (beta) family m...  35.8    5.1   
pir||T15653  hypothetical protein C27D6.2 - Caenorhabditis ele...  35.8    5.1  
ref|XP_001877851.1|  predicted protein [Laccaria bicolor S238N...  35.4    6.7   
ref|YP_002136362.1|  glycosyl hydrolase, BNR repeat [Anaeromyx...  35.4    6.7   
ref|XP_001896795.1|  Kinesin motor domain containing protein [...  35.4    6.7   
ref|XP_001021001.2|  hypothetical protein [Tetrahymena thermop...  35.4    6.7   
ref|XP_001481495.1|  cAMP receptor-like protein [Aspergillus f...  35.4    6.7   
ref|ZP_01312789.1|  excinuclease ABC, A subunit [Desulfuromona...  35.4    6.7  
gb|EEA98042.1|  hypothetical protein, conserved [Toxoplasma go...  35.0    8.8  
ref|XP_001943901.1|  PREDICTED: similar to C. briggsae CBR-TWK...  35.0    8.8   
dbj|BAB97471.1|  Hypothetical protein [Corynebacterium glutami...  35.0    8.8   



>gb|EDO32207.1|  predicted protein [Nematostella vectensis]
Length=1094

 GENE ID: 5503221 NEMVEDRAFT_v1g218200 | predicted protein
[Nematostella vectensis] (10 or fewer PubMed links)

 Score = 55.5 bits (132),  Expect = 6e-06
 Identities = 33/123 (26%), Positives = 63/123 (51%), Gaps = 8/123 (6%)
 Frame = +2

Query  233  VHFLIEGYEPPYYWFEVLDCVRRLLLAAIIGVVSFTATAAPVAGFAISIGFTWVFTYLKP  412
            + FL EGY+P YY++E+++  R+ ++ +   ++   +    V    IS  +  VF Y+KP
Sbjct  823  MRFLYEGYKPEYYYWELIEMYRQFVVVSSTVLMDAVSRTFIVLPALISGIYAVVFAYVKP  882

Query  413  FTNNADNTLSITLSYVTVFSFQAALLVKVNATSDDE-----DDQAVFGALLIFFIFSGPL  577
              +  D+ + IT   +T  + Q A+L+++    +DE     D Q     LL+  +    L
Sbjct  883  MKHTCDHVMQITALIMTTVNAQVAILIRI---PEDELEYVIDRQTHSDGLLVLVLIGNIL  939

Query  578  VMV  586
            V++
Sbjct  940  VLL  942


ORF finding

PROTOCOLE

a) SMS ORF Finder / "any codon" / cadres 1,2 et 3 / sens direct / 60 codons minimum / bacterial code

b) SMS ORF Finder / "any codon" / cadres 1,2 et 3 / sens indirect / 60 codons minimum / bacterial code

---------------------------------------------------------------------------------------------------

ANALYSE DES RÉSULTATS:

a) Un ORF potentiel dans le sens direct, cadre de lecture 2, longueur de 828 bases.

b) Dans le sens indirect, cinq ORF potentiels , un de 210 bases dans le cadre de lecture 1, 
un de 591 bases et un de 210 bases dans le cadre de lecture 2, un de 315 bases et un de 370 
bases dans le cadre de lecture 3.


L'ORF trouvé dans le sens direct, de la position 2 à la position 829, est le plus long. 
C'est donc celui-ci que nous allons étudier dans les analyses suivantes.
Cet ORF commençant à la position 2 par un glutamate, il serait incomplet en 5'.
Par contre il se termine par un codon STOP donc il doit être complet en 3'.

---------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:


a)Sens Direct

No ORFs were found in reading frame 1.

>ORF number 1 in reading frame 2 on the direct strand extends from base 2 to base 829.
GAGTACGAGCACTACTTCTTCTTCGCGCTCCTGATGCTTCTCATCTATCCGATCGGAAGT
AAGATTTACTCCTCAACCTCTGAAATCGATCCACCCTCACACTACCCTCGCTTCGCTCGC
TCAACAGTCCCAGCATTGTACTACGTCATGCTTCGTAGCCATCATGTCATTTTGAGTGAT
CGCGTCGCCAGTGCCGAAGAAGAAGCCGCTGGGTTCCCGACGACTGGACACGTGCATTTT
CTCATCGAAGGCTACGAGCCACCGTACTACTGGTTTGAGGTTTTGGACTGCGTGCGGCGT
CTGCTGTTGGCAGCGATAATCGGAGTGGTATCATTCACGGCCACTGCGGCGCCGGTGGCT
GGCTTCGCCATCAGTATCGGCTTCACGTGGGTGTTCACATACTTGAAGCCGTTCACGAAT
AACGCCGACAACACGCTGAGCATCACGCTTTCCTACGTGACGGTCTTTTCTTTCCAAGCG
GCGTTGCTGGTCAAAGTCAATGCCACGAGTGACGACGAAGACGATCAGGCCGTATTCGGA
GCTCTTCTCATTTTCTTCATCTTTTCGGGCCCGCTGGTGATGGTATTCCTGACATTGCGG
GATTTCCATCGCGCGGGAAAGTGCTTCGTTGAATCGACGGAGGAAAGTGGCGACGTTGAA
TTGACGGAGGAAAGTAGTGACGTTGACGCGCCGGCGCCCACGAGTGAGTCGAGTCCAACG
CGGTCTCTGTCCGCCGATCGCCCTCCACGTGATGATGCAAAGACACCTATGATGCAACTT
GGATCTACCCTCGACGGGGGGCGCGGCGAGCCGTACATCATGCTGTAG

>Translation of ORF number 1 in reading frame 2 on the direct strand.
EYEHYFFFALLMLLIYPIGSKIYSSTSEIDPPSHYPRFARSTVPALYYVMLRSHHVILSD
RVASAEEEAAGFPTTGHVHFLIEGYEPPYYWFEVLDCVRRLLLAAIIGVVSFTATAAPVA
GFAISIGFTWVFTYLKPFTNNADNTLSITLSYVTVFSFQAALLVKVNATSDDEDDQAVFG
ALLIFFIFSGPLVMVFLTLRDFHRAGKCFVESTEESGDVELTEESSDVDAPAPTSESSPT
RSLSADRPPRDDAKTPMMQLGSTLDGGRGEPYIML*

No ORFs were found in reading frame 3.

b)Sens Indirect

>ORF number 1 in reading frame 1 on the reverse strand extends from base 172 to base 381.
GTGTCTTTGCATCATCACGTGGAGGGCGATCGGCGGACAGAGACCGCGTTGGACTCGACT
CACTCGTGGGCGCCGGCGCGTCAACGTCACTACTTTCCTCCGTCAATTCAACGTCGCCAC
TTTCCTCCGTCGATTCAACGAAGCACTTTCCCGCGCGATGGAAATCCCGCAATGTCAGGA
ATACCATCACCAGCGGGCCCGAAAAGATGA

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
VSLHHHVEGDRRTETALDSTHSWAPARQRHYFPPSIQRRHFPPSIQRSTFPRDGNPAMSG
IPSPAGPKR*

>ORF number 1 in reading frame 2 on the reverse strand extends from base 17 to base 607.
CTTCTCTTCTCATTTTCTCTTGTTCTCAGACTTGCTTTCAATTCAATTCACTTCACTTGC
TCTCTACTGACTGACTTACTGATTGATCTCTGCCTACAGCATGATGTACGGCTCGCCGCG
CCCCCCGTCGAGGGTAGATCCAAGTTGCATCATAGGTGTCTTTGCATCATCACGTGGAGG
GCGATCGGCGGACAGAGACCGCGTTGGACTCGACTCACTCGTGGGCGCCGGCGCGTCAAC
GTCACTACTTTCCTCCGTCAATTCAACGTCGCCACTTTCCTCCGTCGATTCAACGAAGCA
CTTTCCCGCGCGATGGAAATCCCGCAATGTCAGGAATACCATCACCAGCGGGCCCGAAAA
GATGAAGAAAATGAGAAGAGCTCCGAATACGGCCTGATCGTCTTCGTCGTCACTCGTGGC
ATTGACTTTGACCAGCAACGCCGCTTGGAAAGAAAAGACCGTCACGTAGGAAAGCGTGAT
GCTCAGCGTGTTGTCGGCGTTATTCGTGAACGGCTTCAAGTATGTGAACACCCACGTGAA
GCCGATACTGATGGCGAAGCCAGCCACCGGCGCCGCAGTGGCCGTGAATGA

>Translation of ORF number 1 in reading frame 2 on the reverse strand.
LLFSFSLVLRLAFNSIHFTCSLLTDLLIDLCLQHDVRLAAPPVEGRSKLHHRCLCIITWR
AIGGQRPRWTRLTRGRRRVNVTTFLRQFNVATFLRRFNEALSRAMEIPQCQEYHHQRARK
DEENEKSSEYGLIVFVVTRGIDFDQQRRLERKDRHVGKRDAQRVVGVIRERLQVCEHPRE
ADTDGEASHRRRSGRE*

>ORF number 2 in reading frame 2 on the reverse strand extends from base 608 to base 817.
TACCACTCCGATTATCGCTGCCAACAGCAGACGCCGCACGCAGTCCAAAACCTCAAACCA
GTAGTACGGTGGCTCGTAGCCTTCGATGAGAAAATGCACGTGTCCAGTCGTCGGGAACCC
AGCGGCTTCTTCTTCGGCACTGGCGACGCGATCACTCAAAATGACATGATGGCTACGAAG
CATGACGTAGTACAATGCTGGGACTGTTGA

>Translation of ORF number 2 in reading frame 2 on the reverse strand.
YHSDYRCQQQTPHAVQNLKPVVRWLVAFDEKMHVSSRREPSGFFFGTGDAITQNDMMATK
HDVVQCWDC*

>ORF number 1 in reading frame 3 on the reverse strand extends from base 99 to base 413.
TTGATCTCTGCCTACAGCATGATGTACGGCTCGCCGCGCCCCCCGTCGAGGGTAGATCCA
AGTTGCATCATAGGTGTCTTTGCATCATCACGTGGAGGGCGATCGGCGGACAGAGACCGC
GTTGGACTCGACTCACTCGTGGGCGCCGGCGCGTCAACGTCACTACTTTCCTCCGTCAAT
TCAACGTCGCCACTTTCCTCCGTCGATTCAACGAAGCACTTTCCCGCGCGATGGAAATCC
CGCAATGTCAGGAATACCATCACCAGCGGGCCCGAAAAGATGAAGAAAATGAGAAGAGCT
CCGAATACGGCCTGA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
LISAYSMMYGSPRPPSRVDPSCIIGVFASSRGGRSADRDRVGLDSLVGAGASTSLLSSVN
STSPLSSVDSTKHFPARWKSRNVRNTITSGPEKMKKMRRAPNTA*

>ORF number 2 in reading frame 3 on the reverse strand extends from base 486 to base 671.
GAAAGCGTGATGCTCAGCGTGTTGTCGGCGTTATTCGTGAACGGCTTCAAGTATGTGAAC
ACCCACGTGAAGCCGATACTGATGGCGAAGCCAGCCACCGGCGCCGCAGTGGCCGTGAAT
GATACCACTCCGATTATCGCTGCCAACAGCAGACGCCGCACGCAGTCCAAAACCTCAAAC
CAGTAG

>Translation of ORF number 2 in reading frame 3 on the reverse strand.
ESVMLSVLSALFVNGFKYVNTHVKPILMAKPATGAAVAVNDTTPIIAANSRRRTQSKTSN
Q*