GOS 705020

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : JCVI_READ_1092351305068
Annotathon code: GOS_705020
Sample :
  • GPS :1°13'1s; 90°19'11w
  • Galapagos Islands: Coastal Floreana - Ecuador
  • Coastal (-2m, 0°C, 0.1-0.8 microns)
Authors
Team : BioCell2008
Username : vittel08
Annotated on : 2009-03-19 23:23:44
  • benzeggouta abir
  • yacoub chamila

Synopsis

Genomic Sequence

>JCVI_READ_1092351305068 GOS_705020 genomic DNA
TAAATCCATTCCAAAGTGAATAAGTATCAGGATTAAAAGTAGTTGATACAAATGTTTTTGTAGCTCCACTTCTATCACCCGAAAATGATAATGCATAATT
TTTAGCGGGTGCATCTCCACCTCTTCCTTTTCTGTATCTAAGTCTATCTATTAAAAGATTATTTTCTTGAAATACTTTTTTAGCTAAACTTTCATTTATT
TGAAATAAATAATTACTCTCTGGTATTTCTAACCAACTCATCCAATCTAATTTTACATTACCTTGTTTCTGTTTTGATACCTCTACTAATGTAGGAATTA
AGTTTGTGCTATCCACAATATCCATTTTTTTAATTTTATCTTCATATAATTTTTTTGTATTAAATGCAGTCTGATTTGTCAACCATTGTGAATTTAATTC
TTGTTTCAAGTTTTCAATAATTTTGTCTTTTTCTGCCAACTCATCTTGGTATTGAGATTTAAAAGATTTTATATCTCCCACAGGTTTAGAAATAAACATT
TCATTTAATTTTTGTTTATCTTTTTCTTTTTTATCTGTGGATTTACCACCACCAAATCTCTCTTTTAATAAATCTAAACTCACTATCTTGGCCTCTCTTC
TATTTGTAATGATGATAATCTTGAACGATGTGCTGTCGCTACAATGTTGTGTTTAAAATTTGGATGTCCTGCAAATAATTGTGGTTCTGTTGTTCCATTG
ATTTCCCAATAATAATCATTCCAATCCACAATATCACCAATCTCAGGATAAAAATTCAATGAACCACTTGCTAAATTTTCTCTTTGGAAAAACATTTCAA
TATTAGAATTAACATCAGCACCAAACTCATCTTGTATTACTTCAGGTTCATTATAATTTATCAAACAATTAACTCTGAATCCTATATCATAATATTTAGC
AGTTGATTCACCATATACATTGTCCTCTGTTCTTTCGACATTGACTTTGTAAATATCAACTGATTGTCCGACAATTTCGTCAATCAACTCTTCATTCATT
TGATTAATTAAAT

Translation

[362 - 1012/1013]   indirect strand
>GOS_705020 Translation [362-1012   indirect strand]
TQHCSDSTSFKIIIITNRREAKIVSLDLLKERFGGGKSTDKKEKDKQKLNEMFISKPVGDIKSFKSQYQDELAEKDKIIENLKQELNSQWLTNQTAFNTK
KLYEDKIKKMDIVDSTNLIPTLVEVSKQKQGNVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLLIDRLRYRKGRGGDAPAKNYALSFSGDRSGATKT
FVSTTFNPDTYSLWNGF

[ Warning ] 5' incomplete: does not start with a Methionine
[ Warning ] 3' incomplete: following codon is not a STOP

Phylogeny

PROTOCOLE:
a) Phylogeny.fr / méthode ProtDist/ pas de groupe extérieur
b) Phylogeny.fr/ méthode ProtPars/ pas de groupe extérieur

--------------------------------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:
Les 2 arbres phylogénétiques obtenus sont congruents et semblent confirmer que notre séquence, nommée Nseq, s'intègre 
bien au sein une famille de séquences métagénomiques marines. Sa séquence semble se rapprocher très fortement des 
séquences métagénomiques "mmeta1" que nous avions considéré comme étant en réalité la nôtre, au vu de l'alignement 
multiple, et "mmeta2" qui semble effectivement avoir une très forte similarité avec la séquence protéique issue de la 
traduction de notre ORF.
Cependant, nous n'avons pas pu établir d'arbre très significatif, étant donné le nombre très faible de séquences 
homologues que nous avons obtenu avec le blast et bien évidemment vu le fait que notre séquence appartienne à une famille 
de séquences métagénomiques non encore connue.
Nous ne pouvons donc en déduire, à l'heure actuelle, aucune donnée en relation avec la fonction métabolique de notre ORF.

--------------------------------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:

a) Méthode des distances: ProtDist/FastDist-BIONJ


               +------------------------------------------mmeta4  [metagenomes]   
           +----4  
     +-----3    +----------mmeta5 [metagenomes]    
     |     |  
  +--1     +-----mmeta3           [metagenomes]
  |  |  
  |  +Nseq     
  |  
  2-mmeta2   [metagenomes]  
  |  
  +mmeta1    [metagenomes] 

------------------------------------------------------------------------------------------------------

b) Méthode par parcimonie: ProtPars/DnaPars



  +----------------------------------mmeta4_453_bp        [metagenomes]
  |
  |                           +------mmeta1_453_bp        [metagenomes]
  |                    +--0.3-|
  |             +--1.0-|      +------mmeta2_453_bp        [metagenomes]
  |             |      |
  |      +--1.0-|      +-------------Nseq_453_bp
  |      |      |
  +------|      +--------------------mmeta3_453_bp        [metagenomes]
         |
         +---------------------------mmeta5_453_bp        [metagenomes]

Annotator commentaries

Toutes les analyses effectuées nous amènent à penser que la séquence GOS_705020 longue de 1013 paires de bases et provenant des îles Galapagos est codante. Nous pouvons identifier un ORF potentiellement codant de 651 nucléotides allant de la base 362 à la base 1012 sur le brin orienté de 3' vers 5'. Cet ORF coderait alors pour une protéine de 217 acides aminés dont nous ne pouvons en déterminer le poids moléculaire car l'ORF est probablement partiel, ce qui est confirmé en particulier par les résultats de l'alignement multiple. Il se trouve alors incomplet en 5' et en 3'. Du point de vue fonctionnel, il est très probable que notre ORF possède des domaines fonctionnels conservés mais non encore bien caractérisés. La recherche de domaines conservés a effectivement été vaine. Cependant, nous pouvons émettre l'hypothèse selon laquelle notre séquence aurait une activité kinase régulatrice. En effet, nous pouvons constater dans les résultats que nous avons obtenu aussi bien avec les blastp contre Swissprot et NR que les blastx contre ces mêmes banques de données, que les séquences trouvées, bien que n'étant pas considérées comme homologues de la nôtre, ont toutes soit une activité kinase soit une activité régulatrice et pour la plupart ces activités sont ATP-dépendantes. D'autre part, des études récentes ont permis de mettre en évidence sur des séquences GOS un large éventail de domaines kinase ressemblant aux domaines kinase protéiques retrouvés chez les eucaryotes (cf source NCBI en cliquant sur les références des séquences du blastp contre env_nr: article Structural and Functional Diversity of the Microbial Kinome, Plos Biology). Ces domaines dont la fonction biochimique est ATP-dépendante,ont semble-t-il été classés en plusieurs familles. Ils sont largement impliqués dans des fonctions régulatrices, contrairement aux activités métaboliques des kinases classiques. Ceci vient donc renforcer en quelque sorte notre idée. Ceci dit, nous ne pouvons pas en être totalement sûres. Ceci reste hypothétique, d'autant plus que nous ne pouvons interpréter les résultats de nos arbres phylogénétiques, dans la mesure où nous ne disposons que de séquences métagénomiques.

En conclusion, nous pouvons penser que notre ORF code bien pour une protéine appartenant à une famille de séquences métagénomiques marines. De façon hypothétique, cette protéine serait une kinase ayant un rôle de régulation dans un processus biologique que nous ne pouvons pas déterminer avec les données actuelles.

Multiple Alignement

PROTOCOLE:
Alignement multiple effectué par CLUSTAL W sur le site de l'EBI/ Paramètres par défaut
------------------------------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:
L'alignement multiple à l'aide de CLUSTAL W nous conforte dans notre idée selon laquelle la première séquence 
répertoriée par le blastp contre la banque de séquences environnementales et que nous avons nommé "mmeta1" 
correspondrait bien à la nôtre nommée Nseq. Nous pouvons en effet constater qu'à partir du 13ème acide aminé de notre 
séquence jusqu'à la fin, tous les acides aminés la composant sont identiques à ceux constituant la séquence "mmeta1". 
Il semblerait ainsi que cette dernière n'ait en réalité pas été séquencée en totalité au niveau de l'extrémité 5': 
en effet, elle commence par une méthionine alors que la nôtre semble être plus complète en 5' mais toutefois incomplète 
du fait de l'absence de méthionine. Nous pouvons alors confirmer le fait que notre ORF soit partiel.
D'autre part, nous pouvons relever qu'un morceau de cette séquence semble contenir des régions conservées car il est 
retrouvé également au niveau de la séquence "mmeta2" avec une très forte proportion d'identités absolues et quelques 
substitutions conservatives . Cette partie débute à partir du 13ème acide aminé et se termine au niveau du 180ème 
acide aminé de notre séquence. 
Par conséquent, il existerait tout de même dans notre ORF une séquence conservée non encore caractérisée, comme nous 
avons pu le pressentir auparavant, bien que n'ayant trouvé aucun domaine fonctionnel conservé connu au niveau de notre 
séquence avec le logiciel InterProScan.
------------------------------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:

CLUSTAL W (1.82) multiple sequence alignment


mmeta1          -----------MIIITNRREAKIVSLDLLKERFGGGKSTDKKEKDKQKLNEMFISKPVGD
Nseq            TQHCSDSTSFKIIIITNRREAKIVSLDLLKERFGGGKSTDKKEKDKQKLNEMFISKPVGD
mmeta2          -----------MIIITNRRKAKIVSLDLLKERFGGTKSTNKKEKDKQKLNEMFISKPVGD
mmeta3          ----------------------------------------------------------NE
mmeta5          -----------------------MSYIKRRQKQWEKKWKHEADLEAKKEAEQIALIEAEA
mmeta4          ----------------------------MKLDFEQAMEMFKRDNLLAKRRKRTKGHPKNL
                                                                            

mmeta1          IKSFKSQYQDELAEKDKIIENLKQELNSQWLTNQTAFNTKKLYEDKIK-KMDIVDSTNLI
Nseq            IKSFKSQYQDELAEKDKIIENLKQELNSQWLTNQTAFNTKKLYEDKIK-KMDIVDSTNLI
mmeta2          IKSFKAQYEDELAEKDRVIENLKQELNSQWLTNQTAFNTKKLYEDKIK-KMDIVDSTNLI
mmeta3          SIVLKNQISIIEKEKSTVLEDLNKSK---WLENKVTLATKKVYEDKVKSVINENVDSKII
mmeta5          RKKEEIAARKKLLQEQQEAERLRQKHAQAKEKLAEDKWNEQLDTLLVQLDRQKQENKKLE
mmeta4          THKLVFSGDRAGAADSYATTTFNPDTYSLWNGFTISFWVRPDEAMNQQATILGSKANSPE
                              ..     :. .              .       :        ..  

mmeta1          PTLVEVSKQKQGNVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLLIDRLRYRKGRGG
Nseq            PTLVEVSKQKQGNVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLLIDRLRYRKGRGG
mmeta2          PTLIEVSKQKQGDVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLFIDRLKYRKGRGG
mmeta3          PILTTVARRKQGNQQLNWGNWLKVPENRYLFQINKDIAKKIFEDTNALIPRKRTRGSGKP
mmeta5          EIRIIIQNRKPSLQELGWDSWLSDPLNQRLADLDFEHAMAEFKNDNLIAKRRHSPRARGR
mmeta4          ARFHLGFPGTAGKMEVGIGTNKVVGINNPMVVGNWYNIVLSYAGTQHGAGDRKLRLWINT
                         . .  ::.  .      .. :   :       :   :      :       

mmeta1          ---DAPAKNYALSFSGDRSGATKT--FVSTTFNPDTYSLWNGF-----------------
Nseq            ---DAPAKNYALSFSGDRSGATKT--FVSTTFNPDTYSLWNGF-----------------
mmeta2          GAPYTPDKNYILSFTGDTNTDTRRGDLVATDFQPHDYDGAGSSIGADGFT----------
mmeta3          ---TATEIYYGLQFDGTDDEVTTNYSGSADPLNKTYSFWFKSTETARNYS----------
mmeta5          ------TPNDVLSFSGNTGDASRS--YATTDFNPDDYDLNLGFTVSYWVRPDEVGNSMFA
mmeta4          --DPRMSNNNNTAWNNQDEDMTIYFGGRNTDQTPGHEYTQGFACALANVAIYN-------
                             : .     :                                      

mmeta1          ------------------------------------------------------------
Nseq            ------------------------------------------------------------
mmeta2          -----------ISFWLRPDEIVSDGFAIGWKSGAHDRFEFGMKDADQ-------------
mmeta3          -----------VFGYGSNKTGFTPNFSSGRVLMWHGANWYTYWDDTSA-------QDDGD
mmeta5          YGRRHNNNQRFVFGILRKRQSYFGIGKNKTTTAWVNMDTPVEESLLVQEGEYWNLKTDGT
mmeta4          ------------VCKDSDGTFANEMYKNGISYNYTGADDLVGYWRFSEGGGTTIADTSGN
                                                                            

mmeta1          ------------------------------------------------------------
Nseq            ------------------------------------------------------------
mmeta2          ------------------------------------------------------------
mmeta3          WHHWMLYDDVAAITGSKLYVDGTLQNVERHRTTGNLLTH--SQPLTIGAYKNNSTNADHH
mmeta5          WYHIAVTYDDRSDTSSGADRKIYVNGVLRHTNTFNWDATGGSTGGMYFGARNNEDNWNNG
mmeta4          GNHGGLWGHRRKHYS-----------------------------------ISNLDNKLN-
                                                                            

mmeta1          ------------------------------------------------------------
Nseq            ------------------------------------------------------------
mmeta2          ------------------------------------------------------------
mmeta3          FEGSITEFSVF--SGDKTSNASTYYNNG-------IPYDVTNEDDLQGYWKMNEGSGTTV
mmeta5          WACALSEVAIFNTAKDADWVATVYDTNGPKRARTRNKFDLRNQSGLVGYWKFNEGSGTTV
mmeta4          KLCSDRVHHLFTYMITLSENAAIK------------------------------------
                                                                            

mmeta1          ---------------------------------
Nseq            ---------------------------------
mmeta2          ---------------------------------
mmeta3          TDSSGEGNDGTIDGASWITMLEI----------
mmeta5          TDHSGNGNHATFGAISGDTTAHPTWDSSPFSNS
mmeta4          ---------------------------------
                                                 

BLAST

PROTOCOLE:
a) NCBI/ Blastp contre Swissprot/ Paramètres par défaut au NCBI avec "Number of descriptions=100"
b) NCBI/ Blastp contre NR/ Paramètres par défaut au NCBI avec "Number of descriptions=500"
c) NCBI/ Blastx contre Swissprot/ Paramètres par défaut au NCBI avec "Number of descriptions=100"
d) NCBI/ Blastx contre NR/ Paramètres par défaut au NCBI avec "Number of descriptions=500"
e) NCBI/ Blastp contre env_nr/ Paramètres par défaut au NCBI avec "Number of descriptions=500"
-----------------------------------------------------------------------------------------------------------------------
ANALYSE DES RESULTATS:
Dans un premier temps, nous avons réalisé un blastp contre Swissprot de façon à rechercher d'éventuels homologues de 
notre séquence, l'avantage de Swissprot étant d'être une banque de protéines où dans laquelle les fiches d'annotation 
sont particulièrement précises et complètes.Nous pourrions donc espérer y trouver des homologues fonctionnellement 
bien caractérisés et à partir desquels nous pourrions inférer la fonction de notre protéine.Ceci dit, nous obtenons
très peu de résultats(9 au total) avec des E-values pour chacune des séquences alignées connues qui ne sont pas très 
bonnes: la gamme s'étend de 1.7 à 9.9. La meilleure E-value obtenue n'est que de 1.7 pour une séquence protéique codant 
pour une enzyme appartenant à la famille des phosphoglycérate-kinases ATP-dépendantes.
Nous avons alors par la suite procédé à un blastp contre NR de façon à voir si l'on ne trouverait pas plus 
d'alignements significatifs pour avoir ainsi plus de précision, sachant que NR est la banque de protéine la plus 
exhaustive disponible. Mais là encore, nous obtenons des E-values du même ordre, si ce n'est encore moins bonnes,que 
celles trouvées dans Swissprot: la gamme s'étend de 2.3 à 9.5. La meilleure E-value est de 2,3 pour une séquence 
protéique hypothétique codant pour une enzyme qui jouerait le rôle de régulateur avec un domaine de liaison à l'ADN.
Il en est de même lorsqu'on effectue un blastx contre Swissprot(meilleure E-value égale à 1.4 pour une enzyme 
jouant un rôle de régulateur),et un autre blastx contre NR, bien que ce dernier nous donne de meilleurs 
résultats avec la meilleure E-value étant de 0,31 pour une séquence protéique codant pour une protéine hypothétique
similaire aux protéines nucléires probablement impliquées dans la régulation de la mitose.
Notre dernière solution a été de recourir au blastp contre la banque de séquences environnementales.Nous obtenons 
alors 5 séquences vraisemblablement homologues avec des E-values s'étendant de 1e-115 à 3e-07. L'une de ces séquences
semble être notre séquence avec une E-value de 1e-115. Ceci restera à confirmer dans les analyses suivantes. 
En tous les cas, il semblerait que notre séquence soit bien codante pour une protéine qui appartiendrait à une famille 
de protéines existantes mais non encore caractérisées.
------------------------------------------------------------------------------------------------------------------------
RESULTATS BRUTS:

a) Blastp de l'ORF de 217 acides aminés contre Swissprot

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

sp|P14828.2|PGK_KLULA  RecName: Full=Phosphoglycerate kinase       32.3    1.7  
sp|A6R3L3.1|DED1_AJECN  RecName: Full=ATP-dependent RNA helica...  32.0    2.6  
sp|Q8RAZ3.1|CHEB_THETN  RecName: Full=Chemotaxis response regu...  31.6    3.2  
sp|Q5UQ15|YL202_MIMIV  Uncharacterized protein L202                31.6    3.3   Gene info
sp|Q99PT0.1|DDX52_RAT  RecName: Full=Probable ATP-dependent RN...  30.8    5.2   Gene info
sp|Q9Z1Z0.2|USO1_MOUSE  RecName: Full=General vesicular transp...  30.0    8.0   Gene info
sp|A3KGB4.1|TBC8B_MOUSE  RecName: Full=TBC1 domain family memb...  30.0    8.2   Gene info
sp|Q9DBS8.1|CE037_MOUSE  RecName: Full=Uncharacterized protein...  30.0    8.5   Gene info
sp|Q8K301.1|DDX52_MOUSE  RecName: Full=Probable ATP-dependent ...  30.0    9.9   Gene info
------------------------------------------------------------------------------------------------------
b) Blastp de l'ORF de 217 acides aminés contre NR

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|ZP_01168705.1|  hypothetical protein B14911_03739 [Bacillu...  35.8    2.3  
ref|ZP_03103523.1|  DNA gyrase, A subunit [Bacillus cereus W] ...  35.4    3.0  
ref|ZP_02580798.1|  DNA gyrase subunit A [Bacillus cereus B426...  35.0    4.4  
ref|NP_829915.1|  DNA gyrase subunit A [Bacillus cereus ATCC 1...  35.0    4.4   Gene info
ref|YP_389329.1|  valyl-tRNA synthetase [Desulfovibrio desulfu...  35.0    4.5   Gene info
ref|ZP_02587032.1|  DNA gyrase subunit A [Bacillus cereus G9842]   34.7    4.9  
ref|YP_081625.1|  DNA gyrase subunit A [Bacillus cereus E33L] ...  34.7    5.4   Gene info
gb|AAR29881.1|  putative histidine kinase HHK2p [Cochliobolus ...  34.7    5.9  
gb|EAZ20142.1|  hypothetical protein OsJ_034351 [Oryza sativa ...  34.3    6.1  
ref|YP_867084.1|  acriflavin resistance protein [Magnetococcus...  34.3    7.4   Gene info
ref|XP_422266.2|  PREDICTED: hypothetical protein [Gallus gallus]  33.9    8.4   UniGene infoGene info
ref|YP_870902.1|  periplasmic binding protein [Shewanella sp. ...  33.9    9.2   Gene info
ref|XP_001267825.1|  HEAT repeat protein [Aspergillus clavatus...  33.9    9.5   Gene info
ref|XP_364042.2|  hypothetical protein MGG_08887 [Magnaporthe ...  33.9    9.5   UniGene infoGene info
---------------------------------------------------------------------------------------------------------
c) Blastx de l'ORF de 217 acides aminés contre Swissprot

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

sp|Q8RAZ3.1|CHEB_THETN  RecName: Full=Chemotaxis response regu...  33.9    1.4  
sp|A3KGB4.1|TBC8B_MOUSE  RecName: Full=TBC1 domain family memb...  33.5    1.9   Gene info
sp|O60760.3|PTGD2_HUMAN  RecName: Full=Glutathione-requiring p...  33.5    1.9   Gene info
sp|Q96YR5|RAD50_SULTO  DNA double-strand break repair rad50 AT...  33.5    1.9  
sp|Q5U3A8|CC128_BRARE  Coiled-coil domain-containing protein 128   33.1    2.4   Gene info
sp|Q5UQ15|YL202_MIMIV  Uncharacterized protein L202                33.1    2.4   Gene info
sp|Q06VD6.1|Y147_TNAVC  RecName: Full=Leucine-rich repeat stru...  32.0    5.4  
sp|Q6F0K3.1|SYA_MESFL  RecName: Full=Alanyl-tRNA synthetase; A...  31.6    7.1  
sp|P41541.1|USO1_BOVIN  General vesicular transport factor p11...  31.6    7.1   Gene info
sp|P08799.3|MYS2_DICDI  RecName: Full=Myosin-2 heavy chain; Al...  31.6    7.1  
sp|P05661.4|MYSA_DROME  RecName: Full=Myosin heavy chain, muscle   31.2    9.2  
sp|P13093|VP10_WTV  Non-structural protein Pns10                   31.2    9.2  
----------------------------------------------------------------------------------------------------------
d) Blastx de l'ORF de 217 acides aminés contre NR

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|XP_701145.3|  PREDICTED: similar to nuclear/mitotic appara...  40.0    0.31  UniGene infoGene info
ref|XP_001008116.1|  hypothetical protein [Tetrahymena thermop...  40.0    0.31  UniGene infoGene info
ref|NP_001087874.1|  MGC82000 protein [Xenopus laevis] >gb|AAH...  39.7    0.40  UniGene infoGene info
ref|ZP_01168705.1|  hypothetical protein B14911_03739 [Bacillu...  39.7    0.40 
ref|ZP_03334933.1|  hypothetical protein C1A_898 [Wolbachia en...  39.3    0.53 
ref|YP_001974980.1|  hypothetical protein WPa_0163 [Wolbachia ...  39.3    0.53  Gene info
ref|XP_001239603.1|  predicted protein [Coccidioides immitis R...  38.9    0.69  Gene info
ref|XP_001437152.1|  hypothetical protein [Paramecium tetraure...  38.5    0.90  Gene info
gb|AAR29881.1|  putative histidine kinase HHK2p [Cochliobolus ...  38.5    0.90 
dbj|BAD07400.1|  histidine kinase [Cochliobolus heterostrophus]    38.5    0.90 
ref|XP_001432767.1|  hypothetical protein [Paramecium tetraure...  38.1    1.2   Gene info
ref|XP_001456133.1|  hypothetical protein [Paramecium tetraure...  37.7    1.5   UniGene infoGene info
ref|NP_810679.1|  putative ribonucleoprotein-related protein [...  37.7    1.5   Gene info
ref|XP_001470914.1|  serine/threonine protein kinase [Tetrahym...  37.4    2.0   UniGene infoGene info
ref|XP_001032532.2|  Zinc finger, C2H2 type family protein [Te...  37.4    2.0   UniGene infoGene info
ref|XP_001442644.1|  hypothetical protein [Paramecium tetraure...  37.4    2.0   UniGene infoGene info
ref|XP_001425817.1|  hypothetical protein [Paramecium tetraure...  37.4    2.0   Gene info
ref|XP_001315962.1|  hypothetical protein [Trichomonas vaginal...  37.4    2.0   Gene info
ref|NP_719249.1|  ABC transporter, periplasmic substrate-bindi...  37.4    2.0   Gene info
ref|YP_732985.1|  periplasmic binding protein [Shewanella sp. ...  37.4    2.0   Gene info
ref|YP_739215.1|  periplasmic binding protein [Shewanella sp. ...  37.4    2.0   Gene info
gb|ABO12445.2|  tail tape meausure protein [Acinetobacter baum...  37.0    2.6  
ref|XP_001785079.1|  predicted protein [Physcomitrella patens ...  37.0    2.6   Gene info
ref|YP_001085047.1|  tail tape meausure protein [Acinetobacter...  37.0    2.6   Gene info
ref|XP_001289232.1|  hypothetical protein [Trichomonas vaginal...  37.0    2.6   Gene info
ref|YP_870902.1|  periplasmic binding protein [Shewanella sp. ...  37.0    2.6   Gene info
ref|XP_001450092.1|  hypothetical protein [Paramecium tetraure...  36.6    3.4   Gene info
ref|XP_001026376.1|  hypothetical protein [Tetrahymena thermop...  36.6    3.4   Gene info
ref|XP_001759568.1|  predicted protein [Physcomitrella patens ...  36.2    4.5   Gene info
ref|XP_001446952.1|  hypothetical protein [Paramecium tetraure...  36.2    4.5   Gene info
ref|XP_001348437.1|  hypothetical protein [Plasmodium falcipar...  36.2    4.5   Gene info
ref|XP_001009059.1|  hypothetical protein [Tetrahymena thermop...  36.2    4.5   Gene info
ref|XP_001010467.1|  hypothetical protein [Tetrahymena thermop...  36.2    4.5   UniGene infoGene info
ref|XP_001032831.1|  hypothetical protein [Tetrahymena thermop...  36.2    4.5   Gene info
ref|XP_742469.1|  hypothetical protein [Plasmodium chabaudi ch...  36.2    4.5   Gene info
ref|YP_001687777.1|  plasmid replication initiation protein [S...  35.8    5.8   Gene info
ref|ZP_02163332.1|  hypothetical protein KAOT1_06757 [Kordia a...  35.8    5.8  
gb|EAZ20142.1|  hypothetical protein OsJ_034351 [Oryza sativa ...  35.8    5.8  
ref|XP_001580106.1|  viral A-type inclusion protein [Trichomon...  35.8    5.8   Gene info
ref|XP_001017311.1|  hypothetical protein [Tetrahymena thermop...  35.8    5.8   UniGene infoGene info
ref|NP_395563.1|  replication protein Rep [Staphylococcus aure...  35.8    5.8   Gene info
ref|YP_815386.1|  hypothetical protein LGAS_1655 [Lactobacillu...  35.8    5.8   Gene info
ref|XP_001923589.1|  PREDICTED: similar to LIM domain-containi...  35.4    7.6   Gene info
ref|ZP_01841335.1|  periplasmic binding protein [Shewanella ba...  35.4    7.6  
ref|YP_001365199.1|  periplasmic binding protein [Shewanella b...  35.4    7.6   Gene info
ref|XP_001460216.1|  hypothetical protein [Paramecium tetraure...  35.4    7.6   Gene info
ref|XP_001452762.1|  hypothetical protein [Paramecium tetraure...  35.4    7.6   UniGene infoGene info
ref|XP_001430619.1|  hypothetical protein [Paramecium tetraure...  35.4    7.6   UniGene infoGene info
ref|XP_001425955.1|  hypothetical protein [Paramecium tetraure...  35.4    7.6   Gene info
ref|XP_001579795.1|  hypothetical protein [Trichomonas vaginal...  35.4    7.6   Gene info
ref|XP_001302093.1|  hypothetical protein [Trichomonas vaginal...  35.4    7.6   Gene info
ref|XP_422266.2|  PREDICTED: hypothetical protein [Gallus gallus]  35.4    7.6   UniGene infoGene info
ref|YP_001553453.1|  periplasmic binding protein [Shewanella b...  35.4    7.6   Gene info
ref|XP_001031756.1|  hypothetical protein [Tetrahymena thermop...  35.4    7.6   Gene info
ref|XP_001030870.1|  hypothetical protein [Tetrahymena thermop...  35.4    7.6   Gene info
ref|NP_296618.1|  hypothetical protein TC0239 [Chlamydia murid...  35.4    7.6   Gene info
ref|YP_001051704.1|  periplasmic binding protein [Shewanella b...  35.4    7.6   Gene info
ref|XP_001932239.1|  autoinducer 2 sensor kinase/phosphatase l...  35.0    9.9   Gene info
ref|ZP_02950994.1|  putative lipoprotein [Clostridium butyricu...  35.0    9.9  
ref|XP_001793273.1|  hypothetical protein SNOG_02675 [Phaeosph...  35.0    9.9   Gene info
ref|XP_001646853.1|  hypothetical protein Kpol_2002p66 [Vander...  35.0    9.9   Gene info
ref|XP_364042.2|  hypothetical protein MGG_08887 [Magnaporthe ...  35.0    9.9   UniGene infoGene info
ref|XP_955162.1|  hypothetical protein [Theileria annulata] >e...  35.0    9.9   Gene info
ref|XP_680176.1|  RNA helicase-1 [Plasmodium berghei strain AN...  35.0    9.9   Gene info
ref|XP_647016.1|  hypothetical protein [Dictyostelium discoide...  35.0    9.9   UniGene infoGene info
---------------------------------------------------------------------------------------------------------
e) Blastp de l'ORF de 217 acides aminés contre env_nr

Descriptions


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|EBK57949.1|  hypothetical protein GOS_8709234 [marine metag...   416    1e-115
gb|EBN10756.1|  hypothetical protein GOS_8300758 [marine metag...   339    2e-92 
gb|EBG71317.1|  hypothetical protein GOS_9386826 [marine metag...   103    2e-21 
gb|EBH78165.1|  hypothetical protein GOS_9203572 [marine metag...  62.0    1e-08 
gb|EBN55466.1|  hypothetical protein GOS_8227127 [marine metag...  57.4    3e-07 
gb|EBI25123.1|  hypothetical protein GOS_9124137 [marine metag...  37.0    0.35  
gb|ECG18862.1|  hypothetical protein GOS_3281690 [marine metag...  36.6    0.48  
gb|EBK78382.1|  hypothetical protein GOS_8675675 [marine metag...  35.8    0.79  
gb|EBY29446.1|  hypothetical protein GOS_6421057 [marine metag...  34.7    1.8   
gb|EBI01092.1|  hypothetical protein GOS_9164607 [marine metag...  34.3    2.0   
gb|ECV12721.1|  hypothetical protein GOS_2958446 [marine metag...  34.3    2.5   
gb|ECL04953.1|  hypothetical protein GOS_4918553 [marine metag...  34.3    2.5   
gb|EDA60433.1|  hypothetical protein GOS_1971263 [marine metag...  33.9    2.8   
gb|EBH91959.1|  hypothetical protein GOS_9179690 [marine metag...  33.5    4.3   
gb|EBM58920.1|  hypothetical protein GOS_8385502 [marine metag...  33.1    4.9   
gb|EDF36509.1|  hypothetical protein GOS_968153 [marine metage...  33.1    5.3   
gb|EDJ67822.1|  hypothetical protein GOS_1652735 [marine metag...  32.7    6.0   
gb|ECV08558.1|  hypothetical protein GOS_2963393 [marine metag...  32.7    6.3   
gb|ECU59412.1|  hypothetical protein GOS_3744965 [marine metag...  32.7    6.7   
gb|EDC88992.1|  hypothetical protein GOS_1396511 [marine metag...  32.7    7.1   
gb|ECD78043.1|  hypothetical protein GOS_5582764 [marine metag...  32.7    7.2   
gb|ECJ68992.1|  hypothetical protein GOS_3351610 [marine metag...  32.3    8.0   
gb|ECZ15365.1|  hypothetical protein GOS_2232711 [marine metag...  32.3    9.2   
gb|ECC85144.1|  hypothetical protein GOS_5773885 [marine metag...  32.0    9.9   


Alignement

>gb|EBK57949.1|  hypothetical protein GOS_8709234 [marine metagenome]
Length=206

 Score =  416 bits (1070),  Expect = 1e-115, Method: Compositional matrix adjust.
 Identities = 205/206 (99%), Positives = 206/206 (100%), Gaps = 0/206 (0%)

Query  12   IIIITNRREAKIVSLDLLKERFGGGKSTDKKEKDKQKLNEMFISKPVGDIKSFKSQYQDE  71
            +IIITNRREAKIVSLDLLKERFGGGKSTDKKEKDKQKLNEMFISKPVGDIKSFKSQYQDE
Sbjct  1    MIIITNRREAKIVSLDLLKERFGGGKSTDKKEKDKQKLNEMFISKPVGDIKSFKSQYQDE  60

Query  72   LAEKDKIIENLKQELNSQWLTNQTAFNTKKLYEDKIKKMDIVDSTNLIPTLVEVSKQKQG  131
            LAEKDKIIENLKQELNSQWLTNQTAFNTKKLYEDKIKKMDIVDSTNLIPTLVEVSKQKQG
Sbjct  61   LAEKDKIIENLKQELNSQWLTNQTAFNTKKLYEDKIKKMDIVDSTNLIPTLVEVSKQKQG  120

Query  132  NVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLLIDRLRYRKGRGGDAPAKNYALSFS  191
            NVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLLIDRLRYRKGRGGDAPAKNYALSFS
Sbjct  121  NVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLLIDRLRYRKGRGGDAPAKNYALSFS  180

Query  192  GDRSGATKTFVSTTFNPDTYSLWNGF  217
            GDRSGATKTFVSTTFNPDTYSLWNGF













Sbjct  181  GDRSGATKTFVSTTFNPDTYSLWNGF  206


>gb|EBN10756.1|  hypothetical protein GOS_8300758 [marine metagenome]
Length=254

 Score =  339 bits (870),  Expect = 2e-92, Method: Compositional matrix adjust.
 Identities = 172/205 (83%), Positives = 186/205 (90%), Gaps = 5/205 (2%)

Query  12   IIIITNRREAKIVSLDLLKERFGGGKSTDKKEKDKQKLNEMFISKPVGDIKSFKSQYQDE  71
            +IIITNRR+AKIVSLDLLKERFGG KST+KKEKDKQKLNEMFISKPVGDIKSFK+QY+DE
Sbjct  1    MIIITNRRKAKIVSLDLLKERFGGTKSTNKKEKDKQKLNEMFISKPVGDIKSFKAQYEDE  60

Query  72   LAEKDKIIENLKQELNSQWLTNQTAFNTKKLYEDKIKKMDIVDSTNLIPTLVEVSKQKQG  131
            LAEKD++IENLKQELNSQWLTNQTAFNTKKLYEDKIKKMDIVDSTNLIPTL+EVSKQKQG
Sbjct  61   LAEKDRVIENLKQELNSQWLTNQTAFNTKKLYEDKIKKMDIVDSTNLIPTLIEVSKQKQG  120

Query  132  NVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLLIDRLRYRKGRGGDAPA---KNYAL  188
            +VKLDWMSWLEIPESNYLFQINESLAKKVFQENNL IDRL+YRKGRGG AP    KNY L
Sbjct  121  DVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLFIDRLKYRKGRGGGAPYTPDKNYIL  180

Query  189  SFSGDRSGATKT--FVSTTFNPDTY  211
            SF+GD +  T+    V+T F P  Y
Sbjct  181  SFTGDTNTDTRRGDLVATDFQPHDY  205


>gb|EBG71317.1|  hypothetical protein GOS_9386826 [marine metagenome]
Length=340

 Score =  103 bits (258),  Expect = 2e-21, Method: Compositional matrix adjust.
 Identities = 61/145 (42%), Positives = 89/145 (61%), Gaps = 9/145 (6%)

Query  74   EKDKIIENLKQELNSQWLTNQTAFNTKKLYEDKIKKM--DIVDSTNLIPTLVEVSKQKQG  131
            EK  ++E+L +   S+WL N+    TKK+YEDK+K +  + VDS  +IP L  V+++KQG
Sbjct  16   EKSTVLEDLNK---SKWLENKVTLATKKVYEDKVKSVINENVDS-KIIPILTTVARRKQG  71

Query  132  NVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLLIDRLRYRKGRGGDAPAKNYALSFS  191
            N +L+W +WL++PE+ YLFQIN+ +AKK+F++ N LI R R R      A    Y L F 
Sbjct  72   NQQLNWGNWLKVPENRYLFQINKDIAKKIFEDTNALIPRKRTRGSGKPTATEIYYGLQFD  131

Query  192  GDRSGATKTFVSTTFNP--DTYSLW  214
            G     T  + S + +P   TYS W
Sbjct  132  GTDDEVTTNY-SGSADPLNKTYSFW  155


>gb|EBH78165.1|  hypothetical protein GOS_9203572 [marine metagenome]
Length=299

 Score = 62.0 bits (149),  Expect = 1e-08, Method: Compositional matrix adjust.
 Identities = 31/61 (50%), Positives = 41/61 (67%), Gaps = 3/61 (4%)

Query  157  AKKVFQENNLLIDRLRYRKGRGGDAPAKNYALSFSGDRSGATKTFVSTTFNPDTYSLWNG  216
            A ++F+ +NLL  R +  KG   +   K   L FSGDR+GA  ++ +TTFNPDTYSLWNG
Sbjct  8    AMEMFKRDNLLAKRRKRTKGHPKNLTHK---LVFSGDRAGAADSYATTTFNPDTYSLWNG  64

Query  217  F  217
            F
Sbjct  65   F  65


>gb|EBN55466.1|  hypothetical protein GOS_8227127 [marine metagenome]
Length=422

 Score = 57.4 bits (137),  Expect = 3e-07, Method: Compositional matrix adjust.
 Identities = 49/166 (29%), Positives = 79/166 (47%), Gaps = 30/166 (18%)

Query  69   QDELAEKDKIIENLKQELNSQWLTNQTAFNTKKLYEDKIKKMDIVDSTNLIPTLVEVSKQ  128
            ++E+A + K+   L+++  ++ L  + A   +KL EDK  +        L   LV++ +Q
Sbjct  40   KEEIAARKKL---LQEQQEAERLRQKHAQAKEKLAEDKWNEQ-------LDTLLVQLDRQ  89

Query  129  KQGNVKLD-----------------WMSWLEIPESNYLFQINESLAKKVFQENNLLIDRL  171
            KQ N KL+                 W SWL  P +  L  ++   A   F+ +NL+  R 
Sbjct  90   KQENKKLEEIRIIIQNRKPSLQELGWDSWLSDPLNQRLADLDFEHAMAEFKNDNLIAKRR  149

Query  172  RYRKGRGGDAPAKNYALSFSGDRSGATKTFVSTTFNPDTYSLWNGF  217
               + RG      N  LSFSG+   A++++ +T FNPD Y L  GF
Sbjct  150  HSPRARG---RTPNDVLSFSGNTGDASRSYATTDFNPDDYDLNLGF  192




ORF finding

PROTOCOLE:
a) SMS ORFinder/ sens direct/ cadres de lecture 1, 2 et 3/minimum 60 acides aminés/ codon d'initiation: "any codon"/ code génétique standard
b) SMS ORFinder/ sens indirect/ cadres de lecture 1, 2 et 3/ minimum 60 acides aminés/ codon d'initiation: "any codon"/ code génétique standard
------------------------------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

Les résultats obtenus avec le logiciel SMS ORFinder nous indiquent la présence de 3 ORFs comportant plus de 60 codons 
dans notre séquence nucléotidique: un de ces ORFs se localise au niveau du brin orienté dans le sens direct, dans le 
3ème cadre de lecture, allant de la base 456 à la base 656. En ce qui concerne les 2 autres ORFs, ils se situent sur le 
brin dirigé dans le sens indirect, au niveau du 2nd et du 3ème cadres de lecture, allant respectivement des bases 362 
à 1012 et des bases 3 à 431. Par conséquent, nous considérerons dans la suite de nos analyses l'ORF le plus long, 
c'est-à-dire celui se trouvant dans le 2nd cadre de lecture du brin indirect. Il comporte 651 codons et coderait 
donc pour une protéine de 217 acides aminés.
Toutefois, nous constatons que cet ORF que nous supposons comme codant au vu de sa longueur relativement importante,est
incomplet à la fois en 5' et en 3'. En effet, il ne débute pas par le codon d'initiation classique ATG codant pour la 
méthionine: il commence par le codon ACA codant pour la thréonine,ceci provenant du fait que nous avons sélectionné le 
paramètre "any codon" pour la recherche d'ORF. De plus, il ne se termine pas par un codon stop mais par le codon TTT 
codant pour la phénylalanine. 
Ce fait sera alors à prendre en compte dans les analyses suivantes.
------------------------------------------------------------------------------------------------------------------------
RÉSULTATS BRUTS:

a) sens direct

No ORFs were found in reading frame 1.

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the direct strand extends from base 456 to base 656.
GATTTAAAAGATTTTATATCTCCCACAGGTTTAGAAATAAACATTTCATTTAATTTTTGT
TTATCTTTTTCTTTTTTATCTGTGGATTTACCACCACCAAATCTCTCTTTTAATAAATCT
AAACTCACTATCTTGGCCTCTCTTCTATTTGTAATGATGATAATCTTGAACGATGTGCTG
TCGCTACAATGTTGTGTTTAA

>Translation of ORF number 1 in reading frame 3 on the direct strand.
DLKDFISPTGLEINISFNFCLSFSFLSVDLPPPNLSFNKSKLTILASLLFVMMIILNDVL
SLQCCV*
--------------------------------------------------------------------------------------------
b) sens indirect

No ORFs were found in reading frame 1.

>ORF number 1 in reading frame 2 on the reverse strand extends from base 362 to base 1012.
ACACAACATTGTAGCGACAGCACATCGTTCAAGATTATCATCATTACAAATAGAAGAGAG
GCCAAGATAGTGAGTTTAGATTTATTAAAAGAGAGATTTGGTGGTGGTAAATCCACAGAT
AAAAAAGAAAAAGATAAACAAAAATTAAATGAAATGTTTATTTCTAAACCTGTGGGAGAT
ATAAAATCTTTTAAATCTCAATACCAAGATGAGTTGGCAGAAAAAGACAAAATTATTGAA
AACTTGAAACAAGAATTAAATTCACAATGGTTGACAAATCAGACTGCATTTAATACAAAA
AAATTATATGAAGATAAAATTAAAAAAATGGATATTGTGGATAGCACAAACTTAATTCCT
ACATTAGTAGAGGTATCAAAACAGAAACAAGGTAATGTAAAATTAGATTGGATGAGTTGG
TTAGAAATACCAGAGAGTAATTATTTATTTCAAATAAATGAAAGTTTAGCTAAAAAAGTA
TTTCAAGAAAATAATCTTTTAATAGATAGACTTAGATACAGAAAAGGAAGAGGTGGAGAT
GCACCCGCTAAAAATTATGCATTATCATTTTCGGGTGATAGAAGTGGAGCTACAAAAACA
TTTGTATCAACTACTTTTAATCCTGATACTTATTCACTTTGGAATGGATTT

>Translation of ORF number 1 in reading frame 2 on the reverse strand.
TQHCSDSTSFKIIIITNRREAKIVSLDLLKERFGGGKSTDKKEKDKQKLNEMFISKPVGD
IKSFKSQYQDELAEKDKIIENLKQELNSQWLTNQTAFNTKKLYEDKIKKMDIVDSTNLIP
TLVEVSKQKQGNVKLDWMSWLEIPESNYLFQINESLAKKVFQENNLLIDRLRYRKGRGGD
APAKNYALSFSGDRSGATKTFVSTTFNPDTYSLWNGF

>ORF number 1 in reading frame 3 on the reverse strand extends from base 3 to base 431.
TTAATTAATCAAATGAATGAAGAGTTGATTGACGAAATTGTCGGACAATCAGTTGATATT
TACAAAGTCAATGTCGAAAGAACAGAGGACAATGTATATGGTGAATCAACTGCTAAATAT
TATGATATAGGATTCAGAGTTAATTGTTTGATAAATTATAATGAACCTGAAGTAATACAA
GATGAGTTTGGTGCTGATGTTAATTCTAATATTGAAATGTTTTTCCAAAGAGAAAATTTA
GCAAGTGGTTCATTGAATTTTTATCCTGAGATTGGTGATATTGTGGATTGGAATGATTAT
TATTGGGAAATCAATGGAACAACAGAACCACAATTATTTGCAGGACATCCAAATTTTAAA
CACAACATTGTAGCGACAGCACATCGTTCAAGATTATCATCATTACAAATAGAAGAGAGG
CCAAGATAG

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
LINQMNEELIDEIVGQSVDIYKVNVERTEDNVYGESTAKYYDIGFRVNCLINYNEPEVIQ
DEFGADVNSNIEMFFQRENLASGSLNFYPEIGDIVDWNDYYWEINGTTEPQLFAGHPNFK
HNIVATAHRSRLSSLQIEERPR*