GOS 2050020

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : JCVI_READ_650313
Annotathon code: GOS_2050020
Sample :
  • GPS :31°10'30n; 64°19'27.6w
  • Sargasso Sea: Sargasso Sea, Station 11 - Bermuda (UK)
  • Open Ocean (-5m, 20.5°C, 0.22-0.8 microns)
Authors
Team : Biochimie 2011
Username : simbad
Annotated on : 2011-05-17 13:21:29
  • BOUMEZBEUR Ahmed-Hocine
  • DROULIN Sabine

Synopsis

Genomic Sequence

>JCVI_READ_650313 GOS_2050020 Genomic DNA
TTGCAATTTTTGAGACGGTTTCCCGATAGGGTCATCGTGAGAGAATTTTTTGAGAATTTTTGAGAAATTGTTGAGAGCACCCACAACCGAAGGCCTGCAG
GGGTCATTTGCACCCGAACGTGGCCTGGGAACATGAATAACTGCAAAATAGAATTGTGCTTCGGTCGCGCGAGCGTCACTCAGACGCAGAAACAGAGACG
CTTGCAGACACAGACACATATTGATGATTTAATAAGCGCCGAGATTTCCTCACGTCGAGGCACGCCAGAAAGCCAGCAACAGCAATGACAGCTTTTGATG
TGCAATCCATCTGTTTTGTCCATGAAGGAGTTGCCCCGCAGTCTCGCGGAAGAGGGAGGTGGGTTCCAATTGTTCGCGGCTGGTCTTTTACGAAGAGCTC
AGGGACCAGAGCTTACGAAGAGCTCAGGGACCAGAGCTTTACGAAGAGCTCAGGGACCACAGCTTTACGAAGAGCTCAGGGACCGGAGCTTTTCTCTTTC
GTCCAGATGTTTCTTTCCCTCTCTAGTTTTAAGGGCGATGTTCCCTTTCTACAGCTGCTACTCTCGGTCTACACGACCGAGGAGGTCGTGCGGCTTTTTT
CACGTCGTACATTACCCCAAGAGTCGTTTTTGGGCTTGATTTTCTCATTTACATGGTGTGTGTTACCAGTGTCATTTTCTTTCGCGAAAAGGCCTGCTCT
CCGATGATATTACTCTAGCCGGATTTCCCCCGCGATAGGCCAGCGCCGGCATTGTGGCTTTGTTGCGATCTGTTCCGACTCAACAGCACCTCATTCTAAG
TTTTTCTGGTCAACGAATCTACTGGTGCCCGCGTTCAAATTCCAGATAGCACCCCTCTCCTCTCAAATATGGCTTTCTCTGAAAATGTAAAAT

Translation

[285 - 704/893]   direct strand
>GOS_2050020 Translation [285-704   direct strand]
MTAFDVQSICFVHEGVAPQSRGRGRWVPIVRGWSFTKSSGTRAYEELRDQSFTKSSGTTALRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEE
VVRLFSRRTLPQESFLGLIFSFTWCVLPVSFSFAKRPALR

Annotator commentaries

Parmi les ORFs putatifs trouvés, nous avons sélectionné le plus probable qui correspond au plus long (422 nucléotides) commençant par un codon start. Cet ORF se situe au milieu de la séquence étudiée. Il finit donc par un codon stop (c'est un ORF complet).

On suppose que cet ORF est codant pour une protéine de 140 acides aminés.

Cette protéine putative contient un domaine transmembranaire de 20 acides aminés. Ceci nous renseigne sur sa potentielle localisation transmembranaire.

Les différents types de blast ne nous ont pas permis de trouver des séquences homologues répertoriée, ce qui nous empêche d'aller plus loin dans l'annotation de la séquence étudiée.

Cependant, aux vues de la longueur de l'ORF putatif de 422 nucléotides, on suggère que notre ORF n'est probablement pas un faux positif, et pourrait correspondre à une séquence codante pour une protéine inconnue.

ORF finding

PROTOCOLE:

Utilisation de ORF Finder dans SMS avec seulement les ORFs présentant 60 codons de long au moins, en faisant varier différents paramètres: codons alternatifs, puis any codons; et dans les trois cadres de lecture sur les brins directs, puis indirects. On utilise le code génétique standard par défaut.


ANALYSE DES RÉSULTATS:

Afin de trouver des ORFs putatifs, et notamment l'ORF que nous allons étudier, nous utilisons ORF Finder.

- codons alternatifs:

  • sur le brin direct: 2 ORFs putatifs dont un dans le cadre de lecture 1 (de 344 nucléotides, complet) et un autre dans le cadre de lecture 3 (de 422 nucléotides, complet).
  • sur le brin indirect: 2 ORFs putatifs, un dans le cadre de lecture 2 (de 233 nucléotides, complet), et un autre dans le cadre de lecture 3 (de 218 nucléotides, incomplet en 3').


- any codons:

  • sur le brin direct: 6 ORFs putatifs, dont 2 dans le cadre de lecture 1 (de 224 et 350 nucléotides, tous deux complets), 2 dans le cadre de lecture 2 (de 200 et 185 nucléotides, tous deux complets), et 2 dans le cadre de lecture 3 (de 479 et 182 nucléotides, tous deux complets).
  • sur le brin indirect: 3 ORF putatifs, dont un dans le cadre de lecture 1 (de 218 nucléotides, complet), un autre dans le cadre de lecture 2 (de 236 nucléotides, complet) et un dernier dans le cadre de lecture 3 (de 227 nucléotides, incomplet en 3').


Avec any codon, nous avons obtenu l'ORF putatif le plus long qui commence au nucléotide 228. Il est compris entre deux codons stop et peut commencer par n'importe quel acide aminé. Ce fragment contient donc forcément un codon start. Quand on fait la recherche avec codons alternatifs, on a un ORF dans le même cadre de lecture qui commence bien par un codon start. Nous étudierons donc l'ORF de 422 nucléotides, complet, obtenu sur le brin direct dans le cadre de lecture 3 avec codons alternatifs.

RÉSULTATS BRUTS avec codons alternatifs sur le brin direct:
>ORF number 1 in reading frame 1 on the direct strand extends from base 295 to base 639.
TTGATGTGCAATCCATCTGTTTTGTCCATGAAGGAGTTGCCCCGCAGTCTCGCGGAAGAG
GGAGGTGGGTTCCAATTGTTCGCGGCTGGTCTTTTACGAAGAGCTCAGGGACCAGAGCTT
ACGAAGAGCTCAGGGACCAGAGCTTTACGAAGAGCTCAGGGACCACAGCTTTACGAAGAG
CTCAGGGACCGGAGCTTTTCTCTTTCGTCCAGATGTTTCTTTCCCTCTCTAGTTTTAAGG
GCGATGTTCCCTTTCTACAGCTGCTACTCTCGGTCTACACGACCGAGGAGGTCGTGCGGC
TTTTTTCACGTCGTACATTACCCCAAGAGTCGTTTTTGGGCTTGA

>Translation of ORF number 1 in reading frame 1 on the direct strand.
LMCNPSVLSMKELPRSLAEEGGGFQLFAAGLLRRAQGPELTKSSGTRALRRAQGPQLYEE
LRDRSFSLSSRCFFPSLVLRAMFPFYSCYSRSTRPRRSCGFFHVVHYPKSRFWA*

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the direct strand extends from base 285 to base 707.


>Translation of ORF number 1 in reading frame 3 on the direct strand.
MTAFDVQSICFVHEGVAPQSRGRGRWVPIVRGWSFTKSSGTRAYEELRDQSFTKSSGTTA
LRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEVVRLFSRRTLPQESFLGLIF
SFTWCVLPVSFSFAKRPALR*

------------------------------------------------------------------------------------------------------------

RESULTATS BRUTS avec codons alternatifs sur le brin indirect:
No ORFs were found in reading frame 1.

>ORF number 1 in reading frame 2 on the reverse strand extends from base 485 to base 718.
CTGGTCCCTGAGCTCTTCGTAAAAGACCAGCCGCGAACAATTGGAACCCACCTCCCTCTT
CCGCGAGACTGCGGGGCAACTCCTTCATGGACAAAACAGATGGATTGCACATCAAAAGCT
GTCATTGCTGTTGCTGGCTTTCTGGCGTGCCTCGACGTGAGGAAATCTCGGCGCTTATTA
AATCATCAATATGTGTCTGTGTCTGCAAGCGTCTCTGTTTCTGCGTCTGAGTGA

>Translation of ORF number 1 in reading frame 2 on the reverse strand.
LVPELFVKDQPRTIGTHLPLPRDCGATPSWTKQMDCTSKAVIAVAGFLACLDVRKSRRLL
NHQYVSVSASVSVSASE*

>ORF number 1 in reading frame 3 on the reverse strand extends from base 675 to base 893.
ATGTGTCTGTGTCTGCAAGCGTCTCTGTTTCTGCGTCTGAGTGACGCTCGCGCGACCGAA
GCACAATTCTATTTTGCAGTTATTCATGTTCCCAGGCCACGTTCGGGTGCAAATGACCCC
TGCAGGCCTTCGGTTGTGGGTGCTCTCAACAATTTCTCAAAAATTCTCAAAAAATTCTCT
CACGATGACCCTATCGGGAAACCGTCTCAAAAATTGCAA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
MCLCLQASLFLRLSDARATEAQFYFAVIHVPRPRSGANDPCRPSVVGALNNFSKILKKFS
HDDPIGKPSQKLQ

-----------------------------------------------------------------------------------------------------------

RESULTATS BRUTS avec any codon sur le brin direct:
>ORF number 1 in reading frame 1 on the direct strand extends from base 64 to base 288.
GAAATTGTTGAGAGCACCCACAACCGAAGGCCTGCAGGGGTCATTTGCACCCGAACGTGG
CCTGGGAACATGAATAACTGCAAAATAGAATTGTGCTTCGGTCGCGCGAGCGTCACTCAG
ACGCAGAAACAGAGACGCTTGCAGACACAGACACATATTGATGATTTAATAAGCGCCGAG
ATTTCCTCACGTCGAGGCACGCCAGAAAGCCAGCAACAGCAATGA

>Translation of ORF number 1 in reading frame 1 on the direct strand.
EIVESTHNRRPAGVICTRTWPGNMNNCKIELCFGRASVTQTQKQRRLQTQTHIDDLISAE
ISSRRGTPESQQQQ*

>ORF number 2 in reading frame 1 on the direct strand extends from base 289 to base 639.
CAGCTTTTGATGTGCAATCCATCTGTTTTGTCCATGAAGGAGTTGCCCCGCAGTCTCGCG
GAAGAGGGAGGTGGGTTCCAATTGTTCGCGGCTGGTCTTTTACGAAGAGCTCAGGGACCA
GAGCTTACGAAGAGCTCAGGGACCAGAGCTTTACGAAGAGCTCAGGGACCACAGCTTTAC
GAAGAGCTCAGGGACCGGAGCTTTTCTCTTTCGTCCAGATGTTTCTTTCCCTCTCTAGTT
TTAAGGGCGATGTTCCCTTTCTACAGCTGCTACTCTCGGTCTACACGACCGAGGAGGTCG
TGCGGCTTTTTTCACGTCGTACATTACCCCAAGAGTCGTTTTTGGGCTTGA

>Translation of ORF number 2 in reading frame 1 on the direct strand.
QLLMCNPSVLSMKELPRSLAEEGGGFQLFAAGLLRRAQGPELTKSSGTRALRRAQGPQLY
EELRDRSFSLSSRCFFPSLVLRAMFPFYSCYSRSTRPRRSCGFFHVVHYPKSRFWA*

>ORF number 1 in reading frame 2 on the direct strand extends from base 326 to base 526.
AGGAGTTGCCCCGCAGTCTCGCGGAAGAGGGAGGTGGGTTCCAATTGTTCGCGGCTGGTC
TTTTACGAAGAGCTCAGGGACCAGAGCTTACGAAGAGCTCAGGGACCAGAGCTTTACGAA
GAGCTCAGGGACCACAGCTTTACGAAGAGCTCAGGGACCGGAGCTTTTCTCTTTCGTCCA
GATGTTTCTTTCCCTCTCTAG

>Translation of ORF number 1 in reading frame 2 on the direct strand.
RSCPAVSRKREVGSNCSRLVFYEELRDQSLRRAQGPELYEELRDHSFTKSSGTGAFLFRP
DVSFPL*

>ORF number 2 in reading frame 2 on the direct strand extends from base 533 to base 718.
GGGCGATGTTCCCTTTCTACAGCTGCTACTCTCGGTCTACACGACCGAGGAGGTCGTGCG
GCTTTTTTCACGTCGTACATTACCCCAAGAGTCGTTTTTGGGCTTGATTTTCTCATTTAC
ATGGTGTGTGTTACCAGTGTCATTTTCTTTCGCGAAAAGGCCTGCTCTCCGATGATATTA
CTCTAG

>Translation of ORF number 2 in reading frame 2 on the direct strand.
GRCSLSTAATLGLHDRGGRAAFFTSYITPRVVFGLDFLIYMVCVTSVIFFREKACSPMIL
L*

>ORF number 1 in reading frame 3 on the direct strand extends from base 228 to base 707.
TTTAATAAGCGCCGAGATTTCCTCACGTCGAGGCACGCCAGAAAGCCAGCAACAGCAATG
ACAGCTTTTGATGTGCAATCCATCTGTTTTGTCCATGAAGGAGTTGCCCCGCAGTCTCGC
GGAAGAGGGAGGTGGGTTCCAATTGTTCGCGGCTGGTCTTTTACGAAGAGCTCAGGGACC
AGAGCTTACGAAGAGCTCAGGGACCAGAGCTTTACGAAGAGCTCAGGGACCACAGCTTTA
CGAAGAGCTCAGGGACCGGAGCTTTTCTCTTTCGTCCAGATGTTTCTTTCCCTCTCTAGT
TTTAAGGGCGATGTTCCCTTTCTACAGCTGCTACTCTCGGTCTACACGACCGAGGAGGTC
GTGCGGCTTTTTTCACGTCGTACATTACCCCAAGAGTCGTTTTTGGGCTTGATTTTCTCA
TTTACATGGTGTGTGTTACCAGTGTCATTTTCTTTCGCGAAAAGGCCTGCTCTCCGATGA


>Translation of ORF number 1 in reading frame 3 on the direct strand.
FNKRRDFLTSRHARKPATAMTAFDVQSICFVHEGVAPQSRGRGRWVPIVRGWSFTKSSGT
RAYEELRDQSFTKSSGTTALRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEV
VRLFSRRTLPQESFLGLIFSFTWCVLPVSFSFAKRPALR*

>ORF number 2 in reading frame 3 on the direct strand extends from base 708 to base 890.
TATTACTCTAGCCGGATTTCCCCCGCGATAGGCCAGCGCCGGCATTGTGGCTTTGTTGCG
ATCTGTTCCGACTCAACAGCACCTCATTCTAAGTTTTTCTGGTCAACGAATCTACTGGTG
CCCGCGTTCAAATTCCAGATAGCACCCCTCTCCTCTCAAATATGGCTTTCTCTGAAAATG
TAA

>Translation of ORF number 2 in reading frame 3 on the direct strand.
YYSSRISPAIGQRRHCGFVAICSDSTAPHSKFFWSTNLLVPAFKFQIAPLSSQIWLSLKM
*

------------------------------------------------------------------------------------------------------------

RESULTATS BRUTS avec any codons sur le brin indirect:
>ORF number 1 in reading frame 1 on the reverse strand extends from base 496 to base 714.
GCTCTTCGTAAAAGACCAGCCGCGAACAATTGGAACCCACCTCCCTCTTCCGCGAGACTG
CGGGGCAACTCCTTCATGGACAAAACAGATGGATTGCACATCAAAAGCTGTCATTGCTGT
TGCTGGCTTTCTGGCGTGCCTCGACGTGAGGAAATCTCGGCGCTTATTAAATCATCAATA
TGTGTCTGTGTCTGCAAGCGTCTCTGTTTCTGCGTCTGA

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
ALRKRPAANNWNPPPSSARLRGNSFMDKTDGLHIKSCHCCCWLSGVPRREEISALIKSSI
CVCVCKRLCFCV*

>ORF number 1 in reading frame 2 on the reverse strand extends from base 482 to base 718.
GCTCTGGTCCCTGAGCTCTTCGTAAAAGACCAGCCGCGAACAATTGGAACCCACCTCCCT
CTTCCGCGAGACTGCGGGGCAACTCCTTCATGGACAAAACAGATGGATTGCACATCAAAA
GCTGTCATTGCTGTTGCTGGCTTTCTGGCGTGCCTCGACGTGAGGAAATCTCGGCGCTTA
TTAAATCATCAATATGTGTCTGTGTCTGCAAGCGTCTCTGTTTCTGCGTCTGAGTGA

>Translation of ORF number 1 in reading frame 2 on the reverse strand.
ALVPELFVKDQPRTIGTHLPLPRDCGATPSWTKQMDCTSKAVIAVAGFLACLDVRKSRRL
LNHQYVSVSASVSVSASE*

>ORF number 1 in reading frame 3 on the reverse strand extends from base 666 to base 893.
ATCATCAATATGTGTCTGTGTCTGCAAGCGTCTCTGTTTCTGCGTCTGAGTGACGCTCGC
GCGACCGAAGCACAATTCTATTTTGCAGTTATTCATGTTCCCAGGCCACGTTCGGGTGCA
AATGACCCCTGCAGGCCTTCGGTTGTGGGTGCTCTCAACAATTTCTCAAAAATTCTCAAA
AAATTCTCTCACGATGACCCTATCGGGAAACCGTCTCAAAAATTGCAA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
IINMCLCLQASLFLRLSDARATEAQFYFAVIHVPRPRSGANDPCRPSVVGALNNFSKILK
KFSHDDPIGKPSQKLQ


 

Multiple Alignement

PROTOCOLE:



ANALYSE DES RÉSULTATS:

RÉSULTATS BRUTS:

Protein Domains

PROTOCOLE: Recherche dans InterPro, puis dans ProSite, puis dans PFam, en laissant les paramètres par défaut dans les trois cas.



ANALYSE DES RÉSULTATS:

Afin de trouver des domaines protéiques fonctionnels et structuraux, nous utilisons différentes banques de données.

Tout d'abord, avec InterPro, un domaine transmembranaire a été trouvé. Il s'étend de l'acide aminé 114 à l'acide aminé 134. Nous recherchons alors dans Prosite ou PFam. Cependant, aucun résultat n'est détecté. Ceci nous indique qu'il n'y a pas encore de domaines connus répertoriés correspondant potentiellement à notre ORF à l'heure actuelle.

Le fait que nous ayons trouvé dans InterPro un domaine transmembranaire, ne nous renseigne pas sur les domaines fonctionnels protéiques, mais sur les domaines structuraux de la protéine. Ceci nous indique l'éventuelle localisation transmembranaire de la protéine putative.

RÉSULTATS BRUTS:
Pour InterPro:
Sequence "GOS_2050020" crc64 checksum: A1791A643AD02EBC length: 140 aa.

InterPro       NULL           NULL
method         AccNumber      shortName                               location
TMHMM          tmhmm          transmembrane_regions                   ?[114-134] NA

---------------------------------------------------------------------------------------------------------------------------

Pour Prosite et PFam:
No hits.

Phylogeny

PROTOCOLE:



ANALYSE DES RÉSULTATS:

RÉSULTATS BRUTS:

Taxonomy report

PROTOCOLE:



ANALYSE DES RÉSULTATS:

RÉSULTATS BRUTS:

BLAST

PROTOCOLE: Blastp contre nr et env_nr, puis tblastn et tblastx contre env_nr, puis blastx contre nr et env_nr avec les paramètres par défaut.



ANALYSE DES RÉSULTATS:

On recherche la fonction putative de la protéine codée par l'ORF et l'organisme dont elle pourrait provenir. Pour cela, nous cherchons les homologues en utilisant blastp puis tblastn.

En ce qui concerne blastp contre nr, nous obtenons 4 séquences, avec des scores faibles (35.8 au maximum) et avec des E-values élevées (1.8 au minimum). Ce ne sont donc a priori pas des séquences homologues de notre ORF.

En ce qui concerne blastp contre env_nr, nous obtenons 5 séquences, avec des scores faibles (33.9 au maximum) et avec des E-values élevées (2.1 au minimum). Dans ce cas aussi, ces séquences sont non homologues à notre ORF.

Ne trouvant pas d'homologues, nous avons effectué un tblastn, afin de pouvoir regarder les séquences avant filtration et donc de voir toutes les séquences répertoriées pouvant correspondre. Nous obtenons alors 6 séquences, dont une qui n'est autre que l'ORF étudié. En ce qui concerne les 5 autres séquences, les scores sont faibles ( 36.2 au maximum) et les E-values sont assez élevées (0.84 au minimum). Dans ce cas aussi, nous ne trouvons pas de séquences d'homologues à notre ORF. Aussi, nous avons effectué un tblastx contre env_nr et des blatx contre nr et env_nr, le résultat a été aussi négatif. En effet, nous n'avons obtenu aucune séquence homologue excepté la séquence étudiée (dans tblastx contre env_nr).

Nous pouvons donc dire que l'ORF étudié est une séquence protéique réelle, mais pas encore connue; ou bien que c'est un faux positif. Cependant, différents éléments nous permettent d'éloigner l'hypothèse d'un faux positif:

- Notre ORF est long (422 nucléotides), ce qui diminue la probabilité que ce dernier soit un faux positif.

- Notre ORF possède un domaine transmembranaire d'après notre recherche de domaines protéiques.

RÉSULTATS BRUTS avec blastp contre nr:
1)Entête
Query ID
    lcl|27332 
    lcl|27332
Description
    None
Molecule type
    amino acid
Query Length
    140

Database Name
    nr
Description
    All non-redundant GenBank CDS translations+PDB+SwissProt+PIR+PRF excluding environmental samples from WGS projects See details
Program
    BLASTP 2.2.25+ 

2) Liste complète des hits
                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

emb|CAK41655.1|  hypothetical protein An13g02580 [Aspergillus ...  35.8    1.8  
ref|XP_002184812.1|  predicted protein [Phaeodactylum tricornu...  34.7    3.8  
ref|XP_647652.1|  hypothetical protein DDB_G0268216 [Dictyoste...  33.5    8.2  
ref|XP_001615182.1|  hypothetical protein [Plasmodium vivax Sa...  33.5    9.4  

3) Les premiers alignements deux à deux
>emb|CAK41655.1| hypothetical protein An13g02580 [Aspergillus niger]
Length=205

 Score = 35.8 bits (81),  Expect = 1.8, Method: Compositional matrix adjust.
 Identities = 40/143 (28%), Positives = 58/143 (41%), Gaps = 29/143 (20%)

Query  9    ICFV---HEGVAPQS---RGRGRWVPIVRGWSFTKSSGTRAYEELRDQSFTK------SS  56
            +C+V    EG +P +   RGR R             S +RAYE +RDQ FT       SS
Sbjct  14   VCYVGGWAEGFSPPTGAMRGRTRLY-----------SSSRAYEAVRDQPFTDPTLIMMSS  62

Query  57   GTTALRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEVVRL--FSRRTLPQES  114
            GT  +RR  G       Q  L     +G  P L+ L S+     ++R   F+   +P+  
Sbjct  63   GTGTVRRPAGLPF----QAALFHPPIEGLEPSLKTLSSISVGRLLIRFPEFNSNLIPEAG  118

Query  115  FLGLIFSFTWCVLPVSFSFAKRP  137
              G+  S          + + RP
Sbjct  119  HAGVRLSHATACSSFYVTHSSRP  141


>ref|XP_002184812.1| predicted protein [Phaeodactylum tricornutum CCAP 1055/1]
 gb|EEC43871.1| predicted protein [Phaeodactylum tricornutum CCAP 1055/1]
Length=473

 Score = 34.7 bits (78),  Expect = 3.8, Method: Composition-based stats.
 Identities = 25/72 (35%), Positives = 36/72 (50%), Gaps = 13/72 (18%)

Query  28   PIVRGWSFTKSSGTRAYEELRDQSFTKSSGTTALRRAQGPELFSFVQMFLSLSSFKGDVP  87
            P  +GWSFTK    R Y ++RD  +      TAL+R Q P+L   V      S+ K    
Sbjct  158  PHPQGWSFTKVLENRRYCDVRDDHW------TALQRIQLPKLPRTVSELTPASATK----  207

Query  88   FLQLLLSVYTTE  99
               +L +VY++E
Sbjct  208  ---ILCAVYSSE  216


>ref|XP_647652.1| hypothetical protein DDB_G0268216 [Dictyostelium discoideum AX4]
 gb|EAL73561.1| hypothetical protein DDB_G0268216 [Dictyostelium discoideum AX4]
Length=1758

 Score = 33.5 bits (75),  Expect = 8.2, Method: Composition-based stats.
 Identities = 13/31 (42%), Positives = 22/31 (71%), Gaps = 0/31 (0%)

Query  71    SFVQMFLSLSSFKGDVPFLQLLLSVYTTEEV  101
             SF+Q+F+S  SFK     LQ+L+S+Y++  +
Sbjct  1216  SFIQIFVSSKSFKASFTLLQVLISLYSSRYI  1246


>ref|XP_001615182.1| hypothetical protein [Plasmodium vivax SaI-1]
 gb|EDL45455.1| hypothetical protein, conserved [Plasmodium vivax]
Length=691

 Score = 33.5 bits (75),  Expect = 9.4, Method: Composition-based stats.
 Identities = 26/68 (39%), Positives = 33/68 (49%), Gaps = 12/68 (17%)

Query  42   RAYEELRDQSFTKSSGTTALRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEV  101
            R Y  +RD+ F  SSG T L   Q  ELF    +F  +         L ++LSVYT   V
Sbjct  614  RTYHVVRDKDFIISSGRTKL-TIQVNELFDICMLFFII---------LCVILSVYTIVRV  663

Query  102  VRLFSRRT  109
              LFS +T
Sbjct  664  --LFSNKT  669

-----------------------------------------------------------------------------------------------------------------------------

RESULTATS BRUTS avec blastp contre env_nr:
1)Entête
Query ID
    lcl|46217 
    lcl|46217
Description
    None
Molecule type
    amino acid
Query Length
    140

Database Name
    env_nr
Description
    Environmental sample proteins from WGS projects See details
Program
    BLASTP 2.2.25+ 

2) Liste complète des hits
                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|EBQ13599.1|  hypothetical protein GOS_7797529 [marine metag...  33.9    2.1  
gb|ECK57617.1|  hypothetical protein GOS_3325831 [marine metag...  31.6    9.0  
gb|ECO06544.1|  hypothetical protein GOS_3463495 [marine metag...  31.6    9.1  
gb|ECQ27957.1|  hypothetical protein GOS_6284311 [marine metag...  31.6    9.9  
gb|EBI55160.1|  hypothetical protein GOS_9073556 [marine metag...  31.6    9.9  

3) Les premiers alignements deux à deux
>gb|EBQ13599.1| hypothetical protein GOS_7797529 [marine metagenome]
Length=231

 Score = 33.9 bits (76),  Expect = 2.1, Method: Compositional matrix adjust.
 Identities = 33/114 (29%), Positives = 51/114 (45%), Gaps = 11/114 (9%)

Query  31   RGWSFTKSSGTRAYEELRDQSFTKSSGTTALRRAQGPELFSFVQMFLSLSSFKG-DV---  86
            R +   K+ G    EE R + +    GT  + R     L+  VQ    LS  +G DV   
Sbjct  52   RDYENLKAQGVEMTEEPRHEVY----GTVVVFRDLYGNLWDLVQPPADLSKIEGSDVAVL  107

Query  87   PFLQLLLSVYTTEEVVRLFSRRTLPQESFLGLIFSFTWCVLPVSFSFAKRPALR  140
            P L+L+   Y    V RL +   +P+E F G  FS T     +S   +++ A++
Sbjct  108  PRLELMSEKYV---VHRLAAGCAVPEEVFAGDFFSVTATAEELSIVCSEKIAIK  158


>gb|ECK57617.1| hypothetical protein GOS_3325831 [marine metagenome]
Length=219

 Score = 31.6 bits (70),  Expect = 9.0, Method: Compositional matrix adjust.
 Identities = 19/104 (19%), Positives = 43/104 (42%), Gaps = 2/104 (1%)

Query  9    ICFVHEGVAPQSRGRGRWVPIV--RGWSFTKSSGTRAYEELRDQSFTKSSGTTALRRAQG  66
            +C     +AP  +    ++ ++  R W +     T + + L      K S    +RR+ G
Sbjct  21   LCLDEMNLAPVEQYFADYLSVLETREWQWEGDEFTYSSDALLGSEIIKESNANGIRRSLG  80

Query  67   PELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEVVRLFSRRTL  110
             +   + +++  +  F   +PF  ++      +E    FSR+ +
Sbjct  81   FDNDDYNELWHQVFHFGLSIPFNLIVAGTVNMDETTHGFSRKVI  124


>gb|ECO06544.1| hypothetical protein GOS_3463495 [marine metagenome]
Length=267

 Score = 31.6 bits (70),  Expect = 9.1, Method: Compositional matrix adjust.
 Identities = 23/99 (24%), Positives = 47/99 (48%), Gaps = 7/99 (7%)

Query  9    ICFVHEGVAPQSRGRGRWVPIVRGWSFTKSSGTRAYEELRDQSFTKSSGTTALRRAQGPE  68
            I FV +GVA   +    +  +   +      G  ++ +         S TT   ++QGP+
Sbjct  163  IGFVFDGVALFGKHDEGYTQMDGYYDVLDDFGGHSHGDYGYHHHAFESSTT---QSQGPD  219

Query  69   LFSFVQMFLSLSSFKG---DVP-FLQLLLSVYTTEEVVR  103
             +++ Q FL   +FKG   ++P FL++  + +  +++ R
Sbjct  220  TYTYTQNFLQRGAFKGKINEIPGFLEVSTNQFMNDQIKR  258


>gb|ECQ27957.1| hypothetical protein GOS_6284311 [marine metagenome]
Length=282

 Score = 31.6 bits (70),  Expect = 9.9, Method: Compositional matrix adjust.
 Identities = 30/137 (22%), Positives = 56/137 (41%), Gaps = 29/137 (21%)

Query  9    ICFVHEGVAPQSRGRGRWVPIVRGWSFTKSSGTRAYEELRDQSFTKSSG---------TT  59
            I FV +GVA            + G      +G   Y E+ D     S G         ++
Sbjct  146  IGFVFDGVA------------LFGKHDEDYNGMDGYSEVLDDFGGHSHGDYGYHHHAFSS  193

Query  60   ALRRAQGPELFSFVQMFLSLSSFKG---DVP-FLQLLLSVYTTEEVVRLFSRRTLPQESF  115
            +  ++QGP+ +++ Q FL   +F+G   ++P F ++  + +  +E+ R        Q   
Sbjct  194  SATQSQGPDTYTYTQNFLQRGAFRGQINEIPGFFEVSTNQFMNDEIKRYVGASGTSQLDI  253

Query  116  LGLIFSFTWCVLPVSFS  132
             G     +   LP+ F+
Sbjct  254  EGN----SNNGLPIGFA  266


>gb|EBI55160.1| hypothetical protein GOS_9073556 [marine metagenome]
Length=201

 Score = 31.6 bits (70),  Expect = 9.9, Method: Compositional matrix adjust.
 Identities = 22/64 (35%), Positives = 31/64 (49%), Gaps = 6/64 (9%)

Query  79   LSSFKGDVP---FLQLLLSVYTTEEVVRLFSRRTLPQESFLGLIFSFTWCVLPVSFSFAK  135
            L+S KG +     L +LL++Y + E   L  R       +L  IF  TW  L   F+F +
Sbjct  18   LTSVKGTIISGFVLAILLAIYVSPENSSLIQRNL---SVWLHAIFGVTWIGLLYYFNFVQ  74

Query  136  RPAL  139
             PAL
Sbjct  75   VPAL  78

-----------------------------------------------------------------------------------------------------------------------------

RESULTATS BRUTS avec tblastn contre env_nr:
1)Entête
Query ID
    lcl|11765 
    lcl|11765
Description
    None
Molecule type
    amino acid
Query Length
    140

Database Name
    env_nt
Description
    environmental samples See details
Program
    TBLASTN 2.2.25+ 

2) Liste complète des hits
                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|AACY021473963.1|  Marine metagenome 650313, whole genome sh...   280    4e-74
gb|AERA01022461.1|  Activated sludge metagenome contig23155, w...  36.2    0.84 
gb|AAFZ01010106.1|  Metagenome sequence 3634299_fasta.screen.C...  34.7    2.5  
dbj|BAAX01009378.1|  Human gut metagenome DNA, contig sequence...  33.9    4.0  
gb|AATB01004922.1|  Mouse gut metagenome LEAN2_U_FF-aaa87c05.b...  33.9    4.5  
gb|AACY020831168.1|  Marine metagenome 2031796, whole genome s...  33.1    6.7  

3) Les premiers alignements deux à deux
>gb|AACY021473963.1| Marine metagenome 650313, whole genome shotgun sequence
Length=740

 Score =  280 bits (715),  Expect = 4e-74, Method: Compositional matrix adjust.
 Identities = 140/140 (100%), Positives = 140/140 (100%), Gaps = 0/140 (0%)
 Frame = +3

Query  1    MTAFDVQSICFVHEGVAPQSRGRGRWVPIVRGWSFTKSSGTRAYEELRDQSFTKSSGTTA  60
            MTAFDVQSICFVHEGVAPQSRGRGRWVPIVRGWSFTKSSGTRAYEELRDQSFTKSSGTTA
Sbjct  285  MTAFDVQSICFVHEGVAPQSRGRGRWVPIVRGWSFTKSSGTRAYEELRDQSFTKSSGTTA  464

Query  61   LRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEVVRLFSRRTLPQESFLGLIF  120
            LRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEVVRLFSRRTLPQESFLGLIF
Sbjct  465  LRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEVVRLFSRRTLPQESFLGLIF  644

Query  121  SFTWCVLPVSFSFAKRPALR  140
            SFTWCVLPVSFSFAKRPALR
Sbjct  645  SFTWCVLPVSFSFAKRPALR  704


>gb|AERA01022461.1| Activated sludge metagenome contig23155, whole genome shotgun 
sequence
Length=1751

 Score = 36.2 bits (82),  Expect = 0.84, Method: Compositional matrix adjust.
 Identities = 19/58 (33%), Positives = 30/58 (52%), Gaps = 1/58 (1%)
 Frame = -3

Query  55   SSGTTALRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEVVRLFSRRTLPQ  112
            + G  A+ R+ G EL       +  ++  GD+P   +++ V   EE+VRL SR  LP 
Sbjct  171  AGGYRAVVRSGGGELMLLAHDLVFNAAVDGDMPIPDVIVDVSDVEEIVRL-SRAKLPH  1


>gb|AAFZ01010106.1| Metagenome sequence 3634299_fasta.screen.Contig5195, whole genome 
shotgun sequence
Length=1040

 Score = 34.7 bits (78),  Expect = 2.5, Method: Compositional matrix adjust.
 Identities = 23/87 (27%), Positives = 42/87 (49%), Gaps = 2/87 (2%)
 Frame = -2

Query  15   GVAPQSRGRGRWVPIVRGWSFTKSSGTRAYEELRDQSFTKSSGTTALRRAQGPELFSFVQ  74
             V P++    R  PI R W     S + +  + R QS      T + R  Q P+  + ++
Sbjct  646  AVHPRAGHADRAGPIARLWHAAYESISPS--QYRSQSAPHPKRTLSGRMPQRPQPLALMK  473

Query  75   MFLSLSSFKGDVPFLQLLLSVYTTEEV  101
            + ++L S+    PF+  L +V++ EE+
Sbjct  472  LRVALVSYLNTRPFMDGLQAVFSPEEI  392


>dbj|BAAX01009378.1| Human gut metagenome DNA, contig sequence: F2-V_009378, whole 
genome shotgun sequence
Length=1032

 Score = 33.9 bits (76),  Expect = 4.0, Method: Compositional matrix adjust.
 Identities = 18/52 (35%), Positives = 30/52 (58%), Gaps = 1/52 (1%)
 Frame = +2

Query  84   GDVPFLQLLLSVYTTEEVVRLFSRRTLPQESFLGLIFSFTWCVLPVSFSFAK  135
            G  PF  L+ S YT+EE V++  +  L   +F   I++ +W +LP +F  A+
Sbjct  602  GTAPFANLIASFYTSEEDVKVVVKELLWLNAFFMPIWATSW-ILPCAFKGAR  754


>gb|AATB01004922.1| Mouse gut metagenome LEAN2_U_FF-aaa87c05.b1, whole genome shotgun 
sequence
Length=836

 Score = 33.9 bits (76),  Expect = 4.5, Method: Compositional matrix adjust.
 Identities = 16/45 (36%), Positives = 23/45 (52%), Gaps = 0/45 (0%)
 Frame = -3

Query  48   RDQSFTKSSGTTALRRAQGPELFSFVQMFLSLSSFKGDVPFLQLL  92
            RD+ +   S T ALR    P L  + +   ++  F  DVPFL+ L
Sbjct  240  RDRDYPACSSTAALRGLPSPSLAEYNEAVTTVMGFGDDVPFLKFL  106


>gb|AACY020831168.1| Marine metagenome 2031796, whole genome shotgun sequence
Length=933

 Score = 33.1 bits (74),  Expect = 6.7, Method: Compositional matrix adjust.
 Identities = 21/49 (43%), Positives = 26/49 (54%), Gaps = 1/49 (2%)
 Frame = -3

Query  58   TTALRRAQGPELFSFVQMFLSLSSFKGDVPFLQLLLSVYTTEEVVRLFS  106
            T   R A GP +F  V  F SL S  GD+P L   LS + ++ VVR  S
Sbjct  373  TAGSRPASGPTIFRTVSSFHSLRSSNGDLPELLSALS-HPSDIVVRCAS  230