GOS 1291010

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : JCVI_READ_1092351305079
Annotathon code: GOS_1291010
Sample :
  • GPS :1°13'1s; 90°19'11w
  • Galapagos Islands: Coastal Floreana - Ecuador
  • Coastal (-2m, 0°C, 0.1-0.8 microns)
Authors
Team : Biochimie 2010
Username : reyhib
Annotated on : 2010-09-09 03:19:43
  • reynaud brice
  • wahib-Mahmoud wael

Synopsis

Genomic Sequence

>JCVI_READ_1092351305079 GOS_1291010 Genomic DNA
AAGAATTTTTGAAAAAAACTGGGAATTTATTAAATCTCTATTAATTCAATCACCTGAGATTCCATTTATAGATAAAAAAAATTTTTTGAAGCATTGCGAT
TTAGTTTCAAACAATACCGGAAAATACTCTCCAATTATATGGCGGGTAATAAACTTGTTCCTTTGGTCAAAAATTTTTAAGGTAAGTTACTAATGTTGTC
TGTAAAAAGGTTTAGTAATTATTTGCCGCCCTTATATTCATTTATAGCTATTTTTTTTAGTGCTTTATTTTTCATTTATGTTGGTAGAAGTGGAAATGAA
GACACTATCGGCAGATTTTCTGTTATTTCAACAATAATATTTTTACTCACCCATCTTTTTTCATTAGGGAATGATCATTCAATATTATCATCAAGCATCC
AAAACAAAAATAAAGACTATTTTTATATTGATAAAAGAATTTTTATCCCCTTGTACTCATTCTTTTTAACTCTTGGGTTAATTTTCATGCTCATTGAGGT
TGAGCTAGTTAGAGAATATGTTTCCAAATATATTCCTTCTTCTAACTCAGAATATACACATTTAGTTATAACTATTGCATTAACCGTCTTTCTAGCCAAT
TTCTCAAAGACACTTGCATCTTTTTTGATAATAAACTCTCTCAAGGATCTAGGAAATTTAATTTTTTTCTTTAAAGCCATTGGTCTTGGATTAGGTATAG
CTGCATTTATATTCATTCCAGGGTTAATTGAATTACATATTGTTTTTATTATGGAGTTAGTTTGTGCTTCATTATTGGTTGCTTTATACGCATTACTTTG
TTTTAAATTCTTGTTTTGTAATTCTAAAAATGGCTTTCAATTAAAATTTGTTATTTCTGGTCTGAATATTTTTGGTTTTGACTCAATTTTGAAGCAAGAT
TTGCTAGTTTTATCTCTTTTCCAGTCACCAACACTGGTAGCAAAATATGCTGTTATTTCAAGTGTTTTTGAAGGTATTGCTCAGACATACATCCTTGCAC
AAACTA

Translation

[193 - 1005/1006]   direct strand
>GOS_1291010 Translation [193-1005   direct strand]
MLSVKRFSNYLPPLYSFIAIFFSALFFIYVGRSGNEDTIGRFSVISTIIFLLTHLFSLGNDHSILSSSIQNKNKDYFYIDKRIFIPLYSFFLTLGLIFML
IEVELVREYVSKYIPSSNSEYTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFFFKAIGLGLGIAAFIFIPGLIELHIVFIMELVCASLLVALYA
LLCFKFLFCNSKNGFQLKFVISGLNIFGFDSILKQDLLVLSLFQSPTLVAKYAVISSVFEGIAQTYILAQT

[ Warning ] 3' incomplete: following codon is not a STOP

Annotator commentaries

-La recherche d'ORF nous a permis de sélectionner un ORF, à partir de notre séquence nucléique.

A ce stade, nous pouvons penser que notre séquence peut être traduit en protéine.


-Nous avons ensuite rechercher d'éventuels domaines protéiques conservés après traduction de notre ORF.

Nous obtenons des domaines protéiques non référencés dans interpro,et nous supposons que notre ORF code pour une protéine transmenbranaire en forme d'hélice(domaines structuraux et non fonctionnels) et dispose aussi d'un peptide signal.


-L'analyse se poursuit par l'étude de notre séquence grâce cette fois-ci aux différents blasts pour rechercher s'il existe d'éventuels homologues de nos ORF dans les banques de séquence.

Les résultats des blasts, qu'il soit fait à partir d'une séquence protéique ou nucléique,nous indique qu'il n'existe pas de séquence homologues à notre ORF.

Ainsi nous supposons qu'il s'agit d'une protéine hypothétique, c'est à dire une protéine qui n'est pas encore référencée dans les banques de données, ou bien un faux positif, c'est à dire une séquence qui semble être un ORF mais qui en réalité n'en est pas un.

Ainsi on ne peut conclure si notre séquence est codante ou pas.






ORF finding

PROTOCOLE:

a) SMS ORFinder / sens direct / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'

b) SMS ORFinder / sens indirect / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'

e) SMS ORFinder / sens direct / cadres 1, 2 & 3 / min 60 AA / initiation 'atg' / code génétique 'universal'


ANALYSE DES RÉSULTATS:

- les recherches a) et b) nous ont permis d'obtenir trois ORFs ,deux dans le sens direct et un dans le sens indirect.

-les ORFs obtenus sont:

- le premier dans le sens direct et dans le cadre 1 mesure 824pb, 181->1005.

- le deuxième dans le sens direct et dans le cadre 2 mesure 191pb, 2->193.

- le troisième dans le sens indirect et dans le cadre 3 mesure 413pb, 171->584.


-Nous devons travailler sur le plus grand des ORFs ainsi nous sélectionnons le premier ORF.


-La recherche e) permet de définir comme codon d'initiation l'ATG et en sens direct, étant donné que notre plus grand ORF se trouve sur ce brin. Nous obtenons ainsi le début d'une séquence potentiellement codante. Nous observons alors un ORF putatif, qui diffère de 12 paires de bases, soit quatre acides aminés,ce qui ne modifie en rien notre analyse.


-Notre ORF s'étend Du nucléotide 193 au 1005.


RÉSULTATS BRUTS:
=>standard direct:
>ORF number 1 in reading frame 1 on the direct strand extends from base 181 to base 1005.
GGTAAGTTACTAATGTTGTCTGTAAAAAGGTTTAGTAATTATTTGCCGCCCTTATATTCA
TTTATAGCTATTTTTTTTAGTGCTTTATTTTTCATTTATGTTGGTAGAAGTGGAAATGAA
GACACTATCGGCAGATTTTCTGTTATTTCAACAATAATATTTTTACTCACCCATCTTTTT
TCATTAGGGAATGATCATTCAATATTATCATCAAGCATCCAAAACAAAAATAAAGACTAT
TTTTATATTGATAAAAGAATTTTTATCCCCTTGTACTCATTCTTTTTAACTCTTGGGTTA
ATTTTCATGCTCATTGAGGTTGAGCTAGTTAGAGAATATGTTTCCAAATATATTCCTTCT
TCTAACTCAGAATATACACATTTAGTTATAACTATTGCATTAACCGTCTTTCTAGCCAAT
TTCTCAAAGACACTTGCATCTTTTTTGATAATAAACTCTCTCAAGGATCTAGGAAATTTA
ATTTTTTTCTTTAAAGCCATTGGTCTTGGATTAGGTATAGCTGCATTTATATTCATTCCA
GGGTTAATTGAATTACATATTGTTTTTATTATGGAGTTAGTTTGTGCTTCATTATTGGTT
GCTTTATACGCATTACTTTGTTTTAAATTCTTGTTTTGTAATTCTAAAAATGGCTTTCAA
TTAAAATTTGTTATTTCTGGTCTGAATATTTTTGGTTTTGACTCAATTTTGAAGCAAGAT
TTGCTAGTTTTATCTCTTTTCCAGTCACCAACACTGGTAGCAAAATATGCTGTTATTTCA
AGTGTTTTTGAAGGTATTGCTCAGACATACATCCTTGCACAAACT

>Translation of ORF number 1 in reading frame 1 on the direct strand.
GKLLMLSVKRFSNYLPPLYSFIAIFFSALFFIYVGRSGNEDTIGRFSVISTIIFLLTHLF
SLGNDHSILSSSIQNKNKDYFYIDKRIFIPLYSFFLTLGLIFMLIEVELVREYVSKYIPS
SNSEYTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFFFKAIGLGLGIAAFIFIP
GLIELHIVFIMELVCASLLVALYALLCFKFLFCNSKNGFQLKFVISGLNIFGFDSILKQD
LLVLSLFQSPTLVAKYAVISSVFEGIAQTYILAQT

>ORF number 1 in reading frame 2 on the direct strand extends from base 2 to base 193.
AGAATTTTTGAAAAAAACTGGGAATTTATTAAATCTCTATTAATTCAATCACCTGAGATT
CCATTTATAGATAAAAAAAATTTTTTGAAGCATTGCGATTTAGTTTCAAACAATACCGGA
AAATACTCTCCAATTATATGGCGGGTAATAAACTTGTTCCTTTGGTCAAAAATTTTTAAG
GTAAGTTACTAA

>Translation of ORF number 1 in reading frame 2 on the direct strand.
RIFEKNWEFIKSLLIQSPEIPFIDKKNFLKHCDLVSNNTGKYSPIIWRVINLFLWSKIFK
VSY*

No ORFs were found in reading frame 3.

=>standard indirect: (rien en 1 et 2)
>ORF number 1 in reading frame 3 on the reverse strand extends from base 171 to base 584.
AAGCCATTTTTAGAATTACAAAACAAGAATTTAAAACAAAGTAATGCGTATAAAGCAACC
AATAATGAAGCACAAACTAACTCCATAATAAAAACAATATGTAATTCAATTAACCCTGGA
ATGAATATAAATGCAGCTATACCTAATCCAAGACCAATGGCTTTAAAGAAAAAAATTAAA
TTTCCTAGATCCTTGAGAGAGTTTATTATCAAAAAAGATGCAAGTGTCTTTGAGAAATTG
GCTAGAAAGACGGTTAATGCAATAGTTATAACTAAATGTGTATATTCTGAGTTAGAAGAA
GGAATATATTTGGAAACATATTCTCTAACTAGCTCAACCTCAATGAGCATGAAAATTAAC
CCAAGAGTTAAAAAGAATGAGTACAAGGGGATAAAAATTCTTTTATCAATATAA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
KPFLELQNKNLKQSNAYKATNNEAQTNSIIKTICNSINPGMNINAAIPNPRPMALKKKIK
FPRSLREFIIKKDASVFEKLARKTVNAIVITKCVYSELEEGIYLETYSLTSSTSMSMKIN
PRVKKNEYKGIKILLSI*



recherche avec initiation atg:
>ORF number 1 in reading frame 1 on the direct strand extends from base 193 to base 1005.
ATGTTGTCTGTAAAAAGGTTTAGTAATTATTTGCCGCCCTTATATTCATTTATAGCTATT
TTTTTTAGTGCTTTATTTTTCATTTATGTTGGTAGAAGTGGAAATGAAGACACTATCGGC
AGATTTTCTGTTATTTCAACAATAATATTTTTACTCACCCATCTTTTTTCATTAGGGAAT
GATCATTCAATATTATCATCAAGCATCCAAAACAAAAATAAAGACTATTTTTATATTGAT
AAAAGAATTTTTATCCCCTTGTACTCATTCTTTTTAACTCTTGGGTTAATTTTCATGCTC
ATTGAGGTTGAGCTAGTTAGAGAATATGTTTCCAAATATATTCCTTCTTCTAACTCAGAA
TATACACATTTAGTTATAACTATTGCATTAACCGTCTTTCTAGCCAATTTCTCAAAGACA
CTTGCATCTTTTTTGATAATAAACTCTCTCAAGGATCTAGGAAATTTAATTTTTTTCTTT
AAAGCCATTGGTCTTGGATTAGGTATAGCTGCATTTATATTCATTCCAGGGTTAATTGAA
TTACATATTGTTTTTATTATGGAGTTAGTTTGTGCTTCATTATTGGTTGCTTTATACGCA
TTACTTTGTTTTAAATTCTTGTTTTGTAATTCTAAAAATGGCTTTCAATTAAAATTTGTT
ATTTCTGGTCTGAATATTTTTGGTTTTGACTCAATTTTGAAGCAAGATTTGCTAGTTTTA
TCTCTTTTCCAGTCACCAACACTGGTAGCAAAATATGCTGTTATTTCAAGTGTTTTTGAA
GGTATTGCTCAGACATACATCCTTGCACAAACT

>Translation of ORF number 1 in reading frame 1 on the direct strand.
MLSVKRFSNYLPPLYSFIAIFFSALFFIYVGRSGNEDTIGRFSVISTIIFLLTHLFSLGN
DHSILSSSIQNKNKDYFYIDKRIFIPLYSFFLTLGLIFMLIEVELVREYVSKYIPSSNSE
YTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFFFKAIGLGLGIAAFIFIPGLIE
LHIVFIMELVCASLLVALYALLCFKFLFCNSKNGFQLKFVISGLNIFGFDSILKQDLLVL
SLFQSPTLVAKYAVISSVFEGIAQTYILAQT

Multiple Alignement

PROTOCOLE:



ANALYSE DES RÉSULTATS:

RÉSULTATS BRUTS:

Protein Domains

PROTOCOLE:

a)INTERPRO

b) CBS/tmhmm


ANALYSE DES RÉSULTATS:


-On obtient des domaines protéiques non intégrés dans la base de données INTERPRO.

Parmis ces domaines protéiques, nous supposons la présence de domaines structuraux telle que les régions transmembranaires, ceci justifie l'abscence de numéro d'accession dans interpro.


-raw output nous renseigne sur la taille des parties transmembranaires et ainsi la presence d'un "peptide signal" de 1 à 33Aa.


- A ce niveau on suppose l'existence de différentes régions transmembranaires:

  • De 1-> 9: Domaine intracellulaire
  • De 10-> 30:Domaine transmembranaire en forme hélice alpha
  • De 31-> 40:Domaine extracellulaire
  • De 41-> 58:Domaine transmembranaire en forme hélice alpha
  • De 59-> 82:Domaine intracellulaire
  • De 83-> 105:Domaine transmembranaire en forme hélice alpha
  • De 106-> 124:Domaine extracellulaire
  • De 125-> 147:Domaine transmembranaire en forme hélice alpha
  • De 148-> 153: Domaine intracellulaire
  • De 154-> 176: Domaine transmembranaire en forme hélice alpha
  • De 177-> 185: Domaine extracellulaire
  • De 186-> 208: Domaine transmembranaire en forme hélice alpha
  • De 209-> 271: Domaine intracellulaire


De plus on remarque l'existence possible d'un peptide signal, de 1->33 acides aminés.

Un peptide signal est une chaîne peptidique d'une protéine servant à adresser celle-ci à un compartiment cellulaire (organite) particulier. Or ce peptide signal ne contient pas de numero Ipr, il ne peut nous renseigner quant à la fonction de notre protéine.



RÉSULTATS BRUTS:

raw output:
GOS_1291010	AB86C79BF9B90B39	271	TMHMM	tmhmm	transmembrane_regions	10	30	NA	?	12-Feb-2010	NULL	NULL
GOS_1291010	AB86C79BF9B90B39	271	TMHMM	tmhmm	transmembrane_regions	40	58	NA	?	12-Feb-2010	NULL	NULL
GOS_1291010	AB86C79BF9B90B39	271	TMHMM	tmhmm	transmembrane_regions	83	101	NA	?	12-Feb-2010	NULL	NULL
GOS_1291010	AB86C79BF9B90B39	271	TMHMM	tmhmm	transmembrane_regions	125	147	NA	?	12-Feb-2010	NULL	NULL
GOS_1291010	AB86C79BF9B90B39	271	TMHMM	tmhmm	transmembrane_regions	157	179	NA	?	12-Feb-2010	NULL	NULL
GOS_1291010	AB86C79BF9B90B39	271	TMHMM	tmhmm	transmembrane_regions	189	209	NA	?	12-Feb-2010	NULL	NULL
GOS_1291010	AB86C79BF9B90B39	271	SignalPHMM	SignalP	signal-peptide	1	33	NA	?	12-Feb-2010	NULL	NULL

 

Phylogeny

PROTOCOLE:



ANALYSE DES RÉSULTATS:

RÉSULTATS BRUTS:

Taxonomy report

PROTOCOLE:



ANALYSE DES RÉSULTATS:

RÉSULTATS BRUTS:

BLAST

PROTOCOLE:

a)BLASTp contre NR, paramètres par défaut au NCBI.

b)BLASTp contre swissprot, paramètres par défaut au NCBI.

c)BLASTp contre env_nr, paramètres par défaut au NCBI.

d) BLASTx contre NR, paramètres par défaut au NCBI, en utilisant l'ADN génomique de départ (1006pb)


ANALYSE DES RÉSULTATS:

On utilise BLAST pour rechercher s'il existe d'éventuels homologues de notre ORF dans les banques de séquence.


-Tout d'abord BLASTp contre NR:


Cela consiste à tester notre séquence protéique contre NR, c'est à dire la banque de protéine la plus exhaustive disponible.

On obtient uniquement 4 séquences similaires, avec des scores, des e-values et des gaps particulièrement faibles.

par exemple notre meilleur séquence dispose d'un score de 35.8 hits, d'une e-value de 4.8 et de 11% de gap, pour une taille de 76 acides aminés potentiellement homologues, sur un gene mesurant 376aa.

La courte taille de la séquence obtenue, ainsi que le pourcentage d'identité et de gap nous permette de dire que cette séquence n'est pas homologue à notre ORF qui lui mesure 271aa.

Ce phénomène se repète pour les quatre séquences obtenues, ainsi toutes ces séquences ne sont pas homologues.



-ensuite BLASTp contre swissprot:


Afin de vérifier les résultats précédent on teste notre séquence protéique contre swissprot qui est une petite banque de protéine où les fiches d'annotation sont très complètes, et qui est inclut dans NR.


On obtient ici deux séquences, avec des résultats similaire que contre NR, c'est à dire un score assez faible, des e-value non significatif.

Malgrès un taux faible de gaps, les séquences considérées ne sont pas homologues à notre séquence, du fait de leurs courtes tailles.

Le "lineage report" ne nous renseigne pas d'avantage sur la phylogénie de l'organisme étudié.



-Afin d'avancer sur la recherche, nous testons notre séquence protéique contre une banque protéique: ENV-NR, qui regroupe des séquences protéiques non répertoriés.

Cette fois-ci, on obtient qu'une seule séquence avec un score de 36.6 hits , une e-value de 0.66 et d'un gap de 0% , soit aucun décalage dans la séquence de la banque qui est composé de 36 Aa. De la même manière que précédemment nous n'avons décelé aucune homologie entre notre séquence et la banque environnementale.


-Ne trouvant pas de séquences homologues, nous avons décider de tester notre ORF contre des banques de donnée, mais en utilisant la séquence génomique.


- Nous avons donc utiliser Tblastn contre la banque env-nt:

Nous obtenons huit séquences dont une avec un score élévé: il s'agit de notre séquence que l'on retrouve dans la banque de données testée.Les autres séquences obtenues ne sont toujours pas interessentes.

Le fait d'utiliser une séquence génomique, n'enterrime pas notre recherche, qui suppose que notre séquence peut être soit une proteine hypothétique soit un faux positif.


- dans le but de rendre plus crédible notre hypothèse nous réalisons un BLASTx contre NR (séquence nucléotidique traduite par BLAST dans les 6 phases contre banque protéique). Pour cela nous utilisons encore la séquence nucléotidique complète de notre fragment. Nous utilisons ce BLASTx car nous avons des doutes sur le cadre de lecture de notre ORF.

La meilleur séquence obtenu dispose d'un score de 45.5hits, une identites de 22%, une e-value de 0.01, et un gap de 13%. Ces résultats ne sont pas en accord avec ce que l'on peut s'attendre à trouver pour une relation d'homologie entre deux séquences protéiques.




RÉSULTATS BRUTS

->blastp vs nr:
:Sequences producing significant alignments:                       (Bits)  Value

ref|XP_001516602.1|  PREDICTED: similar to MGC84681 protein [O...  35.8    4.8   Gene info
ref|XP_001350466.1|  targeted glyoxalase II [Plasmodium falcip...  35.0    9.4   Gene info
gb|ABC86837.1|  depsiphilin [Cooperia oncophora]                   34.7    9.6  
gb|ABC86836.1|  depsiphilin [Cooperia oncophora]                   34.7    9.6  

>ref|XP_001516602.1| Gene info PREDICTED: similar to MGC84681 protein [Ornithorhynchus anatinus]
Length=376

 GENE ID: 100086494 LOC100086494 | similar to MGC84681 protein
[Ornithorhynchus anatinus]

 Score = 35.8 bits (81),  Expect = 4.8, Method: Compositional matrix adjust.
 Identities = 24/87 (27%), Positives = 45/87 (51%), Gaps = 10/87 (11%)

Query  32   RSGNEDTIGRFSVISTIIFLLTHLFSLGNDHSILSSSIQNKNKDYFYIDKRIFIPLYSFF  91
            R     T G  S+++   +L+  LF LG+   I +  IQN++K+Y  I ++ F+  Y+  
Sbjct  137  RDSIRKTWGNESLVAG--YLVVRLFMLGSHDPIYTPGIQNESKEYHDIIQQNFLDTYN--  192

Query  92   LTLGLIFMLIEVELVREYVSKYIPSSN  118
                   + ++V +  E+V+ Y P +N
Sbjct  193  ------NLTLKVTMGMEWVTTYCPHAN  213


>ref|XP_001350466.1| Gene info targeted glyoxalase II [Plasmodium falciparum 3D7]
 gb|AAQ05976.1|AF486285_1  glyoxalase II [Plasmodium falciparum]
 gb|AAN36146.1| Gene info targeted glyoxalase II [Plasmodium falciparum 3D7]
Length=322

 GENE ID: 811110 PFL0285w | targeted glyoxalase II [Plasmodium falciparum 3D7]
(10 or fewer PubMed links)

 Score = 35.0 bits (79),  Expect = 9.4, Method: Compositional matrix adjust.
 Identities = 28/80 (35%), Positives = 37/80 (46%), Gaps = 11/80 (13%)

Query  101  IEVELVREYVSKYIPSSNSEYTHLVI-TIALTVFLANF-SKTLASFLIINSLKDLGNLIF  158
            I V  ++EY +KYI    S  TH  I    + +FL+NF SK   S+LI N        IF
Sbjct  127  INVYGIKEYDNKYINQDISNLTHFQINNFKINIFLSNFHSKNQVSYLIENDNNKSKKNIF  186

Query  159  FFKAIGLGLGIAAFIFIPGL  178
            F            F+FI G+
Sbjct  187  F---------TGDFLFISGI  197


>gb|ABC86837.1|  depsiphilin [Cooperia oncophora]
Length=994

 Score = 34.7 bits (78),  Expect = 9.6, Method: Composition-based stats.
 Identities = 27/113 (23%), Positives = 51/113 (45%), Gaps = 7/113 (6%)

Query  105  LVREYVSKYIPSSNSEYTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFFFKAIG  164
            ++ +YV   I S++++    +     T+ +   + T   F+I   +K  G+ +F  K + 
Sbjct  517  VLMDYVGHEISSTDNQLLTFLTYAGCTLSIVCLTLTFLCFVIF--VKGGGDRVFIHKNLC  574

Query  165  LGLGIAAFIFIPGLIELHIVFIMELVCASLLVALYALLCFKFLFCNSKNGFQL  217
            L LGIA  +F+ G+      F   ++   LL    + L +  L      G+QL
Sbjct  575  LSLGIAEVVFLAGIWRTEEKFECGMIAGCLLYFFLSALTWMLL-----EGYQL  622


>gb|ABC86836.1|  depsiphilin [Cooperia oncophora]
Length=994

 Score = 34.7 bits (78),  Expect = 9.6, Method: Composition-based stats.
 Identities = 27/113 (23%), Positives = 51/113 (45%), Gaps = 7/113 (6%)

Query  105  LVREYVSKYIPSSNSEYTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFFFKAIG  164
            ++ +YV   I S++++    +     T+ +   + T   F+I   +K  G+ +F  K + 
Sbjct  517  VLMDYVGHEISSTDNQLLTFLTYAGCTLSIVCLTLTFLCFVIF--VKGGGDRVFIHKNLC  574

Query  165  LGLGIAAFIFIPGLIELHIVFIMELVCASLLVALYALLCFKFLFCNSKNGFQL  217
            L LGIA  +F+ G+      F   ++   LL    + L +  L      G+QL
Sbjct  575  LSLGIAEVVFLAGIWRTEEKFECGMIAGCLLYFFLSALTWMLL-----EGYQL  622

Lineage Report

Eukaryota [eukaryotes]
. Bilateria [animals]
. . Ornithorhynchus anatinus (duck-billed platypus) -   35 1 hit  [monotremes]     PREDICTED: similar to MGC84681 protein [Ornithorhynchus ana
. . Cooperia oncophora ..............................   34 2 hits [nematodes]      depsiphilin [Cooperia oncophora]
. Plasmodium falciparum 3D7 -------------------------   35 2 hits [apicomplexans]  targeted glyoxalase II [Plasmodium falciparum 3D7] >gi|3332
. Plasmodium falciparum .............................   35 1 hit  [apicomplexans]  targeted glyoxalase II [Plasmodium falciparum 3D7] >gi|3332





->blast vs swissprot:

Sequences producing significant alignments:                       (Bits)  Value

sp|Q56415.1|FOSA_SERMA  RecName: Full=Glutathione transferase ...  32.3    3.2  
sp|Q924C9.1|S26A3_RAT  RecName: Full=Chloride anion exchanger;...  31.6    5.6   Gene info

>sp|Q56415.1|FOSA_SERMA  RecName: Full=Glutathione transferase fosA; AltName: Full=Fosfomycin 
resistance protein
Length=141

 Score = 32.3 bits (72),  Expect = 3.2, Method: Compositional matrix adjust.
 Identities = 23/79 (29%), Positives = 34/79 (43%), Gaps = 7/79 (8%)

Query  91   FLTLGLIFMLIEVELVREYVSKYIPSSNSEYTHLVITIALTVFLANFSKTL--ASFLIIN  148
            +LT G +++ +  +  R+YV    P   S+YTH   T+A   F    S+ L  A   I  
Sbjct  39   YLTCGDLWVCLSYDEARQYV----PPQESDYTHYAFTVAEEDF-EPLSQRLEQAGVTIWK  93

Query  149  SLKDLGNLIFFFKAIGLGL  167
              K  G   +F    G  L
Sbjct  94   QNKSEGASFYFLDPDGHKL  112


>sp|Q924C9.1|S26A3_RAT Gene info RecName: Full=Chloride anion exchanger; AltName: Full=Down-regulated 
in adenoma; Short=Protein DRA; AltName: Full=Solute 
carrier family 26 member 3
Length=757

 GENE ID: 114629 Slc26a3 | solute carrier family 26, member 3
[Rattus norvegicus] (10 or fewer PubMed links)

 Score = 31.6 bits (70),  Expect = 5.6, Method: Compositional matrix adjust.
 Identities = 19/65 (29%), Positives = 36/65 (55%), Gaps = 3/65 (4%)

Query  11   LPPLYSFIAIFFSALFFIYVGRSGNEDTIGRFSVISTIIFLLTHLFSLGNDHS--ILSSS  68
            +PP Y   A FF  + + ++G S    ++G F V+S ++ ++    + G+D S  + SSS
Sbjct  100  IPPAYGLYAAFFPVITYFFLGTS-RHISVGPFPVLSMMVGVVVTRVASGSDTSPALSSSS  158

Query  69   IQNKN  73
             +N +
Sbjct  159  AENDS  163
 
Lineage Report

cellular organisms
. Serratia marcescens -----------   32 1 hit  [enterobacteria]  RecName: Full=Glutathione transferase fosA; AltName: Full=F
. Rattus norvegicus (brown rat) .   31 1 hit  [rodents]         RecName: Full=Chloride anion exchanger; AltName: Full=Down

->blastp vs env_nr:

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|EBS06179.1|  hypothetical protein GOS_7497163 [marine metag...  36.6    0.66 

>gb|EBS06179.1|  hypothetical protein GOS_7497163 [marine metagenome]
Length=65

 Score = 36.6 bits (83),  Expect = 0.66, Method: Compositional matrix adjust.
 Identities = 16/37 (43%), Positives = 27/37 (72%), Gaps = 0/37 (0%)

Query  113  YIPSSNSEYTHLVITIALTVFLANFSKTLASFLIINS  149
            ++P SN +   ++IT+A+T FL NF++ +AS +I NS
Sbjct  24   FVPISNGDEPQVLITVAITTFLLNFTQEIASSIIFNS  60

tblastn vs env-nt:

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|AACY022062227.1|  Marine metagenome 1092351305079, whole ge...   474    1e-132
gb|AACY023101036.1|  Marine metagenome ctg_1101667508387, whol...  36.6    0.62  
gb|AACY021765629.1|  Marine metagenome 1214784, whole genome s...  35.0    1.7   
gb|ADGO01142008.1|  Compost metagenome FHNL2OP03QZI7W, whole g...  34.7    2.3   
gb|AACY021879345.1|  Marine metagenome 1091150248047, whole ge...  34.7    2.7   
gb|AACY020407997.1|  Marine metagenome 1096626522349, whole ge...  34.7    2.7   
dbj|BABD01000121.1|  Human gut metagenome DNA, contig sequence...  33.9    4.7   
gb|AACY023934297.1|  Marine metagenome ctg_1101668741648, whol...  33.1    7.9   

>gb|AACY022062227.1| Marine metagenome 1092351305079, whole genome shotgun sequence Length=966 Score = 474 bits (1219), Expect = 1e-132, Method: Compositional matrix adjust. Identities = 258/258 (100%), Positives = 258/258 (100%), Gaps = 0/258 (0%) Frame = +1 Query 1 MLSVKRFSNYLPPLYsfiaiffsalffiYVGRSGNEDTIGRFSVISTIIFLLTHLFSLGN 60 MLSVKRFSNYLPPLYSFIAIFFSALFFIYVGRSGNEDTIGRFSVISTIIFLLTHLFSLGN Sbjct 193 MLSVKRFSNYLPPLYSFIAIFFSALFFIYVGRSGNEDTIGRFSVISTIIFLLTHLFSLGN 372 Query 61 DHSILSSSIQNKNKDYFYIDKRIFIPLYSFFLTLGLIFMLIEVELVREYVSKYIPSSNSE 120 DHSILSSSIQNKNKDYFYIDKRIFIPLYSFFLTLGLIFMLIEVELVREYVSKYIPSSNSE Sbjct 373 DHSILSSSIQNKNKDYFYIDKRIFIPLYSFFLTLGLIFMLIEVELVREYVSKYIPSSNSE 552 Query 121 YTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFFFKAIGLGLGIAAFIFIPGLIE 180 YTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFFFKAIGLGLGIAAFIFIPGLIE Sbjct 553 YTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFFFKAIGLGLGIAAFIFIPGLIE 732 Query 181 LHIVFIMELVCASLLVALYALLCFKFLFCNSKNGFQLKFVISGLNIFGFDSILKQDLLVL 240 LHIVFIMELVCASLLVALYALLCFKFLFCNSKNGFQLKFVISGLNIFGFDSILKQDLLVL Sbjct 733 LHIVFIMELVCASLLVALYALLCFKFLFCNSKNGFQLKFVISGLNIFGFDSILKQDLLVL 912 Query 241 SLFQSPTLVAKYAVISSV 258 SLFQSPTLVAKYAVISSV Sbjct 913 SLFQSPTLVAKYAVISSV 966 >gb|AACY023101036.1| Marine metagenome ctg_1101667508387, whole genome shotgun sequence Length=978 Score = 36.6 bits (83), Expect = 0.62, Method: Compositional matrix adjust. Identities = 16/37 (43%), Positives = 27/37 (72%), Gaps = 0/37 (0%) Frame = -3 Query 113 YIPSSNSEYTHLVITIALTVFLANFSKTLASFLIINS 149 ++P SN + ++IT+A+T FL NF++ +AS +I NS Sbjct 439 FVPISNGDEPQVLITVAITTFLLNFTQEIASSIIFNS 329 >gb|AACY021765629.1| Marine metagenome 1214784, whole genome shotgun sequence Length=746 Score = 35.0 bits (79), Expect = 1.7, Method: Compositional matrix adjust. Identities = 29/91 (31%), Positives = 50/91 (54%), Gaps = 7/91 (7%) Frame = +2 Query 89 SFFLTLGLIFMLIEVELVREY--VSKYIPSSNSEYTHLVITIALTVFLANFSKTLASFLI 146 SF LT + +L+ + + +Y + IPS +++ T I+ AL F NFS T++S L Sbjct 29 SFDLTCSGVNILLTISISPKYEKIKVSIPSGSAKLTDDCISQALDGFCPNFSGTISSTL- 205 Query 147 INSLKDL--GNLIFFFKAIGLGLGIAAFIFI 175 + K++ +L F ++G G I +F+FI Sbjct 206 --NPKEIF*PSLTEFCLSLGTGTIIPSFVFI 292 >gb|ADGO01142008.1| Compost metagenome FHNL2OP03QZI7W, whole genome shotgun sequence Length=457 Score = 34.7 bits (78), Expect = 2.3, Method: Compositional matrix adjust. Identities = 22/50 (44%), Positives = 24/50 (48%), Gaps = 5/50 (10%) Frame = +3 Query 70 QNKNKDYFYIDKRIFIPLYSFFLTLGLIFMLIEVELVREYVSKYIPSSNS 119 QN D FY D P+Y F+ GLIFML VR SKY NS Sbjct 222 QNGKADMFYFD-----PMYFVFMLPGLIFMLWAQSRVRGAYSKYSNVRNS 356 >gb|AACY021879345.1| Marine metagenome 1091150248047, whole genome shotgun sequence Length=930 Score = 34.7 bits (78), Expect = 2.7, Method: Compositional matrix adjust. Identities = 19/43 (44%), Positives = 29/43 (67%), Gaps = 5/43 (11%) Frame = -3 Query 148 NSLKDLGNLIFFFKAIGLGLGIAAFIFIPGLIEL----HIVFI 186 N + ++IFF A GLGLG+AA+I + GLI+L H++F+ Sbjct 697 NCMHPAWSIIFFTSASGLGLGLAAWIVL-GLIDLSQFWHLIFV 572 >gb|AACY020407997.1| Marine metagenome 1096626522349, whole genome shotgun sequence Length=1671 Score = 34.7 bits (78), Expect = 2.7, Method: Compositional matrix adjust. Identities = 30/94 (31%), Positives = 48/94 (51%), Gaps = 13/94 (13%) Frame = +3 Query 89 SFFLTLGLIFMLIEVELVREYVS--KYIPSSNSEYTHLVITIALTVFLANFSKTLASFLI 146 SF LT + +L+ + + ++V +PS +++ T I+ AL F NFS T++S L Sbjct 735 SFDLTCSGVNILLTISISPKFVKIKVSVPSGSAKLTDDCISQALDGFCPNFSGTISSALN 914 Query 147 IN-----SLKDLGNLIFFFKAIGLGLGIAAFIFI 175 N SL D F ++G G I +F+FI Sbjct 915 PNEIF*PSLTD------FCLSLGTGTIIPSFVFI 998 >dbj|BABD01000121.1| Download subject sequence spanning the HSP Human gut metagenome DNA, contig sequence: In-D_000121, whole genome shotgun sequence Length=14554 Score = 33.9 bits (76), Expect = 4.7, Method: Compositional matrix adjust. Identities = 18/46 (39%), Positives = 29/46 (63%), Gaps = 1/46 (2%) Frame = -3 Query 67 SSIQNKNKDYFYIDKRI-FIPLYSFFLTLGLIFMLIEVELVREYVS 111 +S +NKNK YF RI FI + L +GL+ + I++ LVR +++ Sbjct 13784 TSSENKNKSYFLTKSRI*FISRRVYQLPVGLLGLQIKIPLVRSFIN 13647 >gb|AACY023934297.1| Marine metagenome ctg_1101668741648, whole genome shotgun sequence Length=1558 Score = 33.1 bits (74), Expect = 7.9, Method: Compositional matrix adjust. Identities = 26/76 (34%), Positives = 40/76 (52%), Gaps = 9/76 (11%) Frame = +1 Query 137 FSKTLASFLIINSLKDLGNL-----IFFFKAIGLGLGIA---AFIFIPGLIELHIVFIME 188 FS+ L +N LK++ L I +F A+ LG G+ FIPGL+EL++ F +E Sbjct 376 FSRKDRPLLTLNGLKNIAALSILLAILYF-AVVLGEGVKTGHGIGFIPGLVELNVNFFVE 552 Query 189 LVCASLLVALYALLCF 204 + L Y+L+ F Sbjct 553 RILDRLSPHTYSLINF 600




blastx contre nr:on utilise que les sequence ayant plus de 40 de score( ici les 6 premières)


>ref|YP_001330575.1| Gene info polysaccharide biosynthesis protein [Methanococcus maripaludis 
C7]
 gb|ABR66424.1| Gene info polysaccharide biosynthesis protein [Methanococcus maripaludis 
C7]
Length=413

 GENE ID: 5328304 MmarC7_1361 | polysaccharide biosynthesis protein
[Methanococcus maripaludis C7]

 Score = 45.4 bits (106),  Expect = 0.010
 Identities = 54/236 (22%), Positives = 105/236 (44%), Gaps = 33/236 (13%)
 Frame = +1

Query  310  GRFSVISTIIFLLTHLFSLGNDHSILSSSIQNKNKDYFYIDKRIFIPLYSFFLTLGLIFM  489
            G ++ ++T + L+    S G     L    +N NK      + I++     FL L +I  
Sbjct  45   GNYTTVTTFLGLVFIFLSPGFIEYGLFEFSKNNNKIEKLTGELIYL-----FLALCIIGF  99

Query  490  LIEVELVREYVSKYIPSSNSEYTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFF  669
            ++ + ++  Y+  YI  S      LVI I L +FL  F   + + L   +L +  +L+  
Sbjct  100  VVTI-IIYPYLYPYITYS------LVILIFLKLFLDWFMNLITTILQSKNLFNNVSLLQI  152

Query  670  FKAIGLGL--------GIAAFIFIPGLIELHIVFIMELVCASLLVALYALLCFKFLFCNS  825
             +++ L L        G    +F+  +I L ++ ++       L+ L  ++       N 
Sbjct  153  LRSLTLVLPLILLYHYGYGLNVFLINVIVLALIMVV-------LITLKEVIGKNINLKNV  205

Query  826  KNGFQL-KFVISGLNIFGFDSIL-----KQDLLVLSLFQSPTLVAKYAVISSVFEG  975
            K GF   + VI     F   +++     + D+L+LS+  +P  V +YAV++++  G
Sbjct  206  KKGFSFNRSVIPSSKYFFISALMSYIYMQSDILMLSVMTTPLEVGRYAVVTTIITG  261


>ref|YP_003302856.1| Gene info hypothetical protein MHO_3180 [Mycoplasma hominis]
 emb|CAX37453.1| Gene info Conserved hypothetical protein [Mycoplasma hominis]
Length=493

 GENE ID: 8595098 MHO_3180 | hypothetical protein [Mycoplasma hominis]
(10 or fewer PubMed links)

 Score = 43.5 bits (101),  Expect = 0.038
 Identities = 54/237 (22%), Positives = 99/237 (41%), Gaps = 35/237 (14%)
 Frame = +1

Query  319  SVISTIIFLLTHLFSLGNDHSILSSSIQNKNKDYFYIDKRIFIPLYSFFLTLGLIFMLIE  498
            S + TI F+L  L+ +   + I +  IQ K     Y +K I I   +F   L ++F+ I 
Sbjct  147  SKLFTISFILIALYIINFSYEIFNFLIQRKTNPLLYKNKNILIISLTFQGILTILFVAIS  206

Query  499  VELVREYVSKYIPSSNSEYTHLVITIALTVFLANFSKTLASFLIINSLKDLGNLIFFFKA  678
               +   ++K I    +++   +  I      +NF   + +FL++ +   L N+ FF   
Sbjct  207  FVWINLGINKDILFVGNKFYETIRDILTIKSASNFVIIVLTFLVLTTFIVLSNIKFFALL  266

Query  679  IG---------------LGLGIAAFIFI--------------PGLIELHIVFIMELVCAS  771
            I                L L  A FI+I               G  +   ++I + V A 
Sbjct  267  INKKYDKFYLKNQLLFLLVLFGAVFIWILRIFAYKHNNENISIGSSKATWIYIFQSVFAI  326

Query  772  LLVALYALLCFKFLFCNSKNGFQLKFVISGLNIFGFDSILKQDLLVLSLFQSPTLVA  942
            ++   Y ++ F+  F   K+ F+     S LN+     +L   LL+ +LF + ++V+
Sbjct  327  VVFIAYMVVSFQKRF-EMKSSFR-----SWLNLAIVQIVLALSLLLTTLFNTNSIVS  377


>ref|ZP_05747481.1|  T-RNA-processing ribonuclease BN [Erysipelothrix rhusiopathiae 
ATCC 19414]
 gb|EEW55868.1|  T-RNA-processing ribonuclease BN [Erysipelothrix rhusiopathiae 
ATCC 19414]
Length=299

 Score = 41.2 bits (95),  Expect = 0.19
 Identities = 38/139 (27%), Positives = 68/139 (48%), Gaps = 11/139 (7%)
 Frame = +1

Query  421  FYIDKRIFIPLYSFFLT--LGLIFMLIEVELVREYVSKYIPSSNSEYTHLVITIALTVFL  594
            F I   +F+  Y + ++  + L+   +  +L+  +V  YI +S+     L++++ L V +
Sbjct  38   FIIISVVFVGTYVYDVSQIIQLLQRYVPADLILPFVD-YIQTSDLSNLWLIVSL-LGVSI  95

Query  595  ANFSKTLASFLIINSLKDLGNLIFFFKAI-------GLGLGIAAFIFIPGLIELHIVFIM  753
               SK++ SFL+++S +D  N+  FF  I        + LGI AF  + G +     F  
Sbjct  96   WVASKSIYSFLLLSSEQDGVNINHFFLRILACVYFIMIVLGIMAFGILIGYVPFINKFTT  155

Query  754  ELVCASLLVALYALLCFKF  810
             +V     V  Y LL FK+
Sbjct  156  PIVITFFFVFFYRLLSFKY  174


>ref|XP_001386547.2| Gene info hypothetical protein PICST_50995 [Pichia stipitis CBS 6054]
 gb|ABN68518.2| Gene info predicted protein [Pichia stipitis CBS 6054]
Length=664

 GENE ID: 4840966 PICST_50995 | hypothetical protein [Pichia stipitis CBS 6054]
(10 or fewer PubMed links)

 Score = 41.2 bits (95),  Expect = 0.19
 Identities = 30/115 (26%), Positives = 56/115 (48%), Gaps = 8/115 (6%)
 Frame = +1

Query  424  YIDKRIFIPLYSFFL--TLGLIFMLIEVELVREYVSKYIPSSNSEYTHLVITIALTVFLA  597
            +++K  F  +YSF    TL LI +++E  ++  Y+S  +   N  +  L   I  ++   
Sbjct  545  WLEKTTFYYMYSFLFVTTLMLIVIIVESTIIAVYISLAV-YHNPHWQWLSFRIGSSIGWF  603

Query  598  NFSKTLASFLIINSLKDLGNLIFFF-----KAIGLGLGIAAFIFIPGLIELHIVF  747
             F  ++  F+   S+ D  + + FF       I +GLG  A   + GLI ++++F
Sbjct  604  IFGYSIYYFIFYLSVHDFVSSLLFFGYMALACIAVGLGCGAVGLLTGLIFINVIF  658


>ref|ZP_04821968.1|  spore germination protein [Clostridium botulinum E1 str. 'BoNT 
E Beluga']
 gb|EES49253.1|  spore germination protein [Clostridium botulinum E1 str. 'BoNT 
E Beluga']
Length=365

 Score = 40.8 bits (94),  Expect = 0.24
 Identities = 45/192 (23%), Positives = 80/192 (41%), Gaps = 26/192 (13%)
 Frame = +1

Query  439  IFIPLYSFFLTLGLIFMLIEVELVREYVSKYIPSSNSEYTHLVITIALTVFLANFSKTLA  618
            + +      L  G++ +LIE      Y+   +  +N     +   + L   L++    L 
Sbjct  142  VIVAFSLLLLNDGILAVLIEPYKNYRYIFPIL-HNNLNIDSIKCILFLLGSLSSIGIVLP  200

Query  619  SFLIINSLKDLG----------NLIFFFKAIG----LGLGIAAFIFIPGLIELHIVFIME  756
               ++NS KDL           ++I  F  IG    LG   +A IF PG I+  I+ I+E
Sbjct  201  YLKLLNSKKDLKKNTLISLLFVSIITIFSIIGVIATLGAERSANIFYPGFIQSDIIQILE  260

Query  757  LVCASLLVALYALLCFKFLFCNSKNGFQLKFVISGLNIF-GFDSILKQDLLVLSLFQSPT  933
             +       ++ ++           GF +KFV+SG  IF  +   +K   +  S+F    
Sbjct  261  FIEFGEFFYIFRIVV----------GFFIKFVLSGYAIFLIYHDKIKSKKIFFSIFLVVV  310

Query  934  LVAKYAVISSVF  969
            L+  Y V ++ +
Sbjct  311  LILSYLVSNNSY  322


>ref|YP_184008.1| Gene info Trk-type pottasium transport system, NAD-binding component [Thermococcus 
kodakarensis KOD1]
 dbj|BAD85784.1| Gene info Trk-type pottasium transport system, NAD-binding component [Thermococcus 
kodakarensis KOD1]
Length=229

 GENE ID: 3235545 TK1595 | Trk-type pottasium transport system, NAD-binding
component [Thermococcus kodakarensis KOD1] (10 or fewer PubMed links)

 Score = 40.0 bits (92),  Expect = 0.42
 Identities = 18/80 (22%), Positives = 40/80 (50%), Gaps = 0/80 (0%)
 Frame = -3

Query  821  LQNKNLKQSNAYKATNNEAQTNSIIKTICNSINPGMNINAAIPNPRPMALKKKIKFPRSL  642
            L+  N+KQ++A+ A       N +   +  S+NP +  +  + NP+   + +++K  +  
Sbjct  58   LEEANIKQADAFAALTGRDDANLLACILAKSLNPNIKTSLRVSNPKNRRIFEEVKDLKKY  117

Query  641  REFIIKKDASVFEKLARKTV  582
             +F+I  +    E ++R  V
Sbjct  118  FDFVISPEEIAAEYISRNIV  137