GOS 2047020

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : JCVI_READ_1091119955964
Annotathon code: GOS_2047020
Sample :
  • GPS :6°29'34n; 82°54'14w
  • Eastern Tropical Pacific: 250 miles from Panama City - Panama
  • Open Ocean (-2m, 29.3°C, 0.1-0.8 microns)
Authors
Team : Biochimie 2011
Username : pump_it_up
Annotated on : 2011-05-25 15:53:16
  • COCHET Ivan
  • FOURNIER Mélanie

Synopsis

Genomic Sequence

>JCVI_READ_1091119955964 GOS_2047020 Genomic DNA
GTAAGCATTTTAAAAAGATCCACCCTGGTGGTAATATTGGTAAGGATCTTAAATATATTAGTGAAATAATGCATTTAAAAAAAGCTTTACCTATTGCAAA
GAAAGATGAAAAGATGTCTAAAGCACTTATTGAAATGACAAAAAAAAGTTTTGGCTGTTTGGGTGTTGTCGACAGTAAAAACAAAATAATTGGAATAATA
ACTGATGGAGATCTTAGAAGAAAAATAAATTCAAAATTTTTTGAAAAGAAAGCATCTGAAATAATGACTAAAAATCCGACTATTGCAGATAAGAAAATGA
TTGTGGGAGAGGCAATTAGCTTAATGAATAAAAAGAAAATAACAAGTTTATTTGTTTGTGAAAACAAAAAACCAATCGGGATAGTACATATTCATGACTT
ATTAAGGATAACAAGCTAAATTGAATTTATTATTTTTAATAAATAAGAAATATATATTATTTTTTTCAATCTTAAGCTTCTTTATTGTTGGTACTTTTTT
TTACTTAAAATATGATACTTTTGACAAAAAAAATTTAAAAAATAGTATAAAAATTTCAAACGTAGATATCACATTACCTAAATTTTCAATAAATAATGAA
GACAAAAAAATATTTGTTACAGCTAAAGAAGGAAACTTTGTAGATGAAAATAAAATCCTTCTTAACAAAAATGTAAAACTCAAATCCAAAACATTCATTA
TTGAAACAGATCAAGTGATCTTTAATAGAAAAGATCAAACAGCTACTAGTAAATCAATGTCTGTTTTTAAATCTAAAAATGCAAGTATATTTTCTGAAGG
TTTTGATATTTATGATAATGGAAAAAAAATAAGTTTTAGTGGAAATGCACAATTAATATTAAAATGAGATATTTAATTATAATTTTATTATTACTAATAT
TTAGTTCTAGCATACAATCAAGAGAAAGTGGAGAAAC

Translation

[412 - 864/937]   direct strand
>GOS_2047020 Translation [412-864   direct strand]
QAKLNLLFLINKKYILFFSILSFFIVGTFFYLKYDTFDKKNLKNSIKISNVDITLPKFSINNEDKKIFVTAKEGNFVDENKILLNKNVKLKSKTFIIETD
QVIFNRKDQTATSKSMSVFKSKNASIFSEGFDIYDNGKKISFSGNAQLILK

[ Warning ] 5' incomplete: does not start with a Methionine

Annotator commentaries

L'étude de la séquence génomique GOS_2047020.45 nous a permis d'obtenir un ORF, dans le sens direct et dans le cadre de lecture +1. Cette ORF a été choisi car elle était la plus longue, et donc elle avait la plus grande probabilité de coder pour une protéine. Notre ORF ne commence pas par une méthionine du fait du choix du paramètre "any codons". Par la suite, l'alignement multiple nous a montré que la protéine commençait 9 codons en aval dans notre ORF : Cela correspond avec le même ORF trouvé avec les codons alternatifs.


Avec INTERPRO, nous avons obtenu des domaines structuraux : un peptide signal et un domaine transmembranaire, et un domaine Lptc-related. Nous avons supposé de cette recherche que cette ORF code pour une protéine qui appartient à la famille des Lptc. Cela nous a conforté dans l'idée que notre ORF était un vrai positif.


Nous avons réalisé d'abord avec un BLAST contre NR qui ne nous a pas donné d'homologue, seulement des séquences avec des e-values élevées, des scores faibles et des courtes régions de similarité, ce que nous avons jugé comme étant des résultats non significatifs.

A la vue de ces résultats contre NR, nous avons effectué BLAST contre ENV_NR pour répondre à la question: Notre ORF est-il un faux positif?

Cette seconde étude nous a conforté dans l'idée que cette ORF n'est pas un faux positif car nous avons obtenu 17 homologues.

Nous ne pouvons pas croiser les informations obtenues avec INTERPRO et les celles obtenues avec le BLAST car les séquences homologues de la base de données ENV_NR ne sont pas annotées.


La banque de données ENV_NR n'étant pas annoté, nous n'avons pas pu obtenir d'information concernant le rapport taxonomique. Nous n'avons pas pu établir une appartenance à un groupe taxonomique, ni établir un groupe extérieur, un groupe d'étude, et par conséquent, enraciner notre arbre phylogénétique.


L'alignement multiple, nous a montré 96 positions conservées sur une longueur totale de 153 acides aminés (ce qui représente 62%), en un seul bloc. Nous avons comparé ces résultats à ceux d'INTERPRO et nous en avons déduit que le bloc [50-145] correspondait probablement au domaine Lptc-related, car ce domaine va de l'acide aminé 46 à 149.

L'alignement multiple nous a permis d'écarter la possibilité que l'ORF soit un faux positif, car ces résultats nous semblent pertinents.

Grâce a cela, nous avons pu remarquer que la protéine qui était réellement codée correspondait a l'ORF obtenue avec les codons alternatifs dans le cadre de lecture +1.


L'interprétation des arbres phylogénétiques est très limitée car les séquences homologues utilisées pour les construire sont des séquences issues de ENV_NR. Ces séquences n'étant pas annotées, elles ne nous permettent pas de distinguer le groupe extérieur et le groupe d'étude. De ce fait nos arbres ne sont pas enracinés.

Pour aller plus loin dans nos recherches nous avons recherché les origines des séquences les plus proches de notre ORF, ce qui fut infructueux (pas de détails dans les fiches du NCBI).


En croisant toutes ces informations, nous pouvons dire que notre ORF code pour une protéine impliquées dans l'assemblage des lipopolysaccharrides.

ORF finding

PROTOCOLE:

ORF FINDER sur le site SMS

1) Début de l'ORF avec codons quelconques puis codons alternatifs ( atg, gtg, ttg, ctg)

2) Cadre de lecture 1, 2, 3 sur le brin direct puis sur le brin indirect.

3) ORFs d'au moins 60 codons de long.

4) Utilisation du code génétique standard.


ANALYSE DES RÉSULTATS:

Tout d'abord sur le brin direct, avec la recherche pour les condons alternatifs, nous avons obtenu une ORF de la base 421 à la base 867 avec un codon initiateur et un codon stop pour le cadre de lecture +1. Pas d'ORF pour les cadres de lecture +2. Ensuite, nous avons obtenu une ORF dans le cadre de lecture +3, allant de la base 69 à 419.

Avec la recherche sur le brin direct pour n'importe quel codon initiateur, nous avons trouvé une ORF qui correspond à la première mentionnée ci-dessus avec les codons initiateurs qui va de la base 412 à la base 867, ainsi qu'une ORF correspondant à la seconde dans le cadre de lecture +3 allant de la base 3 à 419. Il n'y a toujours pas d'ORFs dans le cadre de lecture +2.


Pour l'analyse du brin indirect, avec les codons alternatifs, nous avons trouvé une ORF de la base 571 à 936 dans le cadre de lecture 1, aucune ORF dans le cadre de lecture 2, et une ORF dans le cadre de lecture 3 allant de la base 240 à 437.

Puis avec la recherche pour n'importe quel codon initiateur, nous avons trouvé une ORF dans le cadre de lecture 1 de la base 547 a 936, et une ORF dans le cadre de lecture +3 allant de la base 228 à 437, qui correspondent à celles décrites précédemment.


Nous choisissons d'étudier l'ORF la plus longue, soit l'ORF du brin direct dans le cadre de lecture +1 allant de la base 412 à 867. Cette ORF a une longueur de 455 bases. Il codera pour une protéine faisant 151 acides aminés. Cette ORF se termine en 3' par un codon stop et ne commence pas par un codon initiateur car nous avons sélectionné le paramètre "any codon".


Nous avons choisi d'étudier cette ORF pour les raisons suivantes:

- Il s'agit de l'ORF la plus longue. Elle a donc plus de chance de coder pour une protéine biologiquement existante.

- Parmi les autres ORFs certaines semblent pouvoir être codantes car elles sont également longues (Brin direct cadre de lecture +3 / Brin indirect cadre de lecture +1) et d'autres nous paraissent trop courtes pour être codantes, notamment celle du brin indirect, cadre de lecture +3.


RÉSULTATS BRUTS:


BRIN DIRECT AVEC CONDONS ALTERNATIFS:
>ORF number 1 in reading frame 1 on the direct strand extends from base 421 to base 867.
TTGAATTTATTATTTTTAATAAATAAGAAATATATATTATTTTTTTCAATCTTAAGCTTC
TTTATTGTTGGTACTTTTTTTTACTTAAAATATGATACTTTTGACAAAAAAAATTTAAAA
AATAGTATAAAAATTTCAAACGTAGATATCACATTACCTAAATTTTCAATAAATAATGAA
GACAAAAAAATATTTGTTACAGCTAAAGAAGGAAACTTTGTAGATGAAAATAAAATCCTT
CTTAACAAAAATGTAAAACTCAAATCCAAAACATTCATTATTGAAACAGATCAAGTGATC
TTTAATAGAAAAGATCAAACAGCTACTAGTAAATCAATGTCTGTTTTTAAATCTAAAAAT
GCAAGTATATTTTCTGAAGGTTTTGATATTTATGATAATGGAAAAAAAATAAGTTTTAGT
GGAAATGCACAATTAATATTAAAATGA

>Translation of ORF number 1 in reading frame 1 on the direct strand.
LNLLFLINKKYILFFSILSFFIVGTFFYLKYDTFDKKNLKNSIKISNVDITLPKFSINNE
DKKIFVTAKEGNFVDENKILLNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFKSKN
ASIFSEGFDIYDNGKKISFSGNAQLILK*

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the direct strand extends from base 69 to base 419.
ATGCATTTAAAAAAAGCTTTACCTATTGCAAAGAAAGATGAAAAGATGTCTAAAGCACTT
ATTGAAATGACAAAAAAAAGTTTTGGCTGTTTGGGTGTTGTCGACAGTAAAAACAAAATA
ATTGGAATAATAACTGATGGAGATCTTAGAAGAAAAATAAATTCAAAATTTTTTGAAAAG
AAAGCATCTGAAATAATGACTAAAAATCCGACTATTGCAGATAAGAAAATGATTGTGGGA
GAGGCAATTAGCTTAATGAATAAAAAGAAAATAACAAGTTTATTTGTTTGTGAAAACAAA
AAACCAATCGGGATAGTACATATTCATGACTTATTAAGGATAACAAGCTAA

>Translation of ORF number 1 in reading frame 3 on the direct strand.
MHLKKALPIAKKDEKMSKALIEMTKKSFGCLGVVDSKNKIIGIITDGDLRRKINSKFFEK
KASEIMTKNPTIADKKMIVGEAISLMNKKKITSLFVCENKKPIGIVHIHDLLRITS*
 

BRIN INDIRECT AVEC CONDONS ALTERNATIFS
>ORF number 1 in reading frame 1 on the reverse strand extends from base 571 to base 936.
TTGTTTTCACAAACAAATAAACTTGTTATTTTCTTTTTATTCATTAAGCTAATTGCCTCT
CCCACAATCATTTTCTTATCTGCAATAGTCGGATTTTTAGTCATTATTTCAGATGCTTTC
TTTTCAAAAAATTTTGAATTTATTTTTCTTCTAAGATCTCCATCAGTTATTATTCCAATT
ATTTTGTTTTTACTGTCGACAACACCCAAACAGCCAAAACTTTTTTTTGTCATTTCAATA
AGTGCTTTAGACATCTTTTCATCTTTCTTTGCAATAGGTAAAGCTTTTTTTAAATGCATT
ATTTCACTAATATATTTAAGATCCTTACCAATATTACCACCAGGGTGGATCTTTTTAAAA
TGCTTA

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
LFSQTNKLVIFFLFIKLIASPTIIFLSAIVGFLVIISDAFFSKNFEFIFLLRSPSVIIPI
ILFLLSTTPKQPKLFFVISISALDIFSSFFAIGKAFFKCIISLIYLRSLPILPPGWIFLK
CL

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the reverse strand extends from base 240 to base 437.
ATGAATGTTTTGGATTTGAGTTTTACATTTTTGTTAAGAAGGATTTTATTTTCATCTACA
AAGTTTCCTTCTTTAGCTGTAACAAATATTTTTTTGTCTTCATTATTTATTGAAAATTTA
GGTAATGTGATATCTACGTTTGAAATTTTTATACTATTTTTTAAATTTTTTTTGTCAAAA
GTATCATATTTTAAGTAA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
MNVLDLSFTFLLRRILFSSTKFPSLAVTNIFLSSLFIENLGNVISTFEIFILFFKFFLSK
VSYFK*






BRIN DIRECT AVEC ANY CODONS:
>ORF number 1 in reading frame 1 on the direct strand extends from base 412 to base 867.
CAAGCTAAATTGAATTTATTATTTTTAATAAATAAGAAATATATATTATTTTTTTCAATC
TTAAGCTTCTTTATTGTTGGTACTTTTTTTTACTTAAAATATGATACTTTTGACAAAAAA
AATTTAAAAAATAGTATAAAAATTTCAAACGTAGATATCACATTACCTAAATTTTCAATA
AATAATGAAGACAAAAAAATATTTGTTACAGCTAAAGAAGGAAACTTTGTAGATGAAAAT
AAAATCCTTCTTAACAAAAATGTAAAACTCAAATCCAAAACATTCATTATTGAAACAGAT
CAAGTGATCTTTAATAGAAAAGATCAAACAGCTACTAGTAAATCAATGTCTGTTTTTAAA
TCTAAAAATGCAAGTATATTTTCTGAAGGTTTTGATATTTATGATAATGGAAAAAAAATA
AGTTTTAGTGGAAATGCACAATTAATATTAAAATGA

>Translation of ORF number 1 in reading frame 1 on the direct strand.
QAKLNLLFLINKKYILFFSILSFFIVGTFFYLKYDTFDKKNLKNSIKISNVDITLPKFSI
NNEDKKIFVTAKEGNFVDENKILLNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK
SKNASIFSEGFDIYDNGKKISFSGNAQLILK*

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the direct strand extends from base 3 to base 419.
AAGCATTTTAAAAAGATCCACCCTGGTGGTAATATTGGTAAGGATCTTAAATATATTAGT
GAAATAATGCATTTAAAAAAAGCTTTACCTATTGCAAAGAAAGATGAAAAGATGTCTAAA
GCACTTATTGAAATGACAAAAAAAAGTTTTGGCTGTTTGGGTGTTGTCGACAGTAAAAAC
AAAATAATTGGAATAATAACTGATGGAGATCTTAGAAGAAAAATAAATTCAAAATTTTTT
GAAAAGAAAGCATCTGAAATAATGACTAAAAATCCGACTATTGCAGATAAGAAAATGATT
GTGGGAGAGGCAATTAGCTTAATGAATAAAAAGAAAATAACAAGTTTATTTGTTTGTGAA
AACAAAAAACCAATCGGGATAGTACATATTCATGACTTATTAAGGATAACAAGCTAA

>Translation of ORF number 1 in reading frame 3 on the direct strand.
KHFKKIHPGGNIGKDLKYISEIMHLKKALPIAKKDEKMSKALIEMTKKSFGCLGVVDSKN
KIIGIITDGDLRRKINSKFFEKKASEIMTKNPTIADKKMIVGEAISLMNKKKITSLFVCE
NKKPIGIVHIHDLLRITS*

BRIN INDIRECT AVEC ANY CONDONS
>ORF number 1 in reading frame 1 on the reverse strand extends from base 547 to base 936.
ATATGTACTATCCCGATTGGTTTTTTGTTTTCACAAACAAATAAACTTGTTATTTTCTTT
TTATTCATTAAGCTAATTGCCTCTCCCACAATCATTTTCTTATCTGCAATAGTCGGATTT
TTAGTCATTATTTCAGATGCTTTCTTTTCAAAAAATTTTGAATTTATTTTTCTTCTAAGA
TCTCCATCAGTTATTATTCCAATTATTTTGTTTTTACTGTCGACAACACCCAAACAGCCA
AAACTTTTTTTTGTCATTTCAATAAGTGCTTTAGACATCTTTTCATCTTTCTTTGCAATA
GGTAAAGCTTTTTTTAAATGCATTATTTCACTAATATATTTAAGATCCTTACCAATATTA
CCACCAGGGTGGATCTTTTTAAAATGCTTA

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
ICTIPIGFLFSQTNKLVIFFLFIKLIASPTIIFLSAIVGFLVIISDAFFSKNFEFIFLLR
SPSVIIPIILFLLSTTPKQPKLFFVISISALDIFSSFFAIGKAFFKCIISLIYLRSLPIL
PPGWIFLKCL

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the reverse strand extends from base 228 to base 437.
TCTGTTTCAATAATGAATGTTTTGGATTTGAGTTTTACATTTTTGTTAAGAAGGATTTTA
TTTTCATCTACAAAGTTTCCTTCTTTAGCTGTAACAAATATTTTTTTGTCTTCATTATTT
ATTGAAAATTTAGGTAATGTGATATCTACGTTTGAAATTTTTATACTATTTTTTAAATTT
TTTTTGTCAAAAGTATCATATTTTAAGTAA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
SVSIMNVLDLSFTFLLRRILFSSTKFPSLAVTNIFLSSLFIENLGNVISTFEIFILFFKF
FLSKVSYFK*

Multiple Alignement

PROTOCOLE:

Phylogeny.fr / Phylogeny analysis/ à la carte

paramêtre: -dans alignement multiple "Clustal w "

-parametre par défaut

-step by step


ANALYSE DES RÉSULTATS:


Nous constatons que sur l'alignement multiple notre séquence débute 3 acides aminés avant les autres homologues. Cela signifie que les protéines homologues existantes commencent a cet endroit. Nous avons donc comparé les 2 ORF obtenus au début, c'est a dire ceux du cadre +1. Nous avons remarqué que l'ORF obtenus avec les codons alternatifs débutait 9codons après l'ORF utilisé (avec "any codon"). Cela signifie qu'il y a un codon START à cet endroit. De plus on observe une méthionine au début de certains homologues. Donc le véritable début de notre protéine se situe 3 acides aminés en aval de notre séquence.


L'alignement multiple après curation nous a montré qu'il y a 96 positions conservées sur 153, soit 62% de la séquence protéique. Aussi, cette conservation va de la position 50 à 145 en un seul bloc. Cet alignement est satisfaisant étant donné que notre séquence est relativement courte, 96 positions conservées sur 153 est un résultat significatif.

En croisant ces données avec celles d'INTERPRO, nous avons constaté que le bloc [50-145] et le domaine Lptc-related se superposent.


Notre ORF est donc bien intégrée dans la famille de ses homologues présumés et nous avons pu réaliser un arbre phylogénique. Aussi, l'alignement multiple nous a montré que la protéine pour laquelle notre ORF code est contenu entièrement dans l'ORF.

RÉSULTATS BRUTS:
CLUSTAL FORMAT: MUSCLE (3.7) multiple sequence alignment


Notre_sequ      QAKLNLLFLINKKYILFFSILSFFIVGTFFYLKYDTFDKKNLKN-SIKISNVDITLPKFS
gi|1360806      ---MNLLFLINKKYILFFSILSFFIVGTFFYLKYDTFDKKNLKN-SIKISNVDITLPKFS
gi|1400273      ---LNFLFSLNRKYILLFIIIFFLLCFTFIFYKFFYSIEKKLII-DKAISKVDITDPRFS
gi|1427398      ---MNTLLSLNKKLVLILSFIIFIVFIIFFILKYYNEFETIINYEKNLVSNADITEPKFA
gi|1396449      ---LNFFLHINRKFIILFGAIIIFLFLIIIFYKQINLNNIIIGGTIVSSSNADISEPKFS
gi|1434511      ---MNFFLHINSKLIFFLGILVISFFLLIIFSKQISLTNIEVEKIKKNLTSADIAEPKFA
gi|1404463      ---LNFFLHINKKIIFFFGLIIVFSFLILVFSKQINIKNIDLKVSKKILSDADIAEPKFA
gi|1350018      ---MNFFLHINKKIIFFFGLIIVFCFLILVFSKQINIKNINLKVSEKILSNVDIAEPKFA
gi|1355987      ---MNFFLHINKKIVFFFGLIIVFSFLIIIFSKQINIKNIDLKVSEKILSNVDIAEPKFA
gi|1363217      ---MNFFLHINKKIIFFFGLIIVFSFLIIIFSKQINIKNIDLNVSEKILSNVDIAEPKFA
gi|1381792      ---MNFFLYINRKLIFFAGMVIIFFFLLVIFLKQFTLNKIKLKNPINNFSNVDILEPKFS
gi|1357531      ---MNFFLYINRKLIFFSGGLIIFSFLILVLYKQFNIKNADINKIENNLSDADISEPKFA
gi|1369445      ---MNFLLSLNKKYVLLISIFTFLIFVVFFCFKFYFSIQNTFTS-QINISNADITEPRFA
gi|1357270      ---MNILLSLNKNFVLVITILFFIILFIFIILKFYFSYEYKNSEIEIKISKADITEPRFA
gi|1350195      ---MNYLLSFNKKLIVILGFIICSIAIVFYSMKYLSLETNKLVN-QISISNVDIIEPRFS
gi|1426915      ---LNFLLSLNKKYVLIALILVIFLFFIFFIYKFYLSNDIKLISPNLEVSDVDITEPKFS
gi|1409236      ---MNYLLSINQKYVLLVSLIVFFSFLIFFFLKYYTTISNNYIEENILISNVDITEPSFS
gi|1412452      ------------------------------------------SKGKIELLNVDITEPRFA
                                                                  ..**  * *:

Notre_sequ      INNEDKKIFVTAKEGNFVDENKILLNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVF
gi|1360806      INNEDKKIFVTAKEGNFVDENKILLNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVF
gi|1400273      INNFERKILITAKEGDFINKDKILLKKNVLFKSNKFSIESDNVIFNRKDQTAESYENSIF
gi|1427398      IKNSSQKIFVTAKEGNFIDKDEIMLKKNVKFKSKNFSIESDNVVFNRKAQTAYSEDKSIF
gi|1396449      INNESKKIYITASEGNFINKDEVLLKENVRFKSNDFSIETEKVIFNRDKQTAKSKTKSMF
gi|1434511      INNESKKIYITAKEGNFLNNDEILLKKNVRFKSNDFSIETERVIFDRNKQTAKSETKSLF
gi|1404463      ISNDSRKIHITAKEGNFLTENEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLF
gi|1350018      ISNNSKKIHITAKEGNFLNKNEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLF
gi|1355987      ISNNSRKIYITAKEGNFLNKDEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLF
gi|1363217      ISNESRKIYITAKEGNFLNKDEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLF
gi|1381792      INNESKKIYITAKEGNFLNKDEILLKDSVKFKSNDFSIETEKVIFNKDKQTAQSKTKSLF
gi|1357531      INNESKKIYITAREGNFLNKDEVLLKDSVRFKSNDFIIETENVIFNRSKQTAESKTKSLF
gi|1369445      INSSSEKILVTAKEGNFIDEDKIMLKNNVKFKSNIFSIETENVLFDRKNQTAYSENKSLF
gi|1357270      INNQSKKIFVTAQEGNFIKGGKILLKNNVKFTSENFSIETDNVVFDRQEQTASSDDKSIF
gi|1350195      INSSSQKILVTAKEGNFIAENKILLKKNVKFSSNDFSIESDNVTFDRVKQTAYSEQKSVF
gi|1426915      INNSSRKIFITAKEGNFITKNKILLRKNVKFTSADFSIESDNVTFDREEQTARSEDKSYF
gi|1409236      INNKIEKIHITAKEGNFVDEDKILLKKEVKFKSNDFMIESDNVIFDKKNQTASSSHKSIF
gi|1412452      INNIQEKIFISAREGNFIEDNKILLKKSVKFKSNNFSIESDNVTFDREKQTAQSNDKSTF
                *..   ** ::* **:*:  .:::*...* :.*  * **::.* *:.  *** *   * *

Notre_sequ      KSKNASIFSEGFDIYDNGKKISFSGNAQLILK-
gi|1360806      KSKNASIFSEGFDIYDNGKKISFSGNAQLILK-
gi|1400273      RSNNTKISSEGFNIYDNGSKIKFHGNSINYFKM
gi|1427398      RSEKTTISADGFDIHDNGNNINFYG--------
gi|1396449      KSKNATITSNGFNIHDSGNKIIFYGNSYIILK-
gi|1434511      KSKNTTIFSNGFNIYDKGDKIIFFGKSFVVLK-
gi|1404463      KSKNTTIFSDGFNIYDNGNKIMFYGNSLIVLK-
gi|1350018      TSKNTTISSDGFNIYDNGNKIIFYGNSLIVLK-
gi|1355987      TSKNTTISSDGFNIYDNGNKIMFYGNSLIVLK-
gi|1363217      TSKNTTISSDGFNIYDDGNKIMFYGNSLIVLK-
gi|1381792      KSKNTTIFSDGFDIYDNGNRIIFFGNSYITLK-
gi|1357531      KSKNTTIFSDGFNIYDKGNKIIFYGSSNIIIK-
gi|1369445      KSKNTTITSDGFNIYDDGDKIKFYGKST-----
gi|1357270      KSKNTIISSDGFDIHDSGNIINFYGKAVVTLK-
gi|1350195      KSERTRISSEGFNIYDNGNKIKFFGNSVIILK-
gi|1426915      RSKNTLISSEGFDIYDNGNKMIFYGKSIVILK-
gi|1409236      KSKNTKILSDGFDIKDNGNKINFYGKAKIILK-
gi|1412452      KSKNTTILSEGFDIYDNGNKIDFYGRASIILK-
                 *:.: * ::**:* *.*. : * *        


RESULTATS APRES CURATION  :

Processed file: input.fasta
Number of sequences: 18
Alignment assumed to be: Protein
New number of positions: 96 (selected positions are underlined in blue)

                         10        20        30        40        50        60
                 =========+=========+=========+=========+=========+=========+
Notre_sequence   QAKLNLLFLINKKYILFFSILSFFIVGTFFYLKYDTFDKKNLKN-SIKISNVDITLPKFS
gi|136080698|gb  ---MNLLFLINKKYILFFSILSFFIVGTFFYLKYDTFDKKNLKN-SIKISNVDITLPKFS
gi|140027318|gb  ---LNFLFSLNRKYILLFIIIFFLLCFTFIFYKFFYSIEKKLII-DKAISKVDITDPRFS
gi|142739878|gb  ---MNTLLSLNKKLVLILSFIIFIVFIIFFILKYYNEFETIINYEKNLVSNADITEPKFA
gi|139644943|gb  ---LNFFLHINRKFIILFGAIIIFLFLIIIFYKQINLNNIIIGGTIVSSSNADISEPKFS
gi|143451134|gb  ---MNFFLHINSKLIFFLGILVISFFLLIIFSKQISLTNIEVEKIKKNLTSADIAEPKFA
gi|140446345|gb  ---LNFFLHINKKIIFFFGLIIVFSFLILVFSKQINIKNIDLKVSKKILSDADIAEPKFA
gi|135001855|gb  ---MNFFLHINKKIIFFFGLIIVFCFLILVFSKQINIKNINLKVSEKILSNVDIAEPKFA
gi|135598757|gb  ---MNFFLHINKKIVFFFGLIIVFSFLIIIFSKQINIKNIDLKVSEKILSNVDIAEPKFA
gi|136321728|gb  ---MNFFLHINKKIIFFFGLIIVFSFLIIIFSKQINIKNIDLNVSEKILSNVDIAEPKFA
gi|138179292|gb  ---MNFFLYINRKLIFFAGMVIIFFFLLVIFLKQFTLNKIKLKNPINNFSNVDILEPKFS
gi|135753191|gb  ---MNFFLYINRKLIFFSGGLIIFSFLILVLYKQFNIKNADINKIENNLSDADISEPKFA
gi|136944501|gb  ---MNFLLSLNKKYVLLISIFTFLIFVVFFCFKFYFSIQNTFTS-QINISNADITEPRFA
gi|135727027|gb  ---MNILLSLNKNFVLVITILFFIILFIFIILKFYFSYEYKNSEIEIKISKADITEPRFA
gi|135019584|gb  ---MNYLLSFNKKLIVILGFIICSIAIVFYSMKYLSLETNKLVN-QISISNVDIIEPRFS
gi|142691526|gb  ---LNFLLSLNKKYVLIALILVIFLFFIFFIYKFYLSNDIKLISPNLEVSDVDITEPKFS
gi|140923670|gb  ---MNYLLSINQKYVLLVSLIVFFSFLIFFFLKYYTTISNNYIEENILISNVDITEPSFS
gi|141245245|gb  ------------------------------------------SKGKIELLNVDITEPRFA
                                                                  ###########


                         70        80        90       100       110       120
                 =========+=========+=========+=========+=========+=========+
Notre_sequence   INNEDKKIFVTAKEGNFVDENKILLNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVF
gi|136080698|gb  INNEDKKIFVTAKEGNFVDENKILLNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVF
gi|140027318|gb  INNFERKILITAKEGDFINKDKILLKKNVLFKSNKFSIESDNVIFNRKDQTAESYENSIF
gi|142739878|gb  IKNSSQKIFVTAKEGNFIDKDEIMLKKNVKFKSKNFSIESDNVVFNRKAQTAYSEDKSIF
gi|139644943|gb  INNESKKIYITASEGNFINKDEVLLKENVRFKSNDFSIETEKVIFNRDKQTAKSKTKSMF
gi|143451134|gb  INNESKKIYITAKEGNFLNNDEILLKKNVRFKSNDFSIETERVIFDRNKQTAKSETKSLF
gi|140446345|gb  ISNDSRKIHITAKEGNFLTENEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLF
gi|135001855|gb  ISNNSKKIHITAKEGNFLNKNEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLF
gi|135598757|gb  ISNNSRKIYITAKEGNFLNKDEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLF
gi|136321728|gb  ISNESRKIYITAKEGNFLNKDEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLF
gi|138179292|gb  INNESKKIYITAKEGNFLNKDEILLKDSVKFKSNDFSIETEKVIFNKDKQTAQSKTKSLF
gi|135753191|gb  INNESKKIYITAREGNFLNKDEVLLKDSVRFKSNDFIIETENVIFNRSKQTAESKTKSLF
gi|136944501|gb  INSSSEKILVTAKEGNFIDEDKIMLKNNVKFKSNIFSIETENVLFDRKNQTAYSENKSLF
gi|135727027|gb  INNQSKKIFVTAQEGNFIKGGKILLKNNVKFTSENFSIETDNVVFDRQEQTASSDDKSIF
gi|135019584|gb  INSSSQKILVTAKEGNFIAENKILLKKNVKFSSNDFSIESDNVTFDRVKQTAYSEQKSVF
gi|142691526|gb  INNSSRKIFITAKEGNFITKNKILLRKNVKFTSADFSIESDNVTFDREEQTARSEDKSYF
gi|140923670|gb  INNKIEKIHITAKEGNFVDEDKILLKKEVKFKSNDFMIESDNVIFDKKNQTASSSHKSIF
gi|141245245|gb  INNIQEKIFISAREGNFIEDNKILLKKSVKFKSNNFSIESDNVTFDREKQTAQSNDKSTF
                 ############################################################


                        130       140       150
                 =========+=========+=========+===
Notre_sequence   KSKNASIFSEGFDIYDNGKKISFSGNAQLILK-
gi|136080698|gb  KSKNASIFSEGFDIYDNGKKISFSGNAQLILK-
gi|140027318|gb  RSNNTKISSEGFNIYDNGSKIKFHGNSINYFKM
gi|142739878|gb  RSEKTTISADGFDIHDNGNNINFYG--------
gi|139644943|gb  KSKNATITSNGFNIHDSGNKIIFYGNSYIILK-
gi|143451134|gb  KSKNTTIFSNGFNIYDKGDKIIFFGKSFVVLK-
gi|140446345|gb  KSKNTTIFSDGFNIYDNGNKIMFYGNSLIVLK-
gi|135001855|gb  TSKNTTISSDGFNIYDNGNKIIFYGNSLIVLK-
gi|135598757|gb  TSKNTTISSDGFNIYDNGNKIMFYGNSLIVLK-
gi|136321728|gb  TSKNTTISSDGFNIYDDGNKIMFYGNSLIVLK-
gi|138179292|gb  KSKNTTIFSDGFDIYDNGNRIIFFGNSYITLK-
gi|135753191|gb  KSKNTTIFSDGFNIYDKGNKIIFYGSSNIIIK-
gi|136944501|gb  KSKNTTITSDGFNIYDDGDKIKFYGKST-----
gi|135727027|gb  KSKNTIISSDGFDIHDSGNIINFYGKAVVTLK-
gi|135019584|gb  KSERTRISSEGFNIYDNGNKIKFFGNSVIILK-
gi|142691526|gb  RSKNTLISSEGFDIYDNGNKMIFYGKSIVILK-
gi|140923670|gb  KSKNTKILSDGFDIKDNGNKINFYGKAKIILK-
gi|141245245|gb  KSKNTTILSEGFDIYDNGNKIDFYGRASIILK-
                 #########################        






Parameters used
Minimum Number Of Sequences For A Conserved Position: 10
Minimum Number Of Sequences For A Flanking Position: 15
Maximum Number Of Contiguous Nonconserved Positions: 8
Minimum Length Of A Block: 10
Allowed Gap Positions: None
Use Similarity Matrices: Yes


Flank positions of the 1 selected block(s)
Flanks: [50  145]  

New number of positions in input.fasta-gb:  96  (62% of the original 153 positions)



Protein Domains

PROTOCOLE:

Recherche de séquences correspondantes sur le site INTERPRO scan.



ANALYSE DES RÉSULTATS:


Nous voyons sur la traduction de notre ORF :

Un domaine LptC-related

Un peptide signal

Un domaine transmembranaire


Il n'y a aucune relation "parent/enfant" ni "contient/inclus dans" pour le domaine lipopolysaccharride.


Grâce à l'analyse par INTERPRO, nous avons observé des domaines structuraux (peptide signal, domaine transmembranaire). Nous avons choisi de ne pas les faire apparaître sur le graphique car ils ne nous renseignent pas sur la fonction de notre ORF. Cependant ils nous confortent dans l'idée que notre ORF est un vrai positif, car dans ce cas il nous semble peut probable que leur présence soit dûe au hasard.


Nous pensons donc que cette ORF code pour une protéine qui appartient a la famille des Lptc car la e-value faible (3.10-8) nous montre un lien assez fort avec ce type de domaine. Cependant nous ne pouvons pas l'affirmer car le blast ne nous renseigne pas sur la fonction des homologues (il s'agit de protéine hypothétique encore non étudiée).

Les Lptc sont impliquées dans l'assemblage des lipopolysaccharrides sur la membrane externe des bactéries à gram negatif.

RÉSULTATS BRUTS:

InterPro
IPR010664
Family
	
Lipopolysccharide assembly, LptC-related
PFAM 	PF06835 	DUF1239 	3e-08 [49-146]T
Parent 	no parent
Children 	no children
Found in 	no entries
Contains 	no entries
GO terms 	none
noIPR
unintegrated 	
unintegrated
GENE3D 	G3DSA:2.60.450.10 	no description 	0.00015 [62-148]T
SIGNALP 	SignalP 	signal-peptide 	NA [1-28]?
TMHMM 	tmhmm 	transmembrane_regions 	NA [14-34]?
Parent 	no parent
Children 	no children
Found in 	no entries
Contains 	no entries
GO terms 	nonel


GOS_2047020	0ED26A955E397889	151	Gene3D	G3DSA:2.60.450.10	no description	62	148	0.00015	T	26-Apr-2011	NULL	NULL	
GOS_2047020	0ED26A955E397889	151	TMHMM	tmhmm	transmembrane_regions	14	34	NA	?	26-Apr-2011	NULL	NULL
GOS_2047020	0ED26A955E397889	151	HMMPfam	PF06835	DUF1239	49	146	3e-08	T	26-Apr-2011	IPR010664	Lipopolysccharide assembly, LptC-related	
GOS_2047020	0ED26A955E397889	151	SignalPHMM	SignalP-NN(euk)	signal-peptide	1	28	NA	?	26-Apr-2011	NULL	NULL

Phylogeny

PROTOCOLE:


a) Phylogeny.fr/ méthode PhyML/ default subtitution model -> arbre de vraisemblance

b) Phylogeny.fr/ méthode BioNJ/ pas bootstrap -> arbre des distances



ANALYSE DES RÉSULTATS:


Nous avons réalisé deux arbres : arbre de vraisemblance et arbre des distances. Ils diffèrent par les critères de sélection. Nous tenons a rappeler que les arbres ont été réalisés à partir de séquences obtenues dans la base de données environnementale, ce qui signifie qu'elles ne sont pas annotées et qu'il est impossible pour nous de savoir de quel organisme elles sont issues ainsi que leur fonction ou bien leur localisation cellulaire sans étudier les autres protéines.

Nous observons que dans les deux arbres, la séquence la plus proche de notre ORF est gi_136080698 (séquence non annotée). Mais comme nous l'avons précisé précédemment nous ne pouvons pas conclure à partir de ces résultats sur l'appartenance de notre ORF à un groupe taxonomique particulier.

De ce fait, nous ne connaissons ni le groupe d'étude ni le groupe extérieur et donc nous ne pouvons pas enraciner l'arbre.



Nous avons alors concentré nos recherches sur les origines géographiques et biologiques des séquences homologues à la notre (Cf exemple dans "résultats bruts", ORIGINES). Cependant, dans les fiches des protéine sur le site NCBI, il n'est fait aucune mention de ces origines.

RÉSULTATS BRUTS:

Arbre de vraisemblance
                                                                                                    -------0.1-----
 
                                         +Notre_sequence_Traduction_412-864_sens_direct
      +----------------------------------+
      |                                  +gi_136080698_gb_EBL78010.1_hypothetical_protein_GOS_8515500_mari
      |
      |                  +-----------gi_138179292_gb_EBY23321.1_hypothetical_protein_GOS_3477568_mari
 +----+                  |
 |    |                  |
 |    |                  |         +---------gi_140446345_gb_ECL81039.1_hypothetical_protein_GOS_5398742_mari
 |    |                  |  +------+
 |    +------------------+  |      |  +-gi_136321728_gb_EBN37889.1_hypothetical_protein_GOS_8256325_mari
 |                       |  |      +--+
 |                       |  |         |+gi_135598757_gb_EBI67313.1_hypothetical_protein_GOS_9052969_mari
 |                       |  |         ++
 |                       +--+          +-----gi_135001855_gb_EBE85282.1_hypothetical_protein_GOS_9693978_mari
 |                          |
 |                          |   +-------------gi_143451134_gb_EDF03338.1_hypothetical_protein_GOS_1026946_mari
 |                          |   |
 |                          +---+     +--------------gi_139644943_gb_ECG47946.1_hypothetical_protein_GOS_5595066_mari
 |                              +-----+
 |                                    |
 |                                    +----------gi_135753191_gb_EBJ62865.1_hypothetical_protein_GOS_8866598_mari
 |
 |    +------------------------gi_140923670_gb_ECO42034.1_hypothetical_protein_GOS_5516991_mari
 |    |
 |    |         +-------------------------gi_135019584_gb_EBE97280.1_hypothetical_protein_GOS_9673885_mari
 |    |         |
 |    |      +--+      +----------------------gi_136944501_gb_EBR32838.1_hypothetical_protein_GOS_7617147_mari
 |    |      |  |      |
 +----+      |  +------+  +------------------gi_142739878_gb_EDA23211.1_hypothetical_protein_GOS_2039408_mari
      |      |         +--+
      |  +---+            +-----------------------------gi_135727027_gb_EBJ46669.1_hypothetical_protein_GOS_8893621_mari
      |  |   |
      |  |   |
      +--+   |   +------------------------gi_142691526_gb_ECZ88463.1_hypothetical_protein_GOS_2102779_mari
         |   +---+
         |       +-----------------------------------gi_140027318_gb_ECJ09894.1_hypothetical_protein_GOS_5664120_mari
         |
         +-------------------------gi_141245245_gb_ECQ62800.1_hypothetical_protein_GOS_4904667_mari

Arbre des distances 

                                                                                                        ----0.05---
 
                                                   +Notre_sequence_Traduction_412-864_sens_direct
   +-----------------------------------------------+
   |                                               +gi_136080698_gb_EBL78010.1_hypothetical_protein_GOS_8515500_mari
 +-+
 | +---------------------------------gi_140923670_gb_ECO42034.1_hypothetical_protein_GOS_5516991_mari
 |
 |
 |+-------------------------------------------gi_140027318_gb_ECJ09894.1_hypothetical_protein_GOS_5664120_mari
 ||
 ||      +------------------------------gi_142691526_gb_ECZ88463.1_hypothetical_protein_GOS_2102779_mari
 ||    +-+
 ||    | +---------------------------------gi_141245245_gb_ECQ62800.1_hypothetical_protein_GOS_4904667_mari
 ||    |
 || +--+        +----------------------------gi_142739878_gb_EDA23211.1_hypothetical_protein_GOS_2039408_mari
 ++ |  | +------+
  | |  | |      +---------------------------------gi_135727027_gb_EBJ46669.1_hypothetical_protein_GOS_8893621_mari
  | |  +-+
  | |    |    +------------------------------gi_136944501_gb_EBR32838.1_hypothetical_protein_GOS_7617147_mari
  | |    +----+
  | |         |
  | |         +----------------------------gi_135019584_gb_EBE97280.1_hypothetical_protein_GOS_9673885_mari
  +-+
    |                              +----------gi_140446345_gb_ECL81039.1_hypothetical_protein_GOS_5398742_mari
    |                              |
    |                     +--------+  +----gi_135001855_gb_EBE85282.1_hypothetical_protein_GOS_9693978_mari
    |                     |        |  |
    |                     |        +--+  +-gi_135598757_gb_EBI67313.1_hypothetical_protein_GOS_9052969_mari
    |                     |           +--+
    +---------------------+              +---gi_136321728_gb_EBN37889.1_hypothetical_protein_GOS_8256325_mari
                          |
                          |     +-----------------gi_138179292_gb_EBY23321.1_hypothetical_protein_GOS_3477568_mari
                          |     |
                          +-----+
                                |  +--------------------gi_143451134_gb_EDF03338.1_hypothetical_protein_GOS_1026946_mari
                                +--+
                                   | +------------------gi_139644943_gb_ECG47946.1_hypothetical_protein_GOS_5595066_mari
                                   +-+
                                     +-----------------gi_135753191_gb_EBJ62865.1_hypothetical_protein_GOS_8866598_mari



ORIGINES :
exemple de la séquence gb|ECO42034.1|

LOCUS       ECO42034                 149 aa            linear   ENV 05-APR-2007
DEFINITION  hypothetical protein GOS_5516991 [marine metagenome].
ACCESSION   ECO42034
VERSION     ECO42034.1  GI:140923670
DBSOURCE    accession EM227305.1
KEYWORDS    .
SOURCE      marine metagenome
  ORGANISM  marine metagenome
            unclassified sequences; metagenomes; ecological metagenomes.
REFERENCE   1  (residues 1 to 149)
  AUTHORS   Yooseph,S., Sutton,G., Rusch,D.B., Halpern,A.L., Williamson,S.J.,
            Remington,K., Eisen,J.A., Heidelberg,K.B., Manning,G., Li,W.,
            Jaroszewski,L., Cieplak,P., Miller,C.S., Li,H., Mashiyama,S.T.,
            Joachimiak,M.P., van Belle,C., Chandonia,J.M., Soergel,D.A.,
            Zhai,Y., Natarajan,K., Lee,S., Raphael,B.J., Bafna,V., Friedman,R.,
            Brenner,S.E., Godzik,A., Eisenberg,D., Dixon,J.E., Taylor,S.S.,
            Strausberg,R.L., Frazier,M. and Venter,J.C.
  TITLE     The Sorcerer II Global Ocean Sampling Expedition: Expanding the
            Universe of Protein Families
  JOURNAL   PLoS Biol. 5 (3), E16 (2007)
   PUBMED   17355171
  REMARK    Publication Status: Available-Online prior to print
REFERENCE   2  (residues 1 to 149)
  AUTHORS   Kannan,N., Taylor,S.S., Zhai,Y., Venter,J.C. and Manning,G.
  TITLE     Structural and Functional Diversity of the Microbial Kinome
  JOURNAL   PLoS Biol. 5 (3), E17 (2007)
   PUBMED   17355172
  REMARK    Publication Status: Available-Online prior to print
REFERENCE   3  (residues 1 to 149)
  AUTHORS   Rusch,D.B., Halpern,A.L., Sutton,G., Heidelberg,K.B.,
            Williamson,S., Yooseph,S., Wu,D., Eisen,J.A., Hoffman,J.M.,
            Remington,K., Beeson,K., Tran,B., Smith,H., Baden-Tillson,H.,
            Stewart,C., Thorpe,J., Freeman,J., Andrews-Pfannkoch,C.,
            Venter,J.E., Li,K., Kravitz,S., Heidelberg,J.F., Utterback,T.,
            Rogers,Y.H., Falcon,L.I., Souza,V., Bonilla-Rosso,G.,
            Eguiarte,L.E., Karl,D.M., Sathyendranath,S., Platt,T.,
            Bermingham,E., Gallardo,V., Tamayo-Castillo,G., Ferrari,M.R.,
            Strausberg,R.L., Nealson,K., Friedman,R., Frazier,M. and
            Venter,J.C.
  TITLE     The Sorcerer II Global Ocean Sampling Expedition: Northwest
            Atlantic through Eastern Tropical Pacific
  JOURNAL   PLoS Biol. 5 (3), E77 (2007)
   PUBMED   17355176
  REMARK    Publication Status: Available-Online prior to print
REFERENCE   4  (residues 1 to 149)
  CONSRTM   J. Craig Venter Institute
  TITLE     Direct Submission
  JOURNAL   Submitted (02-MAR-2007) J. Craig Venter Institute, 9704 Medical
            Center Drive, Rockville, MD 20850, USA
COMMENT     Method: conceptual translation.
FEATURES             Location/Qualifiers
     source          1..149
                     /organism="marine metagenome"
                     /isolation_source="isolated as part of a large dataset
                     composed predominantly from surface water marine samples
                     collected along a voyage from Eastern North American coast
                     to the Eastern Pacific Ocean, including locations in the
                     Sargasso Sea, Panama Canal, and the Galapagos Islands"
                     /db_xref="taxon:408172"
                     /environmental_sample
                     /note="metagenomic"
     Protein         1..149
                     /product="hypothetical protein"
     CDS             1..149
                     /locus_tag="GOS_5516991"
                     /coded_by="EM227305.1:218..667"
                     /note="JCVI_ORF_1096691887882; CAM_CL_9097"
                     /transl_table=11
ORIGIN      
        1 mnyllsinqk yvllvslivf fsfliffflk yyttisnnyi eenilisnvd itepsfsinn
       61 kiekihitak egnfvdedki llkkevkfks ndfmiesdnv ifdkknqtas sshksifksk
      121 ntkilsdgfd ikdngnkinf ygkakiilk

Taxonomy report

PROTOCOLE:


-> BLASTp contre NR, paramètres par défaut au NCBI / taxonomy reports / lineage report

-> BLASTp contre ENV_NR, paramètres par défaut au NCBI / taxonomy reports/ lineage report

Il n'y a pas de rapport taxonomique du blast contre env_nr car les séquences ne sont pas annotées dans cette base de données.



ANALYSE DES RÉSULTATS:


Nous avons consulté le rapport taxonomique du BLAST contre NR, cependant les séquences trouvées dans ce BLAST ne sont pas homologues à notre ORF. Par conséquent, il nous est impossible d'exploiter ce rapport taxonomique.


Le rapport taxonomique du BLAST contre ENV_NR nous montre 70 hits, ces séquences sont homologues donc ce résultat est significatif (écarte le faux positif).


Néanmoins, les séquences n'étant pas annotées, nous n'avons pas pu déterminer d'appartenance à un groupe taxonomique.

RÉSULTATS BRUTS:

contre nr :

cellular organisms ..................................    37 hits   21 orgs [root]
. Bacteria ..........................................    33 hits   18 orgs 
. . Rickettsia ......................................    29 hits   16 orgs [Proteobacteria; Alphaproteobacteria; Rickettsiales; Rickettsiaceae; Rickettsieae]
. . . typhus group ..................................     6 hits    4 orgs 
. . . . Rickettsia prowazekii .......................     4 hits    3 orgs 
. . . . . Rickettsia prowazekii str. Madrid E .......     1 hits    1 orgs 
. . . . . Rickettsia prowazekii Rp22 ................     1 hits    1 orgs 
. . . . Rickettsia typhi str. Wilmington ............     2 hits    1 orgs [Rickettsia typhi]
. . . spotted fever group ...........................    19 hits   10 orgs 
. . . . Rickettsia africae ESF-5 ....................     2 hits    1 orgs [Rickettsia africae]
. . . . Rickettsia rickettsii .......................     4 hits    2 orgs 
. . . . . Rickettsia rickettsii str. 'Sheila Smith' .     2 hits    1 orgs 
. . . . . Rickettsia rickettsii str. Iowa ...........     2 hits    1 orgs 
. . . . Rickettsia sibirica 246 .....................     2 hits    1 orgs [Rickettsia sibirica subgroup; Rickettsia sibirica]
. . . . Rickettsia conorii ..........................     3 hits    2 orgs 
. . . . . Rickettsia conorii str. Malish 7 ..........     2 hits    1 orgs 
. . . . Rickettsia felis URRWXCal2 ..................     2 hits    1 orgs [Rickettsia felis]
. . . . Rickettsia massiliae MTU5 ...................     2 hits    1 orgs [Rickettsia massiliae]
. . . . Rickettsia akari str. Hartford ..............     2 hits    1 orgs [Rickettsia akari]
. . . . Rickettsia peacockii str. Rustic ............     2 hits    1 orgs [Rickettsia peacockii]
. . . Rickettsia bellii .............................     4 hits    2 orgs [unclassified Rickettsia]
. . . . Rickettsia bellii RML369-C ..................     2 hits    1 orgs 
. . . . Rickettsia bellii OSU 85-389 ................     2 hits    1 orgs 
. . Roseburia inulinivorans DSM 16841 ...............     2 hits    1 orgs [Firmicutes; Clostridia; Clostridiales; Lachnospiraceae; Roseburia; Roseburia inulinivorans]
. . Bacteroides intestinalis DSM 17393 ..............     2 hits    1 orgs [Bacteroidetes/Chlorobi group; Bacteroidetes; Bacteroidia; Bacteroidales; Bacteroidaceae; Bacteroides; Bacteroides intestinalis]
. Theileria .........................................     2 hits    2 orgs [Eukaryota; Alveolata; Apicomplexa; Aconoidasida; Piroplasmida; Theileriidae]
. . Theileria annulata ..............................     2 hits    2 orgs 
. . . Theileria annulata strain Ankara ..............     1 hits    1 orgs 
. Haloferax volcanii DS2 ............................     2 hits    1 orgs [Archaea; Euryarchaeota; Halobacteria; Halobacteriales; Halobacteriaceae; Haloferax; Haloferax volcanii]


Contre env_nr :

marine metagenome .    70 hits    1 orgs [root; unclassified sequences; metagenomes; ecological metagenomes]

BLAST

PROTOCOLE:


Analyse par BLASTp sur le site NCBI, contre NR

Puis, analyse par BLASTp contre ENV_NR




ANALYSE DES RÉSULTATS:


Avec le BLASTp contre NR nous n'avons pas obtenu d'homologue. En effet, les e-values sont très élevées ( de 0.15 à 9.4 ), les scores (bits) sont faibles ( de 33,5 à 39,3 ) et les régions similaires sont très courtes.

Ces résultats nous conduisent à la question suivante : Notre ORF est-il un faux positif ou bien une séquence réelle codant pour une protéine qui n'a pas été caractérisée?


Afin de répondre à cette interrogation, nous avons consulté la base de donnée ENV_NR.

Dans cette base de données nous avons obtenu de nombreux homologues. Cependant nous n'avons pas pu définir de score seuil car cette banque de donnée ne contient pas les fonctions des protéines (non encore étudiée). De plus il n'y a pas de saut de score ou d'e-value. Nous avons donc retenu les 18 premières séquences homologues pour la phylogénie.


Ceci nous permet de conclure que notre ORF est une nouvelle séquence pas encore répertoriée, en effet elle a de nombreux homologues, ce qui exclue la piste du faux positif.

RÉSULTATS BRUTS:

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|NP_220882.1|  hypothetical protein RP506 [Rickettsia prowa...  39.3    0.15 
ref|YP_002845253.1|  hypothetical protein RAF_ORF0606 [Rickett...  38.1    0.39 
ref|YP_001494776.1|  hypothetical protein A1G_03755 [Rickettsi...  38.1    0.41 
ref|ZP_00141913.1|  hypothetical protein [Rickettsia sibirica ...  37.4    0.58 
ref|NP_360297.1|  hypothetical protein RC0660 [Rickettsia cono...  37.0    0.94 
ref|YP_246735.1|  hypothetical protein RF_0719 [Rickettsia fel...  36.6    1.0  
ref|YP_067445.1|  hypothetical protein RT0491 [Rickettsia typh...  36.6    1.0  
ref|YP_001499374.1|  hypothetical protein RMA_0667 [Rickettsia...  36.6    1.1  
ref|ZP_03753877.1|  hypothetical protein ROSEINA2194_02298 [Ro...  36.6    1.1  
ref|YP_001493499.1|  hypothetical protein A1C_03550 [Rickettsi...  36.6    1.1  
ref|XP_955192.1|  hypothetical protein [Theileria annulata] >e...  35.4    2.3  
ref|YP_002916105.1|  hypothetical protein RPR_00290 [Rickettsi...  35.0    3.4  
ref|YP_537945.1|  hypothetical protein RBE_0775 [Rickettsia be...  34.3    5.8  
ref|YP_003533500.1|  hypothetical protein HVO_A0039 [Haloferax...  34.3    6.1  
ref|ZP_03012478.1|  hypothetical protein BACINT_00024 [Bactero...  33.5    9.4  

ALIGNMENTS
>ref|NP_220882.1| hypothetical protein RP506 [Rickettsia prowazekii str. Madrid 
E]
 sp|Q9ZD41.1|Y506_RICPR RecName: Full=Uncharacterized protein RP506
 emb|CAA14958.1| unknown [Rickettsia prowazekii]
 gb|ADE30034.1| hypothetical protein rpr22_CDS490 [Rickettsia prowazekii Rp22]
Length=201

 Score = 39.3 bits (90),  Expect = 0.15, Method: Compositional matrix adjust.
 Identities = 30/90 (34%), Positives = 44/90 (49%), Gaps = 1/90 (1%)

Query  62   NEDKKIFVTAKEGNFVDENKIL-LNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK  120
            N+D+ + +TAKEG    E+ IL L  ++KL     I  T+    N  +Q     S +   
Sbjct  107  NQDQALIITAKEGFLDQESNILDLKNDIKLFFDEIIFNTNNARINLVNQNIYGNSSAKLL  166

Query  121  SKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
             KN+SI S+ F+  D    I F GN   I+
Sbjct  167  YKNSSITSDSFNTMDENNIIIFKGNVSTII  196


>ref|YP_002845253.1| hypothetical protein RAF_ORF0606 [Rickettsia africae ESF-5]
 gb|ACP53510.1| Unknown [Rickettsia africae ESF-5]
Length=198

 Score = 38.1 bits (87),  Expect = 0.39, Method: Compositional matrix adjust.
 Identities = 29/90 (33%), Positives = 46/90 (52%), Gaps = 1/90 (1%)

Query  62   NEDKKIFVTAKEGNFVDENKIL-LNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK  120
            N+D+ + + AKEG   +E++IL L  +VKL     I  T+    +  ++  T  S +   
Sbjct  105  NQDQTLIINAKEGFLDEESRILDLKNDVKLFFDEIIFNTNDARIDLVNKNITGHSPAKLL  164

Query  121  SKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
             KN+SI S+ F+  D    I F GN   I+
Sbjct  165  YKNSSITSDSFNTKDENNIIIFKGNVSTII  194


>ref|YP_001494776.1| hypothetical protein A1G_03755 [Rickettsia rickettsii str. 'Sheila 
Smith']
 ref|YP_001650039.1| hypothetical protein RrIowa_0790 [Rickettsia rickettsii str. 
Iowa]
 gb|ABV76268.1| hypothetical protein A1G_03755 [Rickettsia rickettsii str. 'Sheila 
Smith']
 gb|ABY72633.1| hypothetical protein RrIowa_0790 [Rickettsia rickettsii str. 
Iowa]
Length=198

 Score = 38.1 bits (87),  Expect = 0.41, Method: Compositional matrix adjust.
 Identities = 29/90 (33%), Positives = 45/90 (50%), Gaps = 1/90 (1%)

Query  62   NEDKKIFVTAKEGNFVDENKIL-LNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK  120
            N+D+ + + AKEG   +E+ IL L  +VKL     I  T+    +  ++  T  S +   
Sbjct  105  NQDQTLIINAKEGFLDEESSILDLKNDVKLFFDEIIFNTNDARIDLVNKNITGHSPATLL  164

Query  121  SKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
             KN+SI S+ F+  D    I F GN   I+
Sbjct  165  YKNSSITSDSFNTKDENNIIIFKGNVSTII  194


>ref|ZP_00141913.1| hypothetical protein [Rickettsia sibirica 246]
 gb|EAA25322.1| unknown [Rickettsia sibirica 246]
Length=197

 Score = 37.4 bits (85),  Expect = 0.58, Method: Compositional matrix adjust.
 Identities = 29/90 (33%), Positives = 45/90 (50%), Gaps = 1/90 (1%)

Query  62   NEDKKIFVTAKEGNFVDENKIL-LNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK  120
            N+D+ + + AKEG   +E+ IL L  +VKL     I  T+    +  ++  T  S +   
Sbjct  104  NQDQTLIINAKEGFLDEESSILDLKNDVKLFFDEIIFNTNDARIDLVNKNITGHSPAKLL  163

Query  121  SKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
             KN+SI S+ F+  D    I F GN   I+
Sbjct  164  YKNSSITSDSFNTQDENNIIIFKGNVSTII  193


>ref|NP_360297.1| hypothetical protein RC0660 [Rickettsia conorii str. Malish 7]
 sp|Q92HW0.1|Y660_RICCN RecName: Full=Uncharacterized protein RC0660
 gb|AAL03198.1| unknown [Rickettsia conorii str. Malish 7]
Length=198

 Score = 37.0 bits (84),  Expect = 0.94, Method: Compositional matrix adjust.
 Identities = 29/90 (33%), Positives = 45/90 (50%), Gaps = 1/90 (1%)

Query  62   NEDKKIFVTAKEGNFVDENKIL-LNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK  120
            N+D+ + + AKEG   +E+ IL L  +VKL     I  T+    +  ++  T  S +   
Sbjct  105  NQDQTLIINAKEGFLDEESSILDLKNDVKLFFDEIIFNTNDARIDLVNKNITGHSPAKLL  164

Query  121  SKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
             KN+SI S+ F+  D    I F GN   I+
Sbjct  165  YKNSSITSDSFNTKDENNIIIFKGNVSTII  194


>ref|YP_246735.1| hypothetical protein RF_0719 [Rickettsia felis URRWXCal2]
 gb|AAY61570.1| unknown [Rickettsia felis URRWXCal2]
Length=199

 Score = 36.6 bits (83),  Expect = 1.0, Method: Compositional matrix adjust.
 Identities = 29/90 (33%), Positives = 45/90 (50%), Gaps = 1/90 (1%)

Query  62   NEDKKIFVTAKEGNFVDENKIL-LNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK  120
            N+D+ + + AKEG   +E+ IL L  +VKL     I  T+    +  ++  T  S +   
Sbjct  105  NQDQTLIINAKEGFLDEESNILDLKNDVKLFFDEIIFNTNDARIDLVNKNITGNSSAKLL  164

Query  121  SKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
             KN+SI S+ F+  D    I F GN   I+
Sbjct  165  YKNSSITSDSFNTRDENNIIIFKGNVSTII  194


>ref|YP_067445.1| hypothetical protein RT0491 [Rickettsia typhi str. Wilmington]
 gb|AAU03963.1| rickettsial conserved hypothetical protein [Rickettsia typhi 
str. Wilmington]
Length=201

 Score = 36.6 bits (83),  Expect = 1.0, Method: Compositional matrix adjust.
 Identities = 32/102 (32%), Positives = 51/102 (50%), Gaps = 4/102 (3%)

Query  51   VDITLPKFSINNEDKKIFVTAKEGNFVDE--NKILLNKNVKLKSKTFIIETDQVIFNRKD  108
            +DI    +SI  +D+ + +TAKEG F+D+  N + L  ++KL     I  T+    N  +
Sbjct  97   LDIINAIYSIK-QDQTLIITAKEG-FLDQESNTLDLKNDIKLFVDEIIFNTNNARINLVN  154

Query  109  QTATSKSMSVFKSKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
            Q     S +    KN+SI S+ F+  +    I F GN   I+
Sbjct  155  QNINGNSSAKLIYKNSSITSDSFNTMNENNIIIFKGNVSTII  196


>ref|YP_001499374.1| hypothetical protein RMA_0667 [Rickettsia massiliae MTU5]
 gb|ABV84827.1| hypothetical protein RMA_0667 [Rickettsia massiliae MTU5]
Length=198

 Score = 36.6 bits (83),  Expect = 1.1, Method: Compositional matrix adjust.
 Identities = 29/90 (33%), Positives = 45/90 (50%), Gaps = 1/90 (1%)

Query  62   NEDKKIFVTAKEGNFVDENKIL-LNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK  120
            N+D+ + + AKEG   +E+ IL L  +VKL     I  T+    +  ++  T  S +   
Sbjct  105  NQDQTLIINAKEGFLDEESNILDLKNDVKLFFDEIIFNTNDARIDLVNKNITGHSPAKLL  164

Query  121  SKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
             KN+SI S+ F+  D    I F GN   I+
Sbjct  165  YKNSSITSDSFNTKDENNIIIFKGNVSTII  194


>ref|ZP_03753877.1| hypothetical protein ROSEINA2194_02298 [Roseburia inulinivorans 
DSM 16841]
 gb|EEG93893.1| hypothetical protein ROSEINA2194_02298 [Roseburia inulinivorans 
DSM 16841]
Length=288

 Score = 36.6 bits (83),  Expect = 1.1, Method: Compositional matrix adjust.
 Identities = 47/179 (27%), Positives = 72/179 (41%), Gaps = 52/179 (29%)

Query  15   ILFFSILSFFIVGTFFYLKYDTF---------DKKNLKNSIKISNVDITLPKFSINNED-  64
            +L+ S+L+ FI G  ++L Y  F         DK+ +K S       I +P+ S  N+D 
Sbjct  81   VLYMSLLNPFIQGKDWFLDYHNFCIDERYIFLDKQTMKASY------IYVPEASFQNQDE  134

Query  65   ------KKIFVTAK------------------EGNFVDENKILLNKNVKLKSKTFIIETD  100
                  KKIF   K                    NF D  + LL K +K   KT  I   
Sbjct  135  DIVQFFKKIFSQIKIVNDPAFQVTMYQYFISDHVNFTDLYQ-LLQKEMKADMKTAEIRMP  193

Query  101  QVIFNRKDQTATSKSMSVFKSKNASIFS-----------EGFDIYDNGKKISFSGNAQL  148
            +V    + +   +KSM     +N  + +             FDI+D GKK + SG++ +
Sbjct  194  KVPEKPEIKNTGTKSMQPLAEQNVHVKAVEAKAEQQVENSPFDIFDTGKKKTNSGDSAI  252


>ref|YP_001493499.1| hypothetical protein A1C_03550 [Rickettsia akari str. Hartford]
 gb|ABV74991.1| hypothetical protein A1C_03550 [Rickettsia akari str. Hartford]
Length=199

 Score = 36.6 bits (83),  Expect = 1.1, Method: Compositional matrix adjust.
 Identities = 31/91 (35%), Positives = 46/91 (51%), Gaps = 3/91 (3%)

Query  62   NEDKKIFVTAKEGNFVDE--NKILLNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVF  119
            N+D+   + AKEG F+DE  N + L  +VKL     I  T+    +  ++  T  S +  
Sbjct  105  NQDQTFIINAKEG-FLDEGSNILDLKNDVKLFFDEIIFNTNDARIDLVNKNITGNSSAKL  163

Query  120  KSKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
              KN+SI S+ F+I D    I F GN   I+
Sbjct  164  FYKNSSITSDSFNIMDETNIIIFKGNVSTII  194


>ref|XP_955192.1| hypothetical protein [Theileria annulata]
 emb|CAI75716.1| hypothetical protein TA04880 [Theileria annulata]
Length=175

 Score = 35.4 bits (80),  Expect = 2.3, Method: Compositional matrix adjust.
 Identities = 43/141 (31%), Positives = 65/141 (47%), Gaps = 21/141 (14%)

Query  2    AKLNLLFLINKKYILFFSILSFFIVGTFFY--LKYDTFDKKNLKNSIKISNVDIT-LPKF  58
             K+NL F           I SF    TFF+   +   F KK+ KN I + N+D+  LP F
Sbjct  2    CKMNLPF-----------IYSFITTSTFFHNQSQMGLFSKKSSKNDI-LDNIDVKGLPHF  49

Query  59   SINNEDKKIFVTAKEGNFVDENKIL--LNKNVKLKSKTFIIETDQV-IFNR---KDQTAT  112
            SIN++       AK+ N  +E  +L  LNK +KL +   I+   Q   + R   K     
Sbjct  50   SINHKTTIKIEIAKDKNIRNEYDVLKKLNKVMKLHNADKILNERQTRRYPRHHFKRMIKQ  109

Query  113  SKSMSVFKSKNASIFSEGFDI  133
            SK   +  ++  + +S+  DI
Sbjct  110  SKGFQMSDARREAYYSKHTDI  130


>ref|YP_002916105.1| hypothetical protein RPR_00290 [Rickettsia peacockii str. Rustic]
 gb|ACR47058.1| hypothetical protein RPR_00290 [Rickettsia peacockii str. Rustic]
Length=198

 Score = 35.0 bits (79),  Expect = 3.4, Method: Compositional matrix adjust.
 Identities = 28/90 (32%), Positives = 45/90 (50%), Gaps = 1/90 (1%)

Query  62   NEDKKIFVTAKEGNFVDENKIL-LNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK  120
            ++D+ + + AKEG   +E+ IL L  +VKL     I  T+    +  ++  T  S +   
Sbjct  105  HQDQTLIINAKEGFLDEESSILDLKNDVKLFFDKIIFNTNDARIDLVNKNITGHSPAKLL  164

Query  121  SKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
             KN+SI S+ F+  D    I F GN   I+
Sbjct  165  YKNSSITSDSFNTKDENNIIIFKGNVSTII  194


>ref|YP_537945.1| hypothetical protein RBE_0775 [Rickettsia bellii RML369-C]
 ref|YP_001496368.1| hypothetical protein A1I_04990 [Rickettsia bellii OSU 85-389]
 gb|ABE04856.1| unknown [Rickettsia bellii RML369-C]
 gb|ABV79331.1| hypothetical protein A1I_04990 [Rickettsia bellii OSU 85-389]
Length=197

 Score = 34.3 bits (77),  Expect = 5.8, Method: Compositional matrix adjust.
 Identities = 26/86 (31%), Positives = 46/86 (54%), Gaps = 1/86 (1%)

Query  62   NEDKKIFVTAKEGNFVDENKIL-LNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFK  120
            N+++ + V AKEG   +E+ IL L  +VK   +  I +T+    +  +++  S S +   
Sbjct  103  NKNQSVTVYAKEGFLNEESHILDLKNDVKFYFEDMIFDTNDARIDLINKSIISDSPATLF  162

Query  121  SKNASIFSEGFDIYDNGKKISFSGNA  146
             KN++I S+ F+  D+   I F GN 
Sbjct  163  HKNSTITSDSFNTQDDNNIIIFKGNV  188


>ref|YP_003533500.1| hypothetical protein HVO_A0039 [Haloferax volcanii DS2]
 gb|ADE02241.1| hypothetical protein HVO_A0039 [Haloferax volcanii DS2]
Length=326

 Score = 34.3 bits (77),  Expect = 6.1, Method: Compositional matrix adjust.
 Identities = 16/51 (32%), Positives = 28/51 (55%), Gaps = 0/51 (0%)

Query  100  DQVIFNRKDQTATSKSMSVFKSKNASIFSEGFDIYDNGKKISFSGNAQLIL  150
            DQ   +  D T   +  SV++ KN   ++ G DIY NG++++    A+ +L
Sbjct  25   DQDTTHIADITVDGQQYSVYEHKNVFSWASGIDIYTNGERVTSESTAEAVL  75


>ref|ZP_03012478.1| hypothetical protein BACINT_00024 [Bacteroides intestinalis DSM 
17393]
 gb|EDV07628.1| hypothetical protein BACINT_00024 [Bacteroides intestinalis DSM 
17393]
Length=553

 Score = 33.5 bits (75),  Expect = 9.4, Method: Composition-based stats.
 Identities = 32/125 (26%), Positives = 59/125 (48%), Gaps = 19/125 (15%)

Query  22   SFFIVGTFFYLKYDTFDK-KNLKNSIKISNVDITLPKFSINNE---------------DK  65
            + FI G + Y  YD   +   L+ ++++ N + TL   S+N +               D+
Sbjct  107  TLFIYGDYLY--YDGMSQLAMLRENVRMINRNTTLTTDSLNYDRLYNLGYYFEGGTLTDE  164

Query  66   KIFVTAKEGNFVDENKI-LLNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFKSKNA  124
            +  +T++ G +    KI + N +VKL +  FI+ +D + ++   + AT    S   S N 
Sbjct  165  ENVLTSEWGEYSPATKISVFNHDVKLVNPKFILTSDTLKYSTATKIATILGPSDIVSDNN  224

Query  125  SIFSE  129
             I+SE
Sbjct  225  HIYSE  229


RESULTATS BRUT DU BLASTp CONTRE ENV_NR

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|EBL78010.1|  hypothetical protein GOS_8515500 [marine metag...   278    3e-74
gb|ECO42034.1|  hypothetical protein GOS_5516991 [marine metag...   142    3e-33
gb|EBY23321.1|  hypothetical protein GOS_3477568 [marine metag...   140    2e-32
gb|EBR32838.1|  hypothetical protein GOS_7617147 [marine metag...   139    2e-32
gb|EBE97280.1|  hypothetical protein GOS_9673885 [marine metag...   139    3e-32
gb|ECL81039.1|  hypothetical protein GOS_5398742 [marine metag...   137    9e-32
gb|EBE85282.1|  hypothetical protein GOS_9693978 [marine metag...   136    2e-31
gb|EBI67313.1|  hypothetical protein GOS_9052969 [marine metag...   132    4e-30
gb|EBN37889.1|  hypothetical protein GOS_8256325 [marine metag...   131    6e-30
gb|ECZ88463.1|  hypothetical protein GOS_2102779 [marine metag...   131    9e-30
gb|ECQ62800.1|  hypothetical protein GOS_4904667 [marine metag...   129    5e-29
gb|ECJ09894.1|  hypothetical protein GOS_5664120 [marine metag...   127    1e-28
gb|EBJ62865.1|  hypothetical protein GOS_8866598 [marine metag...   127    2e-28
gb|EBJ46669.1|  hypothetical protein GOS_8893621 [marine metag...   126    3e-28
gb|ECG47946.1|  hypothetical protein GOS_5595066 [marine metag...   125    6e-28
gb|EDA23211.1|  hypothetical protein GOS_2039408 [marine metag...   123    2e-27
gb|EDF03338.1|  hypothetical protein GOS_1026946 [marine metag...   121    7e-27
gb|ECH72052.1|  hypothetical protein GOS_4138082 [marine metag...   121    9e-27
gb|ECS49137.1|  hypothetical protein GOS_4487401 [marine metag...   119    4e-26
gb|ECD63722.1|  hypothetical protein GOS_6169112 [marine metag...   118    7e-26
gb|ECN45629.1|  hypothetical protein GOS_5861322 [marine metag...   117    1e-25
gb|EBW18412.1|  hypothetical protein GOS_6787304 [marine metag...   113    3e-24
gb|EBM88046.1|  hypothetical protein GOS_8337778 [marine metag...   110    1e-23
gb|ECI10708.1|  hypothetical protein GOS_6123938 [marine metag...   105    7e-22
gb|ECX25192.1|  hypothetical protein GOS_2571681 [marine metag...   105    7e-22
gb|ECA12349.1|  hypothetical protein GOS_6124459 [marine metag...   103    3e-21
gb|ECP54911.1|  hypothetical protein GOS_5644422 [marine metag...   102    6e-21
gb|ECM55939.1|  hypothetical protein GOS_5941361 [marine metag...   100    2e-20
gb|ECH32085.1|  hypothetical protein GOS_5731116 [marine metag...  99.8    3e-20
gb|ECK76058.1|  hypothetical protein GOS_6093709 [marine metag...  99.0    5e-20
gb|EBS16856.1|  hypothetical protein GOS_7480337 [marine metag...  98.6    6e-20
gb|ECG45794.1|  hypothetical protein GOS_5690916 [marine metag...  97.4    1e-19
gb|ECC85609.1|  hypothetical protein GOS_5755019 [marine metag...  97.1    2e-19
gb|ECE72069.1|  hypothetical protein GOS_5562239 [marine metag...  95.9    4e-19
gb|EBH06779.1|  hypothetical protein GOS_9326116 [marine metag...  95.5    5e-19
gb|ECO36708.1|  hypothetical protein GOS_5745503 [marine metag...  94.7    8e-19
gb|EBI52105.1|  hypothetical protein GOS_9078728 [marine metag...  92.8    4e-18
gb|ECF52589.1|  hypothetical protein GOS_5902523 [marine metag...  92.0    6e-18
gb|ECA28589.1|  hypothetical protein GOS_5459402 [marine metag...  89.0    5e-17
gb|EBX06497.1|  hypothetical protein GOS_6646596 [marine metag...  87.4    1e-16
gb|EDA83920.1|  hypothetical protein GOS_1927874 [marine metag...  86.7    3e-16
gb|ECS14700.1|  hypothetical protein GOS_5866555 [marine metag...  85.9    5e-16
gb|EBD84149.1|  hypothetical protein GOS_9863535 [marine metag...  84.7    1e-15
gb|EBT40399.1|  hypothetical protein GOS_7279365 [marine metag...  84.3    1e-15
gb|ECA29589.1|  hypothetical protein GOS_5412981 [marine metag...  84.3    1e-15
gb|ECE66516.1|  hypothetical protein GOS_5788442 [marine metag...  84.0    2e-15
gb|ECT57658.1|  hypothetical protein GOS_5418010 [marine metag...  82.8    4e-15
gb|EBS28956.1|  hypothetical protein GOS_7460921 [marine metag...  81.6    8e-15
gb|ECJ61286.1|  hypothetical protein GOS_3648957 [marine metag...  80.5    2e-14
gb|ECC86089.1|  hypothetical protein GOS_5733878 [marine metag...  75.1    7e-13
gb|EBJ44155.1|  hypothetical protein GOS_8897707 [marine metag...  68.2    9e-11
gb|EBP44604.1|  hypothetical protein GOS_7910123 [marine metag...  66.2    3e-10
gb|ECR31745.1|  hypothetical protein GOS_5667549 [marine metag...  63.9    2e-09
gb|EBR53245.1|  hypothetical protein GOS_7583381 [marine metag...  62.8    4e-09
gb|EBB39019.1|  hypothetical protein GOS_241593 [marine metage...  62.4    5e-09
gb|EBY02052.1|  hypothetical protein GOS_5979102 [marine metag...  61.2    1e-08
gb|EBY45048.1|  hypothetical protein GOS_5797091 [marine metag...  57.0    2e-07
gb|EBR26695.1|  hypothetical protein GOS_7627172 [marine metag...  49.3    4e-05
gb|ECQ66549.1|  hypothetical protein GOS_4754906 [marine metag...  47.8    1e-04
gb|ECD25729.1|  hypothetical protein GOS_4148799 [marine metag...  39.7    0.033
gb|ECJ52005.1|  hypothetical protein GOS_4011521 [marine metag...  38.9    0.068
gb|ECF05144.1|  hypothetical protein GOS_4255030 [marine metag...  36.6    0.30 
gb|EBB67004.1|  hypothetical protein GOS_195170 [marine metage...  35.4    0.61 
gb|ECL39707.1|  hypothetical protein GOS_3561372 [marine metag...  35.4    0.69 
gb|EDA00217.1|  hypothetical protein GOS_2081517 [marine metag...  34.7    1.2  
gb|EBL60103.1|  hypothetical protein GOS_8544961 [marine metag...  34.3    1.3  
gb|EBN06882.1|  hypothetical protein GOS_8307052 [marine metag...  33.1    2.9  
gb|ECZ77756.1|  hypothetical protein GOS_2122661 [marine metag...  32.3    6.0  
gb|EBL04333.1|  hypothetical protein GOS_8633080 [marine metag...  32.0    6.8  
gb|ECV26183.1|  hypothetical protein GOS_2933196 [marine metag...  31.6    8.7  









SÉQUENCES UTILISÉES POUR L'ALIGNEMENT MULTIPLE:
	

>GOS_2047020 Traduction [412-864 sens direct]
QAKLNLLFLINKKYILFFSILSFFIVGTFFYLKYDTFDKKNLKNSIKISNVDITLPKFSINNEDKKIFVTAKEGNFVDENKILLNKNVKLKSKTFIIETD
QVIFNRKDQTATSKSMSVFKSKNASIFSEGFDIYDNGKKISFSGNAQLILK


>gi|136080698|gb|EBL78010.1| hypothetical protein GOS_8515500 [marine metagenome]
MNLLFLINKKYILFFSILSFFIVGTFFYLKYDTFDKKNLKNSIKISNVDITLPKFSINNEDKKIFVTAKE
GNFVDENKILLNKNVKLKSKTFIIETDQVIFNRKDQTATSKSMSVFKSKNASIFSEGFDIYDNGKKISFS
GNAQLILK


>gi|140923670|gb|ECO42034.1| hypothetical protein GOS_5516991 [marine metagenome]
MNYLLSINQKYVLLVSLIVFFSFLIFFFLKYYTTISNNYIEENILISNVDITEPSFSINNKIEKIHITAK
EGNFVDEDKILLKKEVKFKSNDFMIESDNVIFDKKNQTASSSHKSIFKSKNTKILSDGFDIKDNGNKINF
YGKAKIILK


>gi|138179292|gb|EBY23321.1| hypothetical protein GOS_3477568 [marine metagenome]
MNFFLYINRKLIFFAGMVIIFFFLLVIFLKQFTLNKIKLKNPINNFSNVDILEPKFSINNESKKIYITAK
EGNFLNKDEILLKDSVKFKSNDFSIETEKVIFNKDKQTAQSKTKSLFKSKNTTIFSDGFDIYDNGNRIIF
FGNSYITLK


>gi|136944501|gb|EBR32838.1| hypothetical protein GOS_7617147 [marine metagenome]
MNFLLSLNKKYVLLISIFTFLIFVVFFCFKFYFSIQNTFTSQINISNADITEPRFAINSSSEKILVTAKE
GNFIDEDKIMLKNNVKFKSNIFSIETENVLFDRKNQTAYSENKSLFKSKNTTITSDGFNIYDDGDKIKFY
GKST


>gi|135019584|gb|EBE97280.1| hypothetical protein GOS_9673885 [marine metagenome]
MNYLLSFNKKLIVILGFIICSIAIVFYSMKYLSLETNKLVNQISISNVDIIEPRFSINSSSQKILVTAKE
GNFIAENKILLKKNVKFSSNDFSIESDNVTFDRVKQTAYSEQKSVFKSERTRISSEGFNIYDNGNKIKFF
GNSVIILK


>gi|140446345|gb|ECL81039.1| hypothetical protein GOS_5398742 [marine metagenome]
LNFFLHINKKIIFFFGLIIVFSFLILVFSKQINIKNIDLKVSKKILSDADIAEPKFAISNDSRKIHITAK
EGNFLTENEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLFKSKNTTIFSDGFNIYDNGNKIMF
YGNSLIVLK


>gi|135001855|gb|EBE85282.1| hypothetical protein GOS_9693978 [marine metagenome]
MNFFLHINKKIIFFFGLIIVFCFLILVFSKQINIKNINLKVSEKILSNVDIAEPKFAISNNSKKIHITAK
EGNFLNKNEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLFTSKNTTISSDGFNIYDNGNKIIF
YGNSLIVLK


>gi|135598757|gb|EBI67313.1| hypothetical protein GOS_9052969 [marine metagenome]
MNFFLHINKKIVFFFGLIIVFSFLIIIFSKQINIKNIDLKVSEKILSNVDIAEPKFAISNNSRKIYITAK
EGNFLNKDEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLFTSKNTTISSDGFNIYDNGNKIMF
YGNSLIVLK


>gi|136321728|gb|EBN37889.1| hypothetical protein GOS_8256325 [marine metagenome]
MNFFLHINKKIIFFFGLIIVFSFLIIIFSKQINIKNIDLNVSEKILSNVDIAEPKFAISNESRKIYITAK
EGNFLNKDEILLNKNVKFKSNDFSIETEKVIFDRNKQTAESKTKSLFTSKNTTISSDGFNIYDDGNKIMF
YGNSLIVLK


>gi|142691526|gb|ECZ88463.1| hypothetical protein GOS_2102779 [marine metagenome]
LNFLLSLNKKYVLIALILVIFLFFIFFIYKFYLSNDIKLISPNLEVSDVDITEPKFSINNSSRKIFITAK
EGNFITKNKILLRKNVKFTSADFSIESDNVTFDREEQTARSEDKSYFRSKNTLISSEGFDIYDNGNKMIF
YGKSIVILK


>gi|141245245|gb|ECQ62800.1| hypothetical protein GOS_4904667 [marine metagenome]
SKGKIELLNVDITEPRFAINNIQEKIFISAREGNFIEDNKILLKKSVKFKSNNFSIESDNVTFDREKQTA
QSNDKSTFKSKNTTILSEGFDIYDNGNKIDFYGRASIILK


>gi|140027318|gb|ECJ09894.1| hypothetical protein GOS_5664120 [marine metagenome]
LNFLFSLNRKYILLFIIIFFLLCFTFIFYKFFYSIEKKLIIDKAISKVDITDPRFSINNFERKILITAKE
GDFINKDKILLKKNVLFKSNKFSIESDNVIFNRKDQTAESYENSIFRSNNTKISSEGFNIYDNGSKIKFH
GNSINYFKM


>gi|135753191|gb|EBJ62865.1| hypothetical protein GOS_8866598 [marine metagenome]
MNFFLYINRKLIFFSGGLIIFSFLILVLYKQFNIKNADINKIENNLSDADISEPKFAINNESKKIYITAR
EGNFLNKDEVLLKDSVRFKSNDFIIETENVIFNRSKQTAESKTKSLFKSKNTTIFSDGFNIYDKGNKIIF
YGSSNIIIK


>gi|135727027|gb|EBJ46669.1| hypothetical protein GOS_8893621 [marine metagenome]
MNILLSLNKNFVLVITILFFIILFIFIILKFYFSYEYKNSEIEIKISKADITEPRFAINNQSKKIFVTAQ
EGNFIKGGKILLKNNVKFTSENFSIETDNVVFDRQEQTASSDDKSIFKSKNTIISSDGFDIHDSGNIINF
YGKAVVTLK


>gi|139644943|gb|ECG47946.1| hypothetical protein GOS_5595066 [marine metagenome]
LNFFLHINRKFIILFGAIIIFLFLIIIFYKQINLNNIIIGGTIVSSSNADISEPKFSINNESKKIYITAS
EGNFINKDEVLLKENVRFKSNDFSIETEKVIFNRDKQTAKSKTKSMFKSKNATITSNGFNIHDSGNKIIF
YGNSYIILK


>gi|142739878|gb|EDA23211.1| hypothetical protein GOS_2039408 [marine metagenome]
MNTLLSLNKKLVLILSFIIFIVFIIFFILKYYNEFETIINYEKNLVSNADITEPKFAIKNSSQKIFVTAK
EGNFIDKDEIMLKKNVKFKSKNFSIESDNVVFNRKAQTAYSEDKSIFRSEKTTISADGFDIHDNGNNINF
YG


>gi|143451134|gb|EDF03338.1| hypothetical protein GOS_1026946 [marine metagenome]
MNFFLHINSKLIFFLGILVISFFLLIIFSKQISLTNIEVEKIKKNLTSADIAEPKFAINNESKKIYITAK
EGNFLNNDEILLKKNVRFKSNDFSIETERVIFDRNKQTAKSETKSLFKSKNTTIFSNGFNIYDKGDKIIF
FGKSFVVLK