GOS 1286020

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : JCVI_READ_1092351305080
Annotathon code: GOS_1286020
Sample :
  • GPS :1°13'1s; 90°19'11w
  • Galapagos Islands: Coastal Floreana - Ecuador
  • Coastal (-2m, 0°C, 0.1-0.8 microns)
Authors
Team : Biochimie 2010
Username : soufvinc
Annotated on : 2010-06-03 11:40:29
  • driouchi soufyane
  • lome vincent

Synopsis

Genomic Sequence

>JCVI_READ_1092351305080 GOS_1286020 Genomic DNA
CAAGGCAGAGAACAAGAGCATTGATCAGGTTGGAATCAGATTCATGAGGTTCTGTGGCAAATATGATTTAAATAGGATTAGTGAGCAGGCACAACTGTAT
GTTGAGCCTTTTAATGCGAGGTTGGTATCATGACAGTGAGAGCAAAGACCCTAGTCAAAGACAAGTTTTGGATAGTCGAGCAGAACGGCCAAAAGTTAGG
TACCCTTCAGAAACAAGCGGACAACGGTTGGATCTTTTTAAGCAAACAAGACAAGAGGCAAGTGTTTCACACGCAGGAGAGCCTGTTCACAAAGTTTGGA
TTTGGCATATTTGACGAATCGAACATTAAAAAACCTAGTGAAGAGATACAGACTGACAATTTTGATGTGCATGGTTACCCATGTGGTCAACATCCTTACA
ATCCGATGTTTGATGTACAGAAGCAACTACCCGTGTACACAAAGACACCAAAAAGCAAAAGCCAGTTTTGTGCAGGTTACTACATAATCTGCTTTGAAAA
AGGATGGCGTAAGGCCTACTGTCCTAAAATGATCACACTTTCAAGGTACGAATACAAAGGACCTATCAAAACCAAACTAGAAATGCAACAGATATTAAAT
GACGCAGTCAAACAATTCCAAGATACAAACTAGACCAATAGAGGATCTCATAGGCAGGATTAGAACCCTGCGTCAAAAAGGAGAAAGACAGATCATTATC
CCTGCCAAAGAAGCAGACCAACTGGCAGACAGCCTGGCCCAGGTGATGACAAGGATGGTCACAATCCAAGAAGAAATAATCCAAGCACTGAAGACAGCCA
GAGAAGCACAGACCATAGACATAGACATGGACGGTGGCAATTTCTCAGATAAAAAATAACGTCAATAGGTAGCAACGACAACACCCTAAAACCTTTCCAA
TACTCACACACGATCAATTTTTTGGTAAATATAAGTTGTAGAGAGTGATCAATATGAGCAGACCAAAACCCACAGTGTTGTTACAGCACAGCAATAAAAC
CACCTTCAAAATGGATGAAGTTTT

Translation

[130 - 630/1024]   direct strand
>GOS_1286020 Translation [130-630   direct strand]
MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGIFDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQL
PVYTKTPKSKSQFCAGYYIICFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN

Annotator commentaries

La séquence étudiée fait 1024 paires de bases. Ce fragment d'ADN a été récupéré après filtration d'un échantillon d'eau de mer à 2m de profondeur, au large des îles Galapagos.


Nous avons débuté l'annotation de ce fragment d'ADN par la recherche d'ORF putatifs à l'aide de l'outil: ORF Finder. Nous avons obtenu un ORF qui possède les caractéristiques requises pour une étude: la séquence est longue (503bp) et complète (codon start et codon stop) soit une hypothétique protéine de 167 acides aminés de 19,3 kDa. Nous sommes donc partis de l'hypothèse que ce fragment d'ADN est effectivement codant.


Cependant, la recherche de domaines protéiques InterProscan n'a donné aucun résultat. Nous n'avons donc pu associer une fonction moléculaire à la protéine putative.


Les blast protéiques contre les banques swissprot et NR, nous donnent aucun homologue à notre séquence d'intérêt, un blast N contre la banque nr/nt nous a permis d'écarter l'hypothèse de l'erreur de séquençage. Le BlastP contre la banque environnementale affiche un très grand nombre de HSP avec un fort degré de similarité. Il s'agit donc très probablement d'un ORFan ou ORF pas encore annoté.


A cette étape nous avons défini un score seuil (assez élevé: 124) pour délimiter les homologues des non homologues. Nous ne pouvons établir de groupe d'étude et de groupe extérieur car les homologues proviennent tous de métagénomes marins. De même nous ne pouvons associer de fonction moléculaire putative à notre séquence d'intérêt.


L'alignement multiple a mis en évidence une très grande conservation entre les séquences homologues et notre séquence d'intérêt. Notre ORF et les séquence homologues s'alignent bien du début jusqu'à la fin. Le fait que les séquences s'alignent pratiquement toutes au début par une méthionine et terminent en majorité par le même résidu (asparagine) a montré que le choix de l'ORF était judicieux.


La construction des 2 arbres phylogénétiques a également montré la haute similarité des séquences déjà révélée par les résultats de Blast et la très bonne conservation des résidus dans l'alignement de ClustalW.


On peut donc raisonnablement penser que notre ORF est un ORF non annoté. Il faudrait traduire in vitro la séquence nucléotidique et étudier le produit obtenu pour savoir pour quelle protéine elle code. On ne pourra savoir de quel organisme provient la séquence que lorsque la connaissance et le séquençage de l'ADN des organismes marins sera plus étendue.

ORF finding

PROTOCOLE:


Lors de la recherche d'ORF, on utilisera le code génétique bacterien car l'échantillon provient d'un environnement marin et il peut s'agir d'une bactérie.

On effectue tout d'abord une recherche trés large: on considére que tous les premiers codons en aval des codons stops sont potentiellement des codons start. Puis, on recherche un eventuel codon start "ATG" dans notre plus grand ORF.


1)"any codon" initiation:


a)SMS ORF Finder / brin direct / phases de lecture 1,2 et 3 / min 60aa / "any codon" initiation / code bactérien

b)SMS ORF Finder /brin indirect / phases de lecture 1,2 et 3 / min 60aa / "any codon" initiation / code bacterien


2)codon start "ATG": recherche de codon "atg" sur le plus grand ORF


a)SMS ORF Finder /brin direct / phases de lecture 1 / min 60aa / codon start "ATG" / code bacterien



3) Détermination du poids moléculaire de l'ORF conservé: SMS / Protein Molecular Weight





ANALYSE DES RÉSULTATS:


1)"any codon" initiation:

a)Dans le sens direct, nous avons 4 ORF putatifs:

2 sur le 1er cadre: 518bp et 188bp

2 sur le 2ème cadre: 245bp et 260bp


b)Dans le sens indirect, nous avons 5 ORF putatifs:

2 sur le 1er cadre: 236bp et 188bp

2 sur le 2ème cadre : 2 fois 188bp

1 sur le 3ème cadre : 221bp




2)Nous recherchons ensuite le codon start_ATG sur l'ORF putatifs retenu:

a)Dans le sens direct, nous avons 1 ORF putatifs de 503bp



On remarque que 8 ORF putatifs sur 9 au total, obtenu précédement avec any codon sont des séquences inférieur à 260 nucléotides. Un seul ORF sur les 9 se distingue des autres par sa trés grande taille (503bp). Donc, les autres ORF semblent être insignifiant.

Nous avons donc décider de chercher un éventuel codons start "ATG" sur ce plus grand ORF. Il s'agit du même ORF obtenu precedement avec "any codon" (soit 15bp en moins seulement).


En résumé, parmi les résultats d'ORFinder, notre ORF susceptible d'être le plus vrai est une séquence:

- de cadre de lecture 1

- brin direct

- séquence la plus grande de taille: 500 nucléotides

- codon start en position 130 et codon stop (TAG) en position 631 -> ORF COMPLET


Il s'agit donc d'un ORF de 167 acides aminés: il est donc fort peu probable qu'il s'agisse d'un faux-positif. A ce stade de l'analyse, on peut supposer que cette séquence est codante par rapport à sa taille.


RÉSULTATS BRUTS:

1)"any codon" initiation:

   a)brin direct

ORF Finder results
Results for 1024 residue sequence "GOS_1286020 ADN génomique (Galapagos Islands: Coastal Floreana)" starting "CAAGGCAGAG"

>ORF number 1 in reading frame 1 on the direct strand extends from base 115 to base 633. 
TGCGAGGTTGGTATCATGACAGTGAGAGCAAAGACCCTAGTCAAAGACAAGTTTTGGATA 
GTCGAGCAGAACGGCCAAAAGTTAGGTACCCTTCAGAAACAAGCGGACAACGGTTGGATC 
TTTTTAAGCAAACAAGACAAGAGGCAAGTGTTTCACACGCAGGAGAGCCTGTTCACAAAG 
TTTGGATTTGGCATATTTGACGAATCGAACATTAAAAAACCTAGTGAAGAGATACAGACT 
GACAATTTTGATGTGCATGGTTACCCATGTGGTCAACATCCTTACAATCCGATGTTTGAT 
GTACAGAAGCAACTACCCGTGTACACAAAGACACCAAAAAGCAAAAGCCAGTTTTGTGCA 
GGTTACTACATAATCTGCTTTGAAAAAGGATGGCGTAAGGCCTACTGTCCTAAAATGATC 
ACACTTTCAAGGTACGAATACAAAGGACCTATCAAAACCAAACTAGAAATGCAACAGATA 
TTAAATGACGCAGTCAAACAATTCCAAGATACAAACTAG 

>Translation of ORF number 1 in reading frame 1 on the direct strand. 
CEVGIMTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTK 
FGFGIFDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCA 
GYYIICFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN* 


>ORF number 2 in reading frame 1 on the direct strand extends from base 664 to base 852. 
AACCCTGCGTCAAAAAGGAGAAAGACAGATCATTATCCCTGCCAAAGAAGCAGACCAACT 
GGCAGACAGCCTGGCCCAGGTGATGACAAGGATGGTCACAATCCAAGAAGAAATAATCCA 
AGCACTGAAGACAGCCAGAGAAGCACAGACCATAGACATAGACATGGACGGTGGCAATTT 
CTCAGATAA 

>Translation of ORF number 2 in reading frame 1 on the direct strand. 
NPASKRRKTDHYPCQRSRPTGRQPGPGDDKDGHNPRRNNPSTEDSQRSTDHRHRHGRWQF 
LR* 


>ORF number 1 in reading frame 2 on the direct strand extends from base 242 to base 487. 
GCAAACAAGACAAGAGGCAAGTGTTTCACACGCAGGAGAGCCTGTTCACAAAGTTTGGAT 
TTGGCATATTTGACGAATCGAACATTAAAAAACCTAGTGAAGAGATACAGACTGACAATT 
TTGATGTGCATGGTTACCCATGTGGTCAACATCCTTACAATCCGATGTTTGATGTACAGA 
AGCAACTACCCGTGTACACAAAGACACCAAAAAGCAAAAGCCAGTTTTGTGCAGGTTACT 
ACATAA 

>Translation of ORF number 1 in reading frame 2 on the direct strand. 
ANKTRGKCFTRRRACSQSLDLAYLTNRTLKNLVKRYRLTILMCMVTHVVNILTIRCLMYR 
SNYPCTQRHQKAKASFVQVTT* 


>ORF number 2 in reading frame 2 on the direct strand extends from base 599 to base 859. 
ATGACGCAGTCAAACAATTCCAAGATACAAACTAGACCAATAGAGGATCTCATAGGCAGG 
ATTAGAACCCTGCGTCAAAAAGGAGAAAGACAGATCATTATCCCTGCCAAAGAAGCAGAC 
CAACTGGCAGACAGCCTGGCCCAGGTGATGACAAGGATGGTCACAATCCAAGAAGAAATA 
ATCCAAGCACTGAAGACAGCCAGAGAAGCACAGACCATAGACATAGACATGGACGGTGGC 
AATTTCTCAGATAAAAAATAA 

>Translation of ORF number 2 in reading frame 2 on the direct strand. 
MTQSNNSKIQTRPIEDLIGRIRTLRQKGERQIIIPAKEADQLADSLAQVMTRMVTIQEEI 
IQALKTAREAQTIDIDMDGGNFSDKK* 


>ORF number 1 in reading frame 3 on the direct strand extends from base 72 to base 314. 
ATAGGATTAGTGAGCAGGCACAACTGTATGTTGAGCCTTTTAATGCGAGGTTGGTATCAT 
GACAGTGAGAGCAAAGACCCTAGTCAAAGACAAGTTTTGGATAGTCGAGCAGAACGGCCA 
AAAGTTAGGTACCCTTCAGAAACAAGCGGACAACGGTTGGATCTTTTTAAGCAAACAAGA 
CAAGAGGCAAGTGTTTCACACGCAGGAGAGCCTGTTCACAAAGTTTGGATTTGGCATATT 
TGA 

>Translation of ORF number 1 in reading frame 3 on the direct strand. 
IGLVSRHNCMLSLLMRGWYHDSESKDPSQRQVLDSRAERPKVRYPSETSGQRLDLFKQTR 
QEASVSHAGEPVHKVWIWHI* 


   b)brin indirect

>ORF number 1 in reading frame 1 on the reverse strand extends from base 181 to base 417.
GAAATTGCCACCGTCCATGTCTATGTCTATGGTCTGTGCTTCTCTGGCTGTCTTCAGTGC
TTGGATTATTTCTTCTTGGATTGTGACCATCCTTGTCATCACCTGGGCCAGGCTGTCTGC
CAGTTGGTCTGCTTCTTTGGCAGGGATAATGATCTGTCTTTCTCCTTTTTGACGCAGGGT
TCTAATCCTGCCTATGAGATCCTCTATTGGTCTAGTTTGTATCTTGGAATTGTTTGA

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
EIATVHVYVYGLCFSGCLQCLDYFFLDCDHPCHHLGQAVCQLVCFFGRDNDLSFSFLTQG
SNPAYEILYWSSLYLGIV*

>ORF number 2 in reading frame 1 on the reverse strand extends from base 502 to base 690.
GACAGTAGGCCTTACGCCATCCTTTTTCAAAGCAGATTATGTAGTAACCTGCACAAAACT
GGCTTTTGCTTTTTGGTGTCTTTGTGTACACGGGTAGTTGCTTCTGTACATCAAACATCG
GATTGTAAGGATGTTGACCACATGGGTAACCATGCACATCAAAATTGTCAGTCTGTATCT
CTTCACTAG

>Translation of ORF number 2 in reading frame 1 on the reverse strand.
DSRPYAILFQSRLCSNLHKTGFCFLVSLCTRVVASVHQTSDCKDVDHMGNHAHQNCQSVS
LH*

>ORF number 1 in reading frame 2 on the reverse strand extends from base 164 to base 352.
CGTTATTTTTTATCTGAGAAATTGCCACCGTCCATGTCTATGTCTATGGTCTGTGCTTCT
CTGGCTGTCTTCAGTGCTTGGATTATTTCTTCTTGGATTGTGACCATCCTTGTCATCACC
TGGGCCAGGCTGTCTGCCAGTTGGTCTGCTTCTTTGGCAGGGATAATGATCTGTCTTTCT
CCTTTTTGA

>Translation of ORF number 1 in reading frame 2 on the reverse strand.
RYFLSEKLPPSMSMSMVCASLAVFSAWIISSWIVTILVITWARLSASWSASLAGIMICLS
PF*

>ORF number 2 in reading frame 2 on the reverse strand extends from base 599 to base 787.
TTGCTTCTGTACATCAAACATCGGATTGTAAGGATGTTGACCACATGGGTAACCATGCAC
ATCAAAATTGTCAGTCTGTATCTCTTCACTAGGTTTTTTAATGTTCGATTCGTCAAATAT
GCCAAATCCAAACTTTGTGAACAGGCTCTCCTGCGTGTGAAACACTTGCCTCTTGTCTTG
TTTGCTTAA

>Translation of ORF number 2 in reading frame 2 on the reverse strand.
LLLYIKHRIVRMLTTWVTMHIKIVSLYLFTRFFNVRFVKYAKSKLCEQALLRVKHLPLVL
FA*

>ORF number 1 in reading frame 3 on the reverse strand extends from base 45 to base 266.
CAACACTGTGGGTTTTGGTCTGCTCATATTGATCACTCTCTACAACTTATATTTACCAAA
AAATTGATCGTGTGTGAGTATTGGAAAGGTTTTAGGGTGTTGTCGTTGCTACCTATTGAC
GTTATTTTTTATCTGAGAAATTGCCACCGTCCATGTCTATGTCTATGGTCTGTGCTTCTC
TGGCTGTCTTCAGTGCTTGGATTATTTCTTCTTGGATTGTGA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
QHCGFWSAHIDHSLQLIFTKKLIVCEYWKGFRVLSLLPIDVIFYLRNCHRPCLCLWSVLL
WLSSVLGLFLLGL*




2)codon start "ATG" 

   a)brin direct

>ORF number 1 in reading frame 1 on the direct strand extends from base 130 to base 633.
ATGACAGTGAGAGCAAAGACCCTAGTCAAAGACAAGTTTTGGATAGTCGAGCAGAACGGC
CAAAAGTTAGGTACCCTTCAGAAACAAGCGGACAACGGTTGGATCTTTTTAAGCAAACAA
GACAAGAGGCAAGTGTTTCACACGCAGGAGAGCCTGTTCACAAAGTTTGGATTTGGCATA
TTTGACGAATCGAACATTAAAAAACCTAGTGAAGAGATACAGACTGACAATTTTGATGTG
CATGGTTACCCATGTGGTCAACATCCTTACAATCCGATGTTTGATGTACAGAAGCAACTA
CCCGTGTACACAAAGACACCAAAAAGCAAAAGCCAGTTTTGTGCAGGTTACTACATAATC
TGCTTTGAAAAAGGATGGCGTAAGGCCTACTGTCCTAAAATGATCACACTTTCAAGGTAC
GAATACAAAGGACCTATCAAAACCAAACTAGAAATGCAACAGATATTAAATGACGCAGTC
AAACAATTCCAAGATACAAACTAG

Multiple Alignement

PROTOCOLE:


Phylogeny.fr / "A la carte" / ClustalW / "Run workflow" : "step by step" /



ANALYSE DES RÉSULTATS:


On obtient un trés bon alignement des 28 séquences car on observe 106 positions G-Blocks contre 187 positions au total ce qui représente 56% de positions conservés. De plus, l'alignement s'effectue quasiment sur toute notre séquence d'intérêt sachant que les 28 séquences ont à peu prés la même taille.


L'alignement s'effectue quasiment sur toutes les premieres méthionine des séquences sauf 5 séquence (gi|1366698, gi|1357126, gi|1364848, gi|1395744, gi|1384609) qui sont un peu plus petites ou plus grandes que les autres séquences et qui ne commencent pas par un residu méthionine. Étant donné que 23 sequences sur 28 commencent par une méthionine et que l'alignement commence justement par cette methionine, on peut supposer qu'il s'agit réellement du codon start d'une séquence codante.

De même pour le codon stop: en effet, la grande majorité des séquences s'arrête au même niveau sur l'alignement: le dernier résidu est, en partie,une Asparagine (N) ce qui confirmerait l'existence réelle du codon stop de notre sequence d'intêret defini notamment par ORFinder au début de l'annotation.

Notre séquence d'intêret semble donc être l'intégralité d'un géne possédant un codon start et un codon stop


Les séquences etant bien consérvées, on devrait obtenir une phylogénie fiable.

RÉSULTATS BRUTS:

CLUSTAL 2.0.3 multiple sequence alignment


gi|1368017      ------------MMTVRAKTLVKDKFWIVEQNGT-KLGTLQKQQDNGWIFLSKADHR-QV
gi|1367966      ------------MMTVRAKTLVKDKFWIVEQNGT-KLGTLQKQEDNGWIFLSKADHR-QV
gi|1399764      -------------MTVRAKTLIKDKFWIVEQNGT-KLGTLQKQDNNGWIFLSKQDKR-QV
GOS_128602      -------------MTVRAKTLVKDKFWIVEQNGQ-KLGTLQKQADNGWIFLSKQDKR-QV
gi|1439798      ------------MMTVRAKTLVKDKFWIVEQNGQ-KLGTLQKQADNGWIFLSKQQSK-EV
gi|1437756      ------------MMTVRAKTLVKDKFWIVEQNGQ-KLGTLQKQENNGWIFLSKQDQR-QV
gi|1419256      ------------MMTVRAKTLVKDKFWIVEQNGQ-KLGTLQKKENNGWIFLSKQQSK-EV
gi|1366698      ---------------VRAKTLVKDKFWIMEENGQ-KLGTLQKQADNGWTFLSKQQDK-EV
gi|1428388      ------------MMTVRAKTLVKDKFWIVEQNGQ-KLGTLSKQADNGWIFLSKQDKR-QV
gi|1357126      -------LCEVTSMTVRAKTLVKDKFWIVEQDGH-KLGTLQKQQDNGWIFLSKKDKR-EV
gi|1391057      -------------MTVRAKTLVKDKFWIVEQDGH-KLGTLQKQQDNGWIFLSKKDKR-EV
gi|1347963      -------------MTVRAKTLVKDKFWIVEQDGH-KLGTLQKQENNGWTFLTKTDKP-QV
gi|1424815      -------------MPVRAKTLVKDKFWIVEENGQ-KLGTLQKQEDNGWIFLSKQDKR-QV
gi|1408888      ------------MMTVRAKTLVKNKFWIVEQDGQ-KLGTLQKQEDNGWIFLSKKDSR-QV
gi|1361120      -------------MSITAKTLIKDKFWIVEQNGQ-KLGTLQKKDNNGWIYLNKREKQTQE
gi|1367687      -------MTKRASMEFVAKPVLEDKFWILEDNGQ-KVGTIRSNENGVTLTVGKENHS---
gi|1364848      ---YKRIIQKEQIMQFIAKPVLENKFWILEDNGQ-KVGTIRSNENGVTLTVGKQNQT---
gi|1394678      ----------MIMTEIHAKPIVDGKFWIVEQNGA-KIATLHKKENNKFILSSVNGEV--M
gi|1395744      ---------------------------IVEADGT-RIATLHKKENNKFILSSTEGEI--Q
gi|1367250      --MQDTEVKMTKEKELEAKQLVPNKFWIVQNYGQ-KVGTLQKNKE-GYVLVTHKDKI--H
gi|1346597      ----MMEVKMT----IKAKPILKNKFWIVEKDGE-RIGTLSKQEDKRYMYSC-SSG-TDY
gi|1348308      -----MECEVCNMTKLKANPIVNGKFWIIEEDGE-RVGTLTKNNDKTFMYCC-DTG-TSF
gi|1384609      -IQTRRGNSMTRL-KLYAKPILENRFWILESNGE-KIGTICKQEDRRYMFSC-EQG-TRL
gi|1405204      ---------MTKL-KLYAKPILENRFWILESNGQ-KIGTICKQEDRRYMFSC-EQG-TRL
gi|1440255      ---------MTN--KFFAKPILENRFWILESDGK-KVGTICRQEDRRYMFSC-TDG-TRL
gi|1432198      MHDTKKENNMVT--KYFAKPILDGRFWILEEDGR-KLGTICKQEDRRYMFSC-DTG-TMI
gi|1380985      ---------MT----IKAKEVLDGKFWIVEDEGV-NVGTLTFNDEK-YMLND-TNGKCVI
gi|1361658      ----MRGLKMTN--QLLAKPIIKNKFWIVEDQGANKIATIQAVEDGSYVYVE-PSKLRQK
                                           *::  *  .:.*:    :               

gi|1368017      FHTQESLFQKFGFGVFDESN-VAKVEDEIQTDNFDVHGFPCSQHPYNPMFDVKNQLPVYT
gi|1367966      FHTQESLFQKFGFGVFDESN-VAKVEDEIQTDNFDVHGFPCSQHPYNPMFDVKNQLPVYT
gi|1399764      FHTQESLFQKFGFHIFDKTP-EINTQDEIQTDNFDVHGFPCSQHPYNPMFDVKNQLPVYT
GOS_128602      FHTQESLFTKFGFGIFDESN-IKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYT
gi|1439798      FHTQESLFTKFGFGMFDESN-IKKPEEEIQTDNFDVHGFPCGQHPYNPMFDVKNQLPVYT
gi|1437756      FHTQESLFTKFGFGMFDESN-IKKPEEEIQTDNFDVHGYPCSQHPYNPMFDVQKQLPVYT
gi|1419256      FHTQESLFSKFGFGIFDESN-VKKPEEEIQKDNFDVHGYPCSQHPYNPMFDVQKQLPVYT
gi|1366698      FHTQESLFTKFGFGMFDESN-VKKPEEEIQTDNFDVHGYPCSQHPYNPMFDVQKQLPVYT
gi|1428388      FHTQESLFTKFGFGIFDESN-VRKVEEEIQADNFDVHGYPCSQHPYNPMFDVQKQLPVYT
gi|1357126      FHTQESLFTKFGIEMFNATN-IKKPEEEIQTDNFDVHGYPCSQHPYNPMFDVQKQLPVYT
gi|1391057      FHTRESLFTKFGIEMFDATN-IKKPEEEIQKDNFDVHGYPCSQHPYNPMFDVQKQLPVYT
gi|1347963      FHTQESLFSKFGFGLFDTSN-ITKPEEEIQKDNFDVHGFPCSQHPYNPMFDVQKQLPVYT
gi|1424815      FHTQESLFTKFGFGMFDESN-ITKPEEEIQKDNFDVHGYPCSQHPYNPMFDVQNQLPVYT
gi|1408888      FHTPESLYTRFGVDIFAESS-MARIEDEVQTDNFEVHGYPCSQHPYNPMFDVQKQLPVYT
gi|1361120      FKSQESLIEKFGVDIFAKNQ-QVKSDAVEQTDNFDVHGYPCSQHPYNPMFDVQKQLPVYT
gi|1367687      FKKLEELKQKMKVSFTGKEL-VNK-----EKEEYEVHGYACKTQPYNAIFDLKRKLPLYT
gi|1364848      FKALSELKQKIKVDFTGKEV-TKK-----ETKNYEVHGYACKTNPYNPIYDLKRKLPLYT
gi|1394678      FNKKDDLTKQFGNDFFLKNNKVKVT----ASEPHECHGFPTSCKPYNAMYDVQHKLPLFT
gi|1395744      FNKKEDLTKRFGKDFFIITPKIKITKTNEESDTHDCHGYPAMSTPYNPMYDVRRKIPLFT
gi|1367250      FESVEKVYDAFGKDFFEHTT-TKKIK---DSKVMEVHGFPTSTQAWNPLLDVQNNLPLYS
gi|1346597      FTDIKSFNSFIG-GISYDKATISDGS----DTAKEIHGFSTSSTPYNVMYNVQKKLPLFT
gi|1348308      FENERQLKNTFN-DINWGTSISDKDT----EKKKEVHTYPTSVNPFNQMYDVKRKLPLFT
gi|1384609      YDNQSQLEKSFTGDWFWGTTLSAPAI-EEENTDNDVYDYPSKFKPFNMVFDVKRKLPLFN
gi|1405204      YDNQSQLEESFTGDWFWGTTLSAPEI-KEENTDNDVYDYPSKFKPFNMVFDVKRKLPLFN
gi|1440255      FDNQQQLQGSFDGELMWGSTLSIPIE-EKENEDNSVYDYPSKFKAFNMVFDVKRKLPLFN
gi|1432198      FDNQRQLQNKFNGSWMWGSTLEQTAEPTQTIKEVSVYDYPSKFKAFNQIFDVQKKLPLFT
gi|1380985      FNNEQQVSKNFGSKILWSKLDITETV----PTEKIVHGVPTSCVPYNPIYDVKNKLPMFS
gi|1361658      YPSIKLLTKNHN--VIFDKNKKTPNT---QTQEHEIYGFPTSQKAFNVYWDIKNKFAVFT
                :     .                             :  .    .:*   :::.::.::.

gi|1368017      KTPKSKSQFCAGYYVICFEKG-WRKAYCPKMITLSRYEYKGPIKSKLEMQQVLNDAVKQF
gi|1367966      KTPKSKSQFCAGYYVICFEKG-WRKAYCPKMITLSRYKYKGPIKSKLEMQQVLNDAVKQF
gi|1399764      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYKYKGPMKTKLEMQQVLNDAVKQF
GOS_128602      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQF
gi|1439798      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYDYKGPIKTKLEMQQILNDAVKQF
gi|1437756      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYNYKGPIKTKLEMQQVLNDAVKQF
gi|1419256      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYEYKGPIKTKLEMQQVLNDAVKQF
gi|1366698      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYKFQGPIKSKLEMQQVLNNAVKEF
gi|1428388      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYEYKGPMKTKLEMQQVLNNAVKEF
gi|1357126      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYKYKGPMKTKIEMQQVLNNAVKEF
gi|1391057      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYKYKGPMKTKIEMQQVLNNAVKEF
gi|1347963      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYKFKGPMKTKIEMQQVLNNAVKEF
gi|1424815      KTPKSKSQFCAGYFIICFEKG-WRKAYCPKMITLSRYKYKGPMKSKLEMQQRLNNAIKEF
gi|1408888      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYKYKGPMKTKLEMQQVLNNAX---
gi|1361120      KTPKSKSQFCAGYYIICFEKG-WRKAYCPKMITLSRYPYQGPIKTKLEMQQVLNNAVKEF
gi|1367687      KTEASQSFFCAGYYVVHWEDGSHSPSYCPKLITLSRYEFDGPFKTKMEMQETLRRANG--
gi|1364848      KTNDSQSFFCAGYYVIHWEDGNHSPAYCPKLITLTRYTYDGPFKTKMEMQETLRRTNG--
gi|1394678      KSNASKSLYCAGHYVIKFNKG-WVKSFCPKLITIERNPYKGPFKSKVEMKVILANAKSD-
gi|1395744      KSAQSKSLYCAGYYIIKFNKG-WVKSFCPKAITIERYPYKGPFKTKIEMKSVLANAKSD-
gi|1367250      KSRKSKSLYCAGYYTIRFAKG-WVKSFCPKLITLQRYDYKGPFTTELEMRQVLSNVSKSS
gi|1346597      KSKKSKSLYAAGYYIIHFDKG-WVRSFCPKLVTLEKYDYKGPFKTEFTMRQELSNANKRA
gi|1348308      KSKKSKSLYCAGYYIIRFDKG-WVRSFCPKLVTIENYDSKGPFRTEIVMRQELSRANANK
gi|1384609      KSKKSKSLYCAGYYIIKFEKG-WVRSYCPKLLTLERYPFKGPFRTILEMKTELANANKRT
gi|1405204      KSKKSKSLYCAGYYIIKFEKG-WVRSYCPKLLTLERYPFKGPFRTVLEMKTELANANKRT
gi|1440255      KSKKSKSLYCAGYYVIQFEKG-WVRSYCPKLLTLDSYPYKGPFRTSLEMKTELSNANKLP
gi|1432198      KSKKSKSLYCAGYYIIKFEKG-WVRSFCPKMLTLDRYPFKGPFRTQLEMKQELANANK--
gi|1380985      KSNKSKSLYCAGYFIIRFNKG-WVKSFCPKLITIERYESKGPFKSEIEMRTELSRVNNR-
gi|1361658      KNNKSKSFFCAGYFIIKFNNG-WVKSFCPKLITLNRYEFKGPFTTKIEMQEQLRLHNQNE
                *.  *:* :.**:: : : .*    ::*** :*:     .**: : . *:  *       

gi|1368017      QDTN---
gi|1367966      QDTN---
gi|1399764      QNTN---
GOS_128602      QDTN---
gi|1439798      QDTN---
gi|1437756      QDTNTSN
gi|1419256      QDTN---
gi|1366698      QDTN---
gi|1428388      QDTNKTN
gi|1357126      QDSN---
gi|1391057      QDSN---
gi|1347963      QDSN---
gi|1424815      -------
gi|1408888      -------
gi|1361120      QNTNTSN
gi|1367687      -------
gi|1364848      -------
gi|1394678      -------
gi|1395744      -------
gi|1367250      -------
gi|1346597      -------
gi|1348308      -------
gi|1384609      D------
gi|1405204      D------
gi|1440255      Y------
gi|1432198      -------
gi|1380985      -------
gi|1361658      ISDSTL

Protein Domains

PROTOCOLE:


Recherche de domaines protéiques conservés pour notre ORF:


a) EBI / Interproscan


b) Pfam


c) Prosite



ANALYSE DES RÉSULTATS:


Recherche de domaines conservées pour notre ORF:


a) Selon les bases de données interrogées par interpro, il n'y a aucun domaine interpro correspondant à notre ORF.

Supposons que s'il existe réellement un ou plusieurs domaines protéiques correspondant à notre ORF, il se pourrait qu'ils aient été récemment intégrés dans d'autres banques et expliqueraient en partie les résultats negatifs de la recherche de domaines par interpro obtenus precedemment.


b) et c) On décide donc de rechercher directement dans Prosite et Pfam.

Ces deux recherches ne donnent aucun resultat. Il semble donc qu'il n'y ait aucun domaine protéique consérvé pour notre ORF.


A cet instant, on ne peut donc associer aucune fonction biochimique à notre ORF.


On peut donc émettre les hypothèses suivantes:

. l'ORF n'est pas une séquence codante

. il s'agit d'une protéine à fonction encore inconnue

. l'echantillon prélevé a subi une erreur de séquençage ou bien qu'il presente une mutation décalante ( insertion ou délétion)

Cependant, ceci ne nous permet,en aucun cas, de conclure.

RÉSULTATS BRUTS:

          
          "AUCUN RÉSULTATS"

Phylogeny

PROTOCOLE:


a) Méthode de "distances" : Phylogeny.fr / méthode BioNJ / paramètres par défaut


b) Méthode de "maximun de vraisemblance" : Phylogeny.fr / méthode PhyML / paramètres par défaut



ANALYSE DES RÉSULTATS:



Avec les deux methodes BioNJ et PhyML, on obtient quasiment deux arbres identiques.


On constate que notre séquence d'intérêt s'intégre parfaitement dans l'arbre. En effet, la séquence se trouve au centre de l'arbre, elle est en relation étroite avec beaucoup de séquences. Selon les 2 arbres, notre séquence est trés proches de 11 autres sequences homologues sur 27 au total mais, parmi celles-çi,la séquence gi_143979857 semble être encore plus proche de notre séquence d'intérêt


De plus, on peut considérer que nos deux arbres sont tout à fait cohérents avec les résultats d'homologie du blast contre la banque environnementale puisque les 11 séquences les plus similaires selon le blast sont aussi les séquence les plus proches de notre séquence d'intêret sur les 2 arbres.


En complement des informations apportées par les 2 arbres , on décide de consulter les fichiers NCBI des 11 séquences homologues les plus proches phylogénétiquement de notre séquence d'intérêt: 143979857 ; 139976400 ; 136796611 ; 136801784 ; 142481523 ; 136669840 ; 140888824 ; 134796362 ; 139105797 ; 135712620 ; 142838830 ;

Apres consultation, on constate que toutes les séquences appartiennent à des échantillons prélevée dans la même région que celle de notre séquence d'intérêt: elles proviennent toutes de la Côte Nord-Est Américaine comprenant également les Îles Galapagos, le Canal de Panama et la Mer de Saragosse. Ceci semble donc cohérent l'homologie des séquences et leur phylogénie.



RÉSULTATS BRUTS:

a) Phylogeny.fr / méthode BioNJ / pas de groupe d'etude ni de groupe exterieur

                                                                                                    -------0.1-----
 
                                                    +----marine_metagenome_gi_142838830
                                                    |
                                                    |  +marine_metagenome_gi_135712620
                                                    | ++
                                                    | |+--marine_metagenome_gi_139105797
                                                    |++
                                                    ||+-----marine_metagenome_gi_134796362
                                                  +-++
                                                  | |+------marine_metagenome_gi_140888824
                                                  | |
                                                  | |
                                                  | |-----marine_metagenome_gi_136669840
                                                  | |
                                                  | +------marine_metagenome_gi_142481523
                                                  |
                                                  |       +--marine_metagenome_gi_136801784
                                                  |   +---+
                                                 ++---+   +-marine_metagenome_gi_136796611
                                                 ||   |
                                                 ||   +---marine_metagenome_gi_139976400
                                                 ||
                                                ++|   +-GOS_1286020_Traduction_130-630_sens_direct
                                                ||+---+
                                                ||    +----marine_metagenome_gi_143979857
                                             +--+|
                                             |  |+-marine_metagenome_gi_143775699
                                             |  |
           +---------------------------------+  +---marine_metagenome_gi_141925617
           |                                 |
           |                                 |
 +---------+                                 +-------marine_metagenome_gi_136112070
 |         |
 |         |                                                               +------------marine_metagenome_gi_136768793
 |         +---------------------------------------------------------------+
 |                                                                         +--------------marine_metagenome_gi_136484891
 |
 |  +---------------------------------------------marine_metagenome_gi_136725020
 |  |
 |  |                             +-------------------------marine_metagenome_gi_139467881
 |  |     +-----------------------+
 |  |     |                       +----------------marine_metagenome_gi_139574405
 +--+     |
    |     |                                                          +-marine_metagenome_gi_138460950
    |     |                                                +---------+
    |     |                                                |         +--marine_metagenome_gi_140520484
    |     |                                   +------------+
    +-----+                                   |            +---------------marine_metagenome_gi_144025513
          |       +---------------------------+
          |       |                           |
          |   +---+                           +------------marine_metagenome_gi_143219850
          |   |   |
          |   |   |          +------------------------------------marine_metagenome_gi_134659709
          |   |   +----------+
          +---+              |           +-------------------------------marine_metagenome_gi_134830830
              |              +-----------+
              |                          +----------------------------------marine_metagenome_gi_138098515
              |
              +---------------------------------------------------------------------------marine_metagenome_gi_136165870




b) Phylogeny.fr / méthode PhyML / pas de bootstrap / default substitution model / pas de groupe d'etude ni de groupe exterieur



                                                                                                       -----0.1----
 
                                              +--marine_metagenome_gi_136112070
                                              |
                                              |      +marine_metagenome_gi_141925617
                     +------------------------+      |
                     |                        |      | +-marine_metagenome_gi_143775699
                     |                        +------+ |
                     |                               | |    +GOS_1286020_Traduction_130-630_sens_direct
                     |                               | |+---+
                     |                               +-+|   +----marine_metagenome_gi_143979857
                     |                                 ||
                     |                                 ||
                     |                                 ||       +--marine_metagenome_gi_136801784
                     |                                 ++     +-+
                     |                                  |+----+ +marine_metagenome_gi_136796611
                     |                                  ||    |
                     |                                  ||    +---marine_metagenome_gi_139976400
                     |                                  ++
                     |                                   |+-----marine_metagenome_gi_136669840
 +-------------------+                                   ||
 |                   |                                   +++-----marine_metagenome_gi_142481523
 |                   |                                    ||
 |                   |                                    ||----marine_metagenome_gi_142838830
 |                   |                                    ++
 |                   |                                     | +marine_metagenome_gi_135712620
 |                   |                                     |++
 |                   |                                     ||+-marine_metagenome_gi_139105797
 |                   |                                     |+
 |                   |                                     |+-----marine_metagenome_gi_134796362
 |                   |                                     |
 |                   |                                     |
 |                   |                                     +-----marine_metagenome_gi_140888824
 |                   |
 |                   |                                                        +---------marine_metagenome_gi_136768793
 |                   +--------------------------------------------------------+
 |                                                                            +-----------marine_metagenome_gi_136484891
 |
 |                  +------------------marine_metagenome_gi_139467881
 |  +---------------+
 |  |               +---------------marine_metagenome_gi_139574405
 |  |
 |  |                                                                  +marine_metagenome_gi_138460950
 |  |                                                       +----------+
 |  |                                                       |          +--marine_metagenome_gi_140520484
 +--+                                            +----------+
    |                                            |          +------------marine_metagenome_gi_144025513
    |                   +------------------------+
    |                   |                        +------marine_metagenome_gi_143219850
    |        +----------+
    |        |          |
    |        |          +-----------------------------------------------------------------marine_metagenome_gi_136165870
    +--------+
             |          +-------------------------------------------marine_metagenome_gi_136725020
             |          |
             +----------++------------------------------------marine_metagenome_gi_134659709
                        ++
                         |         +---------------------marine_metagenome_gi_134830830
                         +---------+
                                   +-------------------------------marine_metagenome_gi_138098515

Taxonomy report

PROTOCOLE:


Consultation du rapport Taxonomique du BLASTp contre environnementale:

BlastP vs env_nr / Taxonomy Report



ANALYSE DES RÉSULTATS:


Le Lineage report nous montre bien que nous n'avons que des protéines hypothétiques issues de métagénomes marins. Le rapport n'indique aucune information supplémentaire sur les espèces dont pourraient appartenir nos séquences, nous savons juste que se sont probablement des ADN d'organismes marins.


Cependant, on ne peut établir de groupe d'étude ni de groupe extérieur car toutes les séquences de la banque environnementale ne sont associé à aucun groupe taxonomique et encore moins à des organismes.


On décide donc de réaliser un alignement multiple et plus tard un arbre à partir de certaines séquences parmi les 54 séquences homologues pour voir si notre séquence d'intérêt s'intègre correctement dans l'arbre parmi les séquences choisies judicieusement.


Nous décidons donc:

- de retirer la première séquence gb|EBK57943.1| qui est parfaitement identique à notre séquence d'interêt car

il semble inutile de l'intégrer dans la suite de nos recherches.

- de choisir, pour le groupe d'étude, uniquement les séquences de taille trés proche de celle de notre séquence

d'étude (les séquences homologues trop grandes ou trop petites pourraient plus tard constituer un probléme au

niveau de l'alignement multiple


On retient donc 27 séquences homologues pour la suite de l'étude:



Score E

Sequences producing significant alignments: (Bits) Value


gb|EDG72405.1| hypothetical protein GOS_732381 [marine metage... 338 5e-92

gb|EDA96723.1| hypothetical protein GOS_1904352 [marine metag... 334 5e-91

gb|EDI00459.1| hypothetical protein GOS_504750 [marine metage... 334 7e-91

gb|ECU21233.1| hypothetical protein GOS_5260401 [marine metag... 330 1e-89

gb|EBQ50070.1| hypothetical protein GOS_7741900 [marine metag... 321 4e-87

gb|EBQ46637.1| hypothetical protein GOS_7747263 [marine metag... 320 1e-86

gb|EBP63051.1| hypothetical protein GOS_7880364 [marine metag... 320 1e-86

gb|EBJ37739.1| hypothetical protein GOS_8908468 [marine metag... 318 3e-86

gb|ECD45346.1| hypothetical protein GOS_3386538 [marine metag... 317 1e-85

gb|ECY39847.1| hypothetical protein GOS_2367110 [marine metag... 313 1e-84

gb|EBD49464.1| hypothetical protein GOS_9920353 [marine metag... 310 1e-83

gb|ECI76412.1| hypothetical protein GOS_3512697 [marine metag... 305 2e-82

gb|ECO19341.1| hypothetical protein GOS_6442574 [marine metag... 293 2e-78

gb|EBL99395.1| hypothetical protein GOS_8480476 [marine metag... 274 8e-73

gb|EBZ50271.1| hypothetical protein GOS_5073913 [marine metag... 258 4e-68

gb|EBC66459.1| hypothetical protein GOS_33377 [marine metagen... 146 3e-34

gb|EBZ83209.1| hypothetical protein GOS_3780947 [marine metag... 144 8e-34

gb|ECF30662.1| hypothetical protein GOS_3256889 [marine metag... 144 1e-33

gb|ECG00529.1| hypothetical protein GOS_3998673 [marine metag... 144 1e-33

gb|EBP69466.1| hypothetical protein GOS_7869720 [marine metag... 140 1e-32

gb|EDD68310.1| hypothetical protein GOS_1262689 [marine metag... 140 2e-32

gb|EBQ28121.1| hypothetical protein GOS_7774813 [marine metag... 137 8e-32

gb|EBO46625.1| hypothetical protein GOS_8075618 [marine metag... 137 9e-32

gb|EDI32879.1| hypothetical protein GOS_451688 [marine metage... 137 1e-31

gb|EBM32786.1| hypothetical protein GOS_8427561 [marine metag... 129 3e-29

gb|EBX73463.1| hypothetical protein GOS_6541200 [marine metag... 128 5e-29

gb|EBD71517.1| hypothetical protein GOS_9884146 [marine metag... 128 8e-29



RÉSULTATS BRUTS:

   Blast P contre banque environnementale / Taxonomy Report 

 Lineage report

marine metagenome [metagenomes]
. marine metagenome -  349 108 hits [metagenomes]  hypothetical protein GOS_8709241 [marine metagenome]

BLAST

PROTOCOLE:


Recherche de protéines homologues à notre ORF:


a)NCBI / Blast P contre banque SwissProt / paramètres par défaut sauf 500 protéines cibles


b)NCBI / Blast P contre banque NR / paramètres par défaut sauf 500 protéines cibles


c)NCBI / Blast N contre banque "Nucleotide Collection (nr/nt)" / paramètres par défaut sauf 500 protéines cibles


d)NCBI / Blast X contre banque "Nucleotide Collection (nr/nt)" / paramètres par défaut sauf 500 protéines cibles


e)NCBI / Blast P contre banque Environnementale / paramètres par défaut sauf 500 protéines cibles



ANALYSE DES RÉSULTATS:


Apres recherche dans les banques swissprot et NR,on obtient aucun homologue à notre séquence d'intérêt car trés peu de séquences trouvées et de plus les hits possèdent des scores très faibles et des e-value très élevées:

a)Blast P contre banque SwissProt:

- seulement 15 séquences trouvées

- 1er hit est un transporteur SEC24 -> score_37.4 / e-value_0.035

- dernier hit, une neurotoxine -> score_29,6 / e-value_8.0

b)Blast P contre banque NR:

- 1er hit, un cycle -> score_39.3 / e-value_0.15

- dernier hit, une protéine à fonction inconnue -> score_33,1 / e-value_9,7


Puisqu'il n y a pas de domaine protéique conservé ni de séquence homologue pour une ORF trés conséquente (167 aa), on

peut supposer que:

c) et d) l'echantillon prélevé:

- a subi une erreur de séquençage

- ou bien qu'il présente un frameshift (insertion ou délétion)

e) notre séquence codante est un ORFan et dans ce cas:

- soit c'est une séquence nouvelle

- soit c'est une séquence existante dans les banques de données mais n'a jamais encore été annotée


c)Avec le blast N, le logiciel n'a trouvé aucune similarité de séquence. Nous avons donc pu écarter l'hypothése d'une quelconque erreur de séquençage ou bien encore de mutation décalante dans la séquence


d)Pour réellement confirmer qu'il n'y a pas eu d'erreur de séquençage, nous avons effectué une dernière recherche d'homologue par un Blast X contre nr, qui est généralement un blast insensible aux erreurs de séquençage: aucun homologue trouvé puisque le premier hit possède un très faible score de 37,0 seulement


e)S'il s'agit d'un ORF non annoté, on peut interroger la banque environnementale


Aprés recherhe d'homologue dans la banque environnementale, le logiciel affiche un trés grand nombre de résultats (environ 110 séquences) et on peut remarquer des séquences trés similaires. De plus, on peut remarquer qu'il y a une séquence totalement identiques à notre ORF: En effet, la première séquence protéique est identique à notre ORF à 100%:

- taille identique à notre ORF: 167aa

- un score trés élevé: 349 et une e-value trés faible:1e-95

- couverture de la séquence à 100%

- identité: 100%

- Gap: 0%


La plupart des séquences trouvées ont une taille trés proche à notre ORF et commencent par un résidu méthionine

Toutes ces séquences correspondent à des protéines hypothétiques d'organismes marins.

Nous ne pouvons pas déduire, ici, la fonction putative de la protéine car, dans ce cas les protéines hypothétiques n'ont pas encore été décrites, ce sont des ORFan.

D'après ces quelques observations, on peut supposer qu'il s'agit d'une séquence codante.


Pour définir le score seuil :


Sachant que notre score seuil est situé entre 349 (score du premier hit) et 31,6 (score du dernier hit), nous devons localiser la rupture (si elle existe) entre les alignements faux positifs et vrais positifs.

Nous devons donc effectuer une recherche analytique approfondie de cette fameuse « rupture » entre le dernier alignement du blast et le premier alignement en étudiant les pourcentages d'identité, de GAP et la longueur des séquences alignées par rapport à notre séquence requête qui a une longueur de 167 acides aminés


Nous avons constaté qu'il n'y a pas réellement de saut des valeurs de score ni des e-values. En revanche, on observe un petit changement dans l'alignement des séquences dans une région où le score prend une valeur proche de 120-130. Cette région pourrait donc refléter une alternance d'alignement homologue et non-homologue. Les séquences, au-dessus de cette plage, semblent mieux respecter la taille de notre séquence requête.


Ce changement correspondrait à un score seuil de 124 basé également sur une trés légère rupture:

- de score: on passe de 124 à 114 pour la 55éme séquence

- de e-value: faible augmentation entre la 54éme et la 55émé séquence: de 1e-27 à 1e-24

- la couverture entière de la séquence requête n'est plus respectée : query coverage en-dessous de 35%

A partir de ce seuil, on obtient 54 séquences homologues à notre ORF.



On peut, tout de même, réaliser un alignement multiple pour espérer trouver plus d'information.



RÉSULTATS BRUTS:

   a)Blast P de l'ORF de 167aa contre banque SwissProt

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

sp|A3LRW3.2|SEC24_PICST  RecName: Full=Protein transport prote...  37.4    0.035
sp|A6VJQ1.1|FLPA_METM7  RecName: Full=Fibrillarin-like rRNA/tR...  35.0    0.17 
sp|A4FYN1.1|FLPA_METM5  RecName: Full=Fibrillarin-like rRNA/tR...  35.0    0.19 
sp|A9A6C8.1|FLPA_METM6  RecName: Full=Fibrillarin-like rRNA/tR...  35.0    0.20 
sp|Q6LZM7.1|FLPA_METMP  RecName: Full=Fibrillarin-like rRNA/tR...  35.0    0.20 
sp|O61734.2|CYCL_DROME  RecName: Full=Protein cycle; AltName: ...  35.0    0.20 
sp|A5DSK2.1|SEC24_LODEL  RecName: Full=Protein transport prote...  32.3    1.2  
sp|Q8CC88.2|K0564_MOUSE  RecName: Full=Uncharacterized protein...  30.8    3.7  
sp|Q5AQ76.1|SEC24_CANAL  RecName: Full=Protein transport prote...  30.8    3.8  
sp|Q6BT80.2|SEC24_DEBHA  RecName: Full=Protein transport prote...  30.8    4.0  
sp|P35552.1|FLPA_METVS  RecName: Full=Fibrillarin-like rRNA/tR...  30.8    4.0  
sp|B7HBC4.1|GLGA_BACC4  RecName: Full=Glycogen synthase; AltNa...  30.0    5.6  
sp|Q816G8.1|GLGA_BACCR  RecName: Full=Glycogen synthase; AltNa...  30.0    5.8  
sp|Q27151.1|MNCP_OXYTR  RecName: Full=Macronuclear solute carr...  29.6    7.4  
sp|P01397.2|NXL2_DENPO  RecName: Full=Long neurotoxin 2; AltNa...  29.6    8.0  

ALIGNMENTS
>sp|A3LRW3.2|SEC24_PICST RecName: Full=Protein transport protein SEC24
Length=907

 Score = 37.4 bits (85),  Expect = 0.035, Method: Composition-based stats.
 Identities = 27/84 (32%), Positives = 44/84 (52%), Gaps = 10/84 (11%)

Query  89   PYNPMFDVQKQLPVYTKTPKSKSQFCAGY---YIICFEKG--WRKAYCPKMITL-SRYEY  142
            PYN +   Q+ +PV + T  S+ + C GY   ++   E G  WR  +C  +  + S +EY
Sbjct  185  PYNALKVEQEDVPVTSDTTISRCRRCRGYINPFVTLAENGRRWRCNFCNLLNDIPSSFEY  244

Query  143  ---KGPIKTKLEMQQILNDAVKQF  163
                G +K K +  + LN+AV +F
Sbjct  245  DEISGTVKNKFDRVE-LNNAVVEF  267


>sp|A6VJQ1.1|FLPA_METM7 RecName: Full=Fibrillarin-like rRNA/tRNA 2'-O-methyltransferase
Length=232

 Score = 35.0 bits (79),  Expect = 0.17, Method: Compositional matrix adjust.
 Identities = 17/64 (26%), Positives = 38/64 (59%), Gaps = 5/64 (7%)

Query  4    RAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGIFDE  63
            +A+ LVK+  W +++NG  + +++ ++ +       ++ R++F  Q+ +  + GF I DE
Sbjct  156  QAEILVKNARWFLKENGYAMISIKARSVD-----VTKNPREIFAEQKKILIEGGFEIVDE  210

Query  64   SNIK  67
             NI+
Sbjct  211  INIE  214


>sp|A4FYN1.1|FLPA_METM5 RecName: Full=Fibrillarin-like rRNA/tRNA 2'-O-methyltransferase
Length=230

 Score = 35.0 bits (79),  Expect = 0.19, Method: Compositional matrix adjust.
 Identities = 17/64 (26%), Positives = 38/64 (59%), Gaps = 5/64 (7%)

Query  4    RAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGIFDE  63
            +A+ LVK+  W +++NG  + +++ ++ +       ++ R++F  Q+ +  + GF I DE
Sbjct  156  QAEILVKNAKWFLKENGYAMISIKARSVD-----VTKNPREIFAEQKKILIEGGFEIVDE  210

Query  64   SNIK  67
             NI+
Sbjct  211  VNIE  214


>sp|A9A6C8.1|FLPA_METM6 RecName: Full=Fibrillarin-like rRNA/tRNA 2'-O-methyltransferase
Length=230

 Score = 35.0 bits (79),  Expect = 0.20, Method: Compositional matrix adjust.
 Identities = 17/64 (26%), Positives = 38/64 (59%), Gaps = 5/64 (7%)

Query  4    RAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGIFDE  63
            +A+ LVK+  W +++NG  + +++ ++ +       ++ R++F  Q+ +  + GF I DE
Sbjct  156  QAEILVKNAKWFLKENGYAMISIKARSVD-----VTKNPREIFAEQKKILIEGGFEIVDE  210

Query  64   SNIK  67
             NI+
Sbjct  211  VNIE  214


>sp|Q6LZM7.1|FLPA_METMP RecName: Full=Fibrillarin-like rRNA/tRNA 2'-O-methyltransferase
Length=230

 Score = 35.0 bits (79),  Expect = 0.20, Method: Compositional matrix adjust.
 Identities = 17/64 (26%), Positives = 38/64 (59%), Gaps = 5/64 (7%)

Query  4    RAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGIFDE  63
            +A+ LVK+  W +++NG  + +++ ++ +       ++ R++F  Q+ +  + GF I DE
Sbjct  156  QAEILVKNAKWFLKENGYAMISIKARSVD-----VTKNPREIFAEQKKILIEGGFEIVDE  210

Query  64   SNIK  67
             NI+
Sbjct  211  VNIE  214


>sp|O61734.2|CYCL_DROME RecName: Full=Protein cycle; AltName: Full=Brain and muscle ARNT-like 
1; Short=BMAL1; AltName: Full=MOP3
Length=413

 Score = 35.0 bits (79),  Expect = 0.20, Method: Compositional matrix adjust.
 Identities = 25/107 (23%), Positives = 44/107 (41%), Gaps = 20/107 (18%)

Query  21   QKLGTLQKQADNGWIFLSKQDKRQVFH-----------TQESLFTKFGFGIFDESNIKKP  69
            Q+L  +  QA  G++F+   D+ ++ +           TQ  L  +  F +    +I K 
Sbjct  105  QELKMIILQASEGFLFVVGCDRGRILYVSDSVSSVLNSTQADLLGQSWFDVLHPKDIGKV  164

Query  70   SEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  116
             E++ +           Q P   + D +  LPV T  P+S  + C G
Sbjct  165  KEQLSS---------LEQCPRERLIDAKTMLPVKTDVPQSLCRLCPG  202


>sp|A5DSK2.1|SEC24_LODEL RecName: Full=Protein transport protein SEC24
Length=964

 Score = 32.3 bits (72),  Expect = 1.2, Method: Composition-based stats.
 Identities = 26/84 (30%), Positives = 41/84 (48%), Gaps = 10/84 (11%)

Query  89   PYNPMFDVQKQLPVYTKTPKSKSQFCAGY---YIICFEKG--WRKAYCPKMITL-SRYEY  142
            PYN +    + +PV   T  S+ + C GY   +I   E G  WR  +C  +  + S +EY
Sbjct  240  PYNALKIPDENVPVTCDTVISRCRRCRGYINPFITLAENGRRWRCNFCNLLNDIPSAFEY  299

Query  143  ---KGPIKTKLEMQQILNDAVKQF  163
                G +K K +  + LN +V +F
Sbjct  300  DEISGQVKNKFDRVE-LNHSVVEF  322


>sp|Q8CC88.2|K0564_MOUSE RecName: Full=Uncharacterized protein KIAA0564 homolog; Flags: 
Precursor
Length=1905

 Score = 30.8 bits (68),  Expect = 3.7, Method: Composition-based stats.
 Identities = 35/138 (25%), Positives = 55/138 (39%), Gaps = 22/138 (15%)

Query  23    LGTLQKQADNGWI---FLSKQDKRQVFHTQESLFTKFGFG-----IFDESNIKKPSEEIQ  74
              G L+  AD G I   + +++    V H Q+  F   G       +FD  +      EI 
Sbjct  958   FGELRNLADQGIINYPYSTREVVNIVKHLQK--FPTEGLSSVVRNVFDFDSYNNDMREIL  1015

Query  75    TDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYIICFE-KGWRKAYCPK  133
              +    +G P G  P N    + K+ P+  KT         GY+I+     G +K  CP 
Sbjct  1016  MNTLHKYGIPIGAKPTN--VQLAKEFPLPEKT-------FMGYWIVGQTGNGMQKVLCPA  1066

Query  134   MITLSRYEYKGPIKTKLE  151
                 +  + KGP+   +E
Sbjct  1067  --ETNHVDIKGPVLVNME  1082


>sp|Q5AQ76.1|SEC24_CANAL RecName: Full=Protein transport protein SEC24
Length=928

 Score = 30.8 bits (68),  Expect = 3.8, Method: Composition-based stats.
 Identities = 24/85 (28%), Positives = 42/85 (49%), Gaps = 10/85 (11%)

Query  88   HPYNPMFDVQKQLPVYTKTPKSKSQFCAGY---YIICFEKG--WRKAYCPKMITL-SRYE  141
            +PYN +    + +PV   T  S+ + C GY   ++   E G  WR  +C  +  + S ++
Sbjct  208  NPYNALKIENENVPVTCDTVISRCRRCRGYINPFVTLAENGRRWRCNFCNLLNDIPSAFD  267

Query  142  Y---KGPIKTKLEMQQILNDAVKQF  163
            Y    G +K K +  + LN +V +F
Sbjct  268  YDEISGQVKNKFDRVE-LNHSVVEF  291


>sp|Q6BT80.2|SEC24_DEBHA RecName: Full=Protein transport protein SEC24
Length=924

 Score = 30.8 bits (68),  Expect = 4.0, Method: Composition-based stats.
 Identities = 25/84 (29%), Positives = 41/84 (48%), Gaps = 10/84 (11%)

Query  89   PYNPMFDVQKQLPVYTKTPKSKSQFCAGY---YIICFEKG--WRKAYCPKMITL-SRYEY  142
            PYN +    + +PV + T  S+ + C GY   ++   E+G  WR  +C     + S ++Y
Sbjct  202  PYNTLHIDSENIPVTSDTIISRCRRCRGYINPFVTLTEQGRRWRCNFCNLQNDIPSAFDY  261

Query  143  ---KGPIKTKLEMQQILNDAVKQF  163
                G  K K E  + LN +V +F
Sbjct  262  DELTGTAKNKFERVE-LNHSVVEF  284
 



   b)BLAST P contre banque NR

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

dbj|BAF35030.1|  CYCLE [Athalia rosae]                             39.3    0.15 
dbj|BAF44540.1|  circadian transcription modulator CYCLE [Dian...  38.9    0.17 
ref|XP_001121441.1|  PREDICTED: similar to aryl hydrocarbon re...  38.9    0.19 
ref|XP_001383490.2|  SED5-binding protein 2 (SEC24-related pro...  37.4    0.49 
gb|ACJ08742.1|  cycle [Sarcophaga bullata]                         37.4    0.54 
ref|XP_002008750.1|  GI13667 [Drosophila mojavensis] >gb|EDW19...  37.4    0.59 
gb|EFA01256.1|  cycle protein [Tribolium castaneum]                37.0    0.65 
ref|YP_888147.1|  transcriptional regulator, CadC [Mycobacteri...  37.0    0.75 
ref|XP_002048496.1|  GJ14003 [Drosophila virilis] >gb|EDW70838...  36.6    0.89 
dbj|BAI44114.1|  cycle protein [Bactrocera cucurbitae]             36.6    0.91 
ref|XP_001865023.1|  circadian protein clock/arnt/bmal/pas [Cu...  36.2    1.3  
ref|XP_001958290.1|  GF10846 [Drosophila ananassae] >gb|EDV410...  35.8    1.5  
ref|XP_002027351.1|  GL15678 [Drosophila persimilis] >gb|EDW35...  35.8    1.5  
ref|XP_556301.3|  AGAP005655-PA [Anopheles gambiae str. PEST] ...  35.8    1.6  
ref|XP_001353624.2|  GA21284 [Drosophila pseudoobscura pseudoo...  35.8    1.6  
ref|XP_001654597.1|  circadian protein clock/arnt/bmal/pas [Ae...  35.8    1.7  
ref|XP_001654596.1|  circadian protein clock/arnt/bmal/pas [Ae...  35.8    1.7  
ref|XP_002061845.1|  GK17217 [Drosophila willistoni] >gb|EDW72...  35.8    1.7  
ref|NP_001107795.1|  CYCLE [Tribolium castaneum] >gb|ABO86538....  35.8    1.7  
ref|XP_001602684.1|  PREDICTED: similar to CYCLE [Nasonia vitr...  35.4    2.0  
gb|ABI21880.1|  cycle [Lutzomyia longipalpis]                      35.4    2.2  
ref|YP_001330828.1|  fibrillarin [Methanococcus maripaludis C7...  35.0    2.3  
ref|ZP_04790209.1|  Non-specific serine/threonine protein kina...  35.0    2.5  
ref|YP_001097530.1|  fibrillarin [Methanococcus maripaludis C5...  35.0    2.7  
gb|AAC39124.1|  bHLH-PAS protein CYCLE [Drosophila melanogaster]   35.0    2.7  
ref|YP_001548348.1|  fibrillarin [Methanococcus maripaludis C6...  35.0    2.8  
ref|NP_987717.1|  fibrillarin [Methanococcus maripaludis S2] >...  35.0    2.8  
ref|XP_002085543.1|  GD12247 [Drosophila simulans] >gb|EDX1112...  35.0    2.8  
ref|NP_524168.2|  cycle [Drosophila melanogaster] >sp|O61734.2...  35.0    2.8  
gb|AAD10629.1|  brain and muscle ARNT-like 1 [Drosophila melan...  35.0    2.8  
ref|XP_002095562.1|  GE22462 [Drosophila yakuba] >gb|EDW95274....  35.0    2.9  
ref|XP_002043620.1|  GM16138 [Drosophila sechellia] >gb|EDW498...  34.7    3.0  
ref|XP_001973390.1|  GG13369 [Drosophila erecta] >gb|EDV52416....  34.7    3.1  
ref|ZP_06368792.1|  Patatin [Desulfovibrio sp. FW1012B] >gb|EF...  34.7    3.7  
ref|XP_002300803.1|  predicted protein [Populus trichocarpa] >...  34.3    5.0  
ref|XP_001985163.1|  GH16911 [Drosophila grimshawi] >gb|EDV975...  34.3    5.1  
gb|ACK44332.1|  Cycle [Drosophila silvestris]                      33.9    5.2  
ref|YP_002787055.1|  putative Coproporphyrinogen dehydrogenase...  33.9    6.1  
ref|XP_001660071.1|  hypothetical protein AaeL_AAEL009454 [Aed...  33.5    8.3  
ref|ZP_03626548.1|  Alpha-glucosidase [bacterium Ellin514] >gb...  33.5    8.4  
ref|YP_003373214.1|  protein of unknown function DUF1254 [Pire...  33.1    9.5  

ALIGNMENTS
>dbj|BAF35030.1| CYCLE [Athalia rosae]
Length=611

 Score = 39.3 bits (90),  Expect = 0.15, Method: Composition-based stats.
 Identities = 26/107 (24%), Positives = 46/107 (42%), Gaps = 20/107 (18%)

Query  21   QKLGTLQKQADNGWIFLSKQDKRQVFHTQES-----------LFTKFGFGIFDESNIKKP  69
            Q+L  L  QA  G++F+   D+ ++ +  ES           L  +  F I    ++ K 
Sbjct  115  QELKMLILQAAEGFVFVVGCDRGRILYVSESVSKTLNYSQGDLLGQSWFDILHPKDVAKV  174

Query  70   SEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  116
             E++ + + +         P   + DV+  LPV T  P+  S+ C G
Sbjct  175  KEQLSSSDLN---------PRERLIDVKTMLPVRTDVPQDVSRLCPG  212


>dbj|BAF44540.1| circadian transcription modulator CYCLE [Dianemobius nigrofasciatus]
Length=601

 Score = 38.9 bits (89),  Expect = 0.17, Method: Composition-based stats.
 Identities = 26/107 (24%), Positives = 45/107 (42%), Gaps = 20/107 (18%)

Query  21   QKLGTLQKQADNGWIFLSKQDKRQVFHTQES-----------LFTKFGFGIFDESNIKKP  69
            Q+L TL  QA  G++F+   D+ ++ +  ES           L  +  F I    ++ K 
Sbjct  82   QELKTLILQAAEGFLFVVGCDRGRILYVSESVSQVLSYSQGDLLGQSWFDILHPKDVAKV  141

Query  70   SEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  116
             E++ + +           P   + D +  LPV T  P+  S+ C G
Sbjct  142  KEQLSSSDLS---------PRERLIDAKTMLPVKTDVPQGVSRLCPG  179


>ref|XP_001121441.1| PREDICTED: similar to aryl hydrocarbon receptor nuclear translocator-like 
1a [Apis mellifera]
Length=739

 Score = 38.9 bits (89),  Expect = 0.19, Method: Composition-based stats.
 Identities = 25/107 (23%), Positives = 44/107 (41%), Gaps = 20/107 (18%)

Query  21   QKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFG-----------FGIFDESNIKKP  69
            Q+L TL  QA  G++F+   D+ ++ +  ES+                F I    ++ K 
Sbjct  235  QELKTLILQAAEGFVFVVGCDRGRILYVSESVLQTLNYSQGDLLGQSWFDILHPKDVAKV  294

Query  70   SEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  116
             E++ + +           P   + D +  LPV T  P+  S+ C G
Sbjct  295  KEQLSSSDLS---------PRERLIDAKTMLPVKTDVPQGVSRLCPG  332


>ref|XP_001383490.2| SED5-binding protein 2 (SEC24-related protein 2) component of 
COPII coat of ER- Golgi vesicles [Pichia stipitis CBS 6054]
 sp|A3LRW3.2|SEC24_PICST RecName: Full=Protein transport protein SEC24
 gb|ABN65461.2| SED5-binding protein 2 (SEC24-related protein 2) component of 
COPII coat of ER- Golgi vesicles [Pichia stipitis CBS 6054]
Length=907

 Score = 37.4 bits (85),  Expect = 0.49, Method: Composition-based stats.
 Identities = 27/84 (32%), Positives = 44/84 (52%), Gaps = 10/84 (11%)

Query  89   PYNPMFDVQKQLPVYTKTPKSKSQFCAGY---YIICFEKG--WRKAYCPKMITL-SRYEY  142
            PYN +   Q+ +PV + T  S+ + C GY   ++   E G  WR  +C  +  + S +EY
Sbjct  185  PYNALKVEQEDVPVTSDTTISRCRRCRGYINPFVTLAENGRRWRCNFCNLLNDIPSSFEY  244

Query  143  ---KGPIKTKLEMQQILNDAVKQF  163
                G +K K +  + LN+AV +F
Sbjct  245  DEISGTVKNKFDRVE-LNNAVVEF  267


>gb|ACJ08742.1| cycle [Sarcophaga bullata]
Length=410

 Score = 37.4 bits (85),  Expect = 0.54, Method: Compositional matrix adjust.
 Identities = 26/109 (23%), Positives = 47/109 (43%), Gaps = 20/109 (18%)

Query  19   NGQKLGTLQKQADNGWIFLSKQDKRQVFHTQES-----------LFTKFGFGIFDESNIK  67
            + Q+L  L  QA  G++F+   D+ ++ +  ES           L  +  F +    ++ 
Sbjct  100  SDQELKMLILQAAEGFLFVVGCDRGRILYVSESVSNVLNYSQTDLLGQSWFDVLHPKDVA  159

Query  68   KPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  116
            K  E++ + +      PC   P   + D +  LPV T  P+S  + C G
Sbjct  160  KVKEQLSSLD------PC---PKERLIDAKTMLPVKTDIPQSLCRLCPG  199


>ref|XP_002008750.1| GI13667 [Drosophila mojavensis]
 gb|EDW19226.1| GI13667 [Drosophila mojavensis]
Length=408

 Score = 37.4 bits (85),  Expect = 0.59, Method: Compositional matrix adjust.
 Identities = 25/107 (23%), Positives = 44/107 (41%), Gaps = 20/107 (18%)

Query  21   QKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFG-----------FGIFDESNIKKP  69
            Q+L  +  QA  G++F+   D+ ++ +  ES+ T              F +    +I K 
Sbjct  101  QELKMIILQASEGFLFVVGCDRGRILYVSESVSTVLNCTQADLLGQSWFDVLHPKDIGKV  160

Query  70   SEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  116
             E++ +           Q P   + D +  LPV T  P+S  + C G
Sbjct  161  KEQLSS---------LEQCPRERLIDAKTMLPVKTDVPQSLCRLCPG  198


>gb|EFA01256.1| cycle protein [Tribolium castaneum]
Length=480

 Score = 37.0 bits (84),  Expect = 0.65, Method: Compositional matrix adjust.
 Identities = 24/107 (22%), Positives = 46/107 (42%), Gaps = 20/107 (18%)

Query  21   QKLGTLQKQADNGWIFLSKQDKRQVFHTQES-----------LFTKFGFGIFDESNIKKP  69
            Q+L  L  QA +G++F+   D+ ++ +  ES           L  +  F I    ++ K 
Sbjct  189  QELKHLILQAADGFLFVVGCDRGRILYVSESVSKVLNFSQGDLLGQSLFDILHPKDVAKA  248

Query  70   SEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  116
             E++ + + +         P   + D +  LPV    P++ S+ C G
Sbjct  249  KEQLSSSDLN---------PRERLIDAKTMLPVKADVPQNGSRLCPG  286


>ref|YP_888147.1| transcriptional regulator, CadC [Mycobacterium smegmatis str. 
MC2 155]
 gb|ABK71728.1| transcriptional regulator, CadC [Mycobacterium smegmatis str. 
MC2 155]
Length=423

 Score = 37.0 bits (84),  Expect = 0.75, Method: Compositional matrix adjust.
 Identities = 21/84 (25%), Positives = 38/84 (45%), Gaps = 3/84 (3%)

Query  84   PCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYIICFEKGWRKAYCPKMITLSRYEYK  143
            P G       FD   QL   T +P++  +F   +  I      R+  CP ++  SR +++
Sbjct  316  PDGTRADWAAFD---QLQRRTTSPENAVRFLEAFGRIDVRDEAREVRCPTLVMHSRDDHR  372

Query  144  GPIKTKLEMQQILNDAVKQFQDTN  167
             P++   E+  ++ DA     D+N
Sbjct  373  VPVRFGEELAALIEDARMVALDSN  396




   c)Blast N contre banque "Nucleotide Collection (nr/nt)" de l'ORF de 500 nucléotides



AUCUN RESULTATS


   d)NCBI / Blast X contre banque "Nucleotide Collection (nr/nt)" 


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|XP_001121441.1|  PREDICTED: similar to aryl hydrocarbon re...  37.0    0.79 
ref|XP_001383490.2|  SED5-binding protein 2 (SEC24-related pro...  36.6    1.0  
dbj|BAF44540.1|  circadian transcription modulator CYCLE [Dian...  36.6    1.0  
dbj|BAF35030.1|  CYCLE [Athalia rosae]                             36.6    1.0  
ref|ZP_04185463.1|  hypothetical protein bcere0028_14690 [Baci...  35.0    3.0  
ref|ZP_04283383.1|  hypothetical protein bcere0010_14650 [Baci...  35.0    3.0  
ref|ZP_04288641.1|  hypothetical protein bcere0009_14380 [Baci...  35.0    3.0  
ref|ZP_04322665.1|  hypothetical protein bcere0001_14730 [Baci...  35.0    3.0  
ref|YP_002529382.1|  hypothetical protein BCQ_1662 [Bacillus c...  35.0    3.0  
ref|ZP_03235663.1|  conserved hypothetical protein [Bacillus c...  35.0    3.0  
ref|NP_978042.1|  hypothetical protein BCE_1721 [Bacillus cere...  35.0    3.0  
ref|ZP_00237119.1|  conserved hypothetical protein protein [Ba...  35.0    3.0  
ref|ZP_05852476.1|  V-type sodium ATPase, I subunit [Granulica...  34.7    3.9  
ref|ZP_04089803.1|  hypothetical protein bthur0010_14510 [Baci...  34.7    3.9  
ref|ZP_04107658.1|  hypothetical protein bthur0007_14660 [Baci...  34.7    3.9  
ref|ZP_04221893.1|  hypothetical protein bcere0021_14840 [Baci...  34.7    3.9  
ref|XP_002473550.1|  predicted protein [Postia placenta Mad-69...  34.7    3.9  
ref|ZP_03113817.1|  conserved hypothetical protein [Bacillus c...  34.7    3.9  
ref|ZP_03106439.1|  conserved hypothetical protein [Bacillus c...  34.7    3.9  
ref|YP_002450649.1|  hypothetical protein BCAH820_1698 [Bacill...  34.7    3.9  
ref|YP_894290.1|  hypothetical protein BALH_1442 [Bacillus thu...  34.7    3.9  
ref|YP_035817.1|  hypothetical protein BT9727_1485 [Bacillus t...  34.7    3.9  
ref|YP_083070.1|  hypothetical protein BCZK1475 [Bacillus cere...  34.7    3.9  
ref|ZP_04095848.1|  hypothetical protein bthur0009_14560 [Baci...  34.3    5.1  
ref|ZP_04144956.1|  hypothetical protein bthur0001_14850 [Baci...  34.3    5.1  
ref|ZP_04150679.1|  hypothetical protein bpmyx0001_14760 [Baci...  34.3    5.1  
ref|ZP_04299904.1|  hypothetical protein bcere0006_14550 [Baci...  34.3    5.1  
ref|XP_001880918.1|  predicted protein [Laccaria bicolor S238N...  34.3    5.1  
ref|NP_844077.1|  hypothetical protein BA_1630 [Bacillus anthr...  34.3    5.1  
ref|ZP_00391928.1|  COG3403: Uncharacterized conserved protein...  34.3    5.1  
ref|ZP_04077894.1|  hypothetical protein bthur0012_15110 [Baci...  33.9    6.7  
ref|ZP_04056069.1|  conserved hypothetical protein [Porphyromo...  33.9    6.7  
ref|XP_002008750.1|  GI13667 [Drosophila mojavensis] >gb|EDW19...  33.9    6.7  
ref|YP_003456505.1|  cysteine and O-acetyl-L-serine efflux sys...  33.5    8.8  
ref|ZP_06187499.1|  integral membrane protein [Legionella long...  33.5    8.8  
ref|ZP_04583871.1|  tRNA (5-methylaminomethyl-2-thiouridylate)...  33.5    8.8  
ref|YP_002770877.1|  hypothetical protein BBR47_13960 [Breviba...  33.5    8.8  
gb|ACJ08742.1|  cycle [Sarcophaga bullata]                         33.5    8.8  
ref|XP_002061845.1|  GK17217 [Drosophila willistoni] >gb|EDW72...  33.5    8.8  
ref|XP_002048496.1|  GJ14003 [Drosophila virilis] >gb|EDW70838...  33.5    8.8  
ref|XP_001602684.1|  PREDICTED: similar to CYCLE [Nasonia vitr...  33.5    8.8  
ref|YP_570868.1|  PUCC protein [Rhodopseudomonas palustris Bis...  33.5    8.8  

ALIGNMENTS
>ref|XP_001121441.1| PREDICTED: similar to aryl hydrocarbon receptor nuclear translocator-like 
1a [Apis mellifera]
Length=739

 Score = 37.0 bits (84),  Expect = 0.79
 Identities = 25/107 (23%), Positives = 44/107 (41%), Gaps = 20/107 (18%)
 Frame = +1

Query  61   QKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFG-----------FGIFDESNIKKP  207
            Q+L TL  QA  G++F+   D+ ++ +  ES+                F I    ++ K 
Sbjct  235  QELKTLILQAAEGFVFVVGCDRGRILYVSESVLQTLNYSQGDLLGQSWFDILHPKDVAKV  294

Query  208  SEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  348
             E++ + +           P   + D +  LPV T  P+  S+ C G
Sbjct  295  KEQLSSSDLS---------PRERLIDAKTMLPVKTDVPQGVSRLCPG  332


>ref|XP_001383490.2| SED5-binding protein 2 (SEC24-related protein 2) component of 
COPII coat of ER- Golgi vesicles [Pichia stipitis CBS 6054]
 sp|A3LRW3.2|SEC24_PICST RecName: Full=Protein transport protein SEC24
 gb|ABN65461.2| SED5-binding protein 2 (SEC24-related protein 2) component of 
COPII coat of ER- Golgi vesicles [Pichia stipitis CBS 6054]
Length=907

 Score = 36.6 bits (83),  Expect = 1.0
 Identities = 27/84 (32%), Positives = 44/84 (52%), Gaps = 10/84 (11%)
 Frame = +1

Query  265  PYNPMFDVQKQLPVYTKTPKSKSQFCAGY---YIICFEKG--WRKAYCPKMITL-SRYEY  426
            PYN +   Q+ +PV + T  S+ + C GY   ++   E G  WR  +C  +  + S +EY
Sbjct  185  PYNALKVEQEDVPVTSDTTISRCRRCRGYINPFVTLAENGRRWRCNFCNLLNDIPSSFEY  244

Query  427  ---KGPIKTKLEMQQILNDAVKQF  489
                G +K K +  + LN+AV +F
Sbjct  245  DEISGTVKNKFDRVE-LNNAVVEF  267


>dbj|BAF44540.1| circadian transcription modulator CYCLE [Dianemobius nigrofasciatus]
Length=601

 Score = 36.6 bits (83),  Expect = 1.0
 Identities = 26/107 (24%), Positives = 45/107 (42%), Gaps = 20/107 (18%)
 Frame = +1

Query  61   QKLGTLQKQADNGWIFLSKQDKRQVFHTQES-----------LFTKFGFGIFDESNIKKP  207
            Q+L TL  QA  G++F+   D+ ++ +  ES           L  +  F I    ++ K 
Sbjct  82   QELKTLILQAAEGFLFVVGCDRGRILYVSESVSQVLSYSQGDLLGQSWFDILHPKDVAKV  141

Query  208  SEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  348
             E++ + +           P   + D +  LPV T  P+  S+ C G
Sbjct  142  KEQLSSSDLS---------PRERLIDAKTMLPVKTDVPQGVSRLCPG  179


>dbj|BAF35030.1| CYCLE [Athalia rosae]
Length=611

 Score = 36.6 bits (83),  Expect = 1.0
 Identities = 26/107 (24%), Positives = 46/107 (42%), Gaps = 20/107 (18%)
 Frame = +1

Query  61   QKLGTLQKQADNGWIFLSKQDKRQVFHTQES-----------LFTKFGFGIFDESNIKKP  207
            Q+L  L  QA  G++F+   D+ ++ +  ES           L  +  F I    ++ K 
Sbjct  115  QELKMLILQAAEGFVFVVGCDRGRILYVSESVSKTLNYSQGDLLGQSWFDILHPKDVAKV  174

Query  208  SEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAG  348
             E++ + + +         P   + DV+  LPV T  P+  S+ C G
Sbjct  175  KEQLSSSDLN---------PRERLIDVKTMLPVRTDVPQDVSRLCPG  212


>ref|ZP_04185463.1| hypothetical protein bcere0028_14690 [Bacillus cereus AH1271]
 gb|EEL82835.1| hypothetical protein bcere0028_14690 [Bacillus cereus AH1271]
Length=252

 Score = 35.0 bits (79),  Expect = 3.0
 Identities = 15/48 (31%), Positives = 27/48 (56%), Gaps = 1/48 (2%)
 Frame = +3

Query  30   RQVLDS-RAERPKVRYPSETSGQRLDLFKQTRQEASVSHAGEPVHKVW  170
            R + D    +RPK  Y  +T  +R++ + Q  +  ++SH G+P H+ W
Sbjct  181  RTIFDGLEGDRPKGAYSRQTVRERVEKWDQLPKHPNISHYGDPDHREW  228


>ref|ZP_04283383.1| hypothetical protein bcere0010_14650 [Bacillus cereus ATCC 4342]
 gb|EEK84913.1| hypothetical protein bcere0010_14650 [Bacillus cereus ATCC 4342]
Length=174

 Score = 35.0 bits (79),  Expect = 3.0
 Identities = 15/48 (31%), Positives = 27/48 (56%), Gaps = 1/48 (2%)
 Frame = +3

Query  30   RQVLDS-RAERPKVRYPSETSGQRLDLFKQTRQEASVSHAGEPVHKVW  170
            R + D    +RPK  Y  +T  +R++ + Q  +  ++SH G+P H+ W
Sbjct  103  RTIFDGLEGDRPKGAYSRQTVRERVEKWDQLPKHPNISHYGDPNHREW  150


>ref|ZP_04288641.1| hypothetical protein bcere0009_14380 [Bacillus cereus R309803]
 gb|EEK79678.1| hypothetical protein bcere0009_14380 [Bacillus cereus R309803]
Length=242

 Score = 35.0 bits (79),  Expect = 3.0
 Identities = 15/48 (31%), Positives = 27/48 (56%), Gaps = 1/48 (2%)
 Frame = +3

Query  30   RQVLDS-RAERPKVRYPSETSGQRLDLFKQTRQEASVSHAGEPVHKVW  170
            R + D    +RPK  Y  +T  +R++ + Q  +  ++SH G+P H+ W
Sbjct  171  RTIFDGLEGDRPKGAYSRQTVRERVEKWDQLPKHPNISHYGDPDHREW  218


>ref|ZP_04322665.1| hypothetical protein bcere0001_14730 [Bacillus cereus m1293]
 gb|EEK45617.1| hypothetical protein bcere0001_14730 [Bacillus cereus m1293]
Length=242

 Score = 35.0 bits (79),  Expect = 3.0
 Identities = 15/48 (31%), Positives = 27/48 (56%), Gaps = 1/48 (2%)
 Frame = +3

Query  30   RQVLDS-RAERPKVRYPSETSGQRLDLFKQTRQEASVSHAGEPVHKVW  170
            R + D    +RPK  Y  +T  +R++ + Q  +  ++SH G+P H+ W
Sbjct  171  RTIFDGLEGDRPKGAYSRQTVRERVEKWDQLPKHPNISHYGDPDHREW  218


>ref|YP_002529382.1| hypothetical protein BCQ_1662 [Bacillus cereus Q1]
 gb|ACM12090.1| conserved hypothetical protein [Bacillus cereus Q1]
Length=242

 Score = 35.0 bits (79),  Expect = 3.0
 Identities = 15/48 (31%), Positives = 27/48 (56%), Gaps = 1/48 (2%)
 Frame = +3

Query  30   RQVLDS-RAERPKVRYPSETSGQRLDLFKQTRQEASVSHAGEPVHKVW  170
            R + D    +RPK  Y  +T  +R++ + Q  +  ++SH G+P H+ W
Sbjct  171  RTIFDGLEGDRPKGAYSRQTVRERVEKWDQLPKHPNISHYGDPNHREW  218


>ref|ZP_03235663.1| conserved hypothetical protein [Bacillus cereus H3081.97]
 ref|YP_002337728.1| hypothetical protein BCAH187_A1772 [Bacillus cereus AH187]
 ref|ZP_04266987.1| hypothetical protein bcere0013_15150 [Bacillus cereus BDRD-ST26]
 gb|EDZ58159.1| conserved hypothetical protein [Bacillus cereus H3081.97]
 gb|ACJ81183.1| conserved hypothetical protein [Bacillus cereus AH187]
 gb|EEL01308.1| hypothetical protein bcere0013_15150 [Bacillus cereus BDRD-ST26]
Length=242

 Score = 35.0 bits (79),  Expect = 3.0
 Identities = 15/48 (31%), Positives = 27/48 (56%), Gaps = 1/48 (2%)
 Frame = +3

Query  30   RQVLDS-RAERPKVRYPSETSGQRLDLFKQTRQEASVSHAGEPVHKVW  170
            R + D    +RPK  Y  +T  +R++ + Q  +  ++SH G+P H+ W
Sbjct  171  RTIFDGLEGDRPKGAYSRQTVRERVEKWDQLPKHPNISHYGDPNHREW  218




   e)Blast P contre banque environnementale

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|EBK57943.1|  hypothetical protein GOS_8709241 [marine metag...   349    1e-95
gb|EDG72405.1|  hypothetical protein GOS_732381 [marine metage...   338    5e-92
gb|EDA96723.1|  hypothetical protein GOS_1904352 [marine metag...   334    5e-91
gb|EDI00459.1|  hypothetical protein GOS_504750 [marine metage...   334    7e-91
gb|ECU21233.1|  hypothetical protein GOS_5260401 [marine metag...   330    1e-89
gb|EBQ50070.1|  hypothetical protein GOS_7741900 [marine metag...   321    4e-87
gb|EBQ46637.1|  hypothetical protein GOS_7747263 [marine metag...   320    1e-86
gb|EBP63051.1|  hypothetical protein GOS_7880364 [marine metag...   320    1e-86
gb|EBJ37739.1|  hypothetical protein GOS_8908468 [marine metag...   318    3e-86
gb|ECD45346.1|  hypothetical protein GOS_3386538 [marine metag...   317    1e-85
gb|ECY39847.1|  hypothetical protein GOS_2367110 [marine metag...   313    1e-84
gb|EBD49464.1|  hypothetical protein GOS_9920353 [marine metag...   310    1e-83
gb|ECI76412.1|  hypothetical protein GOS_3512697 [marine metag...   305    2e-82
gb|EBV17154.1|  hypothetical protein GOS_6945217 [marine metag...   296    1e-79
gb|ECO19341.1|  hypothetical protein GOS_6442574 [marine metag...   293    2e-78
gb|ECN87073.1|  hypothetical protein GOS_4215767 [marine metag...   292    3e-78
gb|EBL99395.1|  hypothetical protein GOS_8480476 [marine metag...   274    8e-73
gb|EBA68655.1|  hypothetical protein GOS_359653 [marine metage...   259    2e-68
gb|EBZ50271.1|  hypothetical protein GOS_5073913 [marine metag...   258    4e-68
gb|EDC47405.1|  hypothetical protein GOS_1469804 [marine metag...   254    9e-67
gb|ECE36714.1|  hypothetical protein GOS_3249875 [marine metag...   239    3e-62
gb|EBM28316.1|  hypothetical protein GOS_8434470 [marine metag...   235    4e-61
gb|ECD55899.1|  hypothetical protein GOS_6463461 [marine metag...   211    5e-54
gb|ECL94061.1|  hypothetical protein GOS_4866798 [marine metag...   194    6e-49
gb|ECM39970.1|  hypothetical protein GOS_3085532 [marine metag...   178    5e-44
gb|ECA79718.1|  hypothetical protein GOS_3433303 [marine metag...   176    3e-43
gb|ECM39969.1|  hypothetical protein GOS_3085531 [marine metag...   163    1e-39
gb|ECO66849.1|  hypothetical protein GOS_4515324 [marine metag...   162    4e-39
gb|ECW30321.1|  hypothetical protein GOS_2745104 [marine metag...   160    1e-38
gb|EBX19678.1|  hypothetical protein GOS_6625720 [marine metag...   157    9e-38
gb|ECQ87314.1|  hypothetical protein GOS_3937436 [marine metag...   154    7e-37
gb|ECH05791.1|  hypothetical protein GOS_3301252 [marine metag...   154    8e-37
gb|EBP99136.1|  hypothetical protein GOS_7821029 [marine metag...   153    2e-36
gb|EBF20459.1|  hypothetical protein GOS_9635955 [marine metag...   153    2e-36
gb|EDH92816.1|  hypothetical protein GOS_517389 [marine metage...   148    7e-35
gb|EBC66459.1|  hypothetical protein GOS_33377 [marine metagen...   146    3e-34
gb|EBI47318.1|  hypothetical protein GOS_9086778 [marine metag...   145    5e-34
gb|EBQ50427.1|  hypothetical protein GOS_7741299 [marine metag...   145    7e-34
gb|EBZ83209.1|  hypothetical protein GOS_3780947 [marine metag...   144    8e-34
gb|ECF30662.1|  hypothetical protein GOS_3256889 [marine metag...   144    1e-33
gb|EDI30176.1|  hypothetical protein GOS_456024 [marine metage...   144    1e-33
gb|ECG00529.1|  hypothetical protein GOS_3998673 [marine metag...   144    1e-33
gb|ECM08973.1|  hypothetical protein GOS_4279118 [marine metag...   143    2e-33
gb|EBP69466.1|  hypothetical protein GOS_7869720 [marine metag...   140    1e-32
gb|EDD68310.1|  hypothetical protein GOS_1262689 [marine metag...   140    2e-32
gb|EBQ28121.1|  hypothetical protein GOS_7774813 [marine metag...   137    8e-32
gb|EBO46625.1|  hypothetical protein GOS_8075618 [marine metag...   137    9e-32
gb|EDI32879.1|  hypothetical protein GOS_451688 [marine metage...   137    1e-31
gb|ECX45327.1|  hypothetical protein GOS_2535594 [marine metag...   136    2e-31
gb|ECY24870.1|  hypothetical protein GOS_2391992 [marine metag...   129    3e-29
gb|EBM32786.1|  hypothetical protein GOS_8427561 [marine metag...   129    3e-29
gb|EBX73463.1|  hypothetical protein GOS_6541200 [marine metag...   128    5e-29
gb|EBD71517.1|  hypothetical protein GOS_9884146 [marine metag...   128    8e-29
gb|EBB07081.1|  hypothetical protein GOS_293972 [marine metage...   124    1e-27
gb|EBO09243.1|  hypothetical protein GOS_8138306 [marine metag...   114    1e-24
gb|EBU99278.1|  hypothetical protein GOS_6973301 [marine metag...   110    2e-23
gb|EBU73900.1|  hypothetical protein GOS_7013649 [marine metag...   109    2e-23
gb|EBO40621.1|  hypothetical protein GOS_8085690 [marine metag...   108    5e-23
gb|ECU02080.1|  hypothetical protein GOS_3658223 [marine metag...   106    2e-22
gb|EDD98118.1|  hypothetical protein GOS_1210912 [marine metag...   106    3e-22
gb|ECP42653.1|  hypothetical protein GOS_6149181 [marine metag...   104    1e-21
gb|EDJ06540.1|  hypothetical protein GOS_1760967 [marine metag...   100    2e-20
gb|EBV82252.1|  hypothetical protein GOS_6845265 [marine metag...   100    2e-20
gb|ECV88474.1|  hypothetical protein GOS_2818086 [marine metag...  98.6    7e-20
gb|EBQ92863.1|  hypothetical protein GOS_7676480 [marine metag...  95.1    7e-19
gb|ECQ81262.1|  hypothetical protein GOS_4174985 [marine metag...  94.0    1e-18
gb|EBQ49147.1|  hypothetical protein GOS_7743303 [marine metag...  92.8    4e-18
gb|EDH28202.1|  hypothetical protein GOS_633667 [marine metage...  90.5    2e-17
gb|EDD35956.1|  hypothetical protein GOS_1317354 [marine metag...  87.4    1e-16
gb|ECR63951.1|  hypothetical protein GOS_4364944 [marine metag...  87.0    2e-16
gb|ECN91332.1|  hypothetical protein GOS_4056324 [marine metag...  85.9    4e-16
gb|EDE37026.1|  hypothetical protein GOS_1142451 [marine metag...  83.6    2e-15
gb|EBC29788.1|  hypothetical protein GOS_92859 [marine metagen...  81.6    7e-15
gb|ECG80815.1|  hypothetical protein GOS_4275633 [marine metag...  81.6    8e-15
gb|EDD31766.1|  hypothetical protein GOS_1323158 [marine metag...  78.2    8e-14
gb|ECS33246.1|  hypothetical protein GOS_5127790 [marine metag...  78.2    1e-13
gb|EDE36977.1|  hypothetical protein GOS_1142544 [marine metag...  77.4    1e-13
gb|EBM14824.1|  hypothetical protein GOS_8455473 [marine metag...  76.6    3e-13
gb|ECY46088.1|  hypothetical protein GOS_2356294 [marine metag...  76.3    4e-13
gb|ECM73580.1|  hypothetical protein GOS_5230608 [marine metag...  75.5    6e-13
gb|EBU97124.1|  hypothetical protein GOS_6976762 [marine metag...  74.7    1e-12
gb|ECA55558.1|  hypothetical protein GOS_4378628 [marine metag...  73.2    3e-12
gb|ECL19789.1|  hypothetical protein GOS_4320095 [marine metag...  72.4    5e-12
gb|EBP91261.1|  hypothetical protein GOS_7833827 [marine metag...  71.6    8e-12
gb|ECF67380.1|  hypothetical protein GOS_5288208 [marine metag...  68.2    9e-11
gb|EBJ95240.1|  hypothetical protein GOS_8812857 [marine metag...  68.2    9e-11
gb|EBP07133.1|  hypothetical protein GOS_7972170 [marine metag...  68.2    1e-10
gb|EBU80339.1|  hypothetical protein GOS_7003472 [marine metag...  67.4    2e-10
gb|EBC25414.1|  hypothetical protein GOS_100015 [marine metage...  66.2    3e-10
gb|ECR62709.1|  hypothetical protein GOS_4414490 [marine metag...  66.2    4e-10
gb|EBQ91326.1|  hypothetical protein GOS_7678732 [marine metag...  65.5    6e-10
gb|ECJ47507.1|  hypothetical protein GOS_4180947 [marine metag...  61.6    8e-09
gb|ECM14455.1|  hypothetical protein GOS_4069243 [marine metag...  61.2    1e-08
gb|EBM14981.1|  hypothetical protein GOS_8455242 [marine metag...  59.7    3e-08
gb|EBX80867.1|  hypothetical protein GOS_6529594 [marine metag...  54.3    1e-06
gb|ECJ54729.1|  hypothetical protein GOS_3911763 [marine metag...  50.4    2e-05
gb|EBZ95561.1|  hypothetical protein GOS_3304327 [marine metag...  47.8    1e-04
gb|EBO09244.1|  hypothetical protein GOS_8138307 [marine metag...  43.9    0.002
gb|ECR05293.1|  hypothetical protein GOS_3228397 [marine metag...  34.3    1.3  
gb|EBG72234.1|  hypothetical protein GOS_9385199 [marine metag...  34.3    1.3  
gb|EDG57220.1|  hypothetical protein GOS_758737 [marine metage...  32.3    5.8  
gb|ECD16843.1|  hypothetical protein GOS_4496813 [marine metag...  32.3    6.1  
gb|EDC22100.1|  hypothetical protein GOS_1514784 [marine metag...  32.0    8.1  
gb|EBO98503.1|  hypothetical protein GOS_7986853 [marine metag...  32.0    8.2  
gb|EDA26905.1|  hypothetical protein GOS_2032561 [marine metag...  31.6    8.5  
gb|EDE75042.1|  hypothetical protein GOS_1076381 [marine metag...  31.6    9.0  
gb|ECT80008.1|  hypothetical protein GOS_4511428 [marine metag...  31.6    9.4  
gb|EDB69849.1|  hypothetical protein GOS_1609526 [marine metag...  31.6    9.8  

ALIGNMENTS
>gb|EBK57943.1| hypothetical protein GOS_8709241 [marine metagenome]
Length=168

 Score =  349 bits (896),  Expect = 1e-95, Method: Compositional matrix adjust.
 Identities = 167/167 (100%), Positives = 167/167 (100%), Gaps = 0/167 (0%)

Query  1    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  60
            MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI
Sbjct  2    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  61

Query  61   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120
            FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII
Sbjct  62   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  121

Query  121  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN
Sbjct  122  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  168


>gb|EDG72405.1| hypothetical protein GOS_732381 [marine metagenome]
Length=171

 Score =  338 bits (866),  Expect = 5e-92, Method: Compositional matrix adjust.
 Identities = 159/167 (95%), Positives = 163/167 (97%), Gaps = 0/167 (0%)

Query  1    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  60
            MTVRAKTLVKDKFWIVEQNGQKLGTLQKQ +NGWIFLSKQD+RQVFHTQESLFTKFGFG+
Sbjct  2    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQENNGWIFLSKQDQRQVFHTQESLFTKFGFGM  61

Query  61   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120
            FDESNIKKP EEIQTDNFDVHGYPC QHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII
Sbjct  62   FDESNIKKPEEEIQTDNFDVHGYPCSQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  121

Query  121  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            CFEKGWRKAYCPKMITLSRY YKGPIKTKLEMQQ+LNDAVKQFQDTN
Sbjct  122  CFEKGWRKAYCPKMITLSRYNYKGPIKTKLEMQQVLNDAVKQFQDTN  168


>gb|EDA96723.1| hypothetical protein GOS_1904352 [marine metagenome]
Length=171

 Score =  334 bits (857),  Expect = 5e-91, Method: Compositional matrix adjust.
 Identities = 156/167 (93%), Positives = 162/167 (97%), Gaps = 0/167 (0%)

Query  1    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  60
            MTVRAKTLVKDKFWIVEQNGQKLGTL KQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI
Sbjct  2    MTVRAKTLVKDKFWIVEQNGQKLGTLSKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  61

Query  61   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120
            FDESN++K  EEIQ DNFDVHGYPC QHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII
Sbjct  62   FDESNVRKVEEEIQADNFDVHGYPCSQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  121

Query  121  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            CFEKGWRKAYCPKMITLSRYEYKGP+KTKLEMQQ+LN+AVK+FQDTN
Sbjct  122  CFEKGWRKAYCPKMITLSRYEYKGPMKTKLEMQQVLNNAVKEFQDTN  168


>gb|EDI00459.1| hypothetical protein GOS_504750 [marine metagenome]
Length=168

 Score =  334 bits (856),  Expect = 7e-91, Method: Compositional matrix adjust.
 Identities = 157/167 (94%), Positives = 163/167 (97%), Gaps = 0/167 (0%)

Query  1    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  60
            MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQ  ++VFHTQESLFTKFGFG+
Sbjct  2    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQQSKEVFHTQESLFTKFGFGM  61

Query  61   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120
            FDESNIKKP EEIQTDNFDVHG+PCGQHPYNPMFDV+ QLPVYTKTPKSKSQFCAGYYII
Sbjct  62   FDESNIKKPEEEIQTDNFDVHGFPCGQHPYNPMFDVKNQLPVYTKTPKSKSQFCAGYYII  121

Query  121  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            CFEKGWRKAYCPKMITLSRY+YKGPIKTKLEMQQILNDAVKQFQDTN
Sbjct  122  CFEKGWRKAYCPKMITLSRYDYKGPIKTKLEMQQILNDAVKQFQDTN  168


>gb|ECU21233.1| hypothetical protein GOS_5260401 [marine metagenome]
Length=168

 Score =  330 bits (845),  Expect = 1e-89, Method: Compositional matrix adjust.
 Identities = 154/167 (92%), Positives = 161/167 (96%), Gaps = 0/167 (0%)

Query  1    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  60
            MTVRAKTLVKDKFWIVEQNGQKLGTLQK+ +NGWIFLSKQ  ++VFHTQESLF+KFGFGI
Sbjct  2    MTVRAKTLVKDKFWIVEQNGQKLGTLQKKENNGWIFLSKQQSKEVFHTQESLFSKFGFGI  61

Query  61   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120
            FDESN+KKP EEIQ DNFDVHGYPC QHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII
Sbjct  62   FDESNVKKPEEEIQKDNFDVHGYPCSQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  121

Query  121  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQ+LNDAVKQFQDTN
Sbjct  122  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQVLNDAVKQFQDTN  168


>gb|EBQ50070.1| hypothetical protein GOS_7741900 [marine metagenome]
Length=168

 Score =  321 bits (823),  Expect = 4e-87, Method: Compositional matrix adjust.
 Identities = 149/167 (89%), Positives = 157/167 (94%), Gaps = 0/167 (0%)

Query  1    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  60
            MTVRAKTLVKDKFWIVEQNG KLGTLQKQ DNGWIFLSK D RQVFHTQESLF KFGFG+
Sbjct  2    MTVRAKTLVKDKFWIVEQNGTKLGTLQKQQDNGWIFLSKADHRQVFHTQESLFQKFGFGV  61

Query  61   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120
            FDESN+ K  +EIQTDNFDVHG+PC QHPYNPMFDV+ QLPVYTKTPKSKSQFCAGYY+I
Sbjct  62   FDESNVAKVEDEIQTDNFDVHGFPCSQHPYNPMFDVKNQLPVYTKTPKSKSQFCAGYYVI  121

Query  121  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            CFEKGWRKAYCPKMITLSRYEYKGPIK+KLEMQQ+LNDAVKQFQDTN
Sbjct  122  CFEKGWRKAYCPKMITLSRYEYKGPIKSKLEMQQVLNDAVKQFQDTN  168


>gb|EBQ46637.1| hypothetical protein GOS_7747263 [marine metagenome]
Length=168

 Score =  320 bits (819),  Expect = 1e-86, Method: Compositional matrix adjust.
 Identities = 148/167 (88%), Positives = 157/167 (94%), Gaps = 0/167 (0%)

Query  1    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  60
            MTVRAKTLVKDKFWIVEQNG KLGTLQKQ DNGWIFLSK D RQVFHTQESLF KFGFG+
Sbjct  2    MTVRAKTLVKDKFWIVEQNGTKLGTLQKQEDNGWIFLSKADHRQVFHTQESLFQKFGFGV  61

Query  61   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120
            FDESN+ K  +EIQTDNFDVHG+PC QHPYNPMFDV+ QLPVYTKTPKSKSQFCAGYY+I
Sbjct  62   FDESNVAKVEDEIQTDNFDVHGFPCSQHPYNPMFDVKNQLPVYTKTPKSKSQFCAGYYVI  121

Query  121  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            CFEKGWRKAYCPKMITLSRY+YKGPIK+KLEMQQ+LNDAVKQFQDTN
Sbjct  122  CFEKGWRKAYCPKMITLSRYKYKGPIKSKLEMQQVLNDAVKQFQDTN  168


>gb|EBP63051.1| hypothetical protein GOS_7880364 [marine metagenome]
Length=165

 Score =  320 bits (819),  Expect = 1e-86, Method: Compositional matrix adjust.
 Identities = 147/165 (89%), Positives = 160/165 (96%), Gaps = 0/165 (0%)

Query  3    VRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGIFD  62
            VRAKTLVKDKFWI+E+NGQKLGTLQKQADNGW FLSKQ  ++VFHTQESLFTKFGFG+FD
Sbjct  1    VRAKTLVKDKFWIMEENGQKLGTLQKQADNGWTFLSKQQDKEVFHTQESLFTKFGFGMFD  60

Query  63   ESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYIICF  122
            ESN+KKP EEIQTDNFDVHGYPC QHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYIICF
Sbjct  61   ESNVKKPEEEIQTDNFDVHGYPCSQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYIICF  120

Query  123  EKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            EKGWRKAYCPKMITLSRY+++GPIK+KLEMQQ+LN+AVK+FQDTN
Sbjct  121  EKGWRKAYCPKMITLSRYKFQGPIKSKLEMQQVLNNAVKEFQDTN  165


>gb|EBJ37739.1| hypothetical protein GOS_8908468 [marine metagenome]
Length=173

 Score =  318 bits (816),  Expect = 3e-86, Method: Compositional matrix adjust.
 Identities = 147/167 (88%), Positives = 160/167 (95%), Gaps = 0/167 (0%)

Query  1    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  60
            MTVRAKTLVKDKFWIVEQ+G KLGTLQKQ DNGWIFLSK+DKR+VFHTQESLFTKFG  +
Sbjct  7    MTVRAKTLVKDKFWIVEQDGHKLGTLQKQQDNGWIFLSKKDKREVFHTQESLFTKFGIEM  66

Query  61   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120
            F+ +NIKKP EEIQTDNFDVHGYPC QHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII
Sbjct  67   FNATNIKKPEEEIQTDNFDVHGYPCSQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  126

Query  121  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            CFEKGWRKAYCPKMITLSRY+YKGP+KTK+EMQQ+LN+AVK+FQD+N
Sbjct  127  CFEKGWRKAYCPKMITLSRYKYKGPMKTKIEMQQVLNNAVKEFQDSN  173


>gb|ECD45346.1| hypothetical protein GOS_3386538 [marine metagenome]
Length=167

 Score =  317 bits (811),  Expect = 1e-85, Method: Compositional matrix adjust.
 Identities = 146/167 (87%), Positives = 159/167 (95%), Gaps = 0/167 (0%)

Query  1    MTVRAKTLVKDKFWIVEQNGQKLGTLQKQADNGWIFLSKQDKRQVFHTQESLFTKFGFGI  60
            MTVRAKTLVKDKFWIVEQ+G KLGTLQKQ DNGWIFLSK+DKR+VFHT+ESLFTKFG  +
Sbjct  1    MTVRAKTLVKDKFWIVEQDGHKLGTLQKQQDNGWIFLSKKDKREVFHTRESLFTKFGIEM  60

Query  61   FDESNIKKPSEEIQTDNFDVHGYPCGQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120
            FD +NIKKP EEIQ DNFDVHGYPC QHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII
Sbjct  61   FDATNIKKPEEEIQKDNFDVHGYPCSQHPYNPMFDVQKQLPVYTKTPKSKSQFCAGYYII  120

Query  121  CFEKGWRKAYCPKMITLSRYEYKGPIKTKLEMQQILNDAVKQFQDTN  167
            CFEKGWRKAYCPKMITLSRY+YKGP+KTK+EMQQ+LN+AVK+FQD+N
Sbjct  121  CFEKGWRKAYCPKMITLSRYKYKGPMKTKIEMQQVLNNAVKEFQDSN  167