ORF TR16800

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : AACY01160045.1
Annotathon code: ORF_TR16800
Sample :
  • GPS :31°10'30n; 64°19'27.6w
  • Sargasso Sea: Sargasso Sea, Station 11 - Bermuda (UK)
  • Open Ocean (-5m, 20.5°C, 0.1-0.8 microns)
Authors
Team : BioCell 2006
Username : LoDom
Annotated on : 2008-03-19 18:52:37
  • BOEUF dominique
  • GUILLOUX loïc

Synopsis

Genomic Sequence

>AACY01160045.1 ORF_TR16800 genomic DNA
ACAAGGATGTTAATCTCAGAATTAATAAAATGAATAGAAAATTAATTAAACCTAAACAAGCTGCAAATATTCTGATGTGTAGCGAAAGAACCTTAGAGAC
TTGGAGAAGAGAAGAGAAAGGTCCTAGTTATTATAAGATAGAAGGAAAAGTACTTTATGGGATTGATGATTTACAAAATTTTATTGAAGGTTCCAGAGTG
TCAGTTTCATAATAAACATTTATAAGGAGAATAAATGAAAATAAAAATTATAACTTTAGCAGCAATTGTTTCTTTAGTGGCTTCTTGTTCAGGAAGTGAT
GGAAGTAAGGAAATAAGACTTAGTGATGCTGCAGAAACTACAGCGTATGTTGAATATCTTTTTTGTAAAAATGGACCTGATATGTCGCAAGAGTCCTTTA
CAGCAATGATATCGGAATGGAATACAATACAAGACGGTATGGAAAATCCTGTTCCTATGTCTGTGGGACTCGTTCCACGAACTGAAACTGATTTGTATGA
TGGTATGTGGGTATTAGTTTGGCAATCTAAAGAGCAAAGCGAAACAGGCTGGGAAGAATGGTTGGCTGGACCTGCTGAAGATTGGATAGAAAAGACTAGT
TCCATTCTTTCTTGTGTAGACTCAAATGGAGACGCTATAAATTATAGCTTCAATGTAAGTAATTTTAGACCTGCACAAGCTCAAGATGCAGAACCAGGAG
GGGTCGTGGGTTTTAATTTCTGCAGTTACACCGACTCATTTGGTCCTAACGATTTAATTGCAGCCAATGGAATTTATAATCAATGGCTAGATGCTGCTGT
GGAAGCAGCAGGGACTGCTTCACCATATTTTTATACAATTCACGAACCT

Translation

[235 - 846/849]   direct strand
>ORF_TR16800 Translation [235-846   direct strand]
MKIKIITLAAIVSLVASCSGSDGSKEIRLSDAAETTAYVEYLFCKNGPDMSQESFTAMISEWNTIQDGMENPVPMSVGLVPRTETDLYDGMWVLVWQSKE
QSETGWEEWLAGPAEDWIEKTSSILSCVDSNGDAINYSFNVSNFRPAQAQDAEPGGVVGFNFCSYTDSFGPNDLIAANGIYNQWLDAAVEAAGTASPYFY
TIHE

[ Warning ] 3' incomplete: following codon is not a STOP

Phylogeny

néant

Annotator commentaries

La recherche d'ORF a révélé 7 cadres de lecture possibles. Trois commençants par un ATG, et quatre commençants par un codon alternatif. Nous avons sélectionné l'ORF commençant par un ATG de cadre +1 allant du nucléotide 235 à 846. Bien que cet ORF soit incomplet en 3',ce choix a été motivé d'une part, par sa longue taille, et d'autre part, par la présence de motifs présentant des homologies avec d'autres organismes. Le fragment de cette protéine putative mesure 204AA et pèse 22.29kDa. Les deux homologues mesurent respectivement : - marine gamma proteobacterium HTCC2207 274 aa ; - marine gamma proteobacterium HTCC2207 277 aa ; nous pouvons estimer que notre protéine putative est tronquée d'environ 71,5aa. Cette protéine présenterait deux motifs reconnus dans la base de données InterPro : - le premier étant un site d'attachement aux lipides des lipoprotéines de la membrane procaryotique (ce site est reconnu aussi chez Prosite) (du 8e au 18eAA); - le second étant un peptide signal dont la base d'origine est inconnue (du 1er au 20e AA). Le blastp contre swissprot ne fournit rien de concluant. En effet, la meilleure e-value est de 0.25. Par contre, le blastp contre nr s'est révélé plus intéressant. Il en ressort six types d'homologie. Toutefois, les e-values se révèlent fortes (le meilleur étant de 2e-14). Nous avons fait un alignement multiple avec les six séquences, duquel il est ressorti qu'il n'y avait pas un seul acide aminé conservé entre ces organismes. Nous avons alors restreint l'alignement multiple aux 4 premiers organismes, et le même résultat est observé. L'alignement a encore été restreint aux deux premiers (les seuls présentant des e-values convenables), et nous avons constaté de nombreux acides aminés conservés entre notre séquence et celles de organismes retenus pour l'alignement multiple. La construction d'un arbre enraciné est dans ce cas peu informative, car nous possèdons certes trois homologues mais pas de groupe extérieur. Nous avons effectué une recherche de domaines chez ces deux organismes, et nous avons pu constater que les deux mêmes sites que dans notre séquence étaient ressortis. En plus d’avoir la même fonction, ces sites ont la même localisation et sont de longueur similaires. Ce sont des sites conservés. Néanmoins, les séquences de ces deux homologues codent pour des protéines hypothétiques. Nous pouvons donc seulement en conclure que notre protéine, si elle est synthétisée in vivo, se lie aux lipides des lipoprotéines de la membrane procaryotique. Or, les deux organismes retenus sont des gamma-protéobactéries (procaryotes) et plus précisément deux gamma proteobacterie marines (réf . ZP 01223770 et ZP 01224865) ; notre séquence ferait donc parti d’un nouveau groupe de protéine encore à définir chez les gamma protéobactéries marines ou d’un nouveau groupe de protéine que l’on a pu repéré pour l’instant que chez ces protéobactéries.


Multiple Alignement

CLUSTAL W (1.83) multiple sequence alignment


sequence                         MKIKIIT-LAAIVSLVASCSGSDGSKEIR-----------LSDAAETTAY 38
s1_marine_g_proteobacterium      --MKLITGLAVTALLLVGCGDKNAEMDVAA----EMDMAAAQPAAPVSTF 44
s2_marine_g_proteobacterium      --MNKLLAASFTVLALAGCSNDPAPEAAAAPDVAVAAEAMTFDMVGQVFF 48
                                 : :: :   :  .  :..*... .                    .    :

sequence                         VEYLFCKNGPDMSQESFTAMISEWNTIQDGMENPVPMSVGLVPRTETDLY 88
s1_marine_g_proteobacterium      VEYMYCDGGADFSPENYAKLTAAWNLISEESPVPALGAFAIRPKVETELY 94
s2_marine_g_proteobacterium      NEFIPCTAGPDFSEATVDAMVAEWRAS--GIAGEILGAWGYAPASENNRF 96
                                  *:: *  *.*:*  .   : : *.            : .  *  *.: :

sequence                         D-GMWVLVWQSKEQSETGWEEWLAG-PAEDWIEKTSSILSCVDSNGDAIN 136
s1_marine_g_proteobacterium      D-GMWANIWSSVEAREAGWKDWVEN-HAEAFGAEFDSTLACN-AEKRFLF 141
s2_marine_g_proteobacterium      QNGWWELQWSSKEAADAGWRQWAASDVAQAWSSKHENVMVCDAASRVSWD 146
                                 : * *   *.* *  ::**.:*  .  *: :  : .. : *  :.     

sequence                         YSFNVSNFRPAQAQDAEPGGVVGFNFCSYTDSFGPNDLIAANGIYNQWLD 186
s1_marine_g_proteobacterium      ETMPIT--APVQEWDPAQQFQASYSFCSFKEGKTQADGEAAGAAFAEWIA 189
s2_marine_g_proteobacterium      FNFPRDP-YSFGDIDESGQFVSAFLPCQLNEGKTMDDLNVAIAAYNTFLD 195
                                  .:    : .    *       .:  *. .:.    *  .* . :  :: 

sequence                         AA--------------------VEAAGTASPYFYTIHE------------ 204
s1_marine_g_proteobacterium      DQRTLGRGLNYMAYLQIPTFDPETAGGSIQDYTFVRADFWGSADEQAADM 239
s2_marine_g_proteobacterium      AIPVTEN--------SFYSYGIYASNSDASEVDIYWGNFHPSFERMALAD 237
                                                         : .  .       :            

sequence                         ----------------------------------------
s1_marine_g_proteobacterium      TACMTEGNTAREMADAIYDCQDVGFDLYSIKRMES----- 274
s2_marine_g_proteobacterium      ATWMANGGETKAQMEAVMTCDTPDVHNAKLFYNPEDPDFS 277
                                                                         

BLAST

Database: All non-redundant GenBank CDS
translations+PDB+SwissProt+PIR+PRF excluding environmental samples
           4,181,744 sequences; 1,439,761,450 total letters

                                                                  Score     E
Sequences producing significant alignments:                        (Bits)  Value

gi|90415837|ref|ZP_01223770.1|  hypothetical protein GB2207_01...  82.0    2e-14
gi|90416936|ref|ZP_01224865.1|  hypothetical protein GB2207_06...  62.8    9e-09
gi|68128479|emb|CAJ08609.1|  hypothetical protein, conserved [Lei  38.9    0.15 
gi|118100713|ref|XP_417416.2|  PREDICTED: similar to DEP domain c  37.0    0.56   
gi|115629823|ref|XP_001201703.1|  PREDICTED: similar to dynein...  35.0    2.0    
gi|45187486|ref|NP_983709.1|  ADL387Cp [Eremothecium gossypii]...  33.9    5.2    


alignement 2 à 2:

>gi|90415837|ref|ZP_01223770.1|  hypothetical protein GB2207_01352 [marine gamma proteobacterium 
HTCC2207]
 gi|90332211|gb|EAS47408.1|  hypothetical protein GB2207_01352 [marine gamma proteobacterium 
HTCC2207]
Length=274

 Score = 82.0 bits (201),  Expect = 2e-14, Method: Composition-based stats.
 Identities = 53/175 (30%), Positives = 89/175 (50%), Gaps = 15/175 (8%)

Query  3    IKIITLAAIVSLVASCSGS-----DGSKEIRLS---DAAETTAYVEYLFCKNGPDMSQES  54
            +K+IT  A+ +L+    G      D + E+ ++    AA  + +VEY++C  G D S E+
Sbjct  1    MKLITGLAVTALLLVGCGDKNAEMDVAAEMDMAAAQPAAPVSTFVEYMYCDGGADFSPEN  60

Query  55   FTAMISEWNTIQDGMENPVPM--SVGLVPRTETDLYDGMWVLVWQSKEQSETGWEEWLAG  112
            +  + + WN I +  E+PVP   +  + P+ ET+LYDGMW  +W S E  E GW++W+  
Sbjct  61   YAKLTAAWNLISE--ESPVPALGAFAIRPKVETELYDGMWANIWSSVEAREAGWKDWVEN  118

Query  113  PAEDWIEKTSSILSCVDSNGDAINYSFNVSNFRPAQAQDAEPGGVVGFNFCSYTD  167
             AE +  +  S L+C   N +       +    P Q  D        ++FCS+ +
Sbjct  119  HAEAFGAEFDSTLAC---NAEKRFLFETMPITAPVQEWDPAQQFQASYSFCSFKE  170


>gi|90416936|ref|ZP_01224865.1|  hypothetical protein GB2207_06733 [marine gamma proteobacterium 
HTCC2207]
 gi|90331283|gb|EAS46527.1|  hypothetical protein GB2207_06733 [marine gamma proteobacterium 
HTCC2207]
Length=277

 Score = 62.8 bits (151),  Expect = 9e-09, Method: Composition-based stats.
 Identities = 45/154 (29%), Positives = 73/154 (47%), Gaps = 9/154 (5%)

Query  38   YVEYLFCKNGPDMSQESFTAMISEWNTIQDGMENPVPMSVGLVPRTETDLY-DGMWVLVW  96
            + E++ C  GPD S+ +  AM++EW     G+   +  + G  P +E + + +G W L W
Sbjct  48   FNEFIPCTAGPDFSEATVDAMVAEWRA--SGIAGEILGAWGYAPASENNRFQNGWWELQW  105

Query  97   QSKEQSETGWEEWLAGP-AEDWIEKTSSILSCVDSNGDAINYSFNVSNFRPAQAQDAEPG  155
             SKE ++ GW +W A   A+ W  K  +++ C       +++ FN     P    D +  
Sbjct  106  SSKEAADAGWRQWAASDVAQAWSSKHENVMVC--DAASRVSWDFNFPR-DPYSFGDIDES  162

Query  156  G--VVGFNFCSYTDSFGPNDLIAANGIYNQWLDA  187
            G  V  F  C   +    +DL  A   YN +LDA
Sbjct  163  GQFVSAFLPCQLNEGKTMDDLNVAIAAYNTFLDA  196


>gi|68128479|emb|CAJ08609.1|  hypothetical protein, conserved [Leishmania major]
Length=280

 Score = 38.9 bits (89),  Expect = 0.15, Method: Composition-based stats.
 Identities = 31/124 (25%), Positives = 56/124 (45%), Gaps = 10/124 (8%)

Query  27   IRLSDAAETTAYVEYL----FCKNGPDMSQESFTAMISEWNTIQDGMENPVPMSVGLVPR  82
            + L D  E TA +       F KN P+   E   A +  W     GM+NP   +V + P 
Sbjct  99   VLLVDVVEGTAQLSLQHMKSFLKNRPNTFPEVKDAEV--WFLRMGGMQNPQGAAVSVPPL  156

Query  83   TETDLYDGMWVLVWQSK-EQSETGWEEWLAGPAEDWIEKTSSILSCVDSNGDAINYSFNV  141
             + +   G+W   W++   + E+ W+ W AG  E +I    + + C  +N + ++ +  V
Sbjct  157  LQKNDETGLW--QWRTDIRKMESVWDGWFAGLDEAFISLPCAKMLCT-ANAERLDKTLTV  213

Query  142  SNFR  145
            +  +
Sbjct  214  AQMQ  217


>gi|118100713|ref|XP_417416.2|  PREDICTED: similar to DEP domain containing 6 [Gallus gallus]
Length=413

 Score = 37.0 bits (84),  Expect = 0.56, Method: Composition-based stats.
 Identities = 24/82 (29%), Positives = 36/82 (43%), Gaps = 17/82 (20%)

Query  108  EWLAGPAEDWIEKTSSILSCVDSNGDAINYSFNVSNFRPAQAQDAEPGG---VVGFNFCS  164
            E L  P   +++KT +I+      GDA+ + F V   RP   Q  +PGG     G   C 
Sbjct  322  EELLSPGAPYVKKTLTIV------GDAVGWGFVVRGGRPCHIQAVDPGGPAAAAGMKVCQ  375

Query  165  YTDSFGPNDLIAANGIYNQWLD  186
            +        + + NG+Y   LD
Sbjct  376  F--------VFSVNGMYVLHLD  389


>gi|115629823|ref|XP_001201703.1|  PREDICTED: similar to dynein, axonemal, heavy chain 5, partial 
[Strongylocentrotus purpuratus]
 gi|115640858|ref|XP_001187076.1|  PREDICTED: similar to dynein, axonemal, heavy chain 5, partial 
[Strongylocentrotus purpuratus]
Length=1103

 Score = 35.0 bits (79),  Expect = 2.0, Method: Composition-based stats.
 Identities = 27/92 (29%), Positives = 41/92 (44%), Gaps = 8/92 (8%)

Query  74   PMSVGLVPRTETDLYDGMWVLVWQSKEQSETGWEEW--LAGPAED-WIEKTSSIL----S  126
            P   G +     D  DG++  +W+   +S+ G   W  L GP +  WIE  +S+L    +
Sbjct  151  PQMFGRLDVATNDWTDGIFSTLWRRTLRSKKGEHVWIVLDGPVDAIWIENLNSVLDDNKT  210

Query  127  CVDSNGDAINYSFNVS-NFRPAQAQDAEPGGV  157
               +NGD I  + N    F P    +A P  V
Sbjct  211  LTLANGDRIPMAPNCKIVFEPHNIDNASPATV  242


>gi|45187486|ref|NP_983709.1|  ADL387Cp [Eremothecium gossypii]
 gi|44982224|gb|AAS51533.1|  ADL387Cp [Ashbya gossypii ATCC 10895]
Length=488

 Score = 33.9 bits (76),  Expect = 5.2, Method: Composition-based stats.
 Identities = 16/35 (45%), Positives = 20/35 (57%), Gaps = 0/35 (0%)

Query  77   VGLVPRTETDLYDGMWVLVWQSKEQSETGWEEWLA  111
            VG V  TE+++YD +  L  Q  E    GWEEW A
Sbjct  24   VGSVIPTESEVYDAVAQLWRQEPELERAGWEEWRA  58

ORF finding

ORF ATG brin direct:

>ORF number 1 in reading frame 1 on the direct strand extends from base 235 to base 849.
ATGAAAATAAAAATTATAACTTTAGCAGCAATTGTTTCTTTAGTGGCTTCTTGTTCAGGA
AGTGATGGAAGTAAGGAAATAAGACTTAGTGATGCTGCAGAAACTACAGCGTATGTTGAA
TATCTTTTTTGTAAAAATGGACCTGATATGTCGCAAGAGTCCTTTACAGCAATGATATCG
GAATGGAATACAATACAAGACGGTATGGAAAATCCTGTTCCTATGTCTGTGGGACTCGTT
CCACGAACTGAAACTGATTTGTATGATGGTATGTGGGTATTAGTTTGGCAATCTAAAGAG
CAAAGCGAAACAGGCTGGGAAGAATGGTTGGCTGGACCTGCTGAAGATTGGATAGAAAAG
ACTAGTTCCATTCTTTCTTGTGTAGACTCAAATGGAGACGCTATAAATTATAGCTTCAAT
GTAAGTAATTTTAGACCTGCACAAGCTCAAGATGCAGAACCAGGAGGGGTCGTGGGTTTT
AATTTCTGCAGTTACACCGACTCATTTGGTCCTAACGATTTAATTGCAGCCAATGGAATT
TATAATCAATGGCTAGATGCTGCTGTGGAAGCAGCAGGGACTGCTTCACCATATTTTTAT
ACAATTCACGAACCT

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the direct strand extends from base 30 to base 212.
ATGAATAGAAAATTAATTAAACCTAAACAAGCTGCAAATATTCTGATGTGTAGCGAAAGA
ACCTTAGAGACTTGGAGAAGAGAAGAGAAAGGTCCTAGTTATTATAAGATAGAAGGAAAA
GTACTTTATGGGATTGATGATTTACAAAATTTTATTGAAGGTTCCAGAGTGTCAGTTTCA
TAA
 -----------------------------------------------------------------------------------------------
brin indirect

No ORFs were found in reading frame 1.

>ORF number 1 in reading frame 2 on the reverse strand extends from base 245 to base 643.
ATGGAACTAGTCTTTTCTATCCAATCTTCAGCAGGTCCAGCCAACCATTCTTCCCAGCCT
GTTTCGCTTTGCTCTTTAGATTGCCAAACTAATACCCACATACCATCATACAAATCAGTT
TCAGTTCGTGGAACGAGTCCCACAGACATAGGAACAGGATTTTCCATACCGTCTTGTATT
GTATTCCATTCCGATATCATTGCTGTAAAGGACTCTTGCGACATATCAGGTCCATTTTTA
CAAAAAAGATATTCAACATACGCTGTAGTTTCTGCAGCATCACTAAGTCTTATTTCCTTA
CTTCCATCACTTCCTGAACAAGAAGCCACTAAAGAAACAATTGCTGCTAAAGTTATAATT
TTTATTTTCATTTATTCTCCTTATAAATGTTTATTATGA

No ORFs were found in reading frame 3.
________________________________________________________________________________________________
ORF any codon brin direct:

>ORF number 1 in reading frame 1 on the direct strand extends from base 235 to base 849.
ATGAAAATAAAAATTATAACTTTAGCAGCAATTGTTTCTTTAGTGGCTTCTTGTTCAGGA
AGTGATGGAAGTAAGGAAATAAGACTTAGTGATGCTGCAGAAACTACAGCGTATGTTGAA
TATCTTTTTTGTAAAAATGGACCTGATATGTCGCAAGAGTCCTTTACAGCAATGATATCG
GAATGGAATACAATACAAGACGGTATGGAAAATCCTGTTCCTATGTCTGTGGGACTCGTT
CCACGAACTGAAACTGATTTGTATGATGGTATGTGGGTATTAGTTTGGCAATCTAAAGAG
CAAAGCGAAACAGGCTGGGAAGAATGGTTGGCTGGACCTGCTGAAGATTGGATAGAAAAG
ACTAGTTCCATTCTTTCTTGTGTAGACTCAAATGGAGACGCTATAAATTATAGCTTCAAT
GTAAGTAATTTTAGACCTGCACAAGCTCAAGATGCAGAACCAGGAGGGGTCGTGGGTTTT
AATTTCTGCAGTTACACCGACTCATTTGGTCCTAACGATTTAATTGCAGCCAATGGAATT
TATAATCAATGGCTAGATGCTGCTGTGGAAGCAGCAGGGACTGCTTCACCATATTTTTAT
ACAATTCACGAACCT

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the direct strand extends from base 3 to base 212.
AAGGATGTTAATCTCAGAATTAATAAAATGAATAGAAAATTAATTAAACCTAAACAAGCT
GCAAATATTCTGATGTGTAGCGAAAGAACCTTAGAGACTTGGAGAAGAGAAGAGAAAGGT
CCTAGTTATTATAAGATAGAAGGAAAAGTACTTTATGGGATTGATGATTTACAAAATTTT
ATTGAAGGTTCCAGAGTGTCAGTTTCATAA
------------------------------------------------------------------------------------------------
brin indirect:

>ORF number 1 in reading frame 1 on the reverse strand extends from base 337 to base 561.
TACCCACATACCATCATACAAATCAGTTTCAGTTCGTGGAACGAGTCCCACAGACATAGG
AACAGGATTTTCCATACCGTCTTGTATTGTATTCCATTCCGATATCATTGCTGTAAAGGA
CTCTTGCGACATATCAGGTCCATTTTTACAAAAAAGATATTCAACATACGCTGTAGTTTC
TGCAGCATCACTAAGTCTTATTTCCTTACTTCCATCACTTCCTGA

>ORF number 1 in reading frame 2 on the reverse strand extends from base 209 to base 643.
TTTATAGCGTCTCCATTTGAGTCTACACAAGAAAGAATGGAACTAGTCTTTTCTATCCAA
TCTTCAGCAGGTCCAGCCAACCATTCTTCCCAGCCTGTTTCGCTTTGCTCTTTAGATTGC
CAAACTAATACCCACATACCATCATACAAATCAGTTTCAGTTCGTGGAACGAGTCCCACA
GACATAGGAACAGGATTTTCCATACCGTCTTGTATTGTATTCCATTCCGATATCATTGCT
GTAAAGGACTCTTGCGACATATCAGGTCCATTTTTACAAAAAAGATATTCAACATACGCT
GTAGTTTCTGCAGCATCACTAAGTCTTATTTCCTTACTTCCATCACTTCCTGAACAAGAA
GCCACTAAAGAAACAATTGCTGCTAAAGTTATAATTTTTATTTTCATTTATTCTCCTTAT
AAATGTTTATTATGA

No ORFs were found in reading frame 3.