GOS 1273010

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : JCVI_READ_1091140850070
Annotathon code: GOS_1273010
Sample :
  • GPS :1°12'58s; 90°25'22w
  • Galapagos Islands: Devil's Crown, Floreana Island - Ecuador
  • Coastal (-2.2m, 25.5°C, 0.1-0.8 microns)
Authors
Team : Biochimie 2010
Username : Cess
Annotated on : 2010-06-11 13:19:21
  • Dalmasso Cécile
  • rouffignac julie

Synopsis

Genomic Sequence

>JCVI_READ_1091140850070 GOS_1273010 Genomic DNA
ATGACAGAAAAAACATTTGAAAATGTTTTAGATGAAATGAGCGGAAAAGAATTTTCTTTTTTTAAAAAAGAATTATCCGAAGCGATAATTGATAAAATTT
GTCCTATTGGAAATAAAATTAAAGATCTAATGGGAGATAAATCATATTTAGAAAGTATTTTAAAAAAAGGCAGAGAAAAAGCTAACATTATTGCTGAGGA
AAACTTAAAAAAAGTTCGTGAAATAGTTGGTTTTGTATAATATAAACTATAATCATGATACAGACTGAACCCACTCCAAACCCAAATTCTTTAAAGTTTC
TATCAGATTTTACAATTTCTGAGGTAGGAAATAAGGAATTCCAAAAAAAAGAAATTAAAAATTTAAAAAATCCTTTTGTAATTGATTTATTAAATATTGA
GGGCGTAGAGTTAATTCTTTTGTCAGAAAATTTTTTAACTGTCAAAAAAGAAGAAAGTGTTTCGTGGAGTTCTCTGAAACCCACAATCATATCGTTTATA
AACGATTTTAGAGCTAAAAATAAATCACCTGTTCTTTCTATTAAAGATGATTTAGTAAAAGATAAAAAAAGTAACGATGATGATGAAGTGGTATCAAAAA
TAAAAGAGGTATTAGATACAAAGATAAGACCAGCAGTAGCAAAAGATGGGGGCGATATAAAATTTAAAT

Translation

[3 - 479/669]   indirect strand
>GOS_1273010 Translation [3-479   indirect strand]
LNFISPPSFATAGLIFVSNTSFIFDTTSSSSLLFLSFTKSSLIERTGDLFLALKSFINDMIVGFRELHETLSSFLTVKKFSDKRINSTPSIFNKSITKGF
FKFLISFFWNSLFPTSEIVKSDRNFKEFGFGVGSVCIMIIVYIIQNQLFHELFLSFPQQ

[ Warning ] 5' incomplete: does not start with a Methionine

Annotator commentaries

Nous trouvons 4 ORFs dans notre séquence et choisissons le plus long (3-492) : cadre de lecture 3 sens indirect.

Cet ORF paraît compltet car il débute par un ATG et se termine par un codon stop.

Sa taille est suffisante pour qu'il soit codant (159 aa) cependant après plusieurs blast réalisés (blastp contre swissprot, blastp contre NR, blastn contre NR) nous trouvons très peu de séquences (entre 3 et 7), de plus leurs scores et e-values sont trop mauvais pour que ces séquences puissent être considérées comme des homologues.

On ne trouve pas de domaine protéique correspendant avec interproscan.

On peut donc en conclure soit que cet ORF n'est pas codant car il n'a pas d'homologues (faux positif) soit que les banques de données avec lesquelles nous travaillons ne connaissent pas encore cette séquence car, en effet il est peu probable qu'une séquence de 159 aa soit un faux positif. Nous ne pouvons pas trancher entre les deux hypothèses.

ORF finding

PROTOCOLE:

ORF Finder

1/cadre de lecture 1 2 3/ 60 aa minimum/ any codons/ sens direct/ code génétique standart

2/cadre de lecture 1 2 3/ 60 aa minimum/ any codons/ sens indirect/ code génétique standart

3/ cadre de lecture 3/ 60 aa minimum/ any codons/ sens indirect/code génétique standart


ANALYSE DES RÉSULTATS:


En ce qui concerne la recherche 1 c'est-à-dire dans le sens direct, ORF Finder trouve 2 ORFs :

le premier débute à la base 1 et se termine à la base 240 (il se trouve donc dans le cadre de lecture 1).

le second commence à la base 246 et se finit à la base 668 dans le cadre de lecture numéro 3.


Pour la recherche 2 donc dans le sens indirect on trouve 2 ORFs :

Le premier dans le cadre de lecture 2 de la base 380 à la base 667.

Le second commence à la base 3 et se finit à la base 482.


Par convention on choisit l'ORF le plus long à savoir dans le sens indirect, cadre de lecture 3 (celui qui débute à la base 3 et se termine à la base 482).


Nous réalisons une recherche de codons d'initiations dans cet ORF (recherche 3) et nous trouvons un ATG à la base 180.

De plus, cet ORF se termine par un codon stop (TAA), on peut dont en conclure que cette séquence est potentiellement complète.


Après un blastp ainsi qu'un blastx nous constatons que cette séquence a très peu d'homologues potentiels. Leurs scores et e-values sont trop mauvais pour pouvoir être des homologues. On peut donc supposer que cet orf est un faux positif car il ne possède pas d'homologue. On peut en conclure que la séquence n'est sûrement pas codante.


Pour la statut nous cliquons sur "codant" car nous ne savons pas s'il l'est ou pas mais nous ne pouvons pas affirmer qu'il ne l'est pas.

RÉSULTATS BRUTS:
1/
>ORF number 1 in reading frame 1 on the direct strand extends from base 1 to base 240.
ATGACAGAAAAAACATTTGAAAATGTTTTAGATGAAATGAGCGGAAAAGAATTTTCTTTT
TTTAAAAAAGAATTATCCGAAGCGATAATTGATAAAATTTGTCCTATTGGAAATAAAATT
AAAGATCTAATGGGAGATAAATCATATTTAGAAAGTATTTTAAAAAAAGGCAGAGAAAAA
GCTAACATTATTGCTGAGGAAAACTTAAAAAAAGTTCGTGAAATAGTTGGTTTTGTATAA


>Translation of ORF number 1 in reading frame 1 on the direct strand.
MTEKTFENVLDEMSGKEFSFFKKELSEAIIDKICPIGNKIKDLMGDKSYLESILKKGREK
ANIIAEENLKKVREIVGFV*

No ORFs were found in reading frame 2.

>ORF number 1 in reading frame 3 on the direct strand extends from base 246 to base 668.
ACTATAATCATGATACAGACTGAACCCACTCCAAACCCAAATTCTTTAAAGTTTCTATCA
GATTTTACAATTTCTGAGGTAGGAAATAAGGAATTCCAAAAAAAAGAAATTAAAAATTTA
AAAAATCCTTTTGTAATTGATTTATTAAATATTGAGGGCGTAGAGTTAATTCTTTTGTCA
GAAAATTTTTTAACTGTCAAAAAAGAAGAAAGTGTTTCGTGGAGTTCTCTGAAACCCACA
ATCATATCGTTTATAAACGATTTTAGAGCTAAAAATAAATCACCTGTTCTTTCTATTAAA
GATGATTTAGTAAAAGATAAAAAAAGTAACGATGATGATGAAGTGGTATCAAAAATAAAA
GAGGTATTAGATACAAAGATAAGACCAGCAGTAGCAAAAGATGGGGGCGATATAAAATTT
AAA

>Translation of ORF number 1 in reading frame 3 on the direct strand.
TIIMIQTEPTPNPNSLKFLSDFTISEVGNKEFQKKEIKNLKNPFVIDLLNIEGVELILLS
ENFLTVKKEESVSWSSLKPTIISFINDFRAKNKSPVLSIKDDLVKDKKSNDDDEVVSKIK
EVLDTKIRPAVAKDGGDIKFK

2/
No ORFs were found in reading frame 1.

>ORF number 1 in reading frame 2 on the reverse strand extends from base 380 to base 667.
AGAATTTGGGTTTGGAGTGGGTTCAGTCTGTATCATGATTATAGTTTATATTATACAAAA
CCAACTATTTCACGAACTTTTTTTAAGTTTTCCTCAGCAATAATGTTAGCTTTTTCTCTG
CCTTTTTTTAAAATACTTTCTAAATATGATTTATCTCCCATTAGATCTTTAATTTTATTT
CCAATAGGACAAATTTTATCAATTATCGCTTCGGATAATTCTTTTTTAAAAAAAGAAAAT
TCTTTTCCGCTCATTTCATCTAAAACATTTTCAAATGTTTTTTCTGTC

>Translation of ORF number 1 in reading frame 2 on the reverse strand.
RIWVWSGFSLYHDYSLYYTKPTISRTFFKFSSAIMLAFSLPFFKILSKYDLSPIRSLILF
PIGQILSIIASDNSFLKKENSFPLISSKTFSNVFSV

>ORF number 1 in reading frame 3 on the reverse strand extends from base 3 to base 482.
TTAAATTTTATATCGCCCCCATCTTTTGCTACTGCTGGTCTTATCTTTGTATCTAATACC
TCTTTTATTTTTGATACCACTTCATCATCATCGTTACTTTTTTTATCTTTTACTAAATCA
TCTTTAATAGAAAGAACAGGTGATTTATTTTTAGCTCTAAAATCGTTTATAAACGATATG
ATTGTGGGTTTCAGAGAACTCCACGAAACACTTTCTTCTTTTTTGACAGTTAAAAAATTT
TCTGACAAAAGAATTAACTCTACGCCCTCAATATTTAATAAATCAATTACAAAAGGATTT
TTTAAATTTTTAATTTCTTTTTTTTGGAATTCCTTATTTCCTACCTCAGAAATTGTAAAA
TCTGATAGAAACTTTAAAGAATTTGGGTTTGGAGTGGGTTCAGTCTGTATCATGATTATA
GTTTATATTATACAAAACCAACTATTTCACGAACTTTTTTTAAGTTTTCCTCAGCAATAA


>Translation of ORF number 1 in reading frame 3 on the reverse strand.
LNFISPPSFATAGLIFVSNTSFIFDTTSSSSLLFLSFTKSSLIERTGDLFLALKSFINDM
IVGFRELHETLSSFLTVKKFSDKRINSTPSIFNKSITKGFFKFLISFFWNSLFPTSEIVK
SDRNFKEFGFGVGSVCIMIIVYIIQNQLFHELFLSFPQQ*

3/
ORF Finder results
Results for 669 residue sequence "GOS_1273010 ADN génomique (Galapagos Islands: Devil's Crown, Floreana Island)" starting "ATGACAGAAA"
>ORF number 1 in reading frame 3 on the reverse strand extends from base 180 to base 482.
ATGATTGTGGGTTTCAGAGAACTCCACGAAACACTTTCTTCTTTTTTGACAGTTAAAAAA
TTTTCTGACAAAAGAATTAACTCTACGCCCTCAATATTTAATAAATCAATTACAAAAGGA
TTTTTTAAATTTTTAATTTCTTTTTTTTGGAATTCCTTATTTCCTACCTCAGAAATTGTA
AAATCTGATAGAAACTTTAAAGAATTTGGGTTTGGAGTGGGTTCAGTCTGTATCATGATT
ATAGTTTATATTATACAAAACCAACTATTTCACGAACTTTTTTTAAGTTTTCCTCAGCAA
TAA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
MIVGFRELHETLSSFLTVKKFSDKRINSTPSIFNKSITKGFFKFLISFFWNSLFPTSEIV
KSDRNFKEFGFGVGSVCIMIIVYIIQNQLFHELFLSFPQQ*

Multiple Alignement

PROTOCOLE:

afin de réaliser un alignement il faut au minimum 4 séquences or nous ne possédons que trois séquences donc un alignement est impossible.


ANALYSE DES RÉSULTATS:


RÉSULTATS BRUTS:

Protein Domains

PROTOCOLE:

Interpro paramètres par défauts


ANALYSE DES RÉSULTATS:


Interpro trouve un domaine qui ne semble pas être intégré. Il semble que ce domaine joue un rôle au sein de la région transmembranaire. La fonction réelle du domaine ne semble pas définie. Il y a trop peu d'information pour en déduire quoi que ce soit étant donné qu'il n'est même pas précisé la e-value du domaine.

RÉSULTATS BRUTS:
InterProScan: résultats
GOS_1273010	C33862F888FD8648	159	TMHMM	tmhmm	transmembrane_regions	128	146	NA	?	02-May-2010	NULL	NULL

Phylogeny

PROTOCOLE:



ANALYSE DES RÉSULTATS: impossible de faire un arbre.


RÉSULTATS BRUTS:

Taxonomy report

PROTOCOLE:


Utilisation de blastp contre NR afin d'avoir un rapport taxonomique.



ANALYSE DES RÉSULTATS:

Le rapport taxonomique ne nous est pas utile étant donné que la séquence n'a pas d'homologues.

RÉSULTATS BRUTS:
cellular organisms ........................     6 hits    4 orgs [root]
. Candidatus Korarchaeum cryptofilum OPF8 .     2 hits    1 orgs [Archaea; Korarchaeota; Candidatus Korarchaeum; Candidatus Korarchaeum cryptofilum]
. Paramecium ..............................     2 hits    2 orgs [Eukaryota; Alveolata; Ciliophora; Intramacronucleata; Oligohymenophorea; Peniculida; Parameciidae]
. . Paramecium tetraurelia ................     2 hits    2 orgs 
. . . Paramecium tetraurelia strain d4-2 ..     1 hits    1 orgs 
. Gardnerella vaginalis ATCC 14019 ........     2 hits    1 orgs [Bacteria; Actinobacteria; Actinobacteria (class); Actinobacteridae; Bifidobacteriales; Bifidobacteriaceae; Gardnerella; Gardnerella vaginalis]

BLAST

PROTOCOLE:

1/blast p contre swissprot

2/blast p contre NR

3/blast n contre NR (nucleotide collection)

paramètres par défauts excepté max target que l'on a choisi à 1000 séquences.


ANALYSE DES RÉSULTATS:


1/ Dans swissprot nous obtenons 7 séquences (les e-values allant de 3,9 à 9,7, les scores de 30,4 à 29,3 et les query coverage de 53% à 47% ). Ces séquences là ne peuvent pas être homologues car leurs scores sont bien trop faibles et les e-values bien trop importantes.


2/ Dans NR nous trouvons seulement 3 séquences (les e-values allant de 1,4 à 9,0, les scores de 35,8 à 33,1 et les query coverage de 56% à 59 %). Pareillement nous ne pouvons pas dire que ces séquences sont des homologues.


3/ Nous réalisons enfin une recherche avec un blastn mais nous ne trouvons aucun résultats.


Bien qu'étant de taille assez importante,cette séquence ne possède aucun homologue connu. Nous pouvons donc en conclure soit qu'elle n'est pas codante soit qu'elle n'est pas encore connue dans les banques de données. Cet ORF pourrait être un faux positif.

RÉSULTATS BRUTS:

1/
Sequences producing significant alignments: Accession Description Max score  Total score  Query coverage  E value  Links 
Q8S8P6.1 RecName: Full=Pentatricopeptide repeat-containing protein At2g32630 30.4 30.4 53% 3.9  
P07329.3 RecName: Full=Nitrogenase molybdenum-iron protein beta chain; AltName: Full=Nitrogenase component I; AltName: Full=Dinitrogenase 30.0 30.0 36% 4.8  
P21970.2 RecName: Full=Putative Nudix hydrolase FPV054 30.0 30.0 40% 5.5  
P31463.1 RecName: Full=HTH-type transcriptional regulator yidZ >sp|B1X9U0.1|YIDZ_ECODH RecName: Full=HTH-type transcriptional regulator yidZ >sp|C4ZYY9.1|YIDZ_ECOBW RecName: Full=HTH-type transcriptional regulator yidZ 30.0 30.0 28% 5.6  
B1HTD4.1 RecName: Full=Histidinol-phosphate aminotransferase; AltName: Full=Imidazole acetol-phosphate transaminase 29.6 29.6 26% 7.1  
Q5UPV3.1 RecName: Full=Uncharacterized protein L269 29.6 29.6 64% 7.5  
B2GA64.1 RecName: Full=Holo-[acyl-carrier-protein] synthase; Short=Holo-ACP synthase; AltName: Full=4'-phosphopantetheinyl transferase acpS 29.3 29.3 47% 9.5  

2/

Sequences producing significant alignments: Accession Description Max score  Total score  Query coverage  E value  Links 
YP_001736663.1 arsenite-transporting ATPase [Candidatus Korarchaeum cryptofilum OPF8] >gb|ACB06980.1| Arsenite-transporting ATPase [Candidatus Korarchaeum cryptofilum OPF8] 35.8 35.8 56% 1.4  
XP_001434700.1 hypothetical protein [Paramecium tetraurelia strain d4-2] >emb|CAK67303.1| unnamed protein product [Paramecium tetraurelia] 35.4 35.4 37% 2.2  
ZP_03937299.1 possible transcriptional regulator [Gardnerella vaginalis ATCC 14019] >gb|EEJ43942.1| possible transcriptional regulator [Gardnerella vaginalis ATCC 14019] 33.1 33.1 59% 9.0 

3/
Edit and Resubmit Save Search Strategies [Sign in above to save your search strategy] Formatting options Download 
    
Formatting options  
Show  Alignment as  HTML Plain text  Advanced View  Use old BLAST report format Reset form to defaults [?] These options control formatting of alignments in results pages. The default is HTML, but other formats (including plain text) are available. PSSM and PssmWithParameters are representations of Position Specific Scoring Matrices and are only available for PSI-BLAST. The Advanced view option allows the database descriptions to be sorted by various indices in a table. more... 
 
Alignment View  Pairwise Pairwise with dots for identities Query-anchored with dots for identities Query-anchored with letters for identities Flat query-anchored with dots for identities Flat query-anchored with letters for identities [?] Choose how to view alignments. The default "pairwise" view shows how each subject sequence aligns individually to the query sequence. The "query-anchored" view shows how all subject sequences align to the query sequence. For each view type, you can choose to show "identities" (matching residues) as letters or dots. more... 
 
Display  Graphical Overview  Linkout  Sequence Retrieval  NCBI-gi  CDS feature [?] Graphical Overview: Graphical Overview: Show graph of similar sequence regions aligned to query. more... 
Database LinkOuts: Show links from matching sequences to entries in specialized NCBI databases. more... 
Sequence Retrieval: Show buttons to download matching sequences. more... 
NCBI-gi: Show NCBI gi identifiers. more... 
CDS feature: Show annotated coding region and translation. more... 
 
Masking Character:  X for protein, n for nucleotide Lower Case Color:  Black Grey Red [?] Masking Character: Display masked (filtered) sequence regions as lower-case or as specific letters (N for nucleotide, P for protein). 
Masking Color: Display masked sequence regions in the given color. 
 
Limit results Descriptions:  0 10 50 100       Graphical overview:  0 10 50 100    Alignments:  0 10 50 100       [?] Descriptions: Show short descriptions for up to the given number of sequences. 
Alignments: Show alignments for up to the given number of sequences, in order of statistical significance. 
 
 Organism Type common name, binomial, taxid, or group name. Only 20 top taxa will be shown.  [?] Show only sequences from the given organism. 
 
 Entrez query:  [?] Show only those sequences that match the given Entrez query. more... 
 
 Expect Min:  Expect Max:  [?] Show only sequences with expect values in the given range. more... 
 
Format for  PSI-BLAST with inclusion threshold:  [?] Format for PSI-BLAST: The Position-Specific Iterated BLAST (PSI-BLAST) program performs iterative searches with a protein query, in which sequences found in one round of search are used to build a custom score model for the next round. more... 
Inclusion Threshold: This sets the statistical significance threshold for including a sequence in the model used by PSI-BLAST to create the PSSM on the next iteration.