matir 7 Apr 2011 10:39 Contribution non évaluée |
Bonjour,
j'ai effectué la recherche des ORF pour ma séquence <928 pb> (voir ci dessous) par SMS(ORF Finder),j'ai trouvé plusieurs ORF:
1)le plus long s'étend de la base 34 à la base 927 (cadre 1):
>ORF number 1 in reading frame 1 on the direct strand extends from base 34 to base 927.
GTCTCCAGCAGGTTTAAAAGGTTGGTTCAGCGTGAGTTCATATCTTGCGTTTGCGCTCGC
TTCCGCTCAACGGTTGGCGCATGTCCCCGATACGGGTACAGACGCCCAGGGATGCTCGCG
CGTGCGCGTCGCGAGAAACTTGGGGCCATGCTAGAAACCGCTGAAATCTCCCCTGTCCTT
GAGTCGAATGCCGATCCACGCCGTATAGCCCGCGCGCTCTACTGGCAGGGTTGGCGGGTC
ACGTCGATCGCGCGTCATCTGGAAATCAAGCGCGCGACAGTCGAGGCATGGAAACAGCGC
GACGAATGGGACAAGGCGACGCCGATCGAGCGCATCGAGTCGTCGTTAGAAACGCGGCTT
GCGGTGCTGATTGCCAAGCCGGAAAAAGACGGCCGTGACTTCAAGGAGGTCGATTTGCTC
ATGCGGCAGGTTGAGCGCATGGCACGTGTCCATAAGTACGGCGAAACAGGCAGGGAGAGC
GATCTAAACCCAGCGATCAAGGCGCGTAACACGGTGCCGCGCAAGGCCAAGGCCATACGC
AACGAATTCAGCGACGAGCAGCGCGACAGGATCGTCGAGGCCTTCCGGGATTCGCTGTTC
GATTATCAGAAGGTCTGGTATCGCCAGCGCGATCAGCGCACCCGCAATATCCTGAAATCG
CGGCAGATCGGCGCGACGTGGTATTTCGCCCGTGAGGCGCTGGTTGACGCTATCGAGACA
GGTCGGAACCAGATTTTTCTATCGGCCAGCAAGGCACAGGCGCATGTGTTCCGGCAGTAC
ATGTGCCAGTTTGCGCGCGAGGCCGCAGACGTTGACTTGACCGGCGAGCCCGATCTGTTT
GCGAACGAGGCAATGCTTTACTTTTCTCGCACGAACGCCGCACCGCGCAGAGCT
>Translation of ORF number 1 in reading frame 1 on the direct strand.
VSSRFKRLVQREFISCVCARFRSTVGACPRYGYRRPGMLARARREKLGAMLETAEISPVL
ESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAWKQRDEWDKATPIERIESSLETRL
AVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETGRESDLNPAIKARNTVPRKAKAIR
NEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNILKSRQIGATWYFAREALVDAIET
GRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEPDLFANEAMLYFSRTNAAPRRA
2)le 2ème s'étend de la base 55 à la base 927 (cadre 1) :
>ORF number 1 in reading frame 1 on the direct strand extends from base 55 to base 927.
TTGGTTCAGCGTGAGTTCATATCTTGCGTTTGCGCTCGCTTCCGCTCAACGGTTGGCGCA
TGTCCCCGATACGGGTACAGACGCCCAGGGATGCTCGCGCGTGCGCGTCGCGAGAAACTT
GGGGCCATGCTAGAAACCGCTGAAATCTCCCCTGTCCTTGAGTCGAATGCCGATCCACGC
CGTATAGCCCGCGCGCTCTACTGGCAGGGTTGGCGGGTCACGTCGATCGCGCGTCATCTG
GAAATCAAGCGCGCGACAGTCGAGGCATGGAAACAGCGCGACGAATGGGACAAGGCGACG
CCGATCGAGCGCATCGAGTCGTCGTTAGAAACGCGGCTTGCGGTGCTGATTGCCAAGCCG
GAAAAAGACGGCCGTGACTTCAAGGAGGTCGATTTGCTCATGCGGCAGGTTGAGCGCATG
GCACGTGTCCATAAGTACGGCGAAACAGGCAGGGAGAGCGATCTAAACCCAGCGATCAAG
GCGCGTAACACGGTGCCGCGCAAGGCCAAGGCCATACGCAACGAATTCAGCGACGAGCAG
CGCGACAGGATCGTCGAGGCCTTCCGGGATTCGCTGTTCGATTATCAGAAGGTCTGGTAT
CGCCAGCGCGATCAGCGCACCCGCAATATCCTGAAATCGCGGCAGATCGGCGCGACGTGG
TATTTCGCCCGTGAGGCGCTGGTTGACGCTATCGAGACAGGTCGGAACCAGATTTTTCTA
TCGGCCAGCAAGGCACAGGCGCATGTGTTCCGGCAGTACATGTGCCAGTTTGCGCGCGAG
GCCGCAGACGTTGACTTGACCGGCGAGCCCGATCTGTTTGCGAACGAGGCAATGCTTTAC
TTTTCTCGCACGAACGCCGCACCGCGCAGAGCT
>Translation of ORF number 1 in reading frame 1 on the direct strand.
LVQREFISCVCARFRSTVGACPRYGYRRPGMLARARREKLGAMLETAEISPVLESNADPR
RIARALYWQGWRVTSIARHLEIKRATVEAWKQRDEWDKATPIERIESSLETRLAVLIAKP
EKDGRDFKEVDLLMRQVERMARVHKYGETGRESDLNPAIKARNTVPRKAKAIRNEFSDEQ
RDRIVEAFRDSLFDYQKVWYRQRDQRTRNILKSRQIGATWYFAREALVDAIETGRNQIFL
SASKAQAHVFRQYMCQFAREAADVDLTGEPDLFANEAMLYFSRTNAAPRRA
3)le 3ème ORF s'étend de la base 145 à la base 927 (cadre 1):mais ici avec ATG comme codon d’initiation:
>ORF number 1 in reading frame 1 on the direct strand extends from base 145 to base 927.
ATGCTCGCGCGTGCGCGTCGCGAGAAACTTGGGGCCATGCTAGAAACCGCTGAAATCTCC
CCTGTCCTTGAGTCGAATGCCGATCCACGCCGTATAGCCCGCGCGCTCTACTGGCAGGGT
TGGCGGGTCACGTCGATCGCGCGTCATCTGGAAATCAAGCGCGCGACAGTCGAGGCATGG
AAACAGCGCGACGAATGGGACAAGGCGACGCCGATCGAGCGCATCGAGTCGTCGTTAGAA
ACGCGGCTTGCGGTGCTGATTGCCAAGCCGGAAAAAGACGGCCGTGACTTCAAGGAGGTC
GATTTGCTCATGCGGCAGGTTGAGCGCATGGCACGTGTCCATAAGTACGGCGAAACAGGC
AGGGAGAGCGATCTAAACCCAGCGATCAAGGCGCGTAACACGGTGCCGCGCAAGGCCAAG
GCCATACGCAACGAATTCAGCGACGAGCAGCGCGACAGGATCGTCGAGGCCTTCCGGGAT
TCGCTGTTCGATTATCAGAAGGTCTGGTATCGCCAGCGCGATCAGCGCACCCGCAATATC
CTGAAATCGCGGCAGATCGGCGCGACGTGGTATTTCGCCCGTGAGGCGCTGGTTGACGCT
ATCGAGACAGGTCGGAACCAGATTTTTCTATCGGCCAGCAAGGCACAGGCGCATGTGTTC
CGGCAGTACATGTGCCAGTTTGCGCGCGAGGCCGCAGACGTTGACTTGACCGGCGAGCCC
GATCTGTTTGCGAACGAGGCAATGCTTTACTTTTCTCGCACGAACGCCGCACCGCGCAGA
GCT
>Translation of ORF number 1 in reading frame 1 on the direct strand.
MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW
KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG
RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI
LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP
DLFANEAMLYFSRTNAAPRRA
La recherche des séquences homologues par le Blastp de ces trois ORFs donne exactement les mêmes résultats (score , E-Values.....alignements 2 à 2...)( voir ci- dessous),j'ai constaté que le meilleur alignement s'aligne sur la totalité de l'ORF qui s'étend de la base 145 à la base 927:
>ref|YP_004306879.1| gp35 [Burkholderia phage KS14]
gb|ADP02380.1| gp35 [Burkholderia phage KS14]
Length=604
Score = 391 bits (1004), Expect = 5e-107, Method: Compositional matrix adjust.
Identities = 193/256 (75%), Positives = 216/256 (84%), Gaps = 0/256 (0%)
Query 1 MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW 60
MLARAR KL M+ETA+I+P LESNADPRRIARALYWQGWR+TS+A HL++KRATVEAW
Sbjct 1 MLARARHAKLAGMIETADITPALESNADPRRIARALYWQGWRITSVAEHLQLKRATVEAW 60
Query 61 KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG 120
KQRDEWDKA PIERIESSLETRLAVLIAKP K G DFKE+DLL RQVER+ARV KYGETG
Sbjct 61 KQRDEWDKAAPIERIESSLETRLAVLIAKPVKTGSDFKEIDLLGRQVERLARVRKYGETG 120
Query 121 RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI 180
+ESDLNP I+ARN PRK KA RN+FSDEQ R+ EAF D F YQKVWYR QRTRNI
Sbjct 121 KESDLNPNIEARNKAPRKEKAARNDFSDEQIARLHEAFLDCQFGYQKVWYRNGHQRTRNI 180
Query 181 LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP 240
LKSRQIGAT+YFAREAL DA++T RNQIFLSASKAQAHVF+ Y+ QFA EAA+V+LTG+P
Sbjct 181 LKSRQIGATFYFAREALDDALQTARNQIFLSASKAQAHVFKSYIRQFAAEAAEVELTGDP 240
Query 241 DLFANEAMLYFSRTNA 256
+ N A L F TN+
Sbjct 241 IILPNMAELIFLGTNS 256
Et on trouve les mêmes résultats avec les deux autres ORF(plus long et le moyen):
Pour le plus long (34 à 927):
----------------------------
>ref|YP_004306879.1| gp35 [Burkholderia phage KS14]
gb|ADP02380.1| gp35 [Burkholderia phage KS14]
Length=604
Score = 391 bits (1004), Expect = 8e-107, Method: Compositional matrix adjust.
Identities = 193/256 (75%), Positives = 216/256 (84%), Gaps = 0/256 (0%)
Query 38 MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW 97
MLARAR KL M+ETA+I+P LESNADPRRIARALYWQGWR+TS+A HL++KRATVEAW
Sbjct 1 MLARARHAKLAGMIETADITPALESNADPRRIARALYWQGWRITSVAEHLQLKRATVEAW 60
Query 98 KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG 157
KQRDEWDKA PIERIESSLETRLAVLIAKP K G DFKE+DLL RQVER+ARV KYGETG
Sbjct 61 KQRDEWDKAAPIERIESSLETRLAVLIAKPVKTGSDFKEIDLLGRQVERLARVRKYGETG 120
Query 158 RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI 217
+ESDLNP I+ARN PRK KA RN+FSDEQ R+ EAF D F YQKVWYR QRTRNI
Sbjct 121 KESDLNPNIEARNKAPRKEKAARNDFSDEQIARLHEAFLDCQFGYQKVWYRNGHQRTRNI 180
Query 218 LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP 277
LKSRQIGAT+YFAREAL DA++T RNQIFLSASKAQAHVF+ Y+ QFA EAA+V+LTG+P
Sbjct 181 LKSRQIGATFYFAREALDDALQTARNQIFLSASKAQAHVFKSYIRQFAAEAAEVELTGDP 240
Query 278 DLFANEAMLYFSRTNA 293
+ N A L F TN+
Sbjct 241 IILPNMAELIFLGTNS 256
Pour le Moyen (55 à 927):
------------------------
Score = 390 bits (1001), Expect = 1e-106, Method: Compositional matrix adjust.
Identities = 193/256 (75%), Positives = 216/256 (84%), Gaps = 0/256 (0%)
Query 31 MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW 90
MLARAR KL M+ETA+I+P LESNADPRRIARALYWQGWR+TS+A HL++KRATVEAW
Sbjct 1 MLARARHAKLAGMIETADITPALESNADPRRIARALYWQGWRITSVAEHLQLKRATVEAW 60
Query 91 KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG 150
KQRDEWDKA PIERIESSLETRLAVLIAKP K G DFKE+DLL RQVER+ARV KYGETG
Sbjct 61 KQRDEWDKAAPIERIESSLETRLAVLIAKPVKTGSDFKEIDLLGRQVERLARVRKYGETG 120
Query 151 RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI 210
+ESDLNP I+ARN PRK KA RN+FSDEQ R+ EAF D F YQKVWYR QRTRNI
Sbjct 121 KESDLNPNIEARNKAPRKEKAARNDFSDEQIARLHEAFLDCQFGYQKVWYRNGHQRTRNI 180
Query 211 LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP 270
LKSRQIGAT+YFAREAL DA++T RNQIFLSASKAQAHVF+ Y+ QFA EAA+V+LTG+P
Sbjct 181 LKSRQIGATFYFAREALDDALQTARNQIFLSASKAQAHVFKSYIRQFAAEAAEVELTGDP 240
Query 271 DLFANEAMLYFSRTNA 286
+ N A L F TN+
Sbjct 241 IILPNMAELIFLGTNS 256
Ma première question est la suivante :
-------------------------------------
Est ce que je dois prendre toujours l'ORF le plus long (34 à 927) sachant que les résultats d'alignement multiple montre que le codon "ATG" de l'ORF qui s'étend de la base 145 à la base 927 est le codon d'initiation le plus probable?
Quand j'ai effectuée la recherche de domaines par l'InterproScan: j'ai trouvé toujours les mêmes résultats pour les 3 ORFs:
Sequence_1 BE33E7AAA312D5C7 291 HMMPfam PF06056 Terminase_5 58 114 2.1e-24 T 06-Apr-2011 IPR010332 ATPase terminase subunit, putative Molecular Function: ATP binding (GO:0005524), Biological Process: viral capsid assembly (GO:0019069)
Sequence_1 BE33E7AAA312D5C7 291 HMMPfam PF03237 Terminase_6 209 285 4.1e-13 T 06-Apr-2011 IPR004921 Bacteriophage terminase, large subunit
Ces deux domaines non chevauchés un putatif pour terminase 5 (IPR010332: sans sans parent,ni enfant...) et le 2ème (IPR004921: sans parent,mais un enfant "IPR006517") pour terminase 6 :
Ma 2ème question est la suivante:
--------------------------------
Est ce que je dois prendre les deux domaines , c'est à dire y compris le domaine putatif?.
MATI
|