|
choix d'ORF |
matir 6 Apr 2011 18:01 Contribution non évaluée |
Bonjour,
j'ai effectué la recherche des ORF pour ma séquence <928 pb> (voir ci dessous) par SMS(ORF Finder),j'ai trouvé plusieurs ORF:
1)le plus long s'étend de la base 34 à la base 927 (cadre 1):
>ORF number 1 in reading frame 1 on the direct strand extends from base 34 to base 927.
GTCTCCAGCAGGTTTAAAAGGTTGGTTCAGCGTGAGTTCATATCTTGCGTTTGCGCTCGC
TTCCGCTCAACGGTTGGCGCATGTCCCCGATACGGGTACAGACGCCCAGGGATGCTCGCG
CGTGCGCGTCGCGAGAAACTTGGGGCCATGCTAGAAACCGCTGAAATCTCCCCTGTCCTT
GAGTCGAATGCCGATCCACGCCGTATAGCCCGCGCGCTCTACTGGCAGGGTTGGCGGGTC
ACGTCGATCGCGCGTCATCTGGAAATCAAGCGCGCGACAGTCGAGGCATGGAAACAGCGC
GACGAATGGGACAAGGCGACGCCGATCGAGCGCATCGAGTCGTCGTTAGAAACGCGGCTT
GCGGTGCTGATTGCCAAGCCGGAAAAAGACGGCCGTGACTTCAAGGAGGTCGATTTGCTC
ATGCGGCAGGTTGAGCGCATGGCACGTGTCCATAAGTACGGCGAAACAGGCAGGGAGAGC
GATCTAAACCCAGCGATCAAGGCGCGTAACACGGTGCCGCGCAAGGCCAAGGCCATACGC
AACGAATTCAGCGACGAGCAGCGCGACAGGATCGTCGAGGCCTTCCGGGATTCGCTGTTC
GATTATCAGAAGGTCTGGTATCGCCAGCGCGATCAGCGCACCCGCAATATCCTGAAATCG
CGGCAGATCGGCGCGACGTGGTATTTCGCCCGTGAGGCGCTGGTTGACGCTATCGAGACA
GGTCGGAACCAGATTTTTCTATCGGCCAGCAAGGCACAGGCGCATGTGTTCCGGCAGTAC
ATGTGCCAGTTTGCGCGCGAGGCCGCAGACGTTGACTTGACCGGCGAGCCCGATCTGTTT
GCGAACGAGGCAATGCTTTACTTTTCTCGCACGAACGCCGCACCGCGCAGAGCT
>Translation of ORF number 1 in reading frame 1 on the direct strand.
VSSRFKRLVQREFISCVCARFRSTVGACPRYGYRRPGMLARARREKLGAMLETAEISPVL
ESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAWKQRDEWDKATPIERIESSLETRL
AVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETGRESDLNPAIKARNTVPRKAKAIR
NEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNILKSRQIGATWYFAREALVDAIET
GRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEPDLFANEAMLYFSRTNAAPRRA
2)le 2ème s'étend de la base 55 à la base 927 (cadre 1) :
>ORF number 1 in reading frame 1 on the direct strand extends from base 55 to base 927.
TTGGTTCAGCGTGAGTTCATATCTTGCGTTTGCGCTCGCTTCCGCTCAACGGTTGGCGCA
TGTCCCCGATACGGGTACAGACGCCCAGGGATGCTCGCGCGTGCGCGTCGCGAGAAACTT
GGGGCCATGCTAGAAACCGCTGAAATCTCCCCTGTCCTTGAGTCGAATGCCGATCCACGC
CGTATAGCCCGCGCGCTCTACTGGCAGGGTTGGCGGGTCACGTCGATCGCGCGTCATCTG
GAAATCAAGCGCGCGACAGTCGAGGCATGGAAACAGCGCGACGAATGGGACAAGGCGACG
CCGATCGAGCGCATCGAGTCGTCGTTAGAAACGCGGCTTGCGGTGCTGATTGCCAAGCCG
GAAAAAGACGGCCGTGACTTCAAGGAGGTCGATTTGCTCATGCGGCAGGTTGAGCGCATG
GCACGTGTCCATAAGTACGGCGAAACAGGCAGGGAGAGCGATCTAAACCCAGCGATCAAG
GCGCGTAACACGGTGCCGCGCAAGGCCAAGGCCATACGCAACGAATTCAGCGACGAGCAG
CGCGACAGGATCGTCGAGGCCTTCCGGGATTCGCTGTTCGATTATCAGAAGGTCTGGTAT
CGCCAGCGCGATCAGCGCACCCGCAATATCCTGAAATCGCGGCAGATCGGCGCGACGTGG
TATTTCGCCCGTGAGGCGCTGGTTGACGCTATCGAGACAGGTCGGAACCAGATTTTTCTA
TCGGCCAGCAAGGCACAGGCGCATGTGTTCCGGCAGTACATGTGCCAGTTTGCGCGCGAG
GCCGCAGACGTTGACTTGACCGGCGAGCCCGATCTGTTTGCGAACGAGGCAATGCTTTAC
TTTTCTCGCACGAACGCCGCACCGCGCAGAGCT
>Translation of ORF number 1 in reading frame 1 on the direct strand.
LVQREFISCVCARFRSTVGACPRYGYRRPGMLARARREKLGAMLETAEISPVLESNADPR
RIARALYWQGWRVTSIARHLEIKRATVEAWKQRDEWDKATPIERIESSLETRLAVLIAKP
EKDGRDFKEVDLLMRQVERMARVHKYGETGRESDLNPAIKARNTVPRKAKAIRNEFSDEQ
RDRIVEAFRDSLFDYQKVWYRQRDQRTRNILKSRQIGATWYFAREALVDAIETGRNQIFL
SASKAQAHVFRQYMCQFAREAADVDLTGEPDLFANEAMLYFSRTNAAPRRA
3)le 3ème ORF s'étend de la base 145 à la base 927 (cadre 1):mais ici avec ATG comme codon d’initiation:
>ORF number 1 in reading frame 1 on the direct strand extends from base 145 to base 927.
ATGCTCGCGCGTGCGCGTCGCGAGAAACTTGGGGCCATGCTAGAAACCGCTGAAATCTCC
CCTGTCCTTGAGTCGAATGCCGATCCACGCCGTATAGCCCGCGCGCTCTACTGGCAGGGT
TGGCGGGTCACGTCGATCGCGCGTCATCTGGAAATCAAGCGCGCGACAGTCGAGGCATGG
AAACAGCGCGACGAATGGGACAAGGCGACGCCGATCGAGCGCATCGAGTCGTCGTTAGAA
ACGCGGCTTGCGGTGCTGATTGCCAAGCCGGAAAAAGACGGCCGTGACTTCAAGGAGGTC
GATTTGCTCATGCGGCAGGTTGAGCGCATGGCACGTGTCCATAAGTACGGCGAAACAGGC
AGGGAGAGCGATCTAAACCCAGCGATCAAGGCGCGTAACACGGTGCCGCGCAAGGCCAAG
GCCATACGCAACGAATTCAGCGACGAGCAGCGCGACAGGATCGTCGAGGCCTTCCGGGAT
TCGCTGTTCGATTATCAGAAGGTCTGGTATCGCCAGCGCGATCAGCGCACCCGCAATATC
CTGAAATCGCGGCAGATCGGCGCGACGTGGTATTTCGCCCGTGAGGCGCTGGTTGACGCT
ATCGAGACAGGTCGGAACCAGATTTTTCTATCGGCCAGCAAGGCACAGGCGCATGTGTTC
CGGCAGTACATGTGCCAGTTTGCGCGCGAGGCCGCAGACGTTGACTTGACCGGCGAGCCC
GATCTGTTTGCGAACGAGGCAATGCTTTACTTTTCTCGCACGAACGCCGCACCGCGCAGA
GCT
>Translation of ORF number 1 in reading frame 1 on the direct strand.
MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW
KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG
RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI
LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP
DLFANEAMLYFSRTNAAPRRA
La recherche des séquences homologues par le Blastp de ces trois ORFs donne exactement les mêmes résultats (score , E-Values.....alignements 2 à 2...)( voir ci- dessous),j'ai constaté que le meilleur alignement s'aligne sur la totalité de l'ORF qui s'étend de la base 145 à la base 927:
>ref|YP_004306879.1| gp35 [Burkholderia phage KS14]
gb|ADP02380.1| gp35 [Burkholderia phage KS14]
Length=604
Score = 391 bits (1004), Expect = 5e-107, Method: Compositional matrix adjust.
Identities = 193/256 (75%), Positives = 216/256 (84%), Gaps = 0/256 (0%)
Query 1 MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW 60
MLARAR KL M+ETA+I+P LESNADPRRIARALYWQGWR+TS+A HL++KRATVEAW
Sbjct 1 MLARARHAKLAGMIETADITPALESNADPRRIARALYWQGWRITSVAEHLQLKRATVEAW 60
Query 61 KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG 120
KQRDEWDKA PIERIESSLETRLAVLIAKP K G DFKE+DLL RQVER+ARV KYGETG
Sbjct 61 KQRDEWDKAAPIERIESSLETRLAVLIAKPVKTGSDFKEIDLLGRQVERLARVRKYGETG 120
Query 121 RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI 180
+ESDLNP I+ARN PRK KA RN+FSDEQ R+ EAF D F YQKVWYR QRTRNI
Sbjct 121 KESDLNPNIEARNKAPRKEKAARNDFSDEQIARLHEAFLDCQFGYQKVWYRNGHQRTRNI 180
Query 181 LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP 240
LKSRQIGAT+YFAREAL DA++T RNQIFLSASKAQAHVF+ Y+ QFA EAA+V+LTG+P
Sbjct 181 LKSRQIGATFYFAREALDDALQTARNQIFLSASKAQAHVFKSYIRQFAAEAAEVELTGDP 240
Query 241 DLFANEAMLYFSRTNA 256
+ N A L F TN+
Sbjct 241 IILPNMAELIFLGTNS 256
Et on trouve les mêmes résultats avec les deux autres ORF(plus long et le moyen):
Pour le plus long (34 à 927):
----------------------------
>ref|YP_004306879.1| gp35 [Burkholderia phage KS14]
gb|ADP02380.1| gp35 [Burkholderia phage KS14]
Length=604
Score = 391 bits (1004), Expect = 8e-107, Method: Compositional matrix adjust.
Identities = 193/256 (75%), Positives = 216/256 (84%), Gaps = 0/256 (0%)
Query 38 MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW 97
MLARAR KL M+ETA+I+P LESNADPRRIARALYWQGWR+TS+A HL++KRATVEAW
Sbjct 1 MLARARHAKLAGMIETADITPALESNADPRRIARALYWQGWRITSVAEHLQLKRATVEAW 60
Query 98 KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG 157
KQRDEWDKA PIERIESSLETRLAVLIAKP K G DFKE+DLL RQVER+ARV KYGETG
Sbjct 61 KQRDEWDKAAPIERIESSLETRLAVLIAKPVKTGSDFKEIDLLGRQVERLARVRKYGETG 120
Query 158 RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI 217
+ESDLNP I+ARN PRK KA RN+FSDEQ R+ EAF D F YQKVWYR QRTRNI
Sbjct 121 KESDLNPNIEARNKAPRKEKAARNDFSDEQIARLHEAFLDCQFGYQKVWYRNGHQRTRNI 180
Query 218 LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP 277
LKSRQIGAT+YFAREAL DA++T RNQIFLSASKAQAHVF+ Y+ QFA EAA+V+LTG+P
Sbjct 181 LKSRQIGATFYFAREALDDALQTARNQIFLSASKAQAHVFKSYIRQFAAEAAEVELTGDP 240
Query 278 DLFANEAMLYFSRTNA 293
+ N A L F TN+
Sbjct 241 IILPNMAELIFLGTNS 256
Pour le Moyen (55 à 927):
------------------------
Score = 390 bits (1001), Expect = 1e-106, Method: Compositional matrix adjust.
Identities = 193/256 (75%), Positives = 216/256 (84%), Gaps = 0/256 (0%)
Query 31 MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW 90
MLARAR KL M+ETA+I+P LESNADPRRIARALYWQGWR+TS+A HL++KRATVEAW
Sbjct 1 MLARARHAKLAGMIETADITPALESNADPRRIARALYWQGWRITSVAEHLQLKRATVEAW 60
Query 91 KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG 150
KQRDEWDKA PIERIESSLETRLAVLIAKP K G DFKE+DLL RQVER+ARV KYGETG
Sbjct 61 KQRDEWDKAAPIERIESSLETRLAVLIAKPVKTGSDFKEIDLLGRQVERLARVRKYGETG 120
Query 151 RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI 210
+ESDLNP I+ARN PRK KA RN+FSDEQ R+ EAF D F YQKVWYR QRTRNI
Sbjct 121 KESDLNPNIEARNKAPRKEKAARNDFSDEQIARLHEAFLDCQFGYQKVWYRNGHQRTRNI 180
Query 211 LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP 270
LKSRQIGAT+YFAREAL DA++T RNQIFLSASKAQAHVF+ Y+ QFA EAA+V+LTG+P
Sbjct 181 LKSRQIGATFYFAREALDDALQTARNQIFLSASKAQAHVFKSYIRQFAAEAAEVELTGDP 240
Query 271 DLFANEAMLYFSRTNA 286
+ N A L F TN+
Sbjct 241 IILPNMAELIFLGTNS 256
Ma première question est la suivante :
-------------------------------------
Est ce que je dois prendre toujours l'ORF le plus long (34 à 927) sachant que les résultats d'alignement multiple montre que le codon "ATG" de l'ORF qui s'étend de la base 145 à la base 927 est le codon d'initiation le plus probable?
Quand j'ai effectuée la recherche de domaines par l'InterproScan: j'ai trouvé toujours les mêmes résultats pour les 3 ORFs:
Sequence_1 BE33E7AAA312D5C7 291 HMMPfam PF06056 Terminase_5 58 114 2.1e-24 T 06-Apr-2011 IPR010332 ATPase terminase subunit, putative Molecular Function: ATP binding (GO:0005524), Biological Process: viral capsid assembly (GO:0019069)
Sequence_1 BE33E7AAA312D5C7 291 HMMPfam PF03237 Terminase_6 209 285 4.1e-13 T 06-Apr-2011 IPR004921 Bacteriophage terminase, large subunit
Ces deux domaines non chevauchés un putatif pour terminase 5 (IPR010332: sans sans parent,ni enfant...) et le 2ème (IPR004921: sans parent,mais un enfant "IPR006517") pour terminase 6 :
Ma 2ème question est la suivante:
--------------------------------
Est ce que je dois prendre les deux domaines , c'est à dire y compris le domaine putatif?.
|
C_Brochier_11 9 Apr 2011 9:08 Maître de jeu |
Bonjour,
Ici vous faites une confusion grave. Un ORF = Un cadre ouvert de lecture dans une région génomique dans un cadre de lecture. Les trois séquences que vous avez copier/coller sont une seule et même ORF. La seule différence entre les trois est que vous changez la position du start. La procédure est la suivante: Une fois que vous avez choisi votre ORF (le plus grand parmi tous ceux qui sont détectés dans les différents cadres de lecture et les différentes régions génomiques), vous devez préciser la position de son start.
Pour votre deuxième question, je ne comprends pas où est le problème.
Céline Brochier |
matir 9 Apr 2011 10:32 Contribution non évaluée |
Bonjour,
je savait qu'il s'agit de même ORF(même cadre de lecture 1, sens direct !),ma question était :si on garde toujours la séquence la plus longue de cet ORF dans la rubrique de l'annotathon (début fin,traduction....) car quand j'ai fait l'alignement multiple (plusieurs alignements avec les # longueurs des cet ORF ), je trouve à chaque fois que le même codon start "AGT" en position "145-148 Nt" ce qui veux dire que notre ORF est complet en 5'.
Maintenant après votre réponse, j'ai compris que je dois toujours garder l'ORF avec toute sa séquence dans la rubrique (début,fin,traduction de l'annotathon), même si je trouve par la suite des analyses qu'il est complet en 5'!.
Merci de votre réponse.
MATI
|
E_Meglecz_11 11 Apr 2011 9:02 Maître de jeu |
Bonjour,
Vous obtenez 3 fois le même ORF c'est seulement le début qui change. Avec le paramètre 'any codon' vous obtenez un ORF qui commence (i) soit par le codon juste après le codon STOP qui précède votre ORF, (ii) soit au premier codon de votre séquence. Ce paramètre place le début putatif de l'ORF le plus en amont, mais ce n'est pas nécessairement le position que vous devez garder. Dans le premier cas (i), il y a un codon STOP en amont de votre ORF, donc sauf erreur de séquençage le véritable codon d'initiation se trouve dans votre séquence et vous devez le localiser par une recherche plus précise. Dans le deuxième cas (ii), vous n'avez pas d'indication que le véritable codon d'initiation est contenu dans votre séquence, donc il ne faut pas le cherchez.
Dans tous les cas, si par les analyses suivant vous remarquez que le début de l'ORF proposé n'est pas correcte, vous devez expliquer dans vos analyse mais ce n'est pas nécessaire de changer la position de début d'ORF rempli dans le rubrique analyse d'ORF.
Emese Meglecz |
matir 16 Apr 2011 11:06 Contribution non évaluée |
Bonjour,
Merci pour l'éclaircissement.
MATI. |
|