Forum "Recherche d'ORF"

Thread subject: choix d'ORF

[ Return to forums ]
choix d'ORF
matir
6 Apr 2011 18:01
Non evaluated contribution
Bonjour, j'ai effectué la recherche des ORF pour ma séquence <928 pb> (voir ci dessous) par SMS(ORF Finder),j'ai trouvé plusieurs ORF: 1)le plus long s'étend de la base 34 à la base 927 (cadre 1): >ORF number 1 in reading frame 1 on the direct strand extends from base 34 to base 927. GTCTCCAGCAGGTTTAAAAGGTTGGTTCAGCGTGAGTTCATATCTTGCGTTTGCGCTCGC TTCCGCTCAACGGTTGGCGCATGTCCCCGATACGGGTACAGACGCCCAGGGATGCTCGCG CGTGCGCGTCGCGAGAAACTTGGGGCCATGCTAGAAACCGCTGAAATCTCCCCTGTCCTT GAGTCGAATGCCGATCCACGCCGTATAGCCCGCGCGCTCTACTGGCAGGGTTGGCGGGTC ACGTCGATCGCGCGTCATCTGGAAATCAAGCGCGCGACAGTCGAGGCATGGAAACAGCGC GACGAATGGGACAAGGCGACGCCGATCGAGCGCATCGAGTCGTCGTTAGAAACGCGGCTT GCGGTGCTGATTGCCAAGCCGGAAAAAGACGGCCGTGACTTCAAGGAGGTCGATTTGCTC ATGCGGCAGGTTGAGCGCATGGCACGTGTCCATAAGTACGGCGAAACAGGCAGGGAGAGC GATCTAAACCCAGCGATCAAGGCGCGTAACACGGTGCCGCGCAAGGCCAAGGCCATACGC AACGAATTCAGCGACGAGCAGCGCGACAGGATCGTCGAGGCCTTCCGGGATTCGCTGTTC GATTATCAGAAGGTCTGGTATCGCCAGCGCGATCAGCGCACCCGCAATATCCTGAAATCG CGGCAGATCGGCGCGACGTGGTATTTCGCCCGTGAGGCGCTGGTTGACGCTATCGAGACA GGTCGGAACCAGATTTTTCTATCGGCCAGCAAGGCACAGGCGCATGTGTTCCGGCAGTAC ATGTGCCAGTTTGCGCGCGAGGCCGCAGACGTTGACTTGACCGGCGAGCCCGATCTGTTT GCGAACGAGGCAATGCTTTACTTTTCTCGCACGAACGCCGCACCGCGCAGAGCT >Translation of ORF number 1 in reading frame 1 on the direct strand. VSSRFKRLVQREFISCVCARFRSTVGACPRYGYRRPGMLARARREKLGAMLETAEISPVL ESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAWKQRDEWDKATPIERIESSLETRL AVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETGRESDLNPAIKARNTVPRKAKAIR NEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNILKSRQIGATWYFAREALVDAIET GRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEPDLFANEAMLYFSRTNAAPRRA 2)le 2ème s'étend de la base 55 à la base 927 (cadre 1) : >ORF number 1 in reading frame 1 on the direct strand extends from base 55 to base 927. TTGGTTCAGCGTGAGTTCATATCTTGCGTTTGCGCTCGCTTCCGCTCAACGGTTGGCGCA TGTCCCCGATACGGGTACAGACGCCCAGGGATGCTCGCGCGTGCGCGTCGCGAGAAACTT GGGGCCATGCTAGAAACCGCTGAAATCTCCCCTGTCCTTGAGTCGAATGCCGATCCACGC CGTATAGCCCGCGCGCTCTACTGGCAGGGTTGGCGGGTCACGTCGATCGCGCGTCATCTG GAAATCAAGCGCGCGACAGTCGAGGCATGGAAACAGCGCGACGAATGGGACAAGGCGACG CCGATCGAGCGCATCGAGTCGTCGTTAGAAACGCGGCTTGCGGTGCTGATTGCCAAGCCG GAAAAAGACGGCCGTGACTTCAAGGAGGTCGATTTGCTCATGCGGCAGGTTGAGCGCATG GCACGTGTCCATAAGTACGGCGAAACAGGCAGGGAGAGCGATCTAAACCCAGCGATCAAG GCGCGTAACACGGTGCCGCGCAAGGCCAAGGCCATACGCAACGAATTCAGCGACGAGCAG CGCGACAGGATCGTCGAGGCCTTCCGGGATTCGCTGTTCGATTATCAGAAGGTCTGGTAT CGCCAGCGCGATCAGCGCACCCGCAATATCCTGAAATCGCGGCAGATCGGCGCGACGTGG TATTTCGCCCGTGAGGCGCTGGTTGACGCTATCGAGACAGGTCGGAACCAGATTTTTCTA TCGGCCAGCAAGGCACAGGCGCATGTGTTCCGGCAGTACATGTGCCAGTTTGCGCGCGAG GCCGCAGACGTTGACTTGACCGGCGAGCCCGATCTGTTTGCGAACGAGGCAATGCTTTAC TTTTCTCGCACGAACGCCGCACCGCGCAGAGCT >Translation of ORF number 1 in reading frame 1 on the direct strand. LVQREFISCVCARFRSTVGACPRYGYRRPGMLARARREKLGAMLETAEISPVLESNADPR RIARALYWQGWRVTSIARHLEIKRATVEAWKQRDEWDKATPIERIESSLETRLAVLIAKP EKDGRDFKEVDLLMRQVERMARVHKYGETGRESDLNPAIKARNTVPRKAKAIRNEFSDEQ RDRIVEAFRDSLFDYQKVWYRQRDQRTRNILKSRQIGATWYFAREALVDAIETGRNQIFL SASKAQAHVFRQYMCQFAREAADVDLTGEPDLFANEAMLYFSRTNAAPRRA 3)le 3ème ORF s'étend de la base 145 à la base 927 (cadre 1):mais ici avec ATG comme codon d’initiation: >ORF number 1 in reading frame 1 on the direct strand extends from base 145 to base 927. ATGCTCGCGCGTGCGCGTCGCGAGAAACTTGGGGCCATGCTAGAAACCGCTGAAATCTCC CCTGTCCTTGAGTCGAATGCCGATCCACGCCGTATAGCCCGCGCGCTCTACTGGCAGGGT TGGCGGGTCACGTCGATCGCGCGTCATCTGGAAATCAAGCGCGCGACAGTCGAGGCATGG AAACAGCGCGACGAATGGGACAAGGCGACGCCGATCGAGCGCATCGAGTCGTCGTTAGAA ACGCGGCTTGCGGTGCTGATTGCCAAGCCGGAAAAAGACGGCCGTGACTTCAAGGAGGTC GATTTGCTCATGCGGCAGGTTGAGCGCATGGCACGTGTCCATAAGTACGGCGAAACAGGC AGGGAGAGCGATCTAAACCCAGCGATCAAGGCGCGTAACACGGTGCCGCGCAAGGCCAAG GCCATACGCAACGAATTCAGCGACGAGCAGCGCGACAGGATCGTCGAGGCCTTCCGGGAT TCGCTGTTCGATTATCAGAAGGTCTGGTATCGCCAGCGCGATCAGCGCACCCGCAATATC CTGAAATCGCGGCAGATCGGCGCGACGTGGTATTTCGCCCGTGAGGCGCTGGTTGACGCT ATCGAGACAGGTCGGAACCAGATTTTTCTATCGGCCAGCAAGGCACAGGCGCATGTGTTC CGGCAGTACATGTGCCAGTTTGCGCGCGAGGCCGCAGACGTTGACTTGACCGGCGAGCCC GATCTGTTTGCGAACGAGGCAATGCTTTACTTTTCTCGCACGAACGCCGCACCGCGCAGA GCT >Translation of ORF number 1 in reading frame 1 on the direct strand. MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP DLFANEAMLYFSRTNAAPRRA La recherche des séquences homologues par le Blastp de ces trois ORFs donne exactement les mêmes résultats (score , E-Values.....alignements 2 à 2...)( voir ci- dessous),j'ai constaté que le meilleur alignement s'aligne sur la totalité de l'ORF qui s'étend de la base 145 à la base 927: >ref|YP_004306879.1| gp35 [Burkholderia phage KS14] gb|ADP02380.1| gp35 [Burkholderia phage KS14] Length=604 Score = 391 bits (1004), Expect = 5e-107, Method: Compositional matrix adjust. Identities = 193/256 (75%), Positives = 216/256 (84%), Gaps = 0/256 (0%) Query 1 MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW 60 MLARAR KL M+ETA+I+P LESNADPRRIARALYWQGWR+TS+A HL++KRATVEAW Sbjct 1 MLARARHAKLAGMIETADITPALESNADPRRIARALYWQGWRITSVAEHLQLKRATVEAW 60 Query 61 KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG 120 KQRDEWDKA PIERIESSLETRLAVLIAKP K G DFKE+DLL RQVER+ARV KYGETG Sbjct 61 KQRDEWDKAAPIERIESSLETRLAVLIAKPVKTGSDFKEIDLLGRQVERLARVRKYGETG 120 Query 121 RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI 180 +ESDLNP I+ARN PRK KA RN+FSDEQ R+ EAF D F YQKVWYR QRTRNI Sbjct 121 KESDLNPNIEARNKAPRKEKAARNDFSDEQIARLHEAFLDCQFGYQKVWYRNGHQRTRNI 180 Query 181 LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP 240 LKSRQIGAT+YFAREAL DA++T RNQIFLSASKAQAHVF+ Y+ QFA EAA+V+LTG+P Sbjct 181 LKSRQIGATFYFAREALDDALQTARNQIFLSASKAQAHVFKSYIRQFAAEAAEVELTGDP 240 Query 241 DLFANEAMLYFSRTNA 256 + N A L F TN+ Sbjct 241 IILPNMAELIFLGTNS 256 Et on trouve les mêmes résultats avec les deux autres ORF(plus long et le moyen): Pour le plus long (34 à 927): ---------------------------- >ref|YP_004306879.1| gp35 [Burkholderia phage KS14] gb|ADP02380.1| gp35 [Burkholderia phage KS14] Length=604 Score = 391 bits (1004), Expect = 8e-107, Method: Compositional matrix adjust. Identities = 193/256 (75%), Positives = 216/256 (84%), Gaps = 0/256 (0%) Query 38 MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW 97 MLARAR KL M+ETA+I+P LESNADPRRIARALYWQGWR+TS+A HL++KRATVEAW Sbjct 1 MLARARHAKLAGMIETADITPALESNADPRRIARALYWQGWRITSVAEHLQLKRATVEAW 60 Query 98 KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG 157 KQRDEWDKA PIERIESSLETRLAVLIAKP K G DFKE+DLL RQVER+ARV KYGETG Sbjct 61 KQRDEWDKAAPIERIESSLETRLAVLIAKPVKTGSDFKEIDLLGRQVERLARVRKYGETG 120 Query 158 RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI 217 +ESDLNP I+ARN PRK KA RN+FSDEQ R+ EAF D F YQKVWYR QRTRNI Sbjct 121 KESDLNPNIEARNKAPRKEKAARNDFSDEQIARLHEAFLDCQFGYQKVWYRNGHQRTRNI 180 Query 218 LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP 277 LKSRQIGAT+YFAREAL DA++T RNQIFLSASKAQAHVF+ Y+ QFA EAA+V+LTG+P Sbjct 181 LKSRQIGATFYFAREALDDALQTARNQIFLSASKAQAHVFKSYIRQFAAEAAEVELTGDP 240 Query 278 DLFANEAMLYFSRTNA 293 + N A L F TN+ Sbjct 241 IILPNMAELIFLGTNS 256 Pour le Moyen (55 à 927): ------------------------ Score = 390 bits (1001), Expect = 1e-106, Method: Compositional matrix adjust. Identities = 193/256 (75%), Positives = 216/256 (84%), Gaps = 0/256 (0%) Query 31 MLARARREKLGAMLETAEISPVLESNADPRRIARALYWQGWRVTSIARHLEIKRATVEAW 90 MLARAR KL M+ETA+I+P LESNADPRRIARALYWQGWR+TS+A HL++KRATVEAW Sbjct 1 MLARARHAKLAGMIETADITPALESNADPRRIARALYWQGWRITSVAEHLQLKRATVEAW 60 Query 91 KQRDEWDKATPIERIESSLETRLAVLIAKPEKDGRDFKEVDLLMRQVERMARVHKYGETG 150 KQRDEWDKA PIERIESSLETRLAVLIAKP K G DFKE+DLL RQVER+ARV KYGETG Sbjct 61 KQRDEWDKAAPIERIESSLETRLAVLIAKPVKTGSDFKEIDLLGRQVERLARVRKYGETG 120 Query 151 RESDLNPAIKARNTVPRKAKAIRNEFSDEQRDRIVEAFRDSLFDYQKVWYRQRDQRTRNI 210 +ESDLNP I+ARN PRK KA RN+FSDEQ R+ EAF D F YQKVWYR QRTRNI Sbjct 121 KESDLNPNIEARNKAPRKEKAARNDFSDEQIARLHEAFLDCQFGYQKVWYRNGHQRTRNI 180 Query 211 LKSRQIGATWYFAREALVDAIETGRNQIFLSASKAQAHVFRQYMCQFAREAADVDLTGEP 270 LKSRQIGAT+YFAREAL DA++T RNQIFLSASKAQAHVF+ Y+ QFA EAA+V+LTG+P Sbjct 181 LKSRQIGATFYFAREALDDALQTARNQIFLSASKAQAHVFKSYIRQFAAEAAEVELTGDP 240 Query 271 DLFANEAMLYFSRTNA 286 + N A L F TN+ Sbjct 241 IILPNMAELIFLGTNS 256 Ma première question est la suivante : ------------------------------------- Est ce que je dois prendre toujours l'ORF le plus long (34 à 927) sachant que les résultats d'alignement multiple montre que le codon "ATG" de l'ORF qui s'étend de la base 145 à la base 927 est le codon d'initiation le plus probable? Quand j'ai effectuée la recherche de domaines par l'InterproScan: j'ai trouvé toujours les mêmes résultats pour les 3 ORFs: Sequence_1 BE33E7AAA312D5C7 291 HMMPfam PF06056 Terminase_5 58 114 2.1e-24 T 06-Apr-2011 IPR010332 ATPase terminase subunit, putative Molecular Function: ATP binding (GO:0005524), Biological Process: viral capsid assembly (GO:0019069) Sequence_1 BE33E7AAA312D5C7 291 HMMPfam PF03237 Terminase_6 209 285 4.1e-13 T 06-Apr-2011 IPR004921 Bacteriophage terminase, large subunit Ces deux domaines non chevauchés un putatif pour terminase 5 (IPR010332: sans sans parent,ni enfant...) et le 2ème (IPR004921: sans parent,mais un enfant "IPR006517") pour terminase 6 : Ma 2ème question est la suivante: -------------------------------- Est ce que je dois prendre les deux domaines , c'est à dire y compris le domaine putatif?.
C_Brochier_11
9 Apr 2011 9:08
Game master
Bonjour,

Ici vous faites une confusion grave. Un ORF = Un cadre ouvert de lecture dans une région génomique dans un cadre de lecture. Les trois séquences que vous avez copier/coller sont une seule et même ORF. La seule différence entre les trois est que vous changez la position du start.
La procédure est la suivante:
Une fois que vous avez choisi votre ORF (le plus grand parmi tous ceux qui sont détectés dans les différents cadres de lecture et les différentes régions génomiques), vous devez préciser la position de son start.

Pour votre deuxième question, je ne comprends pas où est le problème.

Céline Brochier
matir
9 Apr 2011 10:32
Non evaluated contribution
Bonjour,

je savait qu'il s'agit de même ORF(même cadre de lecture 1, sens direct !),ma question était :si on garde toujours la séquence la plus longue de cet ORF dans la rubrique de l'annotathon (début fin,traduction....) car quand j'ai fait l'alignement multiple (plusieurs alignements avec les # longueurs des cet ORF ), je trouve à chaque fois que le même codon  start "AGT" en position "145-148 Nt" ce qui veux dire que notre ORF est complet en 5'.

Maintenant après votre réponse, j'ai compris que je dois toujours garder l'ORF avec toute sa séquence dans la rubrique (début,fin,traduction de l'annotathon), même si je trouve par la suite des analyses qu'il est complet en 5'!.

Merci de votre réponse.

MATI  
  

E_Meglecz_11
11 Apr 2011 9:02
Game master
Bonjour,

Vous obtenez 3 fois le même ORF c'est seulement le début qui change. Avec le paramètre 'any codon' vous obtenez un ORF qui commence (i) soit par le codon juste après le codon STOP qui précède votre ORF, (ii) soit au premier codon de votre séquence. Ce paramètre place le début putatif de l'ORF le plus en amont, mais ce n'est pas nécessairement le position que vous devez garder. Dans le premier cas (i), il y a un codon STOP en amont de votre ORF, donc sauf erreur de séquençage le véritable codon d'initiation se trouve dans votre séquence  et vous devez le localiser par une recherche plus précise. Dans le deuxième cas (ii), vous n'avez pas d'indication que le véritable codon d'initiation est contenu dans votre séquence, donc il ne faut pas le cherchez.

Dans tous les cas, si par les analyses suivant vous remarquez que le début de l'ORF proposé n'est pas correcte, vous devez expliquer dans vos analyse mais ce n'est pas nécessaire de changer la position de début d'ORF rempli dans le rubrique analyse d'ORF.

Emese Meglecz
matir
16 Apr 2011 11:06
Non evaluated contribution
Bonjour,

Merci pour l'éclaircissement.

MATI.