Alicola 25 Mar 2014 16:44 Non evaluated contribution |
Bonjour,
Nous rencontrons actuellement un problème lors de l'étape du BLAST. Nous obtenons un nombre très important de résultats, et il n'y a absolument aucun GAP dans les valeurs de score ou E-value correspondants. Nous avons testé les méthodes alternatives suivantes pour décider d'une E-value seuil : 1)Analyse en profondeur des alignements : taille, degré de conservation, résidus rares ou conservés etc ->Cette méthode ne nous amène à rien, car il y a parfaite continuité pour tous ces paramètres. Il n'y a pas présence particulière de résidus rares ou conservés.
2)Recherche de domaines protéiques chez les homologues potentiels ->Cette méthode ne nous amène à rien puisqu'on trouve des domaines protéiques de la même famille (transporteur) que notre séquence chez les résultats les plus éloignés.
3)Comparaison multiple de séquences ->aucune séquence ne se démarque réellement.
Le fait est qu'aussi loin que les résultats sont retournés (avec une E-value max imposée à 30, plus de 20000 résultats), on retrouve toujours exactement le même type de protéine, c'est-à-dire des transporteurs (en concordance avec le domaine protéique identifié). Les premiers résultats possèdent une E-value excellente (de l'ordre de 10-125) et correspondent presque tous à des transporteurs du fer. Nous avions donc pensé que nous aurions pu nous arrêter là où les résultats cesseraient d'être apparentés à des transporteurs du fer, mais ces derniers reviennent toutefois de temps à autre jusque dans les derniers résultats (E-value à 30).
Nous sommes donc dans une impasse, car il nous semble impossible de définir une E-value seuil correspondant à un GAP dans ce continuum parfait de résultats. Un conseil serait donc le bienvenu !
Merci d'avance.
|
C_Brochier_13 25 Mar 2014 19:08 Game master |
Bonsoir,
Avant tout, essayez d'être un peu plus précis quand vous postez des messages sur le forum.
Par exemple "Nous obtenons un nombre très important de résultats" << cad? combien? quels limité avez-vous utilisée?
Par rapport à vos questions:
0- "il n'y a absolument aucun GAP dans les valeurs de score ou E-value correspondants" << Ne soyez pas surpris. C'est tout à fait normal. Observer un saut de score ou de evalue correspondant à la limite entre séquences homologues et séquences non homologues au niveau du blast est quelque chose d'exceptionnel, et non une règle.
1- "->Cette méthode ne nous amène à rien, car il y a parfaite continuité pour tous ces paramètres. Il n'y a pas présence particulière de résidus rares ou conservés. " << Là n'est pas la question. Est-ce que les séquences qui ont les scores les plus faibles (ou les evalues les plus élevées) quand vous demandez un max target sequence de 1000 ou 5000 (avec une evalue seuil de 10) sont des homologues?
Si la réponse à cette question est oui alors suivez le conseil que j'ai donné en cours, et essayez de voir si sur la base de ces résultats vous arrivez à dégager un groupe d'étude et un groupe extérieur qui vous permette de réaliser l'analyse phylogénétique.
Si c'est possible alors il n'est pas nécessaire d'aller plus loin.
Rappelez vous que la recherche exhaustive d'homologues est demandée pour vous aider à réaliser l'analyse phylogénétique qui vous permettra de répondre à la question "quelle est l'origine taxonomique de mon fragment d'ADN génomique.
1,2 et 3- L'analyse de paramètres tels que les résidus rares conservés, etc. ou la recherche de domaines conservés dans les séquences détectées par BLAST sont là pour vous aider à distinguer des séquences qui seraient homologues à des séquences qui ne le sont pas. Si sur la base de critères plus simples vous pouvez dire que vos séquences sont homologues, alors il n'est pas nécessaire d'entrer dans ces détails.
Bonne continuation
Céline Brochier
|