Bonjour,
la e-value seuil est la limite entre séquences homologues très probables et non homologues.
Dans un cas idéal, la recherche blast permettrait de séparer complètement les 2 distributions (homologues et non homologues). Dans ce cas, les scores les plus élevés (et les e-values les plus faibles) correspondent aux séq homologues, puis il y a un saut de e-value (et dans les scores de blast), et les scores les plus faibles (et les e-values les plus élevées) correspondent aux séquences non homologues.
==> Avez-vous un saut de e-value ? entre e-80 et e-30 - e-20 par exemple ?
==> Mais ce saut de e-value DOIT être accompagné d'un chagement de fonction entre les 2 distributions.
==> Attention à des sauts éventuels à des e-values très faibles (entre e-150 et e-120 par exemple) : dans un tel cas les e-values sont extrèmement faibles, significatives et donc homologues. On peut rencontrer ceci :
- en cas de sous-familles au sein d'une famille de protéines homologues (par exemple : tRNA synthétases impliquées dans la fixation d'aa différents);
- ou lorsque peu de séquences très proches de votre protéine d'intérêt existent dans les BDD, et que la majorité des séq sont plus éloignées d'un point de vue évolutif.
Le saut de e-value, dans la BDD nr, est généralement rare.
Vous avez plus souvent, une augmentation graduelle, linéaire, des e-values.
Dans ce cas, quelle est la dernière e-value ? que signifie-t'elle ? Est-ce une séq homologue ou non homologue ? Dans ce cas avez-vous accès à la limite homologue et non homologue ?
Si vous n'y avez pas accès (souvent le cas avec le blast vs NR), il faudrait donc augmenter le nb de résultats à observer, le max taget seq, ce qui est désormais impossible.
Dans ce cas, la e-value seuil est donc > à e-value max, et vous la fixer, par défaut, à 1.e-10.
Pour le blast vs SP, étant donné que vous avez moins de résultats, vous pouvez avoir accès à ce seuil de manière plus précise.
ATTENTION à faire le blast vs SP avec la "e-value seuil" par défaut, dans les paramètres du programme blast, c'est-à-dire 0,05.
Puis même principe : evalue max ? signification ? homologue ou non homologue ? saut de e-value accompagné d'une rupture de fonction ?
En absence de saut de e-value, on cherche une rupture de fonction.
S'il n'y en a pas, si tous les résultats ont la même fonction, on regarde aussi les % d'identité et de couverture des alignements.
Seq homologues :
- >30% identité (attention, ce n'est pas un seuil strict, on peut avoir de l'homologie avec <30%)
- >70% couverture.
Bon travail,
BW