Forum "Recherche d'homologues: BLAST"

Thread subject: E value seuil et homologue distant

[ Return to forums ]
E value seuil et homologue distant
Laury
8 Nov 2016 15:34
Non evaluated contribution

Est ce qu'on peut appeler des protéines multifonctionnelles partageant un domaine conservés avec l'ORF étudié, des homologues distants ? Distant parce qu'il partage une même fonction, mais que à cause des nombreuses fonctions de l'un , l'alignement n'est pas terrible ? Cette question concerne mon BLASTp contre SP, où les recouvrements de mon ORF avec les hits ne sont pas bons, ni les e-value et on ne respecte pas les 30 % d'homologie pour 100 acides aminés. J'ai placé mon e value seuil à 0.63 pour avoir toutes les CCAse multifonctionnelles, sachant qu'elles ont un domaine en commun avec mon ORF, c'était un signe d'homologie pour moi.

P_Hingamp_BC16
8 Nov 2016 18:51
Game master

La question est super complexe, pas le genre où l'on peut répondre simplement par une ligne dans un forum :) Il n'est pas complètement impossible que l'ORF soit homologue avec les CCA de SP, y compris avec des E-value et de % d'identité hyper limite (voire carrément au delà du raisonnable), mais en effet vu qu'elles restent des CCA c'est fort possible même si on ne peut plus le "voir" dans les alignements 2 à 2. Une façon de peut-être s'en convaincre, serait de tenter un alignement multiple avec ces CCA (des plus proches au plus distantes): si les rares positions conservées sont bien "alignées" au sein de l'alignement multiple, alors ça pourra être un argument concret en soutien de cette hypothèse (=15% d'identité sur 100aa alignés entre deux protéines c'est très très (trop?) faible, mais 15% bien conservés sur un alignement multiple de 100aa ça peut au contraire devenir assez convainquant!).

En tout cas il arrive effectivement que des alignements BLAST jusqu'à des E-values effrayantes (par ex. 0,01) correspondent à des homologies crédibles (homologues toutefois très très distants), mais c'est la "twilight zone" où l'on confond très facilement les chiens et les loups! Donc prudence extrême, affutez bien vos arguments;)

PS: dans votre analyse BLAST est indiqué "Par ailleurs, BLAST a repertorié parmi les hits plusieurs domaines protéiques conservés listés dans la Table 5 ". S'agit-il du petit diagramme avec des domaines "CDD" présenté avant le listing des hits BLAST? Si oui, alors c'est pertinent en effet, mais alors attention de les présenter comme les résultats de la recherche "CDD" (=Conserved Domains Database, l'équivalent par le NCBI d'INTERPRO, et oui INTERPRO est la fédération de presque toutes les banques de domaines conservés, car CDD fait toujours bande à part...)

PPS: on ne parle pas de % d'homologie, mais de % de similitude (voire d'identité)! Les séquences sont homologues ou ne le sont pas...