IMPORTANT NOTICE: electrical maintenance in the Annotathon server room on Monday December 11th 2017 from 18:00 to 22:00 (Paris time, also known as Central European Summer Time GMT+1H) means no annotation will be possible during this downtime!

Forum "Recherche d'homologues: BLAST"

Thread subject: Choix d'une e-value seuil

[ Return to forums ]
Choix d'une e-value seuil
Pilgrim
3 Nov 2015 16:48
Contribution: Pertinent

Dans notre BLAST vs NR, on voit que la fonction disulfide bond isomérase  est représenté tout le long du blast.

De plus, il n'y a pas de saut de e-value, et les proteines possédant une fonction différente sont  rares. 

Devrions nous donc considérer que la e-value seuil est inconnue,  mais forcement  supérieure à 9,1 (cette dernière valeur étant celle de la e-value max du blast ) ce qui revient à accepter des homologues avec des mauvaise e-value.

Ou au contraire déterminer la e-value seuil lorsque on observe un changement de la fonction ( avec une e-value de 2e-06. ) même si on trouve de nombreuses fonctions disulfide bond isomérase  après.

P_Hingamp_15
4 Nov 2015 17:16
Game master

Bonjour,

En effet la liste des définitions des hits BLAST contre NR est très chargée (c'est le moins que l'on puisse dire)... Mis à part les nombreuses définitions vagues
et non-informatives (genre "hypothetical protein" ou "putative secreted protein"), il semblerait que la fonction qui domine les hits avec des E-values crédibles
soit liée à une fonction de type "thiol-disulfide interchange protein" ou "protein-disulfide isomerase" (ceci dit on voit aussi des nombreuses "chitinases" dont le lien
fonctionnel ne saute pas yeux, mais dont les E-values à 1E-40 sont trop faibles pour constituer les premiers non-homologues). Par contre, dans cet inventaire à
la Prévert, les hits BLAST en lien avec le cuivre (ex "copper-sensitivity protein C") qui apparaissent aux environs de 1E-06 pourraient bien représenter les
premiers non-homologues? Ceci reste à vérifier (google, pubmed et SWISSPROT sont vos amis), mais si c'est le bien le cas (les "copper-sensitivity protein C"
n'ont strictement aucun rapport avec les "thiol-disulfide interchange protein"), alors en effet il faut placer le seuil de E-values juste au dessous du premier
"intru" non-homologue, et ceci même s'il reste quelques homologues au delà de ce seuil!

Ce seuil de E-value BLASTp doit séparer les hits BLAST homologues quasi certains des hits BLAST douteux (un mix d'homologues possibles et de non-homologues probables).

Bon courage!

PS: Pour ceux qui attendent encore leur première évaluation, il ne me reste plus que 3 évaluations des annotations initiales de séquences 1 à terminer. Fin prévue d'ici ce soir:)

Pilgrim
4 Nov 2015 18:13
Contribution: Pertinent
D'abord merci, mais le probleme persiste car les "copper-sensitivity protein C" ont une fonction semblable : "Protein-disulfide isomerase".
http://www.ncbi.nlm.nih.gov/protein/822037207?report=genbank&log$=protalign&blast_rank=4982&RID=3MCYWA5E014

Sachant qu'elle a une fonction proche mais que la première "copper-sensitivity protein C" a une e-value douteuse de 0.003, peut-on donc considerer notre seuil à 0.0003 ?

Ou dans ce cas doit-on se rabattre sur le changement de fonction repéré à 2e-6 d'e-value qui est une outer membrane protein dont la fonction est aussi "Protein-disulfide isomerase" ?
http://www.ncbi.nlm.nih.gov/protein/635161915?report=genbank&log$=protalign&blast_rank=3847&RID=3MCYWA5E014
P_Hingamp_15
4 Nov 2015 18:58
Game master

Très bien vu, à la fois les "copper-sensitivity protein C" et la "outer membrane protein" sont donc très probablement des homologues. Il n'y a donc absolument pas lieu de
placer le seuil de E-value par rapport à ces homologues! Il faut repérer le premier "non-homologue". S'il n'y en a pas, alors vous pouvez justifier de placer le seuil de E-value
au dessus de votre plus grand E-value, même si ce dernier est élevé. Dans votre cas, à 9.1, c'est effectivement très élevé, et il faudra un argumentaire en béton armé pour le
défendre... Mais sincèrement, si ce sont toutes des "Protein-disulfide isomerase", alors je ne vois pas de raison pour les considérer comme des non-homologues. Il pourrait fort bien
s'agir de protéines présentes dans le vivant depuis la nuit des temps, et qui ont donc tellement évolué qu'on peine aujourd'hui à reconnaître les similitudes?

Après avoir discuté ces observations très importantes (et délicates j'en convient), je pense qu'il serait toutefois justifié et défendable d'appliquer un seuil de E-value arbitraire
plus bas que celui suggéré par les fonctions des homologues. Par exemple un seuil "opérationnel" compris entre 1E-5 et 1E-10, qui permette de s'assurer que vous n'allez pas
tenter d'aligner dans votre alignement multiple des homologues trop distants. En effet, l'inclusion d'homologues trop distants pourra dégrader la qualité générale de l'alignement
(le nombre de positions correctement alignées identifiées par GBLOCKS) au point de mettre en péril l'inférence phylogénétique qui s'en suit! Si vous avez des camions pleins
d'homologues, on pourra comprendre (dans le cadre de la question posée dans cette analyse d'un ORF métagénomique) que vous vous restreigniez à des homologues
facilement "reconnaissables"! Or des homologues avec des E-values de 9.1, c'est vraiment une pente incroyablement glissante :)

 

Pilgrim
5 Nov 2015 11:50
Non evaluated contribution

Merci pour vos réponses ! On va discuter et justifier tout ça dans nos annotations.