Forum "Recherche d'homologues: BLAST"

Thread subject: Détermination du seuil.

[ Return to forums ]
Détermination du seuil.
Arvel
5 Nov 2014 19:21
Non evaluated contribution
Bonjour,
la séquence analysé semble provenir d'un virus. Dans notre Blast, on ne remarque pas de saut de e-value, ni de changement de fonction de la fonction de la protéine, et cela pour toute la liste du blast. Ce pendant vers 1e-14 on remarque que les séquence en dessous de ce seuil sont virale et au dessus bactérienne, doit-on considérer les séquences bactérienne comme non homologue? Même si leurs fonction est homologue?
et ainsi placer notre seuil a 1e-14.
Merci
P_Hingamp14
7 Nov 2014 14:50
Game master
Un cas bien intéressant... En effet, il fait peu de doute que votre ORF est virale. Si les fonctions semblent identiques entre virus et bactéries, il n'y a pas de raison de placer le seuil entre virus et bactéries, car les séquences similaires bactériennes sont certainement homologues, juste plus distantes? Par contre je ne comprends pas d'où vient le chiffre de  1e-14 comme limite entre virus et bactéries, car le rapport taxonomique indique que le meilleur hit "bactérien" présente un E-value de  5e-122? Je mets bactérien entre guillemets car il y a fort à suspecter que ce hit "bactérien" soit en réalité un gène de prophage intégré au génome de l'hôte bactérien (donc un beau HGT bien énorme). De fait, les E-values entre homologues viraux semblent très bas (dans les 1e-100), alors le gros des hits bactériens présente des E-values très élevés (1e-10 et plus), ce qui fait que ces hits "bactérien" à 5e-122,4e-86,2e-90 sont vraiment des sacrés suspects de HGT récents voire de prophages intégrés. Aussi étrange votre tax report, il semble tronqué car on y trouve bien peu de bactéries alors que les résultats du BLAST correspondants en sont truffés?...

. .Synechococcus phage metaG-MbCM1............... 156  1e-44  2 hits  Viruses::Caudovirales:                   UvsX RecA-like protein [Synechococcus pha...  
. .Synechococcus phage S-RIM8 A.HR1.............. 319  3e-105 2 hits  Viruses::                                UvsX [Synechococcus phage S-RIM8 A.HR1]        
. .Cyanophage MED4-213........................... 311  7e-102 2 hits  Viruses::                                UvsX [Prochlorococcus phage MED4-213]          
. Proteobacteria bacterium JGI 0000113-P07....... 362  5e-122 4 hits  Bacteria:Proteobacteria:                 recombinase RecA [Proteobacteria bacteriu...  
. alpha proteobacterium SCGC AAA015-O19.......... 268  4e-86  1 hit   Bacteria:Proteobacteria:Alphaproteobacteria: recombinase RecA [alpha proteobacterium S...  
. Prochlorococcus sp. scB243_495I8............... 281  2e-90  1 hit   Bacteria:Cyanobacteria:Prochlorales:     recombinase RecA [Prochlorococcus sp. scB...  
. actinobacterium SCGC AAA041-L13................ 71.6 3e-11  1 hit   Bacteria:Actinobacteria:Actinobacteria:  hypothetical protein [actinobacterium SCG...
. Prevotella..................................... 70.1 6e-11  1 hit   Bacteria:Bacteroidetes:Bacteroidia:Bacteroidales: MULTISPECIES: recombinase RecA [Prevotella]  
. Prevotella buccae.............................. 70.1 7e-11  1 hit   Bacteria:Bacteroidetes:Bacteroidia:Bacteroidales: recombinase RecA [Prevotella buccae]

Arvel
7 Nov 2014 15:26
Non evaluated contribution
Merci pour votre réponse.

Effectivement, tout notre blast dans NR (5000 hits) semble retourner 100 % d'homologues. Cependant, les e-values sont élevées (0,025 pour le 5000e hit). Par conséquent, où placer le e-value seuil (>0,025 ? arbitrairement à 1e-10 ?) et surtout, quel groupe extérieur choisir ?

Un binôme a posté la question sur le forum. Ils étaient dans le même cas que nous et souhaitez prendre les bactéries en groupe extérieur. Vous aviez suggéré de sélectionner une autre classe de virus. Cependant, dans notre cas, nous avons des virus unnamed et des caudovirales. Nous avons essayé de faire un groupe d'étude "unnamed" et un groupe extérieur "caudovirales" (par dépit). Le résultat est peu concluant (dans nos résultats bruts en attendant mieux). Devons-nous faire un arbre non raciné ?

Ou alors, devons-nous prouver que l'ORF vraisemblablement viral a été intégré au génome bactérien et utiliser les bactéries ayant les plus basses e-values pour produire notre arbre ?

Nous vous remercions.
P_Hingamp14
7 Nov 2014 18:14
Game master
S'il vous semble possible d'argumenter votre observation que 100% des 5000 hits sont homologues (tous des RECA), alors il est tout à fait possible de placer le seuil à >0,025, soit au dessus du dernier hit BLAST! C'est atypique d'avoir des homologues avec des E-value aussi élevés (mais ça m'est arrivé de trouver des homologues avec des E-values autour de 0,1), et c'est surtout peu fréquent de ne pas avoir de non-homologues qui viennent s'insérer entre les homologues quand les E-value commencent à dépasser les 1e-10. Mais si c'est bien le cas (pas de non-homologues évidents parmi les hits), alors oui placez les seuil au dessus de votre plus grand E-value, je ne vois alors pas du tout de justification de la placer à 1e-10? Mais bien sûr comme ce seuil à 1e-2 serait alors si étonnamment élevé, il faudra vraiment faire attention à ce qu'aucun hit ne semble démentir l'hypothèse "tous homologues"...

En effet, le choix du groupe extérieur est très délicat, comme trop souvent avec les virus! Votre tax report montre les meilleurs hits venant du groupe "Viruses::unclassified phages" (des phages dont l'assignation taxonomique n'a pas encore été faite avec précision), suivi du groupe "Viruses::Caudovirales" (les phages de bactérie classiques). Il est très probable que la plupart des gènes actuellement sous "unclassified phages" finissent à terme classés sous "Viruses::Caudovirales" (je suis allé voir au NCBI et certains ont déjà été basculés sous "Viruses::Caudovirales"). Donc il n'est pas possible d'utiliser "Viruses::unclassified phages" comme groupe d'étude et "Viruses::Caudovirales" comme groupe extérieur, car on ne connais pas a priori les relations de parenté entre ces groupes.

Choisir les virus en général comme groupe d'étude, et l'utilisation des gènes bactériens comme groupe extérieur est assez tentant, car il semble qu'il existe bien des gènes RECA qui soient de très anciens gènes bactériens et qui ont toutes les chances de représenter de bons candidats pour enraciner les gènes de virus (en faisant l'hypothèse que les gènes RECA de virus descendent des gènes viraux). Mais il faudra alors prendre le plus grand soin pour inclure et enraciner sur ces gènes véritablement bactériens! En effet, vous pouvez aussi inclure les quelques rares gènes bactériens qui semblent être des HGT récents des virus vers les bactéries (ceux avec des E-values très faibles avec votre ORF viral) mais dans l'arbre final on peut parier que ces gènes bactériens acquis par HGT à partir des virus émergeront dans la branche des gènes viraux (malgré leur présence dans des génomes "bactériens" dans NR), et c'est pourquoi il ne faudra pas enraciner votre arbre sur ces quelques gènes bactériens très similaires mais à la place sur les gènes bactériens plus éloignés (genre avec des E-values aux alentours de 1e-10 voire moins).