Forum "Recherche d'homologues: BLAST"

Thread subject: Problème d'échelle dans le choix des groupes d'étude et extérieur à partir de BLAST

[ Return to forums ]
Problème d'échelle dans le choix des groupes d'étude et extérieur à partir de BLAST
CBeligon
23 Mar 2022 8:35
Non evaluated contribution

Bonjour,

 

D'après ma recherche d'homologues avec NR, j'obtiens des séquences subjects de Bactéries, Eucaryotes (plantes et surtout champignons) et Archées, ce qui est logique d'après l'étude du domaine protéique.

 

Les E-values sont très petites : [2E-174 ; 1E-78], et l'intervalle des E-values des Bactéries couvre tout l'intervalle de mes 5000 résultats, je ne peux donc déterminer de E-value seuil (> 1E-78) :

 

D'après notre discussion, il me semblait logique de poursuivre l'analyse avec un groupe d'étude traduisant cette diversité de règnes, et de choisir des séquences parmi les classes de Bactéries les plus représentées (Proteobacteria, Actinobacteria, Bacteroidetes, Firmicutes) et des champignons. On avait conclu que l'arbre ne serait pas enraciné.

 

Cependant on voit que le nombre de hits est très biaisé vers les Proteobacteria. Si je détaille les classes de ce phylum, j'obtiens le tableau suivant :



Notamment, la première séquence subject est extrêmement proche de la séquence Query : 

  • histidinol dehydrogenase [Alphaproteobacteria bacterium]
  • Query cover = 100%
  • E-value = 2E-174
  • Identities = 98%
  • Positives = 99%
  • Gaps = 0%
  • Je précise que j'ai fait une recherche Blastn, comme le suggère les règles du jeu, pour vérifier que ma séquence n'était pas déjà dans la NR biological database, mais ce n'est pas le cas (1er résultat : ID = 75%).

 

J'ai donc un problème d'échelle pour mon hypothèse de départ : jusqu'à quelle échelle puis-je aller, sachant que je n'ai pas su déterminer de E-value seuil et donc pas su distinguer de groupes homologues et non-homologues dans mes résultats Blastp :

  • Echelle du vivant telle que discutée précédemment : groupe d'étude = Bactéries + Fungi , pas de groupe extérieur
  • Echelle du règne : groupe d'étude = Bactéries, groupe extérieur = Fungi
  • Echelle du phylum : groupe d'étude = Proteobacteria, groupe extérieur = Actinobacteria
  • Echelle de la classe : groupe d'étude = Alphaproteobacteria, groupe extérieur = Gammaproteobacteria

 

Merci pour votre aide.

CBeligon
1 Apr 2022 11:33
Non evaluated contribution

Bonjour,

 

Je me permets de relancer ce post et j'en profite pour signaler que nos séquences ne sont plus accessibles car la date limite de dépôt est dépassée. 

 

Bien cordialement.

CBeligon
1 Apr 2022 11:33
Non evaluated contribution

Bonjour,

\r\n\r\n

 

\r\n\r\n

Je me permets de relancer ce post et j'en profite pour signaler que nos séquences ne sont plus accessibles car la date limite de dépôt est dépassée. 

\r\n\r\n

 

\r\n\r\n

Bien cordialement.

\r\n

Brochier_22
6 Apr 2022 12:21
Game master

Bonjour,

 

Concernant la evalue seuil. Si vous considerez que toutes les séquences identifiées par blast sont des homologues de la séquence étudiée, alors il n'est pas nécessaire de déterminer de evalue seuil.

 

Concernant l'analyse du rapport taxonomique, il faut avoir conscience des biais taxonomiques existant dans les bases de données, à savoir que certains groupes taxonomiques sont surreprésentés / sous-représentés.

Le choix des séquences représentatives doit donc être basé sur la taxonomie connue et non sur le nombre de séquences associé à chaque groupe taxonomique. Si votre groupe d'étude est les bactéries vous devez représenter l'ensemble des phyla batériens par au moins une séquence. Les phyla les plus représentés pourront être représentés par quelques séquences supplémentaires ni nécessaire.

 

Bien cordialement,


Céline Brochier

Brochier_22
6 Apr 2022 14:06
Game master

Bonjour,

 

Concernant la evalue seuil. Si vous considerez que toutes les séquences identifiées par blast sont des homologues de la séquence étudiée, alors il n'est pas nécessaire de déterminer de evalue seuil.

 

Concernant l'analyse du rapport taxonomique, il faut avoir conscience des biais taxonomiques existant dans les bases de données, à savoir que certains groupes taxonomiques sont surreprésentés / sous-représentés.

Le choix des séquences représentatives doit donc être basé sur la taxonomie connue et non sur le nombre de séquences associé à chaque groupe taxonomique. Si votre groupe d'étude est les bactéries vous devez représenter l'ensemble des phyla batériens par au moins une séquence. Les phyla les plus représentés pourront être représentés par quelques séquences supplémentaires ni nécessaire.

 

Bien cordialement,


Céline Brochier