Forum "Analyse phylogénétique"

Thread subject: Interprétation des hits dans la phylogénie

[ Return to forums ]
Interprétation des hits dans la phylogénie
emmajamon
12 Oct 2021 15:51
Non evaluated contribution

Bonjour Monsieur,

 

 

En observant mon rapport taxonomique, je me demandais comment mettre en évidence des biais dans la base de données : par exemple, pour une ligne de Bacteroidetes j'ai 1070 hits contre 262 alignements (E-value de e-134 à e-117) tandis que pour une ligne de Proteobacteria j'ai 50 hits contre 30 alignements (E-values bien supérieures de e-166 à e-117).

Au regard du nombre très élevé de hits par rapport au nombre d'alignements sur Bacteroidetes, puis-je conclure que je trouve beaucoup d'alignements plutôt à cause de la redondance de ce phylum dans la base de données, plutôt qu'une réelle homologie robuste... et que ma ligne de Proteobacteria est un "meilleur" homologue ?

Je ne serais pas certaine, sinon, comment interpréter les hits.

 

Merci beaucoup d'avance !

 

 

 

Cdt

 

Emma Jamon

P_Hingamp_MM21
13 Oct 2021 0:39
Game master

Bonsoir,

 

Juger des biais dans la base de données est assez délicat, puisqu'il faut estimer si un taxon est sur- ou sous-représenté dans cette BD, par exemple concernant les organismes modèles (E. coli par ex, qui est une gammaPB...). Quand le nb de "hits" est bcp plus grand que le nb d'aln, cela peut suggérer que ce taxon est redondant dans la BD (puisque plusieurs séq identiques de la BD correspondent au même aln). Dans ce cas en effet on peut éventuellement un peu pondérer le nb d'aln, mais ça reste vraiment tellement approximatif que je ne pense pas généralement nécessaire de trop se perdre dans cette voie (il faudrait une estimation plus robuste de la redondance, par ex en comptant le nombre de génomes de chaque espèce présents dans les banques, puis consolider tout ça à chaque niveau de taxons, sachant que ça dépend aussi de la diversité des différentes branches des microbes).

 

Dans tous les cas si en effet les nombres d'aln sont à prendre avec des pincettes (à cause de biais de représentations de la BD difficiles à quantifier), par contre la qualité des aln eux restent une données tangible et bien comparables : dans ton cas la qualité des aln entre Proteobacteria et Bacteroidetes n'est pas significative (5e-163 versus 2e-166), donc on ne peut trancher si ton ORF fait partie de l'un ou l'autre, le groupe d'étude est donc dans ce cas ces deux phyla, donc pour être monopĥylétique est étendu à toutes les bactéries ? Arghhhh, ce qui laisse pas grand chose pour le groupe extérieur, car les archées ont une qualité d'aln suspicieuse pour des homologues qui descenderaient de LUCA ?...

 

emmajamon
13 Oct 2021 15:35
Non evaluated contribution

D'accord....

Merci beaucoup pour votre réponse !

 

P.S. adieu monde cruel

P_Hingamp_MM21
13 Oct 2021 16:12
Game master

Oh le PS !...

Vu là où tu en est, je crois pas qu'il soit envisageable de changer de séquence candidate :)

Dans ton cas je pense que tu peux en rester à ta définition du gr d'étude Protéobact, et les autres phylums comme gr ext, en spécifiant bien l'infime écart de E-value min entre ces deux groupes, et en croisant les doigts que l'ORF tombe bien dans ton groupe d'étude.

Bon j'ai un peu creuser et je te rassure ça le fait bien : en fait il n'y a qu'un seul et unique hit hors Protéobact qui présente un bon E-value de 5e-163 (en plus un étrange et suspicieux "unclassified Imperialibacter"), en fait en dehors de cet "outlier" suspect, les autres hits non Protébact sont très éloignés à >1e-143, donc si on exclut cet unique outliers, alors le différentiel de E-val entre gr étude et gr ext est de plus de 20 logs, donc TOUT VA BIEN :)

J'espère que ce que j'écrit est compréhensible, je fais vite en TP, mais je vois bien l'urgence de ne pas te laisser déserpérer !

emmajamon
13 Oct 2021 16:29
Non evaluated contribution

 

Ouf ! Très compréhensible, merci encore