Bonjour,
D'après ma recherche d'homologues avec NR, j'obtiens des séquences subjects de Bactéries, Eucaryotes (plantes et surtout champignons) et Archées, ce qui est logique d'après l'étude du domaine protéique.
Les E-values sont très petites : [2E-174 ; 1E-78], et l'intervalle des E-values des Bactéries couvre tout l'intervalle de mes 5000 résultats, je ne peux donc déterminer de E-value seuil (> 1E-78) :
D'après notre discussion, il me semblait logique de poursuivre l'analyse avec un groupe d'étude traduisant cette diversité de règnes, et de choisir des séquences parmi les classes de Bactéries les plus représentées (Proteobacteria, Actinobacteria, Bacteroidetes, Firmicutes) et des champignons. On avait conclu que l'arbre ne serait pas enraciné.
Cependant on voit que le nombre de hits est très biaisé vers les Proteobacteria. Si je détaille les classes de ce phylum, j'obtiens le tableau suivant :
Notamment, la première séquence subject est extrêmement proche de la séquence Query :
- histidinol dehydrogenase [Alphaproteobacteria bacterium]
- Query cover = 100%
- E-value = 2E-174
- Identities = 98%
- Positives = 99%
- Gaps = 0%
- Je précise que j'ai fait une recherche Blastn, comme le suggère les règles du jeu, pour vérifier que ma séquence n'était pas déjà dans la NR biological database, mais ce n'est pas le cas (1er résultat : ID = 75%).
J'ai donc un problème d'échelle pour mon hypothèse de départ : jusqu'à quelle échelle puis-je aller, sachant que je n'ai pas su déterminer de E-value seuil et donc pas su distinguer de groupes homologues et non-homologues dans mes résultats Blastp :
- Echelle du vivant telle que discutée précédemment : groupe d'étude = Bactéries + Fungi , pas de groupe extérieur
- Echelle du règne : groupe d'étude = Bactéries, groupe extérieur = Fungi
- Echelle du phylum : groupe d'étude = Proteobacteria, groupe extérieur = Actinobacteria
- Echelle de la classe : groupe d'étude = Alphaproteobacteria, groupe extérieur = Gammaproteobacteria
Merci pour votre aide.