Bonjour Maëlle,
La situation de cette séquence est similaire à votre séquence précédente. Vous avez que quelques hits qui ressemblent à l’ORF nettement plus que les autres séquences. De plus, ces hits proviennent des échantillons environnementaux (voir les fiches des séquences dans NCBI, par exemple https://www.ncbi.nlm.nih.gov/protein/MBT3992706 ). Donc leur groupe taxonomique n’est pas certain.
Pour cette séquence, vous avez encore une option. Si on met en doute la provenance de 4 meilleurs hits de BLAST (e >1-160), vous pouvez les ignorer. Dans ce cas, la définition de groupe d’étude sera probablement différente.
Avez-vous fait le BLAST en excluant des séquences environnementales? Cela peut vous simplifier la tâche.
Tenter aussi le BLAST contre le BDD Refseq_protein, plus fiable que nr.
Enfin, prenez soin de prendre les meilleurs hits de chaque groupe que vous voulez représenter dans l’arbre. Par exemple, dans votre sélection actuelle vous avez bien pris les différent sous-groupe de Gamma:
Alteromonadales; Alteromonadales, Enterobacterales …Et c’est très bien. Assurez-vous d'avoir les meilleurs hit de chacun de ces groupes (peut être c’est déjà le cas).
Si vous allez redéfinir le groupe d’étude, ça sera probablement encore plus important.
Courage!
Emese Meglecz