Bonjour Thomas,
En effet, vous avez des séquences de plusieurs phyla avec un e-valeur de (quasi-)zéro. Ceci rend le choix de groupe d’étude très difficile.
Ce qui est bizarre c’est que le meilleur hit n’a que 82% de similarité. La très faible E-valeur est due aux longueurs des alignements (l’ORF a 426 aa).
Au premier vu, j’abandonnerais cette séquence. Néanmoins, si vous voulez insister car c’est un cas compliqué mais intéressant, il y a un élément auquel vous pouvez vous accrocher : la très grande majorité des hits sont les proteobacteria. Il y a que quelques centaines des séquences non-proteo. Cette observation me pousse à choisir les proteobacteria comme groupe d’étude, même si on sait que dans les BDD des génomes des protéobactéries sont surreprésentés (selon une étude de 2015, 46% des génomes bactériens séquencés sont les proteobacteria https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4361730/pdf/10142_2015_Article_433.pdf) Vous pouvez tenter de faire un arbre et croiser les doigts que les protéobactéries forment un clade. Si quelques séquences de groupe extérieur se mélangent avec le groupe d’étude on a toujours au moins 2 hypothèses pour expliquer ce mélange : transfère horizontaux et erreur d’annotation dans les BDD. Je vais parler de ces cas dans l’envoi 3.
Bon courage,
Emese Meglecz