Bonsoir,
En effet la qualité des alignements ne semble pas particulièrement meilleure avec un groupe plutôt qu'un autre au sein des bactéries. Par contre les potentiels homologues chez les eucaryotes et archaea sont vraiment très éparses (comparé au nombre d'homologues trouvés chez les bactéries), ce qui peut suggérer que ce gène n'existe dans ces deux domaines que par des évenements ponctuels type HGT? Auquel cas, ni les eucaryotes, ni les archaea ne peuvent raisonnablement jouer le rôle de groupe extérieur! Ainsi tombe à l'eau l'option de faire des bactéries le groupe d'étude...
Peut-être que la limite à 5000 hits pose problème ici, car les derniers hits restent avec des E-values significatifs (5E-22), donc peut-être d'autres homologues plus distants au delà des 5000 pourraient changer sensiblement le "panorama" taxonomique des homologues, mais je doute un peu que ça permette de conclure clairement à un gène de "LUCA" bien représenté chez les eucaryotes (ou les archaea) et qui puisse alors permettre de choisir les eucaryotes comme groupe extérieur?
Bref il est probablement plus simple de tenter une autre séquence, car en l'état faire un arbre non raciné avec les trois domaines (B, E, A) est assez difficile car vous n'avez que relativement peu de séquences d'E + A disponibles? Et cette ORF étant visiblement assez éloignée de tout ce qui se trouve dans NR, il y a un risque de placement artéfactuel par un phénomène dit "d'attraction des longues branches"...
Vous pourriez être en présence d'un fragment de génome venant de ce que l'on appelle en ce moment "la matière noire bactériologique", des micro-organismes totalement inconnus qui commencent à être devinés grace aux approches de métagénomique. Voir par exemple cet article publié pas plus tard qu'hier dans une revue du groupe "Nature" qui rapporte en symbiose dans un drôle d'animal marin (Bugula neritina), la découverte grace à la métagénomiquedes de bouts de génomes de microbe qui ne ressemblent à rien de connu. Bugula neritina: