Bonjour Anaïs,
Vous avez tout bien compris !
La même séquence apparait sous différents identifiants dans le BDD et de plus annotée différemment.
Il y a beaucoup de séquences qui sortent des projets métagénomique qui sont annotés automatiquement (sans contrôle humain) et même si le taux d’erreur des annotations est faible, ça finit par poser un problème dans les BDD. Récemment on a commencé à utiliser les mots de clé ENV pour les séquences métagénomique, pour pouvoir détecter plus facilement les vrais et le faux.
Éventuellement vous pouvez utiliser le BDD refseq_protein où ce type d’erreur est moins fréquente au pris d’avoir une gamme taxonomique de séquences moins large.
Cordialement,
Emese Meglecz