Bonjour Candice,
«J'ai comme groupe d'étude "Pelagibacteriales" et je n'ai que 4 séquences dans représentatives de la diversité du groupe »
Selon le tableau de taxreport, il y a 81 hits de l’ordre de Pelagibacterales
Je suppose que vous avez pensé d’avoir 4 séquences à cause de cette partie de rapport taxonomique :
. . . .Pelagibacterales bacterium................... 247 3e-79 10 hits Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: SIS domain-containing protein [Pelagibacterales bac...
. . . Pelagibacteraceae bacterium................... 245 2e-78 11 hits Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: KpsF/GutQ family sugar-phosphate isomerase [Pelagib...
. . . Pelagibacteraceae bacterium ETNP-OMZ-SAG-E2... 196 3e-59 1 hit Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: SIS domain-containing protein [Pelagibacteracea...
. . . Pelagibacteraceae bacterium ETNP-OMZ-SAG-B3... 153 1e-42 1 hit Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: SIS domain-containing protein [Pelagibacteracea...
Ici, chaque ligne correspond à un taxon, et pas une séquence. Par exemple, pour le premier taxon il y a 10 hits (séquences).
Le nom Pelagibacterales bacterium ressemble à un vrai nom d’espèce, mais dans la réalité c’est un nom générique qui veut dire que cette une espèce de l’ordre Pelagibacterales dont on ne connait pas le nom. Peut être espèce n’a pas encore été décrite, ou simplement on ne pouvait pas la déterminer.
Similairement un peu plus bas dans le tax report vous trouverez les noms comme Candidatus Pelagibacter, Pelagibacteraceae bacterium, SAR11 cluster bacterium, Candidatus Fonsibacter, qui sont les noms génériques ou tentatives (Candidatus)
En conséquence, si vous choisissez Pelagibacterales comme groupe d’étude, il faut choisir 10-30 séquences parmi le 81. Vu que vous avez peu des séquences, une dizaine est suffisante dans votre cas.
« Devrais-je décider de prendre les alphaprotéobactéries pour élargir mon nombre de séquences ? »
Comme expliqué plus haut, le nombre des séquences dans le groupe Pelagibacterales, bien qu’assez faible, ce n’est pas un problème majeur. Regardez donc, les E-valeurs de chaque groupe pour choisir le groupe d’étude.
« Pour le choix des séquences homologues, si je choisis les alphaprotéobactéries, je vais prendre comme groupes extérieur toutes les protéobactéries non alpha … »
Oui, c’est une possibilité. Néanmoins, vous pouvez aussi choisir un groupe extérieur un peu plus restreint :
Consultez l'arbre des bactéries affiché dans les FAQ:
http://annotathon.org/Metagenes/index.php/Annotathon:_foire_aux_questions#L.27arbre_de_la_vie.2C_vu_par_les_microbes
« et choisir une séquence pour chaque groupe (beta, epsilon, gamma et delta) une séquence avec la meilleure e-valeur possible ? Je n'aurais dons que 4 séquences pour mon groupe extérieur ? »
Oui, l’esprit est correct, mais vous pouvez choisir plusieurs séquences de même sous-groupe. Par exemple parmi les Gammaproteobacteria, vous pouvez choisir les sous-groupes, Enterobacterales, Thiotrichales,Oceanospirillales, Cellvibrionales, etc.
En bref, essayez de représenter la diversité d’un groupe, en choisissant des séquences de chaque sous-groupe et des sous-groupes de sous-groupes, dans la mesure de possible.
Il y a un élément à prendre en considération dans votre choix de groupe d’étude : selon le tableau récapitulatif, il y a au moins une séquence de Deltaprotéobactérie avec une assez bonne Evaleur :
Bacteria:Proteobacteria:Deltaproteobactaia 47 171 2E-68 1E-19
Si c’est vrai, il faudrait aussi inclure les deltas dans le groupe d’étude. Ce qui est assez embêtant. Je suspecte une erreur dans un des outils, car cette ligne n’est pas cohérente avec le tax-rapport complet. Essayez de retrouver cette séquence et vérifiez sa provenance sur le site de NCBI qui est le plus à jour possible.
Bon courage,
Emese Meglecz