Forum "Recherche d'homologues: BLAST"

Thread subject: Choix des séquences homologues pour le rapport taxonomique

[ Return to forums ]
Choix des séquences homologues pour le rapport taxonomique
CandiceC
19 Apr 2020 0:42
Non evaluated contribution

Bonjour, j'ai comme groupe d'étude "Pelagibacteriales" et je n'ai que 4 séquences dans représentatives de la diversité du groupe. Devrais-je décider de prendre les alphaprotéobactéries pour élargir mon nombre de séquences ? 

Pour le choix des séquences homologues, si je choisis les alphaprotéobactéries, je vais prendre comme groupes extérieur toutes les protéobactéries non alpha et choisir une séquence pour chaque groupe (beta, epsilon, gamma et delta) une séquence avec la meilleure e-valeur possible ? Je n'aurais dons que 4 séquences pour mon groupe extérieur ? 

Merci pour votre attention, 

A bientôt, 

Candice 

Meglecz19CTES
19 Apr 2020 11:22
Game master

Bonjour Candice,

 

«J'ai comme groupe d'étude "Pelagibacteriales" et je n'ai que 4 séquences dans représentatives de la diversité du groupe »


Selon le tableau de taxreport, il y a 81 hits de l’ordre de Pelagibacterales
Je suppose que vous avez pensé d’avoir 4 séquences à cause de cette partie de rapport taxonomique :
. . . .Pelagibacterales bacterium................... 247  3e-79  10 hits Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: SIS domain-containing protein [Pelagibacterales bac...
. . . Pelagibacteraceae bacterium................... 245  2e-78  11 hits Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: KpsF/GutQ family sugar-phosphate isomerase [Pelagib...
. . . Pelagibacteraceae bacterium ETNP-OMZ-SAG-E2... 196  3e-59  1 hit   Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: SIS domain-containing protein [Pelagibacteracea...
. . . Pelagibacteraceae bacterium ETNP-OMZ-SAG-B3... 153  1e-42  1 hit   Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: SIS domain-containing protein [Pelagibacteracea...

Ici, chaque ligne correspond à un taxon, et pas une séquence. Par exemple, pour le premier taxon il y a 10 hits (séquences).

Le nom Pelagibacterales bacterium ressemble à un vrai nom d’espèce, mais dans la réalité c’est un nom générique qui veut dire que cette une espèce de l’ordre Pelagibacterales dont on ne connait pas le nom. Peut être espèce n’a pas encore été décrite, ou simplement on ne pouvait pas la déterminer.
Similairement un peu plus bas dans le tax report vous trouverez les noms comme Candidatus Pelagibacter, Pelagibacteraceae bacterium, SAR11 cluster bacterium, Candidatus Fonsibacter, qui sont les noms génériques ou tentatives (Candidatus)

En conséquence, si vous choisissez Pelagibacterales comme groupe d’étude, il faut choisir 10-30 séquences parmi le 81. Vu que vous avez peu des séquences, une dizaine est suffisante dans votre cas.


« Devrais-je décider de prendre les alphaprotéobactéries pour élargir mon nombre de séquences ? »


Comme expliqué plus haut, le nombre des séquences dans le groupe Pelagibacterales, bien qu’assez faible, ce n’est pas un problème majeur. Regardez donc, les E-valeurs de chaque groupe pour choisir le groupe d’étude.

 

« Pour le choix des séquences homologues, si je choisis les alphaprotéobactéries, je vais prendre comme groupes extérieur toutes les protéobactéries non alpha … »
Oui, c’est une possibilité. Néanmoins, vous pouvez aussi choisir un groupe extérieur un peu plus restreint :
Consultez l'arbre des bactéries affiché dans les FAQ:
http://annotathon.org/Metagenes/index.php/Annotathon:_foire_aux_questions#L.27arbre_de_la_vie.2C_vu_par_les_microbes

« et choisir une séquence pour chaque groupe (beta, epsilon, gamma et delta) une séquence avec la meilleure e-valeur possible ? Je n'aurais dons que 4 séquences pour mon groupe extérieur ? »
Oui, l’esprit est correct, mais vous pouvez choisir plusieurs séquences de même sous-groupe. Par exemple parmi les Gammaproteobacteria, vous pouvez choisir les sous-groupes, Enterobacterales, Thiotrichales,Oceanospirillales, Cellvibrionales, etc.
En bref, essayez de représenter la diversité d’un groupe, en choisissant des séquences de chaque sous-groupe et des sous-groupes de sous-groupes, dans la mesure de possible.


Il y a un élément à prendre en considération dans votre choix de groupe d’étude : selon le tableau récapitulatif, il y a au moins une séquence de Deltaprotéobactérie avec une assez bonne Evaleur :
Bacteria:Proteobacteria:Deltaproteobactaia    47    171    2E-68    1E-19
 
Si c’est vrai, il faudrait aussi inclure les deltas dans le groupe d’étude. Ce qui est assez embêtant. Je suspecte une erreur dans un des outils, car cette ligne n’est pas cohérente avec le tax-rapport complet.  Essayez de retrouver cette séquence et vérifiez sa provenance sur le site de NCBI qui est le plus à jour possible.

Bon courage,
Emese Meglecz

 

CandiceC
19 Apr 2020 19:51
Non evaluated contribution

Bonjour, merci pour votre réponse !

J'ai pensé n'avoir que 4 séquences justement par rapport à Candidatus Pelagibacter, Pelagibacteraceae bacterium, SAR11 cluster bacterium et  Candidatus Fonsibacter. Lorsque je regarde sur  l'outil Taxonomy de NCBI, je vois 3 sous groupes pour les Pelagibactériales :

- Candidatus Fonsibacter

- Pelagibacteracae (auquel appartiennent SAR11 cluster bactérium, candidatus pelagibacter, et alphaprotéobacterium HIMB5)

- Oligobacter sp SKA48 

 

Je pensais ainsi choisir (pour mon groupe d'étude) : 

Candidatus Pelagibacter sp. TMED203........... 121  6e-30  1 hit   Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: hypothetical protein CBD63_00465 [Candidatus Pelagi... 
alpha proteobacterium HIMB5................... 100  4e-22  2 hits  Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: KpsF/GutQ family sugar-phosphate isomerase [alp... 
SAR11 cluster bacterium PRT-SC02.............. 100  6e-22  1 hit   Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: arabinose 5-phosphate isomerase [SAR11 cluster bact..
Candidatus Fonsibacter lacus.................. 115  1e-27  6 hits  Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: KpsF/GutQ family sugar-phosphate isomerase [Proteob... 
Candidatus Fonsibacter ubiquis................ 111  2e-26  2 hits  Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: CBS domain-containing protein [Candidatus Fonsibact... 

Candidatus Fonsibacter sp..................... 111  2e-26  1 hit   Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: KpsF/GutQ family sugar-phosphate isomerase [Candida... 

 

Les meilleures e-valeures étant sur des séquences de Pelagibacteriales, je pense garder ce groupe d'étude. 

Si j'avais pris les alphaprotéobactéries j'aurais surement pris comme groupe frère les beta et les gamma comme groupe extérieur.

Je ne m'étais pas rendue compte de la e-valeur élevée et ai refait un BLAST NR. J'ai trouvé la même e-valeur de cette séquence de Deltaprotéobactérie  :
Bacteria:Proteobacteria:Deltaproteobactaia    47    171    2E-68    1E-19

Sur GenBank de NCBI, on voit qu'il s'agit d'une séquence appartenant à une protéine hypothétique appartenant aux probactéries non classifiées.

On ne sait pas de ce fait si cette séquence apparteint aux alphabactéries ou non.

Comment se fait-il qu'elle apparaisse en temps que deltaprotéobactérie ?

 

Une autre bizarrerie est la conversion en FASTA qui me donne des titres différents que ceux que j'avais au début. Pour 

Candidatus Fonsibacter lacus.................. 115  1e-27  6 hits  Bacteria:Proteobacteria:Alphaproteobacteria:Pelagibacterales: KpsF/GutQ family sugar-phosphate isomerase [Proteob... 

J'obtiens :

>BP1 [Bacteria Proteobacteria    ]  E-value=1e-27  Bacteria;Proteobacteria; NBO62626.1 KpsF/GutQ family sugar-phosphate isomerase [Proteobacteria bacterium] 

et je perds ainsi des informations. 

Est ce normal ? 

 

Merci à vous pour votre aide ! 

Merci également d'avoir décalé la date de rendu de la séquence, je vais tenter de la rendre tout de même au plus vite ! 

Bonne soirée à vous, 

Candice 

Meglecz19CTES
20 Apr 2020 10:46
Game master

Bonjour Candice,

Je vois mieux maintenant, pourquoi vous avez dit que vous avez que 4 séquences de groupes d’étude. C’est très bien que vous avez consulté le site de NCBI Tax

CandiceC
20 Apr 2020 16:11
Non evaluated contribution

Bonjour Mme Meglecz, je pense que votre message a été coupé. Serais t-il possible de le reposter ? 

 Je ne vois que :

"Bonjour Candice,

Je vois mieux maintenant, pourquoi vous avez dit que vous avez que 4 séquences de groupes d’étude. C’est très bien que vous avez consulté le site de NCBI Tax"

et je n'ai malheureusement pas la suite. 

Bonne journée à vous, 

Candice 

Meglecz19CTES
20 Apr 2020 17:12
Game master

Bonjour Candice,

Désolée, cela devrait être une fausse manœuvre de ma part. Voici le message en entier.

 

Bonjour Candice,

Je vois mieux maintenant, pourquoi vous avez dit que vous avez que 4 séquences de groupes d’étude. C’est très bien que vous avez consulté le site de NCBI Tax :)
Attention, L’ORF n’est pas incluse dans l’alignement multiple et dans l’arbre !!!! Ne l’oubliez pas !

« Comment se fait-il qu'elle apparaisse en temps que deltaprotéobactérie ? »
« Une autre bizarrerie est la conversion en FASTA qui me donne des titres différents que ceux que j'avais au début »
Ce type d’erreur, je suppose, vient de fait que la BDD interne utilisée par Annotathon n’est pas mise à jour très souvent. C’est un processus long, et la mise à jour touche finalement une petite proportion des séquences. Une séquence et ces annotations soumises dans la BDD publique peuvent être modifiées après la soumission. Il peut exister donc un décalage entre ce qui est affiché en ligne (à priori le plus à jour possible) et ce qui sort des BDDs internes d’Annotathon, qui sont des copies de BDD NCBI d’une date antérieure. Si vous constatez ce type de différence, basez-vous sur les informations en ligne.

Bonne continuation,
Emese Meglecz

CandiceC
21 Apr 2020 14:40
Non evaluated contribution

Merci pour votre réponse, 

Bonne continuation à vous aussi ! 

A bientôt, 

Candice