Bonjour,
Premièrement, je ne trouve pas les résultats que vous mentionnez dans vos résultats bruts du paragraphe blast. Il faudra ne pas oublier de les rajouter.
Revoir à quoi correspond Swissprot (SP) exactement (cf CM et/ou Topo TP) :
SP ne contient que des séquences très fiables, vérifiées et annotées manuellement par un curateur, qui a fait toute la bibliographie sur une protéine donnée, ou une famille de protéines données, afin de trouver un maximum d'information sur cette séquence : fonction, régions et aa importants pour la fonction, structure, etc... et les expériences ayant permis de trouver ces informations (preuve de transcription, traduction, etc...).
Les annotations fonctionnelles et structurales des séq contenues dans SP sont donc très fiables.
A contrario, ce travail étant très long, il ne peut être effectué pour TOUTES les séquences connues à l'heure actuelle, et un choix est effectué dans les séquences rentrées dans SP.
SP est donc une BDD très fiable pour trouver des informations fonctionnelles et structurales, que vous pouvez transférer à votre protéine étudiée par homologie.
==> C'est pourquoi vous utilisez SP pour discuter la fonction de la protéine étudiée.
Mais SP n'est de loin pas une BDD exhaustive, elle ne contient qu'un nb limité de séquences.
==> C'est pourquoi, on ne peut pas utiliser SP pour faire l'analyse de l'origine taxonomique.
Pour déterminer l'origne taxonomique, vous utilisez la BDD NR protéines, qui elle est exhaustive, et contient TOUTES les séq connues à l'heure actuelle. Vous avez ainsi une vision globale de l' "ensemble" des homologues connus à ce jour (je mets des " " à "ensemble", car vous avez vu qu'avec un max target fixé à 5000 séq max, très souvent, on ne sort pas TOUS les homologues, mais que les 5000 les plus similaires).
Il n'y a donc pas d'incohérence : la BDD SP ne contient pas, pour l'instant, de séq d'alpha-, seulement "2 seq de gamma-".
Vous auriez très bien pu trouver dans SP des seq homologues provenant d'un ou plusieurs autre(s) phylum (phyla) bactérien(s), voir même une ou des seq archae ou d'eucaryote.
Remarque pour les résultats bruts du blast des ORFs non étudiés par la suite :
- il vaut mieux les mettre dans le paragraphe ORF, plutôt que blast;
- si vous les mettez dans le paragraphe blast, commencez d'ABORD par les résultats de l'ORF étudié (NR + SP), et ENSUITE les ORFs non étudiés par la suite;
- respectez les mêmes index que dans le protocole : donc organisez le protocole en conséquence;
- et enfin, pour ces résultats de blast, les 10 1ers alignements 2 à 2 sont inutiles.
Bon travail,
BW