Je reproduis ci-dessous les questions qui m'ont été envoyées (utilisez de préférence ce forum, accessible en cliquant sur l'icone "oeil" dans votre panier, car ceci permet en outre d'avoir accès à votre fiche d'annotation):
Je rencontre quelques petits problèmes pour les annotations de ma séquence.
1) Je ne trouve pas sur les résultats du Blastp combien de séquences sont homologues ? Combien il y a eu d'alignements ? Dans les paramètres, j'en ai demandé au max 5000 mais ou puis-je trouver le nombre exact ?
Vous pouvez copier/coller la liste de synthèse des séquences avec un alignement (la première partie du BLAST avant les alignements) dans un éditeur de texte (par exemple Notepad++ sous windows, ou gedit sous linux) puis placez votre curseur sur la dernière ligne dans l'éditeur, le numéro de ligne s'affiche (le plus souvent dans le cartouche en bas de la fenêtre). Alternativement, profitez de votre analyse "Rapport Taxonomique" car le nombre de séquences est aussi affiché en haut de la page. Enfin, ce nombre est aussi indiqué dans la page Internet initiale de votgre BLASTp au NCBI: sous "Sequences producing significant alignments:" cliquez sur "Select: All" et hop, le nombre de séquences total est affiché...
2) Mon ORF 2 fait 287 nucléotides (de la position 19 à 306 sur le brin reverse). Cela me donne une taille en AA qui n'est pas un nombre entier car 287 n'est pas un multiple de 3...
Ce n'est pas mon ORF d'étude mais j'aimerais vous inscrire une taille correcte de cet ORF.
Je vois sur votre fiche que pour l'ORF 1 dont les coordonnées sont 1-984, vous avez (correctement, et probablement intuitivement) calculé la longueur: 984 pb. Par contre, pour les coordonnées 19-306, vous faites une petite erreur de calcul: en effet, la longueur est 306-19+1=288 pb, ce qui est bien un multiple de 3 :)
3) Mon ORF d'étude (ORF1) est tronqué en N et C-terminal. Il est constitué de 986 nucléotides. Il débute de la position 1 jusqu'à la position 984.
Par les alignements multiples avec ses homologues, j'apprends qu'il me manque 20 AA en N-terminal et environ 70 en C-terminal.
Donc dans la rubrique Statut de l'annotathon, j'inscris 1 en position de début et je ne sais pas quoi inscrire pour la position de fin ... De plus, il apparait des Gaps lors des alignements de séquences : dois-je ne prendre considération pour définir les extrémités de mon ORF ?
Pas de soucis pour la position de départ (premier nucléotide du premier codon complet disponible), pour la position de fin, indiquez le dernier nucléotide du dernier codon complet (dans ce cas, il semble que ce soit 984). Il reste donc 2 nucléotides au delà de l'ORF, mais pas assez pour former un codon, donc on les ignore.
4) Mon ORF ne présente aucun homologues sur SwissProt. Dois-je laisser la ligne de la table 3 vide ?
Incluez la ligne SP, mais indiquez zéro pour le nombre de protéines alignées (et N/A pour les autres colonnes). Ceci permet d'avoir une vue d'ensemble du panorama des homologues dans les banques principales.
5) Je dois rejeter mes domaines protéiques car non référencés dans INTERPRO. Toutefois, 1 des 2 est celui que j'attendais en terme de fonction.
Puis-je toute de même hypothéser que cet ADN génomique code pour la fonction en question ?
Oui, dans ce cas c'est parfaitement légitime (pas de domaines prédits qui soient intégrés à INTERPRO)! Même quand il y a par ailleurs des domaines prédits intégrés à INTERPRO, rien ne vous interdit de dire un mot ou deux sur les domaines "non intégrés" quand la fonction de ces derniers vous interpelle...
6) En faisant l'arbre par BioNJ les valeurs de robustesse n'apparaissent pas directement à l'inverse de l'arbre généré par PhyML.
Très bonne remarque! Ceci est dû au fait que seul PhyML propose de telles valeurs de robustesse par défaut. Pour BioNJ, la seule méthode disponible pour avoir de telles estimations de la robustesse des noeuds, est de calculer les "boostraps", ce qui correspond à réarranger lègèrement l'alignement multiple (on répète cette opération par exemple 100 ou 1000 fois) et de noter dans les différents arbres produits combien de fois on observe le noeuds (valeurs comprises entre 0 et 1). Faites donc initialement vos arbres BioNJ sans valeurs de robustesse. Mais quand votre alignement est vraiment en version finale, vous pouvez si vous le souhaitez refaire le BioNJ en demandant 100 bootstraps afin de générer ces fameuses (et très utiles) valeurs de robustesse des noeuds (ne faites pas ceci dès le départ, car le temps de calcul de BioNJ dans ce mode est ... 100 fois plus long!). Notez qu'il est aussi possible de faire faire des bootstraps à PhyML (mais les estimations par défaut de PhyML dites "Approximate Likelihood-Ratio Test (aLRT)" sont déjà relativement fiables et ... 100 fois plus rapides).
7) Pouvez-vous m'indiquer les caractéristiques de la/les séquence(s) à choisir pour enraciner l'arbre ? (http://annotathon.org/outils/nw_utils.php)
S'agit-il des séquences du groupe externe ?
Faites en sorte que le noeud à la racine de votre arbre soit celui qui sépare d'un côté le groupe d'étude, et de l'autre le groupe extérieur. Le petit outil en ligne "NEWICK TREE MANIPULATION" permet de le faire, mais souvent il faut un peu tatonner. Indiquez dans le champ "Enraciner l'arbre sur" les identifiants de deux séquences du groupe extérieur dont le dernier ancètre commun remonte au noeud à la base du groupe extérieur. Notez que vous pouvez obtenir exactement le même résultat en prenant deux séquences du groupe d'étude, car la racine sera placée in fine entre ces deux groupes:)
Bonne annotations!