Bonjour,
Est-ce que tous les ORF contenant Nb d’alignements sont KNOWN ?
==>NON, tous les ORFs contenant un Nombre d’alignements > à 0 NE sont PAS forcément KNOWN : il y a une autre possibilité.
Dans la table 1, on vous demande de noter le "Nombre d'alignements BlastP vs Refseq ayant une e-value < 1.e-10", car pour une "e-value <1.e-10", on est quasiment sûr de l'homologie.
Par conséquent, le "Nombre d'alignements BlastP vs Refseq ayant une e-value < 1.e-10" correspond donc au nombre d'homologues potentiels détectés ! (Il faudra le dire dans votre analyse).
Mais lorsque vous détectez des homologues, il y a 2 possibilités (cf règles du jeu) :
- Les homologues peuvent avoir une fonction connue, une fonction bien précise (exemple : hydrolase, réductase, DNA polymérase, kinase, ...)
==> dans ce cas l'ORF est Known (gène codant pour une protéine avec des homologues dont les fonctions sont connues),
OU
- Les homologues peuvent avoir une fonction inconnue à ce jour (unknown protein, uncharacterised protein, hypothetical protein, ...)
==> dans ce cas l'ORF est Novel (gène codant pour une protéine avec des homologues dont les fonctions sont encore inconnues, et ne chevauchant pas une autre ORF).
Comme le montre la figure, l’ORF1 est clairement contenu dans l’ORF3. Alors, cela appartient-il à ORFan ?
Et tous les ORFs dans le sens indirect, qui ont les Nbs moins de 100, peuvent-ils être directement considérés comme des Faux Positifs ?
==> Si par contre un ORF n'a PAS d'homologues (0 alignement de e-value < 1.e-10 lors du BlastP vs Refseq), dans ce cas, il y a aussi 2 possibilités :
- soit c'est un ORF détecté simplement par hasard, et c'est alors un faux positif,
- soit c'est un véritable gène, codant pour une protéine, mais pour lequel on ne détecte pour l'instant aucun homologue dans les BDD, car il s'agit d'un gène tout nouveau, d'une protéine toute nouvelle, que personne d'autre que vous n'a encore vu à ce jour ! Vous avez alors détecté un tout nouveau gène ! Ce sont les ORFans (gènes orphelins).
Pour faire la différence entre les deux, on regarde :
- la taille de l'ORF,
ET
- les chevauchements avec d'autres ORFs, car dans le cas général, on considère que des gènes chevauchants n'existent pas. Une portion de séquence d'ADN ne peut-être codante (correspondre à un véritable gène) que dans une phase de lecture.
Les faux-positifs, détectés simplement par hasard, sont donc en général ORFs de petite taille : proche des 60 codons que vous avez fixé dans les paramètres de la recherche d'ORF, ou généralement moins de 100 codons.
MAIS ATTENTION, des faux positifs peuvent parfois faire un peu plus de 100 codons !
La limite de 100 codons n'est pas une limite stricte !
Si vous avez un ORF SANS homologue, qui fait un peu plus de 100 codons (par exemple votre ORF1 qui fait 103 codons) ce n'est pas automatiquement un ORFan parce que la taille est > à 100 codons !
Il faut AUSSi regarder les chevauchements !
Si l'ORF est chevauchant avec un ORF qui lui a des homologues (ex ORF1 chevauche ORF3 qui a des homologues) alors c'est un faux positif.
Un ORFan est un véritable gène, codant une protéine, par conséquent il a de forte chance d'être de grande taille (> à 100 codons) et il ne sera pas chevauchant avec un autre ORF ayant des homologues.
MAIS là aussi, ATTENTION, vous pouvez avoir un ORFan probable de moins de 100 codons, SI cet ORF est incomplet, donc situé à une extrémité du fragment d'ADN. Mais dans ce cas, il ne serait chevauchant avec aucun autre ORF ayant des homologues.
A propos: Est-il nécessaire d’utiliser des sous-titres dans l’analyse des résultats afin de séparer les paragraphes ?
==> Oui, c'est mieux de donner un titre à chacun de vos paragraphes.
Bon travail,
Bénédicte WIRTH