Bonjour,
j'ai dû rater votre précédent mail. J'allais répondre aujourd'hui à votre mail d'hier, mais sur l'annotathon c'est effectivement mieux, toute la promo profitera ainsi de la réponse.
- "il faut connaitre la fréquence attendue des nucléotides : fa, ft, fc, fg (odds) ou pour l'autre exemple la fréquence de cette base dans l'ensemble du génome (Fb) mais comment connaissons nous cette fréquence ? (Diapos 46 et 50)"
==> Dans les deux exemples donnés dans le cours, le principe de la construction de la matrice poids/positions est exactement le même : il faut effectivement passer par la construction d'une matrice des fréquences relatives (cad de la fréquence observée du résidu (Nt ou aa selon le cas) à une position donnée/fréquence attendue de ce résidu (odds)). Il faut donc diviser la fréquence observée du résidu à une position donnée par la fréquence attendue de ce résidu dans le génome.
Dans les deux exemples donnés, effectivement, ce calcul n'est pas effectué, et vous n'avez pas les valeurs des fréquences attendues, donc vous ne pouvez pas effectuer ce calcul.
Ce qu'il faut savoir :
1) Il faut connaître et savoir décrire le principe de la construction d'une matrice poids/positions (matrice poids/positions des Log-odds), et savoir utiliser cette matrice pour la recherche de signaux dans une séquence.
2) Si jamais on vous demande de construire (ou de compléter) une matrice poids/positions des fréquences relatives à partir d'une matrice de fréquences, les valeurs des fréquences attendues pour chaque résidu vous seront données dans l'énoncé.
3) Si jamais ces valeurs ne vous étaient pas données dans l'énoncé, alors vous considérez une équirépartitions des résidus. Par exemple, pour une séquence nt, on considèrerait alors une fréquence de 25% pour chaque nt.
- "Sur la diapo 48, à propos du seuil significatif je ne comprends pas ce qu'on accepte lorsque la p-value ≤ 0.05 ?"
==> vous calculez un certain nombre de scores. Il faut savoir si le score calculé est significatif ou non. Pour cela, on calcule une p-value qui sera associée à chaque score et qui permettra de déterminer si le résultat observé est significatif ou non.
La p-value = n/N, cette valeur sera donc comprise entre 0 et 1. On accepte l’observation si la p-value ≤ 0.05, cela signifie que l'on considère que le score obtenu est significatif, si la p-value ≤ 0.05, cad qu'on considere que cette fenetre contient bien une seq RBS ou une TATA box (suivant l'exemple).
En procédant ainsi, cad en acceptant l’observation si p-value ≤ 0.05, il persiste un risque d’erreur dans 1 cas sur 20, ce qui est acceptable.
En espérant que ceci est plus clair,
Bien cordialement,
BON travail
BW