Forum "Recherche d'homologues: BLAST"

Thread subject: Détermination de la valeur seuil

[ Return to forums ]
Détermination de la valeur seuil
MARFE
1 Mar 2011 11:46
Non evaluated contribution
Bonjour,

J'aimerais savoir comment déterminer correctement une valeur seuil pour savoir si les séquences sont homologues ou non-homologues.
Je sais que si les E-values évoluent de manière graduelle, on fixe la valeur seuil à 1e-10 or dans mes résultats, j'ai un saut :
ref|ZP_06491850.1|  4-oxalomesaconate hydratase [Xanthomonas c...   150    1e-34
ref|ZP_03265753.1|  hypothetical protein BH160DRAFT_2030 [Burk...  87.8    2e-15

Merci d'avance
C_Brochier_11
1 Mar 2011 12:22
Game master
Bonjour,

Cette remarque sur le fait de fixer la valeur seuil à 10-10, m'inquiète. Quel sens biologique a t elle? Je n'ai pas le souvenir qu'on vous ait conseillé d'appliquer cette règle.

Pour déterminer la valeur seuil vous devez examiner les alignements deux à deux du blast et voir à partir de quelle limite vous pensez que les similarités que vous observez sont hasardeuse et ne sont plus signe que les séquences sont homologues.

Céline Brochier

PS Signez vos emails svp
MARFE
1 Mar 2011 13:30
Non evaluated contribution
Bonjour,

C'est une étudiante en BioCel qui me l'a dit pour m'aider car je pataugeais un peu et ca me bloquais pour la suite de l'annotation.
Mais il se peut que pour moi 2 séquences ne sont plus homologues alors que pour vous si?
Le fait qu'il faut plus de 30% d'acides aminés identiques dans un alignement de plus de 100 acides aminés doit m'aider pour choisir la valeur seuil? Il n'y a pas de règle précise quant à cette détermination?

Désolée, Marion Sarkissian
C_Brochier_11
1 Mar 2011 13:44
Game master
Bonjour,

Déterminer si deux séquences sont homologues ou non est une analyse difficile. Pour les cas non ambigus, il n'y a pas de problème, mais il existe des cas limites. Et pour traiter ces cas limites, il n'y a pas de recettes miracles (ou de valeurs magiques). Tous ce que vous mentionnez ne sont que des indications qui doivent vous alerter. Par exemple, il est vrai que pour des evalues inférieures à 10-10, les cas ambigus sont assez rares (mais pas inexistants !).
Pour des valeurs plus élevées vous entrez dans une zone où les ambiguïtés sont plus fréquentes et les cas plus difficiles à trancher.

C'est pour cela qu'en cours et en TP nous avons insisté sur l'importance de regarder un ensemble de paramètres (et principalement les alignements 2:2)avant de prendre votre décision. Décision qu'il faudra de toute façon argumenter.

Cet exercice est important et vous entraine. En effet, une mauvaise détermination des homologues est un cas fréquent de problème grave dans les analyses. Il n'y a pas de miracle, il faut s'entrainer pour arriver à faire cet exercice de mieux en mieux et de plus en plus rapidement.

Vous pouvez faire le tour des cas rencontrés par vos camarades et vous verrez que cette evalue seuil n'aurait jamais (ou très rarement) été un choix pertinent.

Céline Brochier
MARFE
1 Mar 2011 14:40
Non evaluated contribution
Merci beaucoup pour vos indications, je pense avoir trouvé une valeur seuil correcte, je l'espère.
J'ai remarqué quelque chose en observant mes alignements 2 à 2 qui n'a rien à voir avec la valeur seuil mais ca m'intrigue. Une de mes séquences alignés a pour nom : "hypothetical protein" (Numéro d'accession : XM_001546799.1). Qu'est-ce que cela signifie? Que les auteurs ne sont pas sûrs que la séquence code réellement pour une protéine?

Marion Sarkissian
C_Brochier_11
1 Mar 2011 14:44
Game master
Cela peut être effectivement le cas, mais cela peut aussi vouloir dire que le gène code pour une protéine qui n'a pas encore été caractérisée. En fait tant qu'une protéine n'est pas caractérisée ou montrée comme existant réellement dans une cellule, cela reste une protéine prédite par bioinformatique et donc, hypothétique/putative.

Céline Brochier