Forum "Recherche d'homologues: BLAST"

Thread subject: pas d'homologue

[ Return to forums ]
pas d'homologue
oralbre
12 Apr 2010 23:24
Non evaluated contribution

Bonjour,

j'ai réalisé plusieur blast: blastp vs swissprot, blastp vs NR, blastp vs ENVR, blastx vs NR et tblastn vs nr.
Mis à part quatre homologues trouvé sur envr ont un identique au mien je ne trouve aucun homologues.
Cela veut il dire que je ne peut pas continuer mon analyse plus loin (rapport taxonomique, alignement, arbre)?
Il me semble bizare de trouvé un domaine protéique dont la fonction est représenté plusieurs fois sur blast vs nr.
c_petitjean_10
13 Apr 2010 9:55
Game master
Bonjour,

Je ne comprends pas votre message, je pense qu'il manque un mot...

Mais si vous avez 4 homologues, vous pouvez déjà travailler.

Bonne annotation.

C. Petitjean
oralbre
13 Apr 2010 10:38
Non evaluated contribution
oui en effet désolé
aprés les différens blast que j'ai réalisé je ne trouve aucun homologue sauf 3 sur le blastp vs envr. A partir de ces homologues  est il possible de faire un arbre sachant qu'en plus je n'ai aucune taxonomie ( car mais 3 homologues sont du metagenome marins)?
De plus je n'arrive pas à interpreter le fait que je trouve un domaine dont la fonction est très représenté dans les séquences trouvées sur blastp vs nr mais qui ne sont pas homologues à ma séquence.
c_petitjean_10
13 Apr 2010 11:17
Game master
Bonjour,

Comme C. brochier et moi même, avons déjà répondu, à partir de 4 séquences, vous pouvez faire une analyse phylogénétique.
Vous n'aurez certes pas beaucoup d'information taxonomique grâce au séquences environnementales, mais vous pouvez trouver des informations sur ces séquence dans leur fiches Genbank et comparer à ce que vous savez de votre séquence.

Pour vos interrogation sur le domaine protéique de votre séquence. Je ne comprends pas vraiment ce qui vous pose problème.
Vous avez trouvé un domaine protéique sur votre séquence. Très bien.
Vous avez comme résultats d'un blastp contre la NR des séquences portant le même domaine, cela me semble plutôt cohérent?

oralbre
13 Apr 2010 11:28
Non evaluated contribution
comment accés au fiche genbank de ces séquences
?
oralbre
13 Apr 2010 11:29
Non evaluated contribution
j'ai trouvé c'est bon merci beaucoup.
BoyLlo
19 Apr 2010 22:21
Non evaluated contribution
Bonjour,
Suite au blast p contre nr, et contre swissprot le meilleur score obtenu est de 41 et la meilleure e-value est de 0,001. J'en déduis donc que  se ne sont pas des séquences homologues. J'ai donc fais un blast P contre la banque environnementale est comme prévu j'obtient des séquence avec de très fortes e-value.
J'ai réalisé ensuite un blast X pour savoir si l'orf choisi est valable je n'obtiens alors aucun homologue Que dois-je en déduire?
J'ai fait aussi un t blast n  pour savoir si il existait des homologues parmis les séquences non annotée je ne trouve  là encore aucun homologue Que dois je en déduire ?
Merci de votre aide


c_petitjean_10
20 Apr 2010 9:52
Game master
Bonjour,

Tout d'abord, attention, l'Evalue n'est pas le seul critère pour définir l'absence d'homologie.
Mais dans votre cas, il est probable que les séquences que vous trouvez avec un blast contre la NR ne soient pas des homologues en effet.

Pour ce qui est du reste de votre question, la réponse est dedans.
Quelle est la différence majeur entre les blast pour lesquels vous trouvez des homologues et ceux pour lesquels vous ne trouvez pas d'homologues?

C. Petitjean
BoyLlo
23 Apr 2010 13:44
Non evaluated contribution
Bonjour
Merci pour votre aude mais je voudrais plus savoir si: pas d'homologue sur le blast X vs nr signifie que j'ai choisie le bon ORF ?
Je voudrais savoir aussi si pas d'homologue sur t blast n signifie pas d'homologues dans les séquence non annotées ?
c_petitjean_10
23 Apr 2010 14:36
Game master
Bonjour,

Vous avez fait différentes recherches avec différents algorithmes sur différentes banques et vous n'obtenez pas les mêmes resultats. Jusque là tout me semble cohérent.

Je pense que l'important est que vous compreniez en quoi diffèrent ces recherches.

Vous utilisez différents algorithmes (blastp, blastx, tblastn...) contre différentes banques de données (NR, swissprot, environnementale...) à partir de séquences de différentes nature (protéique et nucleique).
De ces recherches vous obtenez donc différents resultats, qui vous apportent des informations différentes.

Vous devez bien comprendre ce que fait chaque algorithme blast pour pouvoir en analyser le résultat. Pour cela, je vous renvoi au cours, à la foire au question, aux règles du jeux, au site NCBI/Blast...

Une fois que vous aurez compris la différence entre ces différentes recherches, je pense que vous pourrez répondre à vos questions.

Enfin, je pense qu'il y a une erreur dans votre question:
"pas d'homologue sur le blast X vs nr signifie que j'ai choisie le bon ORF ? "
Si vous n'avez pas d'homologues, il me semble difficile de conclure que vous avez l'ORF codant.

Une dernière chose, je pense qu'il y a une confusion:
les resultats du tblastn dépendent de la banque contre laquelle vous effectuez la recherche. En l'occurrence, le tblastn s'utilise contre une banque nucléotidique, ce qui ne veux pas dire "séquences non annotée"

Je peux répondre à vos questions précises, mais le forum ne peut remplacer un cours.


Bonnes recherches.

C. Petitjean
Moroldo
23 Apr 2010 16:13
Non evaluated contribution
Bonjour!
J'ai fait un BLASTp de mon sequence (GOS_1237030.23 Sargasso Sea station 1) mais je n'ai trouve aucune homologues (ni contre nr ni contre env_nr), j'ai aussi fait la recherce des domaines proteiques avec InterPro, ProSite, PFam et MyHits Motif Scan (propose par la site de PFam) mais je n'ai eu rien. Mais quand j'ai realise un BLASTx et tBLASTn j'ai recu plus que 1000 sequences homologues avec un e-valeur fortement inferieur a 1. Ca me donne l'impression que mon sequence doit etre quand meme codant parce que autrement il ne serait pas si bien conserve.
J'utilise l'annotathon en anglais at dans la FAQ j'ai trouve un astuce que je n'ai pas vu dans le version francais: "analysis of the longest ORF shows no homologs (...) and no conserved protein domains => discuss if the DNA is coding or not and select the appropriate STATUS. If the ORF is very long (say over 200aa), then it is likely that this ORF does indeed code for a protein: it is then called an ORFan - an ORF with no known homologs! ... Only proceed with the analysis of a lesser sized ORF, if it is largely overlapping with a longer ORFan and shows BLAST homologs or conserved protein domains. This is not so common but has been seen a few times in the GOS data (the real ORF, with clear homology to known proteins, is contained in a larger false positive ORF with no matches, usually antisense)."
Ca veut dire que si je trouve un ORF dans l'autre sense qui se chevauche completement avec mon ORF original et qui a beaucoup des homologues (chez les memes taxons trouves par BLASTx et tBLASTn) et un domain proteique conserve (mais unintegrated) je peux continuer mon analyse avec ce nouvel sequence? J'en ai trouve un avec des resultats BLAST assez jolis et un domaine proteique conserve mais je voudrais savoir si je peux travailler sur celui-la avant que je me lance dans une analyse complet.
Mes resultats bruts sont visible dans l’annotation que j’ai deja fait quelquefois aussi dans la partie ‘analyse des resultats’.
Merci a l'avance et excusez-moi pour les fautes grammatiques!
Noemi Szili
c_petitjean_10
25 Apr 2010 18:29
Game master
Bonjour,

Tout d'abord, merci pour la précision de votre post.

Je comprend votre démarche mais la règle n°1 pour le choix de l'ORF à analyser est "le plus long".
Si vous ne trouvez pas ou peu de resultats pour celui ci, c'est déjà un resultat que vous devez analyser. (blastx, tblastn... ce que vous avez bien fait)
Et dans tout les cas, vous ne devez pas changer d'ORF à analyser.
Par contre, vous pouvez en effet, faire une préanalyse du reste de votre séquence pour justifier votre choix de le considérer comme non codant par exemple.

Juste une précision, le tblastn doit être fait à partir d'une séquence protéique, donc probablement votre ORF, donc si vous trouvez des resultats c'est bien sur la base de votre ORF. Pas sur le reste de la séquence nucléique.

Je vous conseille donc de continuer l'analyse de votre fragment en expliquant pourquoi vous le considéré comme codant ou non, et pour justifiez cela, de vous aider de toutes les analyses que vous avez fait.


Si mon message n'est pas clair, ou que vous ne comprenez pas quelque chose, n'hésitez pas à demander.


Bonne annotation.

C. Petitjean
Moroldo
25 Apr 2010 20:02
Non evaluated contribution
Bonjour,
Merci beaucoup pour votre réponse, au moment je pense que je le comprends, mais tous sera plus clair quand j'avance encore un peu avec l'analyse.
Mais concernant la séquence entiere que j'ai (et pas seulement l'ORF plus long) est-ce que je peux dire que c'est codant apres une préanalyse du reste de la séquence comme vous l'avez proposé meme si l'ORF le plus long choisi lui meme n'est pas codant (ou comme dans ce cas peut etre contiens un partie codant antisense)? Et si j'ose á dire que ma séquence est codant est-ce que mon justification serait accepté meme si il consiste des analyses des autres ORFs?
Merci beaucoup
Noémi Szili
c_petitjean_10
25 Apr 2010 20:20
Game master
rebonjour,

Je pense que vous pouvez mettre codant, mais il faudra bien justifiez que c'est la séquence et non l'ORF que vous étudiez qui est codante.
(Le formulaire de l'annotathon vous demande si "la séquence est codante")
Mais j'ai un doute, je demanderais donc demain au reste de l'équipe enseignante, et je vous dirais.
Dans tout les cas, vous pouvez continuer votre analyse, et si vous expliquez et justifiez bien, il n'y a pas de raison que ce ne soit pas accepté.


N'hésitez pas à redemander des précisions si je ne suis pas claire.

Bonne annotation.

C. Petitjean
maxime
27 Apr 2010 20:33
Non evaluated contribution
bonsoir !!!
j'ai rencontrer un petit problème en ce qui concerne ma séquence d'oral de vendredi. j'ai choisi l'ORF le plus long (500 bases = 153 aas ) incomplet en C-ter uniquement

l'analyse interpro et prosite je n'ai trouver aucun domaine référencé .

le blastp contre NR , swissprot et env : je n'ai trouver aucun homologue;

Avec le Tblast n contre env qui a partir de ma séquence protéique recherche des region d'adn qui coderai pour ma séquence j'ai trouver 2 homologues dont l'un correspondait a ma séquence ( car 100 % d'identité et e-value = 9e-151 ) qui est un marine métagénome et un autre homologue qui est aussi un marine métagénome avec une e-value a 1e-51 et a peu pret 50% d'identité et un alignement correct.
J'ai ainsi trouvé un homologue a ma séquence mais jarrive pas a savoir si il s'agit d'une séquence codante ou non parce que comme on compare avec une banque nucléique , sa veut juste dire apres la traduction le blast a trouvé des region d'adn qui correspondait a notre requète ,  mais est ce que ce qui est référencé dans les banque nucléiques c'est que des séquences D'ADN codante.

APRes jai donc fait a partir du Tblastn contre env le lineage report , dont ils m'ont donné un organisme report , j'ai sélectionné les deux séquence et j'ai réaliser une phylogénie avec les 2 séquences mais a partir de la séquence d'ADN et non de la séquence protéique. Et dans l'arbre notre séquence étudié sort avec l'organisme a 100 % d'identité et dans une autre branche on a l'homologue . Est ce que c'étai utile de faire sa ???

Je sais pas si j'étais tres clair !!!
merci de votre réponse !!
oral_noemi
28 Apr 2010 11:23
Non evaluated contribution
Bonjour,

Apres avoir discute mon question avec la reste de votre equipe vous allez me repondre ici?
Ceependant j'ai refait le tBLASDTn sur la traduction de mon orf. Est-ce que je peux construire un arbre a propos du rapport taxonomique de cet analyse? Si oui, mon problem est que tous mes resultats sont des genomes entieres donc si je demande les sequences en format FASTA j'ai toujours 2-3 pages d'une seule genome. Pour faire l'alignement je dois chercher le partie aligne dans chaque chromosome ou genome par les numeros start et stop donnes par les alignements BLAST?

Merci beaucoup, bon journee!

Noemi Szili
c_petitjean_10
28 Apr 2010 14:35
Game master
Bonjour Noemie,

Je suis vraiment désolée, j'ai oubliée de répondre à votre question hier, après en avoir discuter.

Ce que je vous avez dis est correct, si la séquence est codante même sur un ORF qui n'est pas celui que vous étudiez, vous devez indiquer "séquence codante".

Pour ce qui est de l'utilisation des tblastn, en effet, vous n'avez que des séquences nucléique, et souvent de génomes ou chromosomes complets.
Dans ce cas, le mieux, si vous voulez récupérer ces séquence, est de copier coller à partir des alignements 2 à 2 du blast, la séquence protéique.
Et ainsi reconstruire une séquence au format fasta.
Sinon vous allez avoir des séquences nucléiques, et ce n'est pas ce qu'on vous demande de traiter.

Bon courage et encore une fois, toutes mes excuses.

C. Petitjean


c_petitjean_10
28 Apr 2010 14:39
Game master
Bonjour Maxime,

Pour répondre à votre questions, les séquences présentes dans les banques nucléiques NR et environnementales, sont les séquences nucléiques brut avant annotation. Ce qui peut vous amener à tomber sur des génomes complets (comme c'est arrivé à Noémie, qui a poster dans ce même forum).

Dans votre cas, en faisant un tblastn contre la banque environnementale, vous retrouvez bien votre séquence, et une autre, ce qui vous fait une seule séquence homologue, et ce n'est pas suffisant pour pousser l'analyse phylogénétique plus loin.

Par contre, n'hésitez pas a utiliser ces analyses pour expliquer l'annotation de votre ORF.

Bonne annotation.

C. Petitjean
oral_noemi
29 Apr 2010 15:02
Non evaluated contribution
Bonjour!

Ce fois ci ma question concerne mon sequence pour l'oral. J'ai conduit tout les analyses BLAST raisonables sur nr et env_nr aussi mais j'ai au tres peu des resultats avec e-values entre 1 et 10 et un score assez bas (meme ceux de BLASTx sur le sequence entiere) donc je doute que il y a des vrais homologues. Quand meme ou c'etait possible j'ai essaye a construire un arbre a partir du rapport taxonomique donne par BLASTp mais c'etait impossible (« Warning: Gblocks returned the following warnings: GBlocks did not find any relevant alignment site and the workflow has been stopped. This usually means the alignment is not reliable.If you believe it is, you can either try again your phylogeny workflow without GBlocks or with less stringent GBlocks parameters. If you believe the alignment found is bad, you can try to improve it either by yourself using alignment editors or with another alignment program. « ). Dans ce cas je peux conclure que ma sequence est non codant et je suis pret ou il y a encore des analyses a conduire pour verifier que c'est vraiment non codant?

Merci beaucoup,

Noemi Szili
c_petitjean_10
29 Apr 2010 15:14
Game master
Bonjour,

Comme vous me dites avoir conduit toutes les analyses blast sur NR et la banque environnementale, si vous les avez bien faites, je pense que vous avez fini vos analyses.
Par contre, pour justifier que votre séquence est non codante vous devrez nous présenter ces resultats, et les expliquer.

Juste une liste des analyses possibles:
blastp
blastx
tblastn
sur les banques NR et environnementales, avec la séquence nucléique ou protéique adaptée
Recherche de domaines sur interpro.

Bonne rédaction!
C. Petitjean
Moroldo
29 Apr 2010 15:25
Non evaluated contribution
Bonjour,

Merci beaucoup, j'ai deja fait tous ce que vous avez liste.
Cependant concernant mon autre sequence en question (Moroldo/3) vous m'avez conseille a essayer construire un arbre a partir des resultats donne par BLASTx (le seule qui m'a donne des jolis resultats). Qui me derange est que ces resultats que j'ai au sur le sequence entiere ne se chevauche pas avec l'ORF antisense que j'ai trove dans mon ORF originel et qui a beaucoup des homologues par un analyse BLASTp. Les Resultats de BLASTx couvrent le sequence entiere a peu pres au 450ieme base at l'ORF antisense est de 574-888. Est-ce que c'a un significance ou donne un contradiction importante ou je peux simplement continuer avec les sequences de BLASTx pour l'arbre et avec l'ORF antisense pour prouver que meme si l'ORF le plus long est non codant, le sequence entiere est codant?

Merci beaucoup,

Noemi Szili
c_petitjean_10
29 Apr 2010 16:43
Game master
Bonjour,

Si je me souviens bien, je pensais que vous aviez fait un tblastn sur cette séquence et que c'était ces résultats que vous vouliez utiliser pour faire un arbre?

Par contre, si vous n'obtenez que des résultats avec un blastx, il est logique que les séquences ne s'alignent pas avec l'ORF le plus long (celui que vous avez du choisir).
Dans ce cas, vous n'êtes pas obligé d'analyser l'ORF pour lequel vous avez des résultats en blastx. Mais vous pouvez les utilisez pour dire que votre séquence est probablement codante.

Je ne comprends pas très bien votre explication sur vos résultats de blastx.
Pouvez-vous me donner le numéro de votre séquence? Je vais essayer de comprendre mieux le problème.

C. Petitjean
Moroldo
30 Apr 2010 10:39
Non evaluated contribution
Bonjour!

C'est encore le sequence dont je vous ai deja pose beaucoup de question, ou j'ai trouve un ORF apparemment codant dans l'ORF plus long qui n'a aucun homologue lui meme (GOS_1237030.23 Sargasso Sea station 1). Je sais que a partir de ca je peux conclure que mon sequence peut etre codant mais l'ORF le plus long est non codant. Mais quand meme seulement pour mieux comprendre la phenomene j'ai compare les resultats BLASTx sur le sequence entier qui donne beaucoup des homologues avec ceux de ce plus petit ORF par lequel j'ai decide que le sequence est vraisemblablement codant. C'est possible que j'ai fait un faute dans la logique mais j'ai attendu que les parties de mon sequence entiere ou le BLASTx a trouve pas mal des homologues vont correspondre a celle la ou ce plus petit ORF se trouve parce que avec ce nombre des homologues tout les deux me semble bien conserve. Ou c'est possible, que l'ORF traduit en protein correspond aux autres proteines mais son sequence nucleique original n'a pas quand meme des homologues dans ce region quand analyse par BLASTx?

Je ne suis pas sur que j'y suis arrive a le bien expliquer...

Excusez-moi et merci beaucoup,

Noemi Szili
c_petitjean_10
30 Apr 2010 16:25
Game master
Bonjour,

Ne vous excusez pas! Vous essayez de comprendre et c'est très bien!
Malheureusement, c'est moi qui n'arrive pas à comprendre votre situation je crois.
Je viens de faire quelques tests sur votre séquence, et je n'arrive pas à retrouver les problèmes dont vous parlez.

Lundi matin, vous êtes convoquée en oral jusqu'à 10h, Vous est-il possible d'attendre jusqu'à la fin?
Ensuite, il y aura au moins une partie de l'équipe enseignante et nous pourrons essayer de vous répondre. Je pense que ce sera plus facile de se comprendre en direct.

Je suis désolée de ne pas arriver vous répondre par le forum!

C. Petitjean.