GOS 2046020

From Metagenes
Warning: this metagenomic sequence has been carefully annotated by students during bioinformatics assignments. These quality annotations are therefore the result of a teaching exercise that you are most welcome to amend and extend if necessary!


Sequence
CAMERA AccNum : JCVI_READ_1092963660417
Annotathon code: GOS_2046020
Sample :
  • GPS :17°28'33s; 149°48'44w
  • Polynesia Archipelagos: Moorea, Cooks Bay - Fr. Polynesia
  • Coral Reef (-1.4m, 28.9°C, 0.1-0.8 microns)
Authors
Team : Biochimie 2011
Username : meljess
Annotated on : 2011-05-22 19:57:22
  • Paras Mélanie
  • Teycheney Jessica

Synopsis

Genomic Sequence

>JCVI_READ_1092963660417 GOS_2046020 Genomic DNA
GGCCCGGCGGGCGCGGCCGGCTACCGACGGCGAGCGCGTCAGCGCCGCGCTGCTCCGGGGTCAGGGGCACGCCGTGGCGGAGGTCCTGCAGCTCCCGACC
TACAACATGCGCATGGTCCGGCTTTTCAACCCGTGGGGGCGGCAGGACCGCCGGTTCAGAGGGCTCGGCGTCAAATATGTGTCTGTGGCGTACGCCTCTC
TCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCGCTTGGCGCTTGCGGTATCCCGTGCCACACGACTGGATGCGATCGCGTGCTCCGCAGTGCTCCA
CGGCCGCCCGCGGCTTTTTTATGTGTGTGTGCAGCGCGGCCGGCGCCGCACGGTATGCCAAGGTTGGTGATTCCGTGGCCACGGGTATAGGCTCCGCCTT
GGTCGCATGCCTGTCCTCAGCGGTTAGGGGGTGGGCGGCGAGGGAGTTCCAAGATTGGCCGGTGGAGCTAGGGTGGCCAACGCGGAGCAGCATGCATGCG
CGCCGTCAAGCCCTACGCACCAATGATGGAGCCGATGGTGGCAGGACGGTGACGCGATTCAGTGGAATCTGTTGACATTCCCAATCGCCTTGGCGCCATA
ATGACGACGGCGGGACCTCCCAGGGGGCCGAGCCGGCACTCTGCCGTCTGCACCCCTCGGAGGGGTGCGGCATTGATGCGCTGGCGCGCGGCCAGCCTTC
CGCGCCGGCACTACTCGGGGTCGTAGCGGTGGATCAGCAGCCAGCAAAGAAGAGCGACCGACGGTACCGGCCGCAGCAGATCATCAGACTCCCCATGCGC
TCGGTGCACTCTGGAGCGGCCGATGCACGATGAGCCGAGTCCGTGTGTGATGGGAGTTTGGCTCAAGAAAACGTTTTCTGGGCTCTCTCTCCTGCTCTGT
GGGCGCGCGATTTCATTTGTCTTTTTTCCGCTTTAGTGTTTGGC

Translation

[3 - 572/944]   direct strand
>GOS_2046020 Translation [3-572   direct strand]
PGGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCLWRTPLSLSLSLSLSLSLAWRLRYPVPHDWMRSRAPQCST
AARGFFMCVCSAAGAARYAKVGDSVATGIGSALVACLSSAVRGWAAREFQDWPVELGWPTRSSMHARRQALRTNDGADGGRTVTRFSGIC

[ Warning ] 5' incomplete: does not start with a Methionine

Annotator commentaries

Nous avons choisi l'ORF le plus long avec "any codon".Celui-ci commençant au nucléotide 3,on ne sait pas s'il y a un codon stop en amont,donc si il est complet.En effet comme il n'y a que deux nucléotides en amont ,cela ne suffit pas pour faire un codon donc nous ne savons pas si l'ORF determiné est compris entre deux codons stop et donc complet.L'ORF correspondant avec la recherche "codon alternatifs" commence au nucléotide 177.Cependant nous ne pouvons pas confirmer si c'est réellement un codon d'initiation,car notre recherche ne nous à pas permis de trouver d'homologues et donc de faire un alignement multiple. En effet, si lors des alignements multiples avec des protéines homologues on s'était rendu compte que l'alignement débute à partir de la position 177 de notre protéine, cela aurit voulu dire que ce codon est bien un initiateur.


L'absence de domaine fonctionnel dans interpro ainsi que d'homologues dans blast ne nous permet pas d'attribuer de fonction à notre protéine .Cependant nous avons une information quant à sa localisation dans la cellule.Celle-ci possédant un domaine transmembranaire ,nous savons quelle est soit intégrée dans la membrane soit associée à elle.

Le fait qu'on ne trouve pas de domaine fonctionnel ne veut pas pour autant dire qu'elle n'en posséde pas.Il se peut que la fonction associée à notre séquence protéique n'ai jamais été caractérisée.


Malgré notre recherches dans blast et nos alignements multiples ,nous n'avons pas trouvé d'homologues à notre protéine.Cependant, nous pensons que notre ORF n'est pas un faux positif car non seulement la protéine correspondante est longue (190 acides aminés),mais aussi car nous avons la présence d'un domaine transmembranaire.


Nous ne pouvons donc pas établir de phylogénie pour notre séquence.


ORF finding

PROTOCOLE:

SMS orf finder.

Parametres :on a choisi code génétique standard; ORF d'au moins 60 codons; trois cadres de lecture du brin direct et indirect; ORF commencant par atg, gtg, ctg, ttg (codon alternatif) puis nous avons refait la même recherche en changeant le dernier paramètre en "any codon".



ANALYSE DES RÉSULTATS:


Afin de trouver les différents ORFs, nous avons utilisé ORF finder grâce au logiciel SMS.

En utilisant les codons alternatifs, on obtient 7 0RFs potentiels(un pour les cadre de lecture +1, +2,-1,-2 et -3 et deux ORFS pour le cadre +3).

En utilisant "any codon", on obtient 12 ORFs possibles : un pour le cadre +2, deux pour les cadres +1, +2,-2,-3 et trois pour le cadre -2.Cette grosse différence est dûe au fait qu'avec cette recherche, on ne restreint pas le type du codon initiateur donc souvent les ORF sont plus longs et des nouveaux apparaissent.


Pour déterminer celui sur lequel nous allons poursuivre nos recherches, nous nous sommes basées sur le principe que l'ORF le plus probable est le plus grand. Au départ, avec la recherche "codon alternatif", on avait retenu l'ORF du cadre de lecture -2 mais on s'est rendu compte que non seulement avec la recherche "any codon", celui ci démarrait plus tôt mais aussi qu'un nouvel ORF beaucoup plus grand était proposé. Nous avons donc choisi l'ORF numéro 1 du cadre de lecture +3 avec la recherche "any codon". Cet ORF va du 3ème au 575ème nucléotide et la protéine correspondante finie par un codon stop.

Cet ORF est donc incomplet en 5' car il n'y a en amont que deux nucléotides qui ne suffisent pas pour faire un codon. Ainsi on ne sait pas si en amont de notre codon initiateur nous avons un codon stop signifiant que notre ORF est complet ou si notre ORF est interrompu en 5'. Cela pourra être déterminé lors des alignements deux à deux dans blast ou lors des alignements multiples. Nous ne pouvons pas calculer le poids moléculaire de cet ORF car comme il est incomplet cela n'a aucune valeure.

L'ORF choisis se situé sur le cadre +3 de la recherche any-codon. Il fait 573 nucléotides ce qui correspont à une protéine de 191 acides aminés.


Le choix de notre ORF devra être confirmé ou non au cours de notre analyse et notamment lors de la recherche de domaines protéiques et d'homologues.


RÉSULTATS BRUTS:

Recherche avec "alternative codon"(brin direct)

>ORF number 1 in reading frame 1 on the direct strand extends from base 133 to base 390.
GTGGGGGCGGCAGGACCGCCGGTTCAGAGGGCTCGGCGTCAAATATGTGTCTGTGGCGTA
CGCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCGCTTGGCGCTTGCGGT
ATCCCGTGCCACACGACTGGATGCGATCGCGTGCTCCGCAGTGCTCCACGGCCGCCCGCG
GCTTTTTTATGTGTGTGTGCAGCGCGGCCGGCGCCGCACGGTATGCCAAGGTTGGTGATT
CCGTGGCCACGGGTATAG

>Translation of ORF number 1 in reading frame 1 on the direct strand.
VGAAGPPVQRARRQICVCGVRLSLSLSLSLSLSLSLGACGIPCHTTGCDRVLRSAPRPPA
AFLCVCAARPAPHGMPRLVIPWPRV*

>ORF number 1 in reading frame 2 on the direct strand extends from base 50 to base 370.
CTGCTCCGGGGTCAGGGGCACGCCGTGGCGGAGGTCCTGCAGCTCCCGACCTACAACATG
CGCATGGTCCGGCTTTTCAACCCGTGGGGGCGGCAGGACCGCCGGTTCAGAGGGCTCGGC
GTCAAATATGTGTCTGTGGCGTACGCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT
CTCTCTCGCTTGGCGCTTGCGGTATCCCGTGCCACACGACTGGATGCGATCGCGTGCTCC
GCAGTGCTCCACGGCCGCCCGCGGCTTTTTTATGTGTGTGTGCAGCGCGGCCGGCGCCGC
ACGGTATGCCAAGGTTGGTGA

>Translation of ORF number 1 in reading frame 2 on the direct strand.
LLRGQGHAVAEVLQLPTYNMRMVRLFNPWGRQDRRFRGLGVKYVSVAYASLSLSLSLSLS
LSRLALAVSRATRLDAIACSAVLHGRPRLFYVCVQRGRRRTVCQGW*

>ORF number 1 in reading frame 3 on the direct strand extends from base 177 to base 575.
ATGTGTCTGTGGCGTACGCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC
GCTTGGCGCTTGCGGTATCCCGTGCCACACGACTGGATGCGATCGCGTGCTCCGCAGTGC
TCCACGGCCGCCCGCGGCTTTTTTATGTGTGTGTGCAGCGCGGCCGGCGCCGCACGGTAT
GCCAAGGTTGGTGATTCCGTGGCCACGGGTATAGGCTCCGCCTTGGTCGCATGCCTGTCC
TCAGCGGTTAGGGGGTGGGCGGCGAGGGAGTTCCAAGATTGGCCGGTGGAGCTAGGGTGG
CCAACGCGGAGCAGCATGCATGCGCGCCGTCAAGCCCTACGCACCAATGATGGAGCCGAT
GGTGGCAGGACGGTGACGCGATTCAGTGGAATCTGTTGA

>Translation of ORF number 1 in reading frame 3 on the direct strand.
MCLWRTPLSLSLSLSLSLSLAWRLRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAGAARY
AKVGDSVATGIGSALVACLSSAVRGWAAREFQDWPVELGWPTRSSMHARRQALRTNDGAD
GGRTVTRFSGIC*

>ORF number 2 in reading frame 3 on the direct strand extends from base 648 to base 833.
CTGCACCCCTCGGAGGGGTGCGGCATTGATGCGCTGGCGCGCGGCCAGCCTTCCGCGCCG
GCACTACTCGGGGTCGTAGCGGTGGATCAGCAGCCAGCAAAGAAGAGCGACCGACGGTAC
CGGCCGCAGCAGATCATCAGACTCCCCATGCGCTCGGTGCACTCTGGAGCGGCCGATGCA
CGATGA

>Translation of ORF number 2 in reading frame 3 on the direct strand.
LHPSEGCGIDALARGQPSAPALLGVVAVDQQPAKKSDRRYRPQQIIRLPMRSVHSGAADA
R*




Recherche avec "alternative codon"(brin indirect)
>ORF number 1 in reading frame 1 on the reverse strand extends from base 250 to base 432.
CTGGCCGCGCGCCAGCGCATCAATGCCGCACCCCTCCGAGGGGTGCAGACGGCAGAGTGC
CGGCTCGGCCCCCTGGGAGGTCCCGCCGTCGTCATTATGGCGCCAAGGCGATTGGGAATG
TCAACAGATTCCACTGAATCGCGTCACCGTCCTGCCACCATCGGCTCCATCATTGGTGCG
TAG

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
LAARQRINAAPLRGVQTAECRLGPLGGPAVVIMAPRRLGMSTDSTESRHRPATIGSIIGA
*

>ORF number 1 in reading frame 2 on the reverse strand extends from base 452 to base 943.
ATGCTGCTCCGCGTTGGCCACCCTAGCTCCACCGGCCAATCTTGGAACTCCCTCGCCGCC
CACCCCCTAACCGCTGAGGACAGGCATGCGACCAAGGCGGAGCCTATACCCGTGGCCACG
GAATCACCAACCTTGGCATACCGTGCGGCGCCGGCCGCGCTGCACACACACATAAAAAAG
CCGCGGGCGGCCGTGGAGCACTGCGGAGCACGCGATCGCATCCAGTCGTGTGGCACGGGA
TACCGCAAGCGCCAAGCGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGGC
GTACGCCACAGACACATATTTGACGCCGAGCCCTCTGAACCGGCGGTCCTGCCGCCCCCA
CGGGTTGAAAAGCCGGACCATGCGCATGTTGTAGGTCGGGAGCTGCAGGACCTCCGCCAC
GGCGTGCCCCTGACCCCGGAGCAGCGCGGCGCTGACGCGCTCGCCGTCGGTAGCCGGCCG
CGCCCGCCGGGC

>Translation of ORF number 1 in reading frame 2 on the reverse strand.
MLLRVGHPSSTGQSWNSLAAHPLTAEDRHATKAEPIPVATESPTLAYRAAPAALHTHIKK
PRAAVEHCGARDRIQSCGTGYRKRQARERERERERERERGVRHRHIFDAEPSEPAVLPPP
RVEKPDHAHVVGRELQDLRHGVPLTPEQRGADALAVGSRPRPPG

>ORF number 1 in reading frame 3 on the reverse strand extends from base 198 to base 386.
TTGCTGGCTGCTGATCCACCGCTACGACCCCGAGTAGTGCCGGCGCGGAAGGCTGGCCGC
GCGCCAGCGCATCAATGCCGCACCCCTCCGAGGGGTGCAGACGGCAGAGTGCCGGCTCGG
CCCCCTGGGAGGTCCCGCCGTCGTCATTATGGCGCCAAGGCGATTGGGAATGTCAACAGA
TTCCACTGA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
LLAADPPLRPRVVPARKAGRAPAHQCRTPPRGADGRVPARPPGRSRRRHYGAKAIGNVNR
FH*
--------------------------------------------------------------------------------------
Recherche avec "any codon"(brin direct)
>ORF number 1 in reading frame 1 on the direct strand extends from base 1 to base 390.
GGCCCGGCGGGCGCGGCCGGCTACCGACGGCGAGCGCGTCAGCGCCGCGCTGCTCCGGGG
TCAGGGGCACGCCGTGGCGGAGGTCCTGCAGCTCCCGACCTACAACATGCGCATGGTCCG
GCTTTTCAACCCGTGGGGGCGGCAGGACCGCCGGTTCAGAGGGCTCGGCGTCAAATATGT
GTCTGTGGCGTACGCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCGCTT
GGCGCTTGCGGTATCCCGTGCCACACGACTGGATGCGATCGCGTGCTCCGCAGTGCTCCA
CGGCCGCCCGCGGCTTTTTTATGTGTGTGTGCAGCGCGGCCGGCGCCGCACGGTATGCCA
AGGTTGGTGATTCCGTGGCCACGGGTATAG

>Translation of ORF number 1 in reading frame 1 on the direct strand.
GPAGAAGYRRRARQRRAAPGSGARRGGGPAAPDLQHAHGPAFQPVGAAGPPVQRARRQIC
VCGVRLSLSLSLSLSLSLSLGACGIPCHTTGCDRVLRSAPRPPAAFLCVCAARPAPHGMP
RLVIPWPRV*

>ORF number 2 in reading frame 1 on the direct strand extends from base 727 to base 936.
CGGTGGATCAGCAGCCAGCAAAGAAGAGCGACCGACGGTACCGGCCGCAGCAGATCATCA
GACTCCCCATGCGCTCGGTGCACTCTGGAGCGGCCGATGCACGATGAGCCGAGTCCGTGT
GTGATGGGAGTTTGGCTCAAGAAAACGTTTTCTGGGCTCTCTCTCCTGCTCTGTGGGCGC
GCGATTTCATTTGTCTTTTTTCCGCTTTAG

>Translation of ORF number 2 in reading frame 1 on the direct strand.
RWISSQQRRATDGTGRSRSSDSPCARCTLERPMHDEPSPCVMGVWLKKTFSGLSLLLCGR
AISFVFFPL*

>ORF number 1 in reading frame 2 on the direct strand extends from base 2 to base 370.
GCCCGGCGGGCGCGGCCGGCTACCGACGGCGAGCGCGTCAGCGCCGCGCTGCTCCGGGGT
CAGGGGCACGCCGTGGCGGAGGTCCTGCAGCTCCCGACCTACAACATGCGCATGGTCCGG
CTTTTCAACCCGTGGGGGCGGCAGGACCGCCGGTTCAGAGGGCTCGGCGTCAAATATGTG
TCTGTGGCGTACGCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCGCTTG
GCGCTTGCGGTATCCCGTGCCACACGACTGGATGCGATCGCGTGCTCCGCAGTGCTCCAC
GGCCGCCCGCGGCTTTTTTATGTGTGTGTGCAGCGCGGCCGGCGCCGCACGGTATGCCAA
GGTTGGTGA

>Translation of ORF number 1 in reading frame 2 on the direct strand.
ARRARPATDGERVSAALLRGQGHAVAEVLQLPTYNMRMVRLFNPWGRQDRRFRGLGVKYV
SVAYASLSLSLSLSLSLSRLALAVSRATRLDAIACSAVLHGRPRLFYVCVQRGRRRTVCQ
GW*

>ORF number 1 in reading frame 3 on the direct strand extends from base 3 to base 575.
CCCGGCGGGCGCGGCCGGCTACCGACGGCGAGCGCGTCAGCGCCGCGCTGCTCCGGGGTC
AGGGGCACGCCGTGGCGGAGGTCCTGCAGCTCCCGACCTACAACATGCGCATGGTCCGGC
TTTTCAACCCGTGGGGGCGGCAGGACCGCCGGTTCAGAGGGCTCGGCGTCAAATATGTGT
CTGTGGCGTACGCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCGCTTGG
CGCTTGCGGTATCCCGTGCCACACGACTGGATGCGATCGCGTGCTCCGCAGTGCTCCACG
GCCGCCCGCGGCTTTTTTATGTGTGTGTGCAGCGCGGCCGGCGCCGCACGGTATGCCAAG
GTTGGTGATTCCGTGGCCACGGGTATAGGCTCCGCCTTGGTCGCATGCCTGTCCTCAGCG
GTTAGGGGGTGGGCGGCGAGGGAGTTCCAAGATTGGCCGGTGGAGCTAGGGTGGCCAACG
CGGAGCAGCATGCATGCGCGCCGTCAAGCCCTACGCACCAATGATGGAGCCGATGGTGGC
AGGACGGTGACGCGATTCAGTGGAATCTGTTGA

>Translation of ORF number 1 in reading frame 3 on the direct strand.
PGGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMC
LWRTPLSLSLSLSLSLSLAWRLRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAGAARYAK
VGDSVATGIGSALVACLSSAVRGWAAREFQDWPVELGWPTRSSMHARRQALRTNDGADGG
RTVTRFSGIC*

>ORF number 2 in reading frame 3 on the direct strand extends from base 576 to base 833.
CATTCCCAATCGCCTTGGCGCCATAATGACGACGGCGGGACCTCCCAGGGGGCCGAGCCG
GCACTCTGCCGTCTGCACCCCTCGGAGGGGTGCGGCATTGATGCGCTGGCGCGCGGCCAG
CCTTCCGCGCCGGCACTACTCGGGGTCGTAGCGGTGGATCAGCAGCCAGCAAAGAAGAGC
GACCGACGGTACCGGCCGCAGCAGATCATCAGACTCCCCATGCGCTCGGTGCACTCTGGA
GCGGCCGATGCACGATGA

>Translation of ORF number 2 in reading frame 3 on the direct strand.
HSQSPWRHNDDGGTSQGAEPALCRLHPSEGCGIDALARGQPSAPALLGVVAVDQQPAKKS
DRRYRPQQIIRLPMRSVHSGAADAR*




Recherche avec "any codon"(brin indirect)
>ORF number 1 in reading frame 1 on the reverse strand extends from base 13 to base 234.
AGCGGAAAAAAGACAAATGAAATCGCGCGCCCACAGAGCAGGAGAGAGAGCCCAGAAAAC
GTTTTCTTGAGCCAAACTCCCATCACACACGGACTCGGCTCATCGTGCATCGGCCGCTCC
AGAGTGCACCGAGCGCATGGGGAGTCTGATGATCTGCTGCGGCCGGTACCGTCGGTCGCT
CTTCTTTGCTGGCTGCTGATCCACCGCTACGACCCCGAGTAG

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
SGKKTNEIARPQSRRESPENVFLSQTPITHGLGSSCIGRSRVHRAHGESDDLLRPVPSVA
LLCWLLIHRYDPE*

>ORF number 2 in reading frame 1 on the reverse strand extends from base 235 to base 432.
TGCCGGCGCGGAAGGCTGGCCGCGCGCCAGCGCATCAATGCCGCACCCCTCCGAGGGGTG
CAGACGGCAGAGTGCCGGCTCGGCCCCCTGGGAGGTCCCGCCGTCGTCATTATGGCGCCA
AGGCGATTGGGAATGTCAACAGATTCCACTGAATCGCGTCACCGTCCTGCCACCATCGGC
TCCATCATTGGTGCGTAG

>Translation of ORF number 2 in reading frame 1 on the reverse strand.
CRRGRLAARQRINAAPLRGVQTAECRLGPLGGPAVVIMAPRRLGMSTDSTESRHRPATIG
SIIGA*

>ORF number 3 in reading frame 1 on the reverse strand extends from base 529 to base 774.
GGACAGGCATGCGACCAAGGCGGAGCCTATACCCGTGGCCACGGAATCACCAACCTTGGC
ATACCGTGCGGCGCCGGCCGCGCTGCACACACACATAAAAAAGCCGCGGGCGGCCGTGGA
GCACTGCGGAGCACGCGATCGCATCCAGTCGTGTGGCACGGGATACCGCAAGCGCCAAGC
GAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGGCGTACGCCACAGACACAT
ATTTGA

>Translation of ORF number 3 in reading frame 1 on the reverse strand.
GQACDQGGAYTRGHGITNLGIPCGAGRAAHTHKKAAGGRGALRSTRSHPVVWHGIPQAPS
ERERERERERERERRTPQTHI*

>ORF number 1 in reading frame 2 on the reverse strand extends from base 212 to base 439.
TCCACCGCTACGACCCCGAGTAGTGCCGGCGCGGAAGGCTGGCCGCGCGCCAGCGCATCA
ATGCCGCACCCCTCCGAGGGGTGCAGACGGCAGAGTGCCGGCTCGGCCCCCTGGGAGGTC
CCGCCGTCGTCATTATGGCGCCAAGGCGATTGGGAATGTCAACAGATTCCACTGAATCGC
GTCACCGTCCTGCCACCATCGGCTCCATCATTGGTGCGTAGGGCTTGA

>Translation of ORF number 1 in reading frame 2 on the reverse strand.
STATTPSSAGAEGWPRASASMPHPSEGCRRQSAGSAPWEVPPSSLWRQGDWECQQIPLNR
VTVLPPSAPSLVRRA*

>ORF number 2 in reading frame 2 on the reverse strand extends from base 440 to base 943.
CGGCGCGCATGCATGCTGCTCCGCGTTGGCCACCCTAGCTCCACCGGCCAATCTTGGAAC
TCCCTCGCCGCCCACCCCCTAACCGCTGAGGACAGGCATGCGACCAAGGCGGAGCCTATA
CCCGTGGCCACGGAATCACCAACCTTGGCATACCGTGCGGCGCCGGCCGCGCTGCACACA
CACATAAAAAAGCCGCGGGCGGCCGTGGAGCACTGCGGAGCACGCGATCGCATCCAGTCG
TGTGGCACGGGATACCGCAAGCGCCAAGCGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG
AGAGAGAGAGGCGTACGCCACAGACACATATTTGACGCCGAGCCCTCTGAACCGGCGGTC
CTGCCGCCCCCACGGGTTGAAAAGCCGGACCATGCGCATGTTGTAGGTCGGGAGCTGCAG
GACCTCCGCCACGGCGTGCCCCTGACCCCGGAGCAGCGCGGCGCTGACGCGCTCGCCGTC
GGTAGCCGGCCGCGCCCGCCGGGC

>Translation of ORF number 2 in reading frame 2 on the reverse strand.
RRACMLLRVGHPSSTGQSWNSLAAHPLTAEDRHATKAEPIPVATESPTLAYRAAPAALHT
HIKKPRAAVEHCGARDRIQSCGTGYRKRQARERERERERERERGVRHRHIFDAEPSEPAV
LPPPRVEKPDHAHVVGRELQDLRHGVPLTPEQRGADALAVGSRPRPPG

>ORF number 1 in reading frame 3 on the reverse strand extends from base 165 to base 386.
TCTGCTGCGGCCGGTACCGTCGGTCGCTCTTCTTTGCTGGCTGCTGATCCACCGCTACGA
CCCCGAGTAGTGCCGGCGCGGAAGGCTGGCCGCGCGCCAGCGCATCAATGCCGCACCCCT
CCGAGGGGTGCAGACGGCAGAGTGCCGGCTCGGCCCCCTGGGAGGTCCCGCCGTCGTCAT
TATGGCGCCAAGGCGATTGGGAATGTCAACAGATTCCACTGA

>Translation of ORF number 1 in reading frame 3 on the reverse strand.
SAAAGTVGRSSLLAADPPLRPRVVPARKAGRAPAHQCRTPPRGADGRVPARPPGRSRRRH
YGAKAIGNVNRFH*

>ORF number 2 in reading frame 3 on the reverse strand extends from base 627 to base 845.
AAAAGCCGCGGGCGGCCGTGGAGCACTGCGGAGCACGCGATCGCATCCAGTCGTGTGGCA
CGGGATACCGCAAGCGCCAAGCGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGA
GAGGCGTACGCCACAGACACATATTTGACGCCGAGCCCTCTGAACCGGCGGTCCTGCCGC
CCCCACGGGTTGAAAAGCCGGACCATGCGCATGTTGTAG

>Translation of ORF number 2 in reading frame 3 on the reverse strand.
KSRGRPWSTAEHAIASSRVARDTASAKREREREREREREREAYATDTYLTPSPLNRRSCR
PHGLKSRTMRML*

Multiple Alignement

PROTOCOLE:

  • Sur phylogény.fr, phylogénie à la carte, logiciel MUSCLE paramètres par défaut sauf case step by step ; Copier coller de toutes nos séquences(MOTIF TPLSLS + ORF);
  • Sur phylogény.fr, phylogénie à la carte,logiciel MUSCLE paramètres par défaut sauf case step by step ; Copier coller de toutes nos séquences(MOTIF RGTPWR + ORF);



ANALYSE DES RÉSULTATS:

ATTENTION CECI EST UN TEST POUR VERIFIER L'HOMOLOGIE OU NON DE NOS SEQUENCES DE BLAST


Pour vérifier si il y a homologie avec nos sequences de blast(nos deux motifs),nous effectuons un alignement multiple de toute les sequences ayant le motif TPSLS avec notre séquence protéique, puis un autre avec le motif RGTPWR.


Pour les protéines avec le motif TPLSLS, les positions conservées sont regroupées en 6 blocs [32 48] [335 349] [351 389] [393 409] [454 500] [527 547],ce qui corespond a 24% sur les 630 positions totales.

Nous observons que le motif est bien aligné avec notre séquence de la position 369 à 374.Cependant alors que tous les acides aminés à proximité de ce motif sont conservés dans les protéines de blast,nous n'observons pas d'alignement au niveau de ces acides aminés avec notre séquence.Cela veut donc dire que les protéines contenant le domaine TPLSLS ne sont pas des homologues à notre séquence.


Pour les protéines avec le motif RGTPWR ,les positions conservées sont regroupées en 4 blocs :[82 99] [285 304] [325 347] [422 437] .Ce qui corespond à 6% sur 1105 positions totales.

Pour le motif nous observons un alignement multiple entre les protéines de blast (à la position 1005 à 1010 )mais pas avec la notre.Ces protéines ne sont donc pas homologues à notre séquence.


Ainsi les motifs conservés que nous pensions utiliser pour definir les protéines homologues ou non à la notre,ne sont pas utilisables. La ressemblance entre les protéines portant ces motif et notre séquence était donc fortuite.


N'ayant pas trouvé d'homologues notre étude s'arrête là. Nous ne pouvons ni faire de rapport taxonomique ni d'arbre phylogénétique.






RÉSULTATS BRUTS:
ATTENTION CECI EST UN TEST POUR VERIFIER L'HOMOLOGIE OU NON DE NOS SEQUENCES DE BLAST 

Alignement avec motif TPLSLS:

CLUSTAL FORMAT: MUSCLE (3.7) multiple sequence alignment


GOS_204602      -------------------PGGR--------GRLPTASASAPRCSGVR--GTPWRRSC--
gi|2298249      MSKIIGIDLGTTNSCVSVMEGGQPVVITNAEGLRTTPSVVAFTKNGERLVGETAKRQAVT
gi|2263244      MGKIIGIDLGTTNSCVAVMEGGQPVVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|1538143      MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|1545026      MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|2915498      MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|1973039      MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|2255685      MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|1538546      MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|1660311      MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|1677588      MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
                                    **.        *  .*.*. *   .* *  * . .*..  

GOS_204602      ------------------------------------------------------------
gi|2298249      NADRTISSIKRHMGTDYKVNIDGKSYSPQEISAMILQKLKADAEAYLGEKVTDAVITVPA
gi|2263244      NAEKTISSIKREMGTDHKVDIDGKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|1538143      NADKTISSIKREMGSDFKVTIDEKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|1545026      NADKTISSIKREMGTDYKVAIDDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|2915498      NAARTISSIKREMGTDYKVDIDDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|1973039      NAARTISSIKREMGTDYKVDIDGKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|2255685      NAEKTISSIKREMGSDYKVTIDDKKFSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|1538546      NAERTISSIKREMGTDYKVTIEDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|1660311      NAERTISSIKREMGSDYRVTIDDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|1677588      NAERTISSIKREMGSDFRVTIDDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
                                                                            

GOS_204602      ------------------------------------------------------------
gi|2298249      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSII
gi|2263244      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
gi|1538143      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSII
gi|1545026      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSII
gi|2915498      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
gi|1973039      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
gi|2255685      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSII
gi|1538546      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
gi|1660311      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNENEQKIMVYDLGGGTFDVSVI
gi|1677588      YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
                                                                            

GOS_204602      ------------------------------------------------------------
gi|2298249      DIGDGVIEVLSTNGDTKLGGDDVDNVITNYFISDFKNKEGVDLSTDKMALQRLREAAEKA
gi|2263244      EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLADFKAKEGVDLSTDRMALQRLKEAAEKA
gi|1538143      EIGDGVIEVLSTAGDNRLGGDDFDQKITDYMLADFKAKEGVDLSTDKMALQRLKEAAEKA
gi|1545026      EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLADFKAKEGVDLSTDKMALQRLKEAAEKA
gi|2915498      EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLADFKAKEGVDLSADKMALQRLREAAEKA
gi|1973039      EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLADFKAKEGVDLSTDKMALQRLREAAEKA
gi|2255685      EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLAEFKKNEGVDLSTDKMALQRLKEAAEKA
gi|1538546      EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMIAEFKKQEGVDLSADKMALQRLKEAAEKA
gi|1660311      EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMIAEFKKQEGVDLSTDKMALQRLKEAAEKA
gi|1677588      EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMIAEFKKQEGVDLSADKMALQRLKEAAEKA
                                                                            

GOS_204602      ------------------------------------------------------------
gi|2298249      KKELSSSTTTNINLPFITATSEGPKHFELDLTRAKFEELIHDIVERTAAPVQNALKDAGL
gi|2263244      KKELSSATTTNINLPFITATAEGPKHFDMTLTRAKFDELTRDLVEKTQEPVRRALSDAGL
gi|1538143      KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTRDLVDRTAEPVRRALSDAGL
gi|1545026      KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTHDLVEKTAEPVTRALSDAGI
gi|2915498      KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTRDLVEKTQEPVRRALSDAGI
gi|1973039      KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTRDLVEKTQEPVRRALSDAGI
gi|2255685      KKELSSATTTNINLPFITATSEGPKHFDMNLTRAKFDELTHDLVEKTAEPVKRALSDAGL
gi|1538546      KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTHDLVLKTSEPVQRALSDAGI
gi|1660311      KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTHDLVMKTSEPVQRALSDAGI
gi|1677588      KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTHDLVAKTSEPVTRALSDAGI
                                                                            

GOS_204602      ----------------------------------SSRPTTCAWSGFSTRGGGRTAGSEGS
gi|2298249      TANDIGKVLLVGGSTRIPAVQAKVAQLTGKEPSKSLNPDECVAIGASIQ-GGKLAGDAGA
gi|2263244      TAADLGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASIQ-GGKLAGDAGA
gi|1538143      TAADLGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|1545026      TAAELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|2915498      TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|1973039      TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|2255685      NSSELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|1538546      TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDTGA
gi|1660311      TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDTGA
gi|1677588      TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDTGA
                                                  * .*  *.  * * . **. **. *:

GOS_204602      ASNMCLWRTPLSLSLSLSLSLSLAWRLRY---PVPHDWMRSRAPQCSTA-----------
gi|2298249      GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTRKSQVFSTAADNQSAVDINVVQGERQ
gi|2263244      GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|1538143      GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|1545026      GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|2915498      GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|1973039      GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|2255685      GDVLLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|1538546      GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|1660311      GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|1677588      GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
                .. : *  ******:.   .::     *    *. :..: * *.: .:*           

GOS_204602      ---------------------------------ARGFFMCVCSAAGAARYAKVGDSVATG
gi|2298249      FAKDNKSLGQFRLDGIAPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGREQHITITAGSN
gi|2263244      FARDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|1538143      FAKDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|1545026      FARDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|2915498      FARDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|1973039      FAKDNKSLGQFRLDGIPPAPRGVPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|2255685      FAKDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|1538546      FARDNKSLGQFRLDGIAPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|1660311      FAKDNKSLGRFQLDGIAPAPRGVPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|1677588      FAKDNKSLGQFRLDGIPPAPRGVPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
                                                 *.*:.   ..  *:..  ::  :..:.

GOS_204602      IGSALVACLSSAVRGWAARE-----------------------FQDWPVELGWPTRSSMH
gi|2298249      MSDADIDKAVKEAAEYEAQDKKRKEGIDARNDADAMVFQTEKALKDVGDKIADSDKSSVE
gi|2263244      MSDADIDKAVKEAAEFEAQDKKRKEAIDAKNDADAMVFQTEKALGEVGDKIDAADKAAVE
gi|1538143      MSDSDIDKAVKEAAEFEAQDKKRKEAIDTRNEADAMVFQTEKAIKEVGDKLDANDKAAVE
gi|1545026      MSDADIDKAVKEAAEFEAQDKKRKEAIDTRNEADAMVFQTEKALKEVGDKLDAADKSSVE
gi|2915498      MSDDDIDKAVKEAAEFEAQDKKRKEAIDTRNEADAMVFQTEKAIKEVGDKVDATEKAAVE
gi|1973039      MSDDDIDKAVKEAAEFEAQDKKRKEAIDTRNEADAMVFQTEKAIQDVGDKLDAADKAAVE
gi|2255685      MSDDDIDKAVKEAAEFEAQDKKRKEGIDAKNDADALVFQTEKAMGEVGDKIDAADKEAVE
gi|1538546      MSDEDIDKAVKEAAEFEAQDKKRKEGIDAKNEADAMVFQTEKALQEVGDKLDGADKAAVE
gi|1660311      MSDDEIDKAVKEAAAFEAQDKKRKEGIDTKNEADALVFQTEKAIQEVGDKLDANDKAGVE
gi|1677588      MSDDEIDKAVKEAAAFEAQDKKRKEGIDTKNDADALVFQTEKALGDVGDKIDAADKATVE
                :..  :    . .  : *.:                       : :   ::    .  : 

GOS_204602      ARRQALR--------------------------------------------TNDGADG--
gi|2298249      ADLKALKDILEATPADSISDEDIDKIKVAKEKLMASAQSLFTKVYEQSQGAAGNAGA---
gi|2263244      ADVQALKDLLAKANTEELTDAQVAEIKAGKEKLMESAQKLFTKVYEQAGAQAGQAGPQA-
gi|1538143      ADMQALKDVLAKSTPENTSEADVAEIKAAKEKLMESAQKLFTKMYEQAGAAAGAGAA---
gi|1545026      ADVQALKDILAKSTPEDTSDAQVAEIKAAKDKLMESAQKLFTKMYEQAGA-AGAGAAG--
gi|2915498      ADVQALKDILAKSAPENTTEEQVAEIKAAKEKLMESAQKLFTKMYEQAGAAAGAGAQA--
gi|1973039      ADVQALKDILAKSAPEETSEAQVAEIKAAKEKLMESAQKLFTKMYEQN---AAAGAQA--
gi|2255685      ADCKALKEILEKANTETLTDAQIAEIKAGKEKLMESAQKLFTKVYEQAGAQAGAGQQGP-
gi|1538546      ADCKALKELLEKANTDTLTDEQVAEIKAGKEKLTESAQKLFTKMYEQAGAAAGAQGAGP-
gi|1660311      ADCKALKEILEKVNMDDITDAQIAEIKAGKEKLSESAQKLFTKMYEQAGA-AAQGAQGA-
gi|1677588      ADCKALKEILEKVNMDDISDAQIAEIKAGKEKLMESAQKLFTKMYEQAGAAAGAQGADPN
                *  :**.                                            :        

GOS_204602      -GRTVTRFSGI------------------C
gi|2298249      -GPDMSGQAGQTTSDSGNNDDVVDGDYREV
gi|2263244      -GPAPE--AGP-APEGFNGDDVVDGDYKEV
gi|1538143      -GPNPGQDAGP-APEGFNGDDVVDGDYKEV
gi|1545026      -GPTPE--AGP-APEGFQGDDVVDGDYKEV
gi|2915498      -GPTPE--AGP-APDGFQGDDVVDGDYKEV
gi|1973039      -GPTPG--AGP-APESSANDDVVDGDYKEV
gi|2255685      -GPDMGAGAGP-APDGFAGDDVVDGDYKEV
gi|1538546      -QPGANAGAGP-APEGFQGDDVVDGDYKEV
gi|1660311      -GAQAGPEAGP-APDGFQGDDVVDGDYKEV
gi|1677588      MGAGPNPGAGP-APDGFQGDDVVDGDYKEV
                        :*                    
RESULTAT GBLOCKS :
Gblocks 0.91b Results
Processed file: input.fasta
Number of sequences: 11
Alignment assumed to be: Protein
New number of positions: 156 (selected positions are underlined in blue) 

                         10        20        30        40        50        60
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  -------------------PGGR--------GRLPTASASAPRCSGVR--GTPWRRSC--
gi|229824962|re  MSKIIGIDLGTTNSCVSVMEGGQPVVITNAEGLRTTPSVVAFTKNGERLVGETAKRQAVT
gi|226324480|re  MGKIIGIDLGTTNSCVAVMEGGQPVVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|153814301|re  MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|154502602|re  MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|291549862|em  MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|197303916|re  MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|225568593|re  MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|153854627|re  MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|166031121|re  MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
gi|167758847|re  MGKIIGIDLGTTNSCVAVMEGGQPTVIANTEGARTTPSVVAFTKTGERLVGEPAKRQAVT
                                                #################            


                         70        80        90       100       110       120
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ------------------------------------------------------------
gi|229824962|re  NADRTISSIKRHMGTDYKVNIDGKSYSPQEISAMILQKLKADAEAYLGEKVTDAVITVPA
gi|226324480|re  NAEKTISSIKREMGTDHKVDIDGKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|153814301|re  NADKTISSIKREMGSDFKVTIDEKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|154502602|re  NADKTISSIKREMGTDYKVAIDDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|291549862|em  NAARTISSIKREMGTDYKVDIDDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|197303916|re  NAARTISSIKREMGTDYKVDIDGKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|225568593|re  NAEKTISSIKREMGSDYKVTIDDKKFSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|153854627|re  NAERTISSIKREMGTDYKVTIEDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|166031121|re  NAERTISSIKREMGSDYRVTIDDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
gi|167758847|re  NAERTISSIKREMGSDFRVTIDDKKYSPQEISAMILQKLKADAEGYLGEKVTEAVITVPA
                                                                             


                        130       140       150       160       170       180
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ------------------------------------------------------------
gi|229824962|re  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSII
gi|226324480|re  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
gi|153814301|re  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSII
gi|154502602|re  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSII
gi|291549862|em  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
gi|197303916|re  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
gi|225568593|re  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSII
gi|153854627|re  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
gi|166031121|re  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNENEQKIMVYDLGGGTFDVSVI
gi|167758847|re  YFNDAQRQATKDAGKIAGLDVKRIINEPTAAALAYGLDNEKEQKIMVYDLGGGTFDVSVI
                                                                             


                        190       200       210       220       230       240
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ------------------------------------------------------------
gi|229824962|re  DIGDGVIEVLSTNGDTKLGGDDVDNVITNYFISDFKNKEGVDLSTDKMALQRLREAAEKA
gi|226324480|re  EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLADFKAKEGVDLSTDRMALQRLKEAAEKA
gi|153814301|re  EIGDGVIEVLSTAGDNRLGGDDFDQKITDYMLADFKAKEGVDLSTDKMALQRLKEAAEKA
gi|154502602|re  EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLADFKAKEGVDLSTDKMALQRLKEAAEKA
gi|291549862|em  EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLADFKAKEGVDLSADKMALQRLREAAEKA
gi|197303916|re  EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLADFKAKEGVDLSTDKMALQRLREAAEKA
gi|225568593|re  EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMLAEFKKNEGVDLSTDKMALQRLKEAAEKA
gi|153854627|re  EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMIAEFKKQEGVDLSADKMALQRLKEAAEKA
gi|166031121|re  EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMIAEFKKQEGVDLSTDKMALQRLKEAAEKA
gi|167758847|re  EIGDGVIEVLSTAGNNRLGGDDFDQKITDYMIAEFKKQEGVDLSADKMALQRLKEAAEKA
                                                                             


                        250       260       270       280       290       300
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ------------------------------------------------------------
gi|229824962|re  KKELSSSTTTNINLPFITATSEGPKHFELDLTRAKFEELIHDIVERTAAPVQNALKDAGL
gi|226324480|re  KKELSSATTTNINLPFITATAEGPKHFDMTLTRAKFDELTRDLVEKTQEPVRRALSDAGL
gi|153814301|re  KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTRDLVDRTAEPVRRALSDAGL
gi|154502602|re  KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTHDLVEKTAEPVTRALSDAGI
gi|291549862|em  KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTRDLVEKTQEPVRRALSDAGI
gi|197303916|re  KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTRDLVEKTQEPVRRALSDAGI
gi|225568593|re  KKELSSATTTNINLPFITATSEGPKHFDMNLTRAKFDELTHDLVEKTAEPVKRALSDAGL
gi|153854627|re  KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTHDLVLKTSEPVQRALSDAGI
gi|166031121|re  KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTHDLVMKTSEPVQRALSDAGI
gi|167758847|re  KKELSSATTTNINLPFITATAEGPKHFDMNLTRAKFDELTHDLVAKTSEPVTRALSDAGI
                                                                             


                        310       320       330       340       350       360
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ----------------------------------SSRPTTCAWSGFSTRGGGRTAGSEGS
gi|229824962|re  TANDIGKVLLVGGSTRIPAVQAKVAQLTGKEPSKSLNPDECVAIGASIQ-GGKLAGDAGA
gi|226324480|re  TAADLGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASIQ-GGKLAGDAGA
gi|153814301|re  TAADLGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|154502602|re  TAAELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|291549862|em  TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|197303916|re  TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|225568593|re  NSSELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDAGA
gi|153854627|re  TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDTGA
gi|166031121|re  TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDTGA
gi|167758847|re  TASELGQVLLVGGSTRIPAVQEEVKRLTGKEPSKSLNPDECVALGASVQ-GGKLAGDTGA
                                                   ############### ##########


                        370       380       390       400       410       420
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ASNMCLWRTPLSLSLSLSLSLSLAWRLRY---PVPHDWMRSRAPQCSTA-----------
gi|229824962|re  GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTRKSQVFSTAADNQSAVDINVVQGERQ
gi|226324480|re  GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|153814301|re  GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|154502602|re  GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|291549862|em  GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|197303916|re  GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|225568593|re  GDVLLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|153854627|re  GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|166031121|re  GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
gi|167758847|re  GDILLLDVTPLSLSIETMGGVATRLIERNTTIPTKKSQIFSTAADNQTAVDINVVQGERQ
                 #############################   #################           


                        430       440       450       460       470       480
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ---------------------------------ARGFFMCVCSAAGAARYAKVGDSVATG
gi|229824962|re  FAKDNKSLGQFRLDGIAPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGREQHITITAGSN
gi|226324480|re  FARDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|153814301|re  FAKDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|154502602|re  FARDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|291549862|em  FARDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|197303916|re  FAKDNKSLGQFRLDGIPPAPRGVPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|225568593|re  FAKDNKSLGQFRLDGIPPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|153854627|re  FARDNKSLGQFRLDGIAPAPRGIPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|166031121|re  FAKDNKSLGRFQLDGIAPAPRGVPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
gi|167758847|re  FAKDNKSLGQFRLDGIPPAPRGVPQIEVTFDIDANGIVNVSAKDLGTGKEQHITITAGSN
                                                  ###########################


                        490       500       510       520       530       540
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  IGSALVACLSSAVRGWAARE-----------------------FQDWPVELGWPTRSSMH
gi|229824962|re  MSDADIDKAVKEAAEYEAQDKKRKEGIDARNDADAMVFQTEKALKDVGDKIADSDKSSVE
gi|226324480|re  MSDADIDKAVKEAAEFEAQDKKRKEAIDAKNDADAMVFQTEKALGEVGDKIDAADKAAVE
gi|153814301|re  MSDSDIDKAVKEAAEFEAQDKKRKEAIDTRNEADAMVFQTEKAIKEVGDKLDANDKAAVE
gi|154502602|re  MSDADIDKAVKEAAEFEAQDKKRKEAIDTRNEADAMVFQTEKALKEVGDKLDAADKSSVE
gi|291549862|em  MSDDDIDKAVKEAAEFEAQDKKRKEAIDTRNEADAMVFQTEKAIKEVGDKVDATEKAAVE
gi|197303916|re  MSDDDIDKAVKEAAEFEAQDKKRKEAIDTRNEADAMVFQTEKAIQDVGDKLDAADKAAVE
gi|225568593|re  MSDDDIDKAVKEAAEFEAQDKKRKEGIDAKNDADALVFQTEKAMGEVGDKIDAADKEAVE
gi|153854627|re  MSDEDIDKAVKEAAEFEAQDKKRKEGIDAKNEADAMVFQTEKALQEVGDKLDGADKAAVE
gi|166031121|re  MSDDEIDKAVKEAAAFEAQDKKRKEGIDTKNEADALVFQTEKAIQEVGDKLDANDKAGVE
gi|167758847|re  MSDDEIDKAVKEAAAFEAQDKKRKEGIDTKNDADALVFQTEKALGDVGDKIDAADKATVE
                 ####################                          ##############


                        550       560       570       580       590       600
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ARRQALR--------------------------------------------TNDGADG--
gi|229824962|re  ADLKALKDILEATPADSISDEDIDKIKVAKEKLMASAQSLFTKVYEQSQGAAGNAGA---
gi|226324480|re  ADVQALKDLLAKANTEELTDAQVAEIKAGKEKLMESAQKLFTKVYEQAGAQAGQAGPQA-
gi|153814301|re  ADMQALKDVLAKSTPENTSEADVAEIKAAKEKLMESAQKLFTKMYEQAGAAAGAGAA---
gi|154502602|re  ADVQALKDILAKSTPEDTSDAQVAEIKAAKDKLMESAQKLFTKMYEQAGA-AGAGAAG--
gi|291549862|em  ADVQALKDILAKSAPENTTEEQVAEIKAAKEKLMESAQKLFTKMYEQAGAAAGAGAQA--
gi|197303916|re  ADVQALKDILAKSAPEETSEAQVAEIKAAKEKLMESAQKLFTKMYEQN---AAAGAQA--
gi|225568593|re  ADCKALKEILEKANTETLTDAQIAEIKAGKEKLMESAQKLFTKVYEQAGAQAGAGQQGP-
gi|153854627|re  ADCKALKELLEKANTDTLTDEQVAEIKAGKEKLTESAQKLFTKMYEQAGAAAGAQGAGP-
gi|166031121|re  ADCKALKEILEKVNMDDITDAQIAEIKAGKEKLSESAQKLFTKMYEQAGA-AAQGAQGA-
gi|167758847|re  ADCKALKEILEKVNMDDISDAQIAEIKAGKEKLMESAQKLFTKMYEQAGAAAGAQGADPN
                 #######                                                     


                        610       620       630
                 =========+=========+=========+
GOS_2046020_Tra  -GRTVTRFSGI------------------C
gi|229824962|re  -GPDMSGQAGQTTSDSGNNDDVVDGDYREV
gi|226324480|re  -GPAPE--AGP-APEGFNGDDVVDGDYKEV
gi|153814301|re  -GPNPGQDAGP-APEGFNGDDVVDGDYKEV
gi|154502602|re  -GPTPE--AGP-APEGFQGDDVVDGDYKEV
gi|291549862|em  -GPTPE--AGP-APDGFQGDDVVDGDYKEV
gi|197303916|re  -GPTPG--AGP-APESSANDDVVDGDYKEV
gi|225568593|re  -GPDMGAGAGP-APDGFAGDDVVDGDYKEV
gi|153854627|re  -QPGANAGAGP-APEGFQGDDVVDGDYKEV
gi|166031121|re  -GAQAGPEAGP-APDGFQGDDVVDGDYKEV
gi|167758847|re  MGAGPNPGAGP-APDGFQGDDVVDGDYKEV
                                               





Parameters used
Minimum Number Of Sequences For A Conserved Position: 6
Minimum Number Of Sequences For A Flanking Position: 9
Maximum Number Of Contiguous Nonconserved Positions: 8
Minimum Length Of A Block: 10
Allowed Gap Positions: None
Use Similarity Matrices: Yes

Flank positions of the 6 selected block(s)
Flanks: [32  48]  [335  349]  [351  389]  [393  409]  [454  500]  [527  547]  

New number of positions in input.fasta-gb:  156  (24% of the original 630 positions)

-------------------------------------------------------------------------
Alignement avec le motif RGTPWR:

CLUSTAL 2.0.3 multiple sequence alignment


gi|3027828      MIVRCHGGKVKFRLRLDHQVEFGEHHAVIGSADFMGSWKNHVSMTWTESGWVADIEASPG
gi|3027897      MIVRCHGGKVKLRLRLDHQVKFGEHHAVIGSADFMGSWKNHVSMTWTESGWVADIEASPG
GOS_204602      ----------------------------------------------------------PG
                                                                          **

gi|3027828      DRAEFKYVIVAGDGRLTWEEGPNRVLDVPSGGSEIVSQWENPDLVVTTNGAAAEAHVEAP
gi|3027897      DRAEFKYVIVAGDGRLTWEEGPNRVLDVPSGGSEIVSQWENPDLVVTTNGASAEAHVEAP
GOS_204602      -----------GRGRLPT--------------------------------ASASAPRCSG
                           * ***.                                 *:*.*   : 

gi|3027828      VHEKKDKKEKAKETVTASSDGDMSFSQGWQGKNVAFMKANEHTSRQGGKWETAGLEGAAL
gi|3027897      VHEKKDKKEKAKETVTASSDGDMSFSQGWQGKNVAFMKANEHTSRQGGKWETAGLDGAVL
GOS_204602      VRGTPWRRSCSSRPTTCAWSG--------------------FSTRGGG--RTAGSEGSAS
                *: .  ::. :....*.: .*                    .::* **  .*** :*:. 

gi|3027828      RIVEGDKKSGNWWRKLEVVRDLLTDDLGKADRLDALVYSSTYLKWISTGQIQCFEDGGHY
gi|3027897      RIVEGDKKSGNWWRKLEVVRELLTDDLGKADRLDALVYSSTYLKWISTGQIQCFEDGGHY
GOS_204602      NMC---------------------------------------------------------
                .:                                                          

gi|3027828      RPNKHAEISRMIFRELESIYSDKTTTTT-EERVVIRKIHPCLPSFKAEFTAAVPLTRIRD
gi|3027897      RPKKHAEISRMIFRELESIYSDKTTTTTTEERVVIRNIHPCLPSFKAEFTAAVPLTRIRD
GOS_204602      -------------------------------------------LWRTPLSLSLSLSLSLS
                                                            ::: :: ::.*:   .

gi|3027828      IAHRNDIPHDLKQEIKHTIQNKLHRNAGPEDLVATEALLARVTKTPGEYSAAFVEQLKIF
gi|3027897      IAHRNDIPHDLKQEIKHTIQNKLHRNAGPEDLVATEALLARVTKTPGEYSAAFVEQLKIF
GOS_204602      LAWR----------LRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAG-------------
                :* *          :::.: :.  *. .*:  .*:..::  * .:.*             

gi|3027828      HGELKDFFNASSLTERLDGLRPSLDEQQISVMDNFMEKKKKLDEVGDGGNSDMLVGAMHA
gi|3027897      HGELKDFFNASSLTERLDGLRPSLDEQQLSVMDNFMEKKKKLDEVGDGGNSDMLIGAMHA
GOS_204602      --------------------------------------AARYAKVGDS-----------V
                                                        :  :***.           .

gi|3027828      LTGLRAVLLKGLESGLRNDASDDAIAMRQKWRLSEIGLEDYFFVLLSRFLNAMDSSGGAK
gi|3027897      LTGLRAVLLKGLESGLRNDASDDAIAMRQKWRLSEIGLEDYFFVVLSRFLNAMDSSGGAK
GOS_204602      ATGIGSALVACLSSAVR-------------------------------------------
                 **: :.*:  *.*.:*                                           

gi|3027828      SLSEEIQSKSTSKWKQPLGGVVLGIRQLGLSGWQQAECLAIENELMTWEKDGICGKGSEE
gi|3027897      SLSGEIQSKSTSKWKQPLGGVVLGIRQLGLSGWQQAECLAIENELMTWEKDGICGKGSEE
GOS_204602      ----GWAAREFQDWPVELG-----------------------------------------
                       ::. ..*   **                                         

gi|3027828      DIRMWGLRLKATLDRTHRMAETYSDLLLKLYPKRAQNLGNALGIPENSVRTYAEAEIRAS
gi|3027897      DIRMWGLRLKATLDRTHRMAETYSDLLLKLYPKRAQNLGNALGIPENSVRTYAEAEIRAS
GOS_204602      ------------------------------WPTRSS-----MHARRQALRTNDGADG-GR
                                              :*.*:.     :   .:::**   *:  . 

gi|3027828      VVFQLSKLCTLLLKAIRFVLHTEGWDVLMPGIACGKLFEVQKIVPGSLPSSAEGPVILLV
gi|3027897      VVFQLSKLCTVLLKAIRFVLHTEGWDVLMPGIACGKLFEVQKIVPGSLPSSAEGPVILLV
GOS_204602      TVTRFSGIC---------------------------------------------------
                .* ::* :*                                                   

gi|3027828      KQADGDEEVRAAGPNVAGVILQQELPHLSHLGVRARQEKVVFVTCDDDDKIKEMRSLLGK
gi|3027897      KQADGDEEVRAAGPNVAGVILQHELPHLSHLGVRARQEKVVFVTCDDDDKIKEMRSLLGK
GOS_204602      ------------------------------------------------------------
                                                                            

gi|3027828      SIKYLCRLESSSVGVRVSTQGAEQGASSTARETEKGAHDEASVSESKVVKSSSGVILDLK
gi|3027897      SIK----LESSSVGVRVSTQGAEQGASSTARETEKGAHDEASVSESKVVKSSSGVILDLK
GOS_204602      ------------------------------------------------------------
                                                                            

gi|3027828      DADLATAGAKSSACGKLATLAELSAEEQNNGVSCKFLVPPGLVIPFGSMEGALESSGSMD
gi|3027897      DADLATAGAKSSACGKLATLAELSAEEQNNGVSCKFLVPPGLVIPFGSMEGALESSGSMD
GOS_204602      ------------------------------------------------------------
                                                                            

gi|3027828      TFHDLLEQTETAQVEEGELDGICNQLRELVSSQRLPKSAMSKIAEGFSSDARLIVRSSAN
gi|3027897      TFHDLLEQTETAQVEEGELDGICNQLRELVSSQRLPKSAMSKIAEGFSSDARLIVRSSAN
GOS_204602      ------------------------------------------------------------
                                                                            

gi|3027828      VEDLAGMSGAGLYDSIPNVKLSEPENFCKAVAGVWASLYTRRAVLSRRVAKVPQKAASMA
gi|3027897      VEDLAGMSGAGLYDSIPNVKLSEPEHFCKAVAGVWASLYTRRAVLSRRVAKVPQKAASMA
GOS_204602      ------------------------------------------------------------
                                                                            

gi|3027828      VLVQELLAPDLSFVLHTVDPIDRNAQIVQGELAAGLGETLASGTRGTPWRLSANKVDGSV
gi|3027897      VLVQELLAPDLSFVLHTVDPIDRNAQIVQGEIAAGLGETLASGTRGTPWRLSANKVDGSV
GOS_204602      ------------------------------------------------------------
                                                                            

gi|3027828      KLVAFANFSEEFVAGRDGVADGKVSKRVVDYSTKKLSVDLEYSVTLGQRLAAIGTFLEKS
gi|3027897      KLVAFANFSEEFVAGRDGVADGKVSKRVVDYSTKKLSVDLEYSVALGQRLAAIGTFLEKS
GOS_204602      ------------------------------------------------------------
                                                                            

gi|3027828      FGCPQDIEGCAVGEEIYIVQARPQP
gi|3027897      FGCPQDIEGCVVGEEIYIVQARPQP
GOS_204602

RESULTAT GBLOCKS:
                         10        20        30        40        50        60
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ----------------------------------------------------------PG
gi|302782878|re  MIVRCHGGKVKFRLRLDHQVEFGEHHAVIGSADFMGSWKNHVSMTWTESGWVADIEASPG
gi|302789740|re  MIVRCHGGKVKLRLRLDHQVKFGEHHAVIGSADFMGSWKNHVSMTWTESGWVADIEASPG
                                                                             


                         70        80        90       100       110       120
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  GR-----------GRL-----PTASASAPRCSGVRGTPWR--------------------
gi|302782878|re  DRAEFKYVIVAGDGRLTWEEGPNRVLDVPSGGSEIVSQWENPDLVVTTNGAAAEAHVEAP
gi|302789740|re  DRAEFKYVIVAGDGRLTWEEGPNRVLDVPSGGSEIVSQWENPDLVVTTNGASAEAHVEAP
                                      ##################                     


                        130       140       150       160       170       180
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ------RSCSSRPTTCA-----------WSG----------FSTRGGGR--TAGSEGSAS
gi|302782878|re  VHEKKDKKEKAKETVTASSDGDMSFSQGWQGKNVAFMKANEHTSRQGGKWETAGLEGAAL
gi|302789740|re  VHEKKDKKEKAKETVTASSDGDMSFSQGWQGKNVAFMKANEHTSRQGGKWETAGLDGAVL
                                                                             


                        190       200       210       220       230       240
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  NM----------------------------------------------------------
gi|302782878|re  RIVEGDKKSGNWWRKLEVVRDLLTDDLGKADRLDALVYSSTYLKWISTGQIQCFEDGGHY
gi|302789740|re  RIVEGDKKSGNWWRKLEVVRELLTDDLGKADRLDALVYSSTYLKWISTGQIQCFEDGGHY
                                                                             


                        250       260       270       280       290       300
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ----------------------------------------CL--WRTPLSLSLSLSLSLS
gi|302782878|re  RPNKHAEISRMIFRELESIYSDK-TTTTTEERVVIRKIHPCLPSFKAEFTAAVPLTRIRD
gi|302789740|re  RPKKHAEISRMIFRELESIYSDKTTTTTTEERVVIRNIHPCLPSFKAEFTAAVPLTRIRD
                                                             ################


                        310       320       330       340       350       360
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  LAWR----------LRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAGA------------
gi|302782878|re  IAHRNDIPHDLKQEIKHTIQNKLHRNAGPEDLVATEALLARVTKTPGEYSAAFVEQLKIF
gi|302789740|re  IAHRNDIPHDLKQEIKHTIQNKLHRNAGPEDLVATEALLARVTKTPGEYSAAFVEQLKIF
                 ####                    #######################             


                        370       380       390       400       410       420
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ---------------------------------------ARYAKVGDS-----------V
gi|302782878|re  HGELKDFFNASSLTERLDGLRPSLDEQQISVMDNFMEKKKKLDEVGDGGNSDMLVGAMHA
gi|302789740|re  HGELKDFFNASSLTERLDGLRPSLDEQQLSVMDNFMEKKKKLDEVGDGGNSDMLIGAMHA
                                                                             


                        430       440       450       460       470       480
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ATGIGSALVACLSSAVR-------------------------------------------
gi|302782878|re  LTGLRAVLLKGLESGLRNDASDDAIAMRQKWRLSEIGLEDYFFVLLSRFLNAMDSSGGAK
gi|302789740|re  LTGLRAVLLKGLESGLRNDASDDAIAMRQKWRLSEIGLEDYFFVVLSRFLNAMDSSGGAK
                  ################                                           


                        490       500       510       520       530       540
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  -------------------------------GW------------------------AAR
gi|302782878|re  SLSEEIQSKSTSKWKQPLGGVVLGIRQLGLSGWQQAECLAIENELMTWEKDGICGKGSEE
gi|302789740|re  SLSGEIQSKSTSKWKQPLGGVVLGIRQLGLSGWQQAECLAIENELMTWEKDGICGKGSEE
                                                                             


                        550       560       570       580       590       600
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  EFQDWPVEL---------------------------------------------------
gi|302782878|re  DIRMWGLRLKATLDRTHRMAETYSDLLLKLYPKRAQNLGNALGIPENSVRTYAEAEIRAS
gi|302789740|re  DIRMWGLRLKATLDRTHRMAETYSDLLLKLYPKRAQNLGNALGIPENSVRTYAEAEIRAS
                                                                             


                        610       620       630       640       650       660
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  -----------------------GW-----------------------------------
gi|302782878|re  VVFQLSKLCTLLLKAIRFVLHTEGWDVLMPGIACGKLFEVQKIVPGSLPSSAEGPVILLV
gi|302789740|re  VVFQLSKLCTVLLKAIRFVLHTEGWDVLMPGIACGKLFEVQKIVPGSLPSSAEGPVILLV
                                                                             


                        670       680       690       700       710       720
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  -------------------------PTRSSMHARRQALR---------------------
gi|302782878|re  KQADGDEEVRAAGPNVAGVILQQELPHLSHLGVRARQEKVVFVTCDDDDKIKEMRSLLGK
gi|302789740|re  KQADGDEEVRAAGPNVAGVILQHELPHLSHLGVRARQEKVVFVTCDDDDKIKEMRSLLGK
                                                                             


                        730       740       750       760       770       780
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  -----------------TNDGADGGRTVT-------------------------------
gi|302782878|re  SIKYLCRLESSSVGVRVSTQGAEQGASSTARETEKGAHDEASVSESKVVKSSSGVILDLK
gi|302789740|re  SIK----LESSSVGVRVSTQGAEQGASSTARETEKGAHDEASVSESKVVKSSSGVILDLK
                                                                             


                        790       800       810       820       830       840
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ------------------------------------------------------------
gi|302782878|re  DADLATAGAKSSACGKLATLAELSAEEQNNGVSCKFLVPPGLVIPFGSMEGALESSGSMD
gi|302789740|re  DADLATAGAKSSACGKLATLAELSAEEQNNGVSCKFLVPPGLVIPFGSMEGALESSGSMD
                                                                             


                        850       860       870       880       890       900
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  -----------------RFSGIC-------------------------------------
gi|302782878|re  TFHDLLEQTETAQVEEGELDGICNQLRELVSSQRLPKSAMSKIAEGFSSDARLIVRSSAN
gi|302789740|re  TFHDLLEQTETAQVEEGELDGICNQLRELVSSQRLPKSAMSKIAEGFSSDARLIVRSSAN
                                                                             


                        910       920       930       940       950       960
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ------------------------------------------------------------
gi|302782878|re  VEDLAGMSGAGLYDSIPNVKLSEPENFCKAVAGVWASLYTRRAVLSRRVAKVPQKAASMA
gi|302789740|re  VEDLAGMSGAGLYDSIPNVKLSEPEHFCKAVAGVWASLYTRRAVLSRRVAKVPQKAASMA
                                                                             


                        970       980       990      1000      1010      1020
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ------------------------------------------------------------
gi|302782878|re  VLVQELLAPDLSFVLHTVDPIDRNAQIVQGELAAGLGETLASGTRGTPWRLSANKVDGSV
gi|302789740|re  VLVQELLAPDLSFVLHTVDPIDRNAQIVQGEIAAGLGETLASGTRGTPWRLSANKVDGSV
                                                                             


                       1030      1040      1050      1060      1070      1080
                 =========+=========+=========+=========+=========+=========+
GOS_2046020_Tra  ------------------------------------------------------------
gi|302782878|re  KLVAFANFSEEFVAGRDGVADGKVSKRVVDYSTKKLSVDLEYSVTLGQRLAAIGTFLEKS
gi|302789740|re  KLVAFANFSEEFVAGRDGVADGKVSKRVVDYSTKKLSVDLEYSVALGQRLAAIGTFLEKS
                                                                             


                       1090      1100
                 =========+=========+=====
GOS_2046020_Tra  -------------------------
gi|302782878|re  FGCPQDIEGCAVGEEIYIVQARPQP
gi|302789740|re  FGCPQDIEGCVVGEEIYIVQARPQP
                                          





Parameters used
Minimum Number Of Sequences For A Conserved Position: 2
Minimum Number Of Sequences For A Flanking Position: 3
Maximum Number Of Contiguous Nonconserved Positions: 8
Minimum Length Of A Block: 10
Allowed Gap Positions: None
Use Similarity Matrices: Yes

Flank positions of the 4 selected block(s)
Flanks: [82  99]  [285  304]  [325  347]  [422  437]  

New number of positions in input.fasta-gb:  77  (6% of the original 1105 positions)





Protein Domains

PROTOCOLE:

site INTERPRO,paramètres par défaut



ANALYSE DES RÉSULTATS:


Pour trouver des domaines protéiques, nous avons utlisé le site Interpro sur lequel nous avons copier-coller la séquence protéique correspondant à notre ORF.


Nous ne trouvons aucun domaine protéique associé à notre séquence.Cependant nous constatons la présence d'un domaine ipr représentant un domaine transmembranaire dans la banque PRINT.


L'absence de domaine protéique peut être expliqué de deux manières:

-soit notre fonction n'est associé à aucun domaine protéique

-soit le domaine auquel est associée notre protéine n'est pas encore connu.


Cependant, nous possédons un renseignement crucial quant à la localisation de la protéine.Ou bien celle-ci traverse au moins une fois entièrement la membrane cellulaire ou bien elle est associée à cette dernière.

De plus le fait de trouver un renseignement sur la localisation de notre protéine dans la cellule,nous sommes confortées sur la réelle existence de notre protéine, et sur le fait que notre ORF ne soit pas un faux positif.




RÉSULTATS BRUTS:
 Résultats de Interpro
Sequence_1	260178F38A00BBB4	190	TMHMM	tmhmm	transmembrane_regions	66	84	NA	?	08-Feb-2011	NULL	NULL

Phylogeny

PROTOCOLE:



ANALYSE DES RÉSULTATS:

RÉSULTATS BRUTS:

Taxonomy report

PROTOCOLE:



ANALYSE DES RÉSULTATS:

RÉSULTATS BRUTS:

BLAST

PROTOCOLE:

  • BLASTp contre NR, paramètres par défaut au NCBI sauf "Number of descriptions_500"
  • même protocole mais contre env,
  • Tblastn contre env_nt ,parametre par defaut au NCBI sauf "Number of descriptions_500"

ANALYSE DES RÉSULTATS:


Nous avons utilisé BLASTp contre nr ,afin d'observer des protéines homologues.


Les scores des alignements vont de 35.8 à 34.3 ,les evalues vont de 2.7 à 8.6.

Nous trouvons 14 séquences, et plus particulièrement deux groupes de séquences.Notre première impression sur les alignements nous à fait penser que nous n'avions aucun homologue,nous ne pouvons donc pas définir de score seuil.Les e-value étant élevées (de 2.7 à 8.6)nous pensions qu'il y avait de fortes chances que les alignement soit dûs au hasard.De plus les séquences n'étaient pas trés similaires il n'y avait pas beaucoup d'alignement.


Cependant ,en se penchant mieux sur les alignements deux à deux, nous avons trouvé deux motifs conservés .L'un "TPLSLS" de la position 64 à 69 et l'autre "RGTPWR" de la position 21 à 26.Le problème c'est que c'est deux alignements sont contradictoires .En effet ,quand l'un s'aligne l'autre non.Nous sommes donc devant un dilemme car nous devons déterminer lequel choisir pour déterminer l'homologie ou non des protéines alignées.


Pour faire ce choix nous refaisons un BLATSp contre la banque env(environnementale. Nous trouvons 5 séquences, mais on se rend compte qu'aucun des deux motifs est présent.

Nous avons quand même regardé si les séquences trouvées étaient des homologues à notre séquence.On observe quelques alignements locaux mais comme ils sont sur des portions très petites de notre protéine,on ne peut pas dire que ce sont des homologues.


Pour être sures qu'on ne trouve pas d'homologues à cause des paramètres de la banque environnementale protéique ,nous faisons un tblastn contre la banque environnementale nucléique.Nous n'observons que deux séquences,la notre et une avec un faible score.


Comme nous ne trouvons aucun homologue aprés tous ces blast,nous pouvons emettre deux hypotheses:

-soit notre ORF est un faux-positifs

-soit notre ORF est une séquence protéique nouvelle jamais caractérisée ou peu détéctée dans l'environnement.

Cependant comme dans INTERPRO nous trouvons un domaine transmembranaire ,cela nous amène à penser que ce n'est pas un faux-positif.De plus comme notre protéine est longue (190 acides aminés) nous pouvons emettre l'hypothese que notre protéine est réelle.Cependant nous ne pouvons pas avancer de conclusion.


Pour savoir si l'un de nos deux motifs trouvés est réellement homologues,nous allons effectuer un alignement multiple.Cela nous permettra de savoir si nous trouvons des homologues pour pouvoir continuer notre étude(rapport taxonomique et arbre)

L'alignement multiples nous permet de confirmer que nous n'avons pas d'homologues.

Comme la consigne nous indique de faire l'analyse sur l'orf le plus long, nous ne pouvons pas aller plus loin. Cependant, pour vérifier s'il existe d'autres homologues dans d'autres cadres de lecture, nous pourrions faire un blastx car il recherche des protéines pour les six cadres de lectures de la séquence nucléotidique. En faisant ce test, on obtient des scores allant de 43,9 à 35,8 et des evalues de 0,034 et 9,2. On se rend compte qu'on n'a pas d'homologues car les alignements deux à deux ne sont pas bon. En effet, il y a peu de positions conservées et celles ci sont éparpillées.Ce résultat est normal car chez les procaryotes il est très peu probable d'avoir des ORF dans différents cadres de lecture.

RÉSULTATS BRUTS:

Liste complete des hits:

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|ZP_03791402.1|  endonuclease/exonuclease/phosphatase famil...  35.8    2.7  
ref|ZP_07948269.1|  flp pilus assembly protein CpaB [Eggerthel...  34.7    6.2  
ref|ZP_03777618.1|  hypothetical protein CLOHYLEM_04670 [Clost...  34.7    6.4  
ref|XP_002973212.1|  hypothetical protein SELMODRAFT_99378 [Se...  34.7    6.7  
ref|XP_002976638.1|  hypothetical protein SELMODRAFT_105597 [S...  34.3    7.1  
emb|CBL26124.1|  chaperone protein DnaK [Ruminococcus torques ...  34.3    7.1  
ref|ZP_03168950.1|  hypothetical protein RUMLAC_02654 [Ruminoc...  34.3    7.1  
ref|ZP_02430974.1|  hypothetical protein CLOSCI_01190 [Clostri...  34.3    7.1  
ref|ZP_02233950.1|  hypothetical protein DORFOR_00806 [Dorea f...  34.3    7.1  
ref|ZP_02039662.1|  hypothetical protein RUMGNA_00415 [Ruminoc...  34.3    7.1  
ref|ZP_01995877.1|  hypothetical protein DORLON_01872 [Dorea l...  34.3    7.1  
ref|ZP_01966969.1|  hypothetical protein RUMTOR_00510 [Ruminoc...  34.3    7.1  
ref|ZP_04451031.1|  hypothetical protein GCWU000182_00311 [Abi...  34.3    7.4  
ref|ZP_03799998.1|  hypothetical protein COPCOM_02261 [Coproco...  34.3    8.6  

ALIGNEMENTS
>ref|ZP_03791402.1| endonuclease/exonuclease/phosphatase family protein [Burkholderia 
pseudomallei Pakistan 9]
 gb|EEH28300.1| endonuclease/exonuclease/phosphatase family protein [Burkholderia 
pseudomallei Pakistan 9]
Length=648

 Score = 35.8 bits (81),  Expect = 2.7, Method: Compositional matrix adjust.
 Identities = 22/78 (29%), Positives = 34/78 (44%), Gaps = 4/78 (5%)

Query  96   PQCSTAARGFFMCVCSAAGAARYAKVGDSVATGIGSALVACLSSAVRGWAAREFQDWPVE  155
            P  +  +RG+   V S  G+  Y+ V +    G    L   L++    W  +   DW + 
Sbjct  502  PVRTLESRGYVNLVSSKVGSGAYSYVYN----GEAGYLDHALATNALAWRVKAVHDWHIN  557

Query  156  LGWPTRSSMHARRQALRT  173
             G   R ++HAR Q  RT
Sbjct  558  AGRADRPAIHARIQERRT  575


>ref|ZP_07948269.1| flp pilus assembly protein CpaB [Eggerthella sp. 1_3_56FAA]
 gb|EFV32726.1| flp pilus assembly protein CpaB [Eggerthella sp. 1_3_56FAA]
Length=306

 Score = 34.7 bits (78),  Expect = 6.2, Method: Compositional matrix adjust.
 Identities = 28/86 (33%), Positives = 42/86 (49%), Gaps = 9/86 (10%)

Query  67   SLSLSLSLSLSLAWRLRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAGAARYAKVGDSVA  126
            +++L++ +   LA  +R   P+D +R  + + ++A   F   VC     AR   VGD  A
Sbjct  202  AVTLAVDVETGLAGHVR---PYDTVRIVSAEGASAGEAFLETVCE---RARVVAVGDD-A  254

Query  127  TGI--GSALVACLSSAVRGWAAREFQ  150
            TG+  GSA V    S     A RE Q
Sbjct  255  TGVQSGSASVTVEVSPEEADAVREAQ  280


>ref|ZP_03777618.1| hypothetical protein CLOHYLEM_04670 [Clostridium hylemonae DSM 
15053]
 gb|EEG75140.1| hypothetical protein CLOHYLEM_04670 [Clostridium hylemonae DSM 
15053]
Length=626

 Score = 34.7 bits (78),  Expect = 6.4, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 31/69 (45%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P       R +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQEEVKRLTGKE-----PSKSLNPDECVALGASVQGG-KLAGDAGAGDVLLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


>ref|XP_002973212.1| hypothetical protein SELMODRAFT_99378 [Selaginella moellendorffii]
 gb|EFJ25586.1| hypothetical protein SELMODRAFT_99378 [Selaginella moellendorffii]
Length=1104

 Score = 34.7 bits (78),  Expect = 6.7, Method: Compositional matrix adjust.
 Identities = 23/70 (33%), Positives = 33/70 (48%), Gaps = 4/70 (5%)

Query  17    CSGVRGTPWRRSCSSRP---TTCAWSGFSTRG-GGRTAGSEGSASNMCLWRTPLSLSLSL  72
              SG RGTPWR S +         A++ FS     GR   ++G  S   +  +   LS+ L
Sbjct  1000  ASGTRGTPWRLSANKVDGSVKLVAFANFSEEFVAGRDGVADGKVSKRVVDYSTKKLSVDL  1059

Query  73    SLSLSLAWRL  82
               S++L  RL
Sbjct  1060  EYSVTLGQRL  1069


>ref|XP_002976638.1| hypothetical protein SELMODRAFT_105597 [Selaginella moellendorffii]
 gb|EFJ22307.1| hypothetical protein SELMODRAFT_105597 [Selaginella moellendorffii]
Length=1101

 Score = 34.3 bits (77),  Expect = 7.1, Method: Compositional matrix adjust.
 Identities = 23/70 (33%), Positives = 33/70 (48%), Gaps = 4/70 (5%)

Query  17    CSGVRGTPWRRSCSSRP---TTCAWSGFSTRG-GGRTAGSEGSASNMCLWRTPLSLSLSL  72
              SG RGTPWR S +         A++ FS     GR   ++G  S   +  +   LS+ L
Sbjct  997   ASGTRGTPWRLSANKVDGSVKLVAFANFSEEFVAGRDGVADGKVSKRVVDYSTKKLSVDL  1056

Query  73    SLSLSLAWRL  82
               S++L  RL
Sbjct  1057  EYSVALGQRL  1066


>emb|CBL26124.1| chaperone protein DnaK [Ruminococcus torques L2-14]
Length=623

 Score = 34.3 bits (77),  Expect = 7.1, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 31/69 (45%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P       R +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQEEVKRLTGKE-----PSKSLNPDECVALGASVQGG-KLAGDAGAGDILLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


>ref|ZP_03168950.1| hypothetical protein RUMLAC_02654 [Ruminococcus lactaris ATCC 
29176]
 gb|EDY31597.1| hypothetical protein RUMLAC_02654 [Ruminococcus lactaris ATCC 
29176]
Length=620

 Score = 34.3 bits (77),  Expect = 7.1, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 31/69 (45%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P       R +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQEEVKRLTGKE-----PSKSLNPDECVALGASVQGG-KLAGDAGAGDILLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


>ref|ZP_02430974.1| hypothetical protein CLOSCI_01190 [Clostridium scindens ATCC 
35704]
 gb|EDS07717.1| hypothetical protein CLOSCI_01190 [Clostridium scindens ATCC 
35704]
Length=628

 Score = 34.3 bits (77),  Expect = 7.1, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 31/69 (45%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P       R +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQEEVKRLTGKE-----PSKSLNPDECVALGASVQGG-KLAGDTGAGDILLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


>ref|ZP_02233950.1| hypothetical protein DORFOR_00806 [Dorea formicigenerans ATCC 
27755]
 gb|EDR47725.1| hypothetical protein DORFOR_00806 [Dorea formicigenerans ATCC 
27755]
Length=625

 Score = 34.3 bits (77),  Expect = 7.1, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 31/69 (45%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P       R +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQEEVKRLTGKE-----PSKSLNPDECVALGASVQGG-KLAGDTGAGDILLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


>ref|ZP_02039662.1| hypothetical protein RUMGNA_00415 [Ruminococcus gnavus ATCC 29149]
 gb|EDN79214.1| hypothetical protein RUMGNA_00415 [Ruminococcus gnavus ATCC 29149]
Length=622

 Score = 34.3 bits (77),  Expect = 7.1, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 31/69 (45%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P       R +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQEEVKRLTGKE-----PSKSLNPDECVALGASVQGG-KLAGDAGAGDILLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


>ref|ZP_01995877.1| hypothetical protein DORLON_01872 [Dorea longicatena DSM 13814]
 gb|EDM62662.1| hypothetical protein DORLON_01872 [Dorea longicatena DSM 13814]
Length=626

 Score = 34.3 bits (77),  Expect = 7.1, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 31/69 (45%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P       R +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQEEVKRLTGKE-----PSKSLNPDECVALGASVQGG-KLAGDTGAGDILLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


>ref|ZP_01966969.1| hypothetical protein RUMTOR_00510 [Ruminococcus torques ATCC 
27756]
 ref|ZP_07958254.1| chaperone DnaK [Lachnospiraceae bacterium 8_1_57FAA]
 gb|EDK25615.1| hypothetical protein RUMTOR_00510 [Ruminococcus torques ATCC 
27756]
 gb|EFV20540.1| chaperone DnaK [Lachnospiraceae bacterium 8_1_57FAA]
Length=624

 Score = 34.3 bits (77),  Expect = 7.1, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 31/69 (45%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P       R +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQEEVKRLTGKE-----PSKSLNPDECVALGASVQGG-KLAGDAGAGDILLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


>ref|ZP_04451031.1| hypothetical protein GCWU000182_00311 [Abiotrophia defectiva 
ATCC 49176]
 gb|EEP27079.1| hypothetical protein GCWU000182_00311 [Abiotrophia defectiva 
ATCC 49176]
Length=625

 Score = 34.3 bits (77),  Expect = 7.4, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 32/69 (47%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P   A   + +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQAKVAQLTGKE-----PSKSLNPDECVAIGASIQGG-KLAGDAGAGDILLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


>ref|ZP_03799998.1| hypothetical protein COPCOM_02261 [Coprococcus comes ATCC 27758]
 gb|EEG89282.1| hypothetical protein COPCOM_02261 [Coprococcus comes ATCC 27758]
Length=624

 Score = 34.3 bits (77),  Expect = 8.6, Method: Composition-based stats.
 Identities = 24/69 (35%), Positives = 31/69 (45%), Gaps = 6/69 (8%)

Query  2    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMCL  61
            GG  R+P       R +G        S S  P  C   G S +GG + AG  G+   + L
Sbjct  312  GGSTRIPAVQEEVKRLTGKE-----PSKSLNPDECVALGASIQGG-KLAGDAGAGDILLL  365

Query  62   WRTPLSLSL  70
              TPLSLS+
Sbjct  366  DVTPLSLSI  374


_______________________________________
Résultat dans blastp contre env :

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|ECL69732.1|  hypothetical protein GOS_5859168 [marine metag...  35.0    1.1  
gb|EDH39988.1|  hypothetical protein GOS_612837 [marine metage...  33.1    3.5  
gb|ECQ64157.1|  hypothetical protein GOS_4848062 [marine metag...  32.0    8.8  
gb|EBN54088.1|  hypothetical protein GOS_8229346 [marine metag...  32.0    9.5  
gb|ECB37812.1|  hypothetical protein GOS_4602998 [marine metag...  31.6    9.8  

ALIGNMENTS
>gb|ECL69732.1| hypothetical protein GOS_5859168 [marine metagenome]
Length=103

 Score = 35.0 bits (79),  Expect = 1.1, Method: Compositional matrix adjust.
 Identities = 16/51 (32%), Positives = 30/51 (59%), Gaps = 2/51 (3%)

Query  107  MCVCSAAGAARYAKVGDSVATGIGSALVACL--SSAVRGWAAREFQDWPVE  155
            + +   AG + + K+GD+V  G GS ++  +  +S V G+ A+ F+D+  E
Sbjct  51   VMIGGQAGISGHLKIGDNVQIGGGSGVIKDIPSNSKVMGYPAKNFRDFIKE  101


>gb|EDH39988.1| hypothetical protein GOS_612837 [marine metagenome]
Length=581

 Score = 33.1 bits (74),  Expect = 3.5, Method: Composition-based stats.
 Identities = 20/55 (37%), Positives = 24/55 (44%), Gaps = 5/55 (9%)

Query  1    PGGRGRLPTASASAPRCSG-----VRGTPWRRSCSSRPTTCAWSGFSTRGGGRTA  50
            P   G  PTAS  AP  SG     V  T  +R+C+ R   C    FS R    +A
Sbjct  170  PTASGIAPTASGIAPTASGMHRPQVECTDRKRNCTDRKRNCCGPLFSNREQSSSA  224


>gb|ECQ64157.1| hypothetical protein GOS_4848062 [marine metagenome]
Length=94

 Score = 32.0 bits (71),  Expect = 8.8, Method: Compositional matrix adjust.
 Identities = 15/49 (31%), Positives = 29/49 (60%), Gaps = 2/49 (4%)

Query  109  VCSAAGAARYAKVGDSVATGIGSALVACL--SSAVRGWAAREFQDWPVE  155
            +   AG + + K+GD+V  G GS ++  +  +S V G+ A+ F+++  E
Sbjct  44   IGGQAGISGHLKIGDNVEIGGGSGVIKDIPDNSKVMGYPAKNFREFLKE  92


>gb|EBN54088.1| hypothetical protein GOS_8229346 [marine metagenome]
Length=497

 Score = 32.0 bits (71),  Expect = 9.5, Method: Compositional matrix adjust.
 Identities = 17/42 (41%), Positives = 24/42 (58%), Gaps = 2/42 (4%)

Query  117  RYAKVGDSVATGIGSALVACLS-SAVRGWAARE-FQDWPVEL  156
             + K+GDS+ATG+  ALV  +  +   G AAR   QD   +L
Sbjct  344  EFEKIGDSIATGVSDALVGAIQGTKTLGEAARSILQDISSQL  385


>gb|ECB37812.1| hypothetical protein GOS_4602998 [marine metagenome]
Length=229

 Score = 31.6 bits (70),  Expect = 9.8, Method: Compositional matrix adjust.
 Identities = 19/55 (35%), Positives = 28/55 (51%), Gaps = 0/55 (0%)

Query  68   LSLSLSLSLSLAWRLRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAGAARYAKVG  122
            L+ S+ + L LA+   + V  DW++        A +G F  V  A GAA+  KVG
Sbjct  160  LAFSVGIVLGLAYTSIFAVMSDWLKRLGQARIKANQGRFTAVSDAFGAAKEVKVG  214

___________________________________________________

Résultat tblastn contre env-nt:

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|AACY021527452.1|  Marine metagenome 1092963660417, whole ge...   341    1e-92
gb|AAGA01008386.1|  Metagenome sequence AHAI1422.b1, whole gen...  34.3    3.4  

ALIGNMENTS
>gb|AACY021527452.1| Marine metagenome 1092963660417, whole genome shotgun sequence
Length=920

 Score =  341 bits (875),  Expect = 1e-92, Method: Compositional matrix adjust.
 Identities = 190/190 (100%), Positives = 190/190 (100%), Gaps = 0/190 (0%)
 Frame = +3

Query  1    PGGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMC  60
            PGGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMC
Sbjct  3    PGGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCAWSGFSTRGGGRTAGSEGSASNMC  182

Query  61   LWRTPlslslslslslslAWRLRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAGAARYAK  120
            LWRTPLSLSLSLSLSLSLAWRLRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAGAARYAK
Sbjct  183  LWRTPLSLSLSLSLSLSLAWRLRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAGAARYAK  362

Query  121  VGDSVATGIGSALVACLSSAVRGWAAREFQDWPVELGWPTRSSMHARRQALRTNDGADGG  180
            VGDSVATGIGSALVACLSSAVRGWAAREFQDWPVELGWPTRSSMHARRQALRTNDGADGG
Sbjct  363  VGDSVATGIGSALVACLSSAVRGWAAREFQDWPVELGWPTRSSMHARRQALRTNDGADGG  542

Query  181  RTVTRFSGIC  190
            RTVTRFSGIC
Sbjct  543  RTVTRFSGIC  572


>gb|AAGA01008386.1| Metagenome sequence AHAI1422.b1, whole genome shotgun sequence
Length=1076

 Score = 34.3 bits (77),  Expect = 3.4, Method: Compositional matrix adjust.
 Identities = 18/39 (47%), Positives = 22/39 (57%), Gaps = 0/39 (0%)
 Frame = -1

Query  81   RLRYPVPHDWMRSRAPQCSTAARGFFMCVCSAAGAARYA  119
            R+R P P + +RS AP CS  +    M V SA   ARYA
Sbjct  200  RMRAPSPVEMIRSEAPSCSERSSA*AMLVASAVAGARYA  84

-------------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------------

Résultat de blastx



                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|ZP_05000176.1|  hypothetical protein SSAG_04558 [Streptomy...  43.9    0.034
ref|YP_001610249.1|  hypothetical protein Btr_2129 [Bartonella...  40.4    0.37 
gb|EGD00405.1|  LuxR superfamily regulatory protein [Burkholde...  38.5    1.4  
ref|ZP_03791402.1|  endonuclease/exonuclease/phosphatase famil...  38.5    1.4  
gb|ACF87797.1|  unknown [Zea mays]                                 38.5    1.4  
gb|EEE53828.1|  hypothetical protein OsJ_00293 [Oryza sativa J...  38.1    1.9  
ref|YP_001612554.1|  pseudogene [Sorangium cellulosum 'So ce 5...  38.1    1.9  
dbj|BAE21164.1|  unnamed protein product [Mus musculus]            38.1    1.9  
gb|EFN51140.1|  hypothetical protein CHLNCDRAFT_141348 [Chlore...  37.7    2.4  
gb|EDL35333.1|  mCG8104 [Mus musculus]                             37.7    2.4  
gb|AAI17999.1|  Tsc22d2 protein [Mus musculus]                     37.7    2.4  
ref|XP_866955.1|  PREDICTED: hypothetical protein XP_861862 [C...  37.7    2.4  
ref|NP_001074698.1|  TSC22 domain family protein 2 [Mus musculus]  37.7    2.4  
ref|NP_960440.1|  hypothetical protein MAP1506 [Mycobacterium ...  37.7    2.4  
ref|YP_001618556.1|  hypothetical protein sce7906 [Sorangium c...  37.4    3.2  
gb|EAZ12742.1|  hypothetical protein OsJ_02659 [Oryza sativa J...  37.4    3.2  
dbj|BAD61177.1|  hypothetical protein [Oryza sativa Japonica G...  37.4    3.2  
ref|ZP_06575488.1|  sugar phosphate isomerase/epimerase [Strep...  37.0    4.1  
ref|ZP_07274739.1|  conserved hypothetical protein [Streptomyc...  37.0    4.1  
ref|YP_003067606.1|  penicillin binding protein [Methylobacter...  37.0    4.1  
ref|YP_002962424.1|  penicillin binding protein [Methylobacter...  37.0    4.1  
ref|YP_002420462.1|  penicillin-binding protein 1C [Methylobac...  37.0    4.1  
ref|YP_001638868.1|  penicillin-binding protein 1C [Methylobac...  37.0    4.1  
ref|YP_001345439.1|  adhesin/hemagglutinin [Pseudomonas aerugi...  37.0    4.1  
gb|EFQ33499.1|  DNA repair protein rad10 [Glomerella graminico...  36.6    5.4  
ref|ZP_07277107.1|  phosphoenolpyruvate phosphomutase [Strepto...  36.6    5.4  
ref|XP_002919544.1|  PREDICTED: BUD13 homolog isoform 2 [Ailur...  36.6    5.4  
ref|ZP_06706830.1|  LOW QUALITY PROTEIN: conserved hypothetica...  36.6    5.4  
gb|EFB21768.1|  hypothetical protein PANDA_008181 [Ailuropoda ...  36.6    5.4  
dbj|BAJ97859.1|  predicted protein [Hordeum vulgare subsp. vul...  36.2    7.0  
ref|ZP_07987665.1|  dehydrogenase [Streptomyces sp. SA3_actF]      36.2    7.0  
gb|ABW76445.1|  PPE family protein [Mycobacterium avium subsp....  36.2    7.0  
gb|ABW76443.1|  PPE family protein [Mycobacterium avium subsp....  36.2    7.0  
pir||S00942  hypothetical protein 2 - Halobacterium sp. plasmi...  36.2    7.0  
gb|EGB09553.1|  hypothetical protein AURANDRAFT_71358 [Aureoco...  35.8    9.2  
ref|ZP_07823819.1|  putative c5a peptidase [Streptococcus pseu...  35.8    9.2  
ref|XP_002802648.1|  PREDICTED: hypothetical protein LOC699488...  35.8    9.2  
ref|NP_001183185.1|  hypothetical protein LOC100501564 [Zea ma...  35.8    9.2  
ref|XP_003082839.1|  unnamed protein product [Ostreococcus tau...  35.8    9.2  

ALIGNMENTS
>ref|ZP_05000176.1| hypothetical protein SSAG_04558 [Streptomyces sp. Mg1]
 gb|EDX24687.1| hypothetical protein SSAG_04558 [Streptomyces sp. Mg1]
Length=1634

 Score = 43.9 bits (102),  Expect = 0.034
 Identities = 51/143 (36%), Positives = 61/143 (43%), Gaps = 23/143 (16%)
 Frame = -3

Query  729  PLRPRVVPARKA------GRAPAHQCRTPPRGADG----RVPARPPGRSRRRHYG-AKAI  583
            PLRPR  PAR+A      GR   H+ RTPPRG  G    R P  PPGR    H G  +A 
Sbjct  154  PLRPR--PARRARRMAGHGRRFVHRPRTPPRGPPGARHHRHPGVPPGRRGVDHPGQGRAA  211

Query  582  GNVNRFH*IASPSCHHRLHHWCVGLDGAHACCSALATLAPPANLGtpspptp*PLRTGMR  403
            G   R   +A+P  HH            H     L    PP +   P+     PLR  +R
Sbjct  212  GPRLR---LAAPVRHHLRRRRGRRAPPDHRPARRLG--PPPPHPRRPTGRARRPLRAAVR  266

Query  402  PRRSLYPWPRNHQPWHTVRRRPR  334
                L+P  R H+P    RR  R
Sbjct  267  ----LHP-ARQHRPRPAGRRSAR  284


>ref|YP_001610249.1| hypothetical protein Btr_2129 [Bartonella tribocorum CIP 105476]
 emb|CAK02254.1| phage-related protein [Bartonella tribocorum CIP 105476]
Length=1136

 Score = 40.4 bits (93),  Expect = 0.37
 Identities = 29/93 (31%), Positives = 40/93 (43%), Gaps = 11/93 (12%)
 Frame = -2

Query  559  NRVTVLPPSAPSLVrra*rrACMLLRVGHPSSTGQSWNSLAAHPLTAEDRHATKA-EPIP  383
            N  T  P  AP+        A       HP+    +  + A+HP  A    +T A +PIP
Sbjct  567  NTTTHAPQPAPAA-------ANTSTHASHPAPAAANTTTHASHPTPAAANTSTHASQPIP  619

Query  382  VATESPTLAYRAAPAALH---THIKKPRAAVEH  293
               ++PT A + APAA H   TH      A +H
Sbjct  620  ATAQAPTHAPQPAPAAAHTTSTHASHSAPATDH  652


>gb|EGD00405.1| LuxR superfamily regulatory protein [Burkholderia sp. TJI49]
Length=208

 Score = 38.5 bits (88),  Expect = 1.4
 Identities = 33/90 (37%), Positives = 42/90 (47%), Gaps = 16/90 (18%)
 Frame = +3

Query  534  DGGRTVTRFSGIC*HSQSPWRHNDDGGTSQGAEPALCRLHPSEGCGIDALARGQPSAPAL  713
            D GRTV  FS +           D G  ++G + A  R  P E   IDALAR QP A A 
Sbjct  85   DAGRTVGAFSLL---------RFDGGAAARGGDGASARFAPGE---IDALARLQPVAEAA  132

Query  714  LGVVAVDQQPAKKSD----RRYRPQQIIRL  791
            LG +   ++   + D      YR +QI RL
Sbjct  133  LGPLLRARRGIHRIDCEARLTYREEQIARL  162


>ref|ZP_03791402.1| endonuclease/exonuclease/phosphatase family protein [Burkholderia 
pseudomallei Pakistan 9]
 gb|EEH28300.1| endonuclease/exonuclease/phosphatase family protein [Burkholderia 
pseudomallei Pakistan 9]
Length=648

 Score = 38.5 bits (88),  Expect = 1.4
 Identities = 37/135 (27%), Positives = 53/135 (39%), Gaps = 24/135 (18%)
 Frame = +3

Query  288  PQCSTAARGFFMCVCSAAGAARYAKVGDSVATGIGSALVACLSSAVRGWAAREFQDWPVE  467
            P  +  +RG+   V S  G+  Y+ V +  A  +  AL    ++    W  +   DW + 
Sbjct  502  PVRTLESRGYVNLVSSKVGSGAYSYVYNGEAGYLDHAL----ATNALAWRVKAVHDWHIN  557

Query  468  LGWPTRSSMHARRQALRT---------------NDGADGGRTVTRFSGIC*HSQSPWRHN  602
             G   R ++HAR Q  RT                 G D  R   R   IC    +P R  
Sbjct  558  AGRADRPAIHARIQERRTAAHVLRARRVSLVRSRSGTDRHRARRR---ICGRGVAPRR--  612

Query  603  DDGGTSQGAEPALCR  647
             DGG +Q +  AL R
Sbjct  613  GDGGRAQPSPVALTR  627


>gb|ACF87797.1| unknown [Zea mays]
Length=483

 Score = 38.5 bits (88),  Expect = 1.4
 Identities = 26/51 (51%), Positives = 27/51 (53%), Gaps = 5/51 (10%)
 Frame = -3

Query  732  PPLRPRVVPARKAGRAPAHQCRTPPRGADGRVPARP-PGRSRRRHYGAKAI  583
            PP R R VP   AGR P H  R P R   G VP RP PG    RH GA A+
Sbjct  53   PPGRGRPVPGVPAGRGPRHG-RRPLRAGQGAVPRRPLPG---GRHPGAVAV  99


>gb|EEE53828.1| hypothetical protein OsJ_00293 [Oryza sativa Japonica Group]
Length=170

 Score = 38.1 bits (87),  Expect = 1.9
 Identities = 22/70 (31%), Positives = 30/70 (43%), Gaps = 9/70 (13%)
 Frame = +3

Query  6    GGRGRLPTASASAPRCSGVRGTPWRRSCSSRPTTCA---------WSGFSTRGGGRTAGS  158
            GGRG  P A++ AP  +    TP   SCS  P+  +         W    TRGG R  G+
Sbjct  89   GGRGPEPAAASPAPAAASAPPTPDSPSCSPHPSPSSSSSPPPPRRWPPAPTRGGARATGT  148

Query  159  EGSASNMCLW  188
              +  +   W
Sbjct  149  TAATGSDEWW  158


>ref|YP_001612554.1| pseudogene [Sorangium cellulosum 'So ce 56']
 emb|CAN92074.1| pseudogene [Sorangium cellulosum 'So ce 56']
Length=2887

 Score = 38.1 bits (87),  Expect = 1.9
 Identities = 27/47 (57%), Positives = 28/47 (60%), Gaps = 5/47 (11%)
 Frame = -3

Query  741   AADPPLRPRVVPARKA-GRAPAHQCRTPPRGADGRVPARPPGRSRRR  604
             AA PP R R  PAR A GR    + R  PRGA  RVPAR PG  RRR
Sbjct  2670  AARPPPRARAAPARVARGR---RRRRGRPRGAPARVPAR-PGALRRR  2712


>dbj|BAE21164.1| unnamed protein product [Mus musculus]
Length=445

 Score = 38.1 bits (87),  Expect = 1.9
 Identities = 39/151 (26%), Positives = 60/151 (40%), Gaps = 6/151 (4%)
 Frame = -2

Query  691  PRASASMPHPSEGCRRQSAGSAPW-EVPPSSLW-RQGDWECQQIPLNRVTVLPPSAPSLV  518
            P A A+ P P+ G       + P  ++PP  L   Q   + + +P +    L P +P+  
Sbjct  266  PVALAAQPGPAGGSSLSQQFAYPQPQIPPGHLLPMQPSGQSEYLPPH--VALQPPSPAQP  323

Query  517  rra*rrACMLLRVGHPSSTGQSWNSLAAHPL--TAEDRHATKAEPIPVATESPTLAYRAA  344
                  A        P  +GQS +SL A  +  +A+   A    P+PV   +P      A
Sbjct  324  LSTSASATSASAASFPLGSGQSVSSLGAQMMGASAQPSEAVAPGPVPVGQAAPCQPAGVA  383

Query  343  PAALHTHIKKPRAAVEHCGARDRIQSCGTGY  251
            PAAL   ++    A     A  R  S   G+
Sbjct  384  PAALGGVVQPGLRAYWGWAAPARAASAADGW  414


>gb|EFN51140.1| hypothetical protein CHLNCDRAFT_141348 [Chlorella variabilis]
Length=385

 Score = 37.7 bits (86),  Expect = 2.4
 Identities = 24/65 (37%), Positives = 29/65 (45%), Gaps = 5/65 (8%)
 Frame = +3

Query  18   RLPTASASAPRCSGVRGTPWRRSCS---SRPTTC--AWSGFSTRGGGRTAGSEGSASNMC  182
            RLP+A AS  R SG +   +   CS   S  T C   W GF     G+   S G A   C
Sbjct  49   RLPSAHASGSRSSGAKPCYFDLQCSQCNSDATRCLECWDGFHVAADGKCTPSNGCADPRC  108

Query  183  LWRTP  197
            +  TP
Sbjct  109  MECTP  113