hk7

HOMEWORK 7

David Liu, a student in the department of Lfe Sciences, got the following mRNA sequence from a rat liver cDNA library.

GCGTCGACGGGCTTGGCATCGGGCCTCCGCAGCCGCCCACCGCCAGAAGCTTCCAGCCT
CACCACTATGGATCCCCGCAAAGTGAGCGAGCTTCGGGCCTTCGTGAAGATGTGTAGG
CAGGACCCGAGCGTCCTGCACACCGAGGAAATGCGTTTCCTGAGGGAGTGGGTGGAGA
GCATGGGGGGTAAAGTACCACCTGCTACTCATAAAGCGAAGTCAGAAGAAAACACTAA
GGAAGAAAAAAGAGACAAGACGACAGAGGACAACATAAAGACAGAGGAGCCATCGAG
TGAGGAGAGCGATCTAGAAATTGACAATGAAGGTGTAATTGAAGCAGACACTGATGCT
CCTCAGGAAATGGGAGATGAAAATGCAGAGATAACTGAGGCGATGATGGATGAAGCAA
ATGAAAAGAAGGGGGCTGCCATCGACGCTCTAAATGATGGTGAGCTCCAGAAAGCCAT
TGACTTGTTCACAGACGCCATCAAGCTAAACCCTCGCTTGGCCATTCTGTATGCCAAGA
GAGCCAGTGTTTTCGTCAAATTACAGAAGCCAAATGCTGCCATCCGAGACTGTGACAGA
GCTATTGAAATAAACCCTGATTCAGCTCAGCCATACAAATGGAGAGGGAAAGCGCACA
GACTCCTGGGTCACTGGGAAGAAGCAGCTCGCGATCTTGCCCTGGCCTGTAAATTGGAC
TATGATGAGGACGCCAGTGCAATGCTGAGAGAAGTCCAGCCTCGGGCTCAAAAAATTGC
TGAACATCGGAGAAAGTATGAGCGAAAACGTGAAGAGCGAGAGATAAAAGAACGAAT
AGAAAGGGTGAAGAAGGCTCGAGAAGAGCATGAAAAAGCCCAAAGGGAAGAAGAAGC
CAGAAGACAATCTGGATCTCAGTTTGGCTCTTTTCCAGGTGGTTTTCCTGGGGGAATGC
CTGGTAATTTTCCTGGAGGAATGCCTGGAATGGGAGGGGCCATGCCAGGAATGGCAGG
AATGCCTGGACTCAACGAAATCCTCAGTGACCCAGAGGTTCTTGCAGCCATGCAGGATC
CAGAAGTCATGGTGGCTTTCCAGGATGTGGCCCAGAACCCATCAAATATGTCAAAATAT
CAGAACAACCCAAAGGTTATGAATCTCATCAGTAAATTGTCAGCCAAGTTTGGAGGTCA
CTCATAATGTCAAAGCCCTTGCTGAATGAAGAACAGCTTAGCTCACTTACTGGATGTTG
CAATAATACAAACCAGTGTACCTCTGACCTCACCAGAGAGCTGGGGCGCTTCGAAGATA
ATCCCTACCCTCTGCATCATATGCGGCTGAGGCATATTACAGTGGTTTGCCATTAGAGT
GTTCATTCAGATAATGTTTTCCTATTAGGAATTACAAACTTAAAACATTTTTCAACCTTA
AACATATTTTTTAAAAATTTAGGGGATGTCAATTCCTACATTTTTCGTTACTAATCTTTT
TGGGTTTTTCCTTTTGAATTACTGGGCAAGGAAGGTGAATGTGGATGATTTACTGCTTT
CATGAATGAAATAAAGATTTGTTAGTGGGAAGCAAATAAAACACATTTAAGTTGATTG
AGTCGGACATACGGTTACTGCAACATCTTGAATTGTCTTTAATGTTTTACTTCACAATG
ATCTATTTCAGTAAATCTTTTGGGACCACCAAAAAAAAAAAAAAAAAAAAAAAAA

Unfortunately, he doesn't know how to use the sequence analysis tools availabled in the internet since he did not take Bioinformatics before. Could you help him to do the following analysis?

(1) Find its corresponding polypeptide sequence (DNA -> Protein translation).

               DNA->Protein
                      ¡CTranslate -Translate a nucleotide sequence to a protein
               ¬d¸ßµ²ªG¡G¦@¤»µ§¡C
               ¿ï¾Ü©óMet ~Stop¤§¶¡³Ìªøªº¤@¬qamino acid sequence¡A ¬° 5'3' Frame 1
                   Met D P R K V S E L R A F V K Met C R Q D P S V L H T E E Met R F L
                   R E W V E S Met G G K V P P A T H K A K S E E N T K E E K R D K T
                   T E D N I K T E E P S S E E S D L E I D N E G V I E A D T D A P Q E
                   Met G D E N A E I T E A Met Met D E A N E K K G A A I D A L N D G E
                   L Q K A I D L F T D A I K L N P R L A I L Y A K R A S V F V K L Q K P
                   N A A I R D C D R A I E I N P D S A Q P Y K W R G K A H R L L G H W
                   E E A A R D L A L A C K L D Y D E D A S A Met L R E V Q P R A Q K I
                   A E H R R K Y E R K R E E R E I K E R I E R V K K A R E E H E K A Q
                   R E E E A R R Q S G S Q F G S F P G G F P G G Met P G N F P G G Met
                   P G Met G G A Met P G Met A G Met P G L N E I L S D P E V L A A Met
                   Q D P E V Met V A F Q D V A Q N P S N Met S K Y Q N N P K V Met N
                   L I S K L S A K F G G H S Stop

(2) Identify this protein. Is it a new protein? What kind of rat is this protein belong to? (China, Noway, German.....)

Direct WU-BLAST submission at EMBNet-CH(Lausanne,Switzerland)
               ¬d¸ßµ²ªG¡G
                   >sp|P50503|HIP_RAT (HIP) HSC70-INTERACTING PROTEIN.
                   Length = 368
                   Score = 1909 (672.0 bits), Expect = 2.0e-197, P = 2.0e-197
                   Identities = 368/368 (100%), Positives = 368/368 (100%)
               ©Ò¥H¤£¬O·sªºProtein ¡C
               ¬°RATTUS NORVEGICUS (RAT).

(3) Report the total number of negatively charged residues and positively charged residues.

Sequence analysis tool:Protparam
              ¬d¸ßµ²ªG¡G
                  Total number of negatively charged residues (Asp + Glu): 69
                  Total number of positively charged residues (Arg + Lys): 56

(4) Draw the hydrophobicity map for this protein using Eisenberg hydrophobicityscale with window size 7. The relative weight of the window edges compared to the window center should set to 40%.

Sequence analysis tool:ProtScale¡
¬d¸ßµ²ªG¡GSEQUENCE LENGTH: 368
Using the scale Hphob./Eisenberg et al., the individual values for the 20 amino acids are:

                     Ala: 0.620 Arg: -2.530 Asn: -0.780 Asp: -0.900 Cys: 0.290 Gln: -0.850
                     Glu: -0.740 Gly: 0.480 His: -0.400 Ile: 1.380 Leu: 1.060 Lys: -1.500
                     Met: 0.640 Phe: 1.190 Pro: 0.120 Ser: -0.180 Thr: -0.050 Trp: 0.810
                     Tyr: 0.260 Val: 1.080 Asx: -0.840 Glx: -0.795 Xaa: -0.000

Weights for window positions 1,..,7, using linear weight variation model:

                                    1       2       3       4       5       6       7
                                  0.40 0.60 0.80 1.00 0.80 0.60 0.40
                                  edge                  center                  edge

(5) Please help him to use Prosite scanning tool to find out possible functions or pattern of this protein.

               ¡CScanProsite - Scan a sequence against PROSITE or a pattern against SWISS-PROT and TREMBL
               ¬d¸ßµ²ªG¡G¦
                   Scan of HIP_RAT (P50503)

HSC70-INTERACTING PROTEIN.
RATTUS NORVEGICUS (RAT).

[1] PDOC00001 PS00001 ASN_GLYCOSYLATION
N-glycosylation site

343-346 NMSK

[2] PDOC00004 PS00004 CAMP_PHOSPHO_SITE
cAMP- and cGMP-dependent protein kinase phosphorylation site

                   Number of matches: 3
                               1        4-7 RKVS
                               2    152-155 KRAS
                               3    270-273 RRQS

[3] PDOC00005 PS00005 PKC_PHOSPHO_SITE
Protein kinase C phosphorylation site

                   Number of matches: 2
                               1      46-48 THK
                               2    361-363 SAK

[4] PDOC00006 PS00006 CK2_PHOSPHO_SITE
Casein kinase II phosphorylation site

                   Number of matches: 5
                               1      55-58 TKEE
                               2      63-66 TTED
                               3      74-77 SSEE
                               4      78-81 SDLE
                               5    317-320 SDPE

[5] PDOC00008 PS00008 MYRISTYL
N-myristoylation site

                   Number of matches: 10
                               1      86-91 GVIEAD
                               2    274-279 GSQFGS
                               3    278-283 GSFPGG
                               4    282-287 GGFPGG
                               5    286-291 GGMPGN
                               6    287-292 GMPGNF
                               7    290-295 GNFPGG
                               8    294-299 GGMPGM
                               9    298-303 GMGGAM
                               10    301-306 GAMPGM

(6) Color the protein by the hydrophobicity of the amino acids.

      ¡C Protein Colourer - Tool for colouring your amino acid sequence
       ¬d¸ßµ²ªG¡G
               AGILPV-ÂÅ¦â
               FYW-¬õ¦â
               DENQRHISIK-ºñ¦â
               CM-¶À¦â