Homework8

David Liu, a student in the department of Life Sciences, got a clone from E coli.
Here is the DNA sequence:

  TGGATGCCATGTTCCGGAGGTAATATGAAGAAATCAATATTATTTATTTTTCTTT 
  CTGTATTGTCTTTTTCACCTTTCGCTCAGGATGCTAAACCAGTAGAGTCTTCAAA 
  AGAAAAAATCACACTAGAATCAAAAAAATGTAACATTGCAAAAAAAAGTAATA 
  AAAGTGGTCCTGAAAGCATGAATAGTAGCAATTACTGCTGTGAATTGTGTTGTA 
  ATCCTGCTTGTACCGGGTGCTATTAATAATATAAAGGGAACTAAACAGTTCCCT 
  TTATATTTGTTCTGATTCTGATGATGTCTGTAACGTATGTCCTGTTGCTTTGTTG
  AATAAATCGA 

Let's do following analysis by using Sequence Analysis :

DNA sequence translation

Identify this protein

Residue charge analysis

Hydrophobicity

Possible functions or pattern of this protein

Calculate its pI and molecular weight

DNA sequence translation

Tool : Translate 
The corresponding polypeptide sequence is -------

5'3' Frame 1
W Met P C S G G N Met K K S I L F I F L S V L S F S P F A Q D A K P V E S S K 
E K I T L E S K K C N I A K K S N K S G P E S Met N S S N Y C C E L C C N P A 
C T G C Stop Stop Y K G N Stop T V P F I F V L I L Met Met S V T Y V L L L 
C Stop I N R 

5'3' Frame 2
G C H V P E V I Stop R N Q Y Y L F F F L Y C L F H L S L R Met L N Q StopS 
L Q K K K S H Stop N Q K N V T L Q K K V I K V V L K A Stop I V A I T A V 
N C V V I L L V P G A I N N I K G T K Q F P L Y L F Stop F Stop Stop C L Stop 
R Met S C C F V E Stop I 

5'3' Frame 3
D A Met F R R Stop Y E E I N I I Y F S F C I V F F T F R S G C Stop T S R V F 
K R K N H T R I K K Met Stop H C K K K Stop Stop K W S Stop K H E Stop 
Stop Q L L L Stop I V L Stop S C L Y R V L L I I Stop R E L N S S L Y I C S D 
S D D V C N V C P V A L L N K S 

3'5' Frame 1
S I Y S T K Q Q D I R Y R H H Q N Q N K Y K G N C L V P F I L L I A P G T S R I 
T T Q F T A V I A T I H A F R T T F I T F F C N V T F F Stop F Stop C D F F F Stop 
R L Y W F S I L S E R Stop K R Q Y R K K N K Stop Y Stop F L H I T S G T W 
H P 

3'5' Frame 2
R F I Q Q S N R T Y V T D I I R I R T N I K G T V Stop F P L Y Y Stop Stop H 
P V Q A G L Q H N S Q Q Stop L L L F Met L S G P L L L L F F A Met L H F F D 
S S V I F S F E D S T G L A S Stop A K G E K D N T E R K I N N I D F F I L P P 
E H G I 

3'5' Frame 3
D L F N K A T G H T L Q T S S E S E Q I Stop R E L F S S L Y I I N S T R Y K Q 
D Y N T I H S S N C Y Y S C F Q D H F Y Y F F L Q C Y I F L I L V Stop F F L L 
K T L L V Stop H P E R K V K K T I Q K E K Stop I I L I S S Y Y L R N Met A 
S 

The most possiple amino acid sequence of all above is ------- 
Met P C S G G N Met K K S I L F I F L S V L S F S P F A Q D A K P V E S S K E K 
I T L E S K K C N I A K K S N K S G P E S Met N S S N Y C C E L C C 
N P A C T G C Y

other analysis

Identify this protein

Tool : NCBI BLAST

最相近的已知Protein為--------
sp|P26588|HST4_ECOLI  HEAT-STABLE ENTEROTOXIN A4 PRECURSOR  258

other analysis

Residue charge analysis

Tool : ProtParam & Protein Colourer

Total number of negatively charged residues (Asp + Glu): 6
Total number of positively charged residues (Arg + Lys): 10

Color protein by charge -----[blue:HKR  red:DE]
M P C S G G N M K K S I L F I F L S V L S F S P F A Q D A K P V E S S K E K I T 
L E S K K C N I A K K S N K S G P E S M N S S N Y C C E L C C N P A C T G C Y

other analysis

Hydrophobicity

Tool : ProtScale

Using the scale  Hphob./Eisenberg

the individual values for the 20 amino acids are: 

Ala:  0.620  Arg: -2.530  Asn: -0.780  Asp: -0.900  Cys:  0.290  Gln: -0.850  
Glu: -0.740  Gly:  0.480  His: -0.400  Ile:  1.380  Leu:  1.060  Lys: -1.500  
Met:  0.640  Phe:  1.190  Pro:  0.120  Ser: -0.180  Thr: -0.050  Trp:  0.810  
Tyr:  0.260  Val:  1.080  Asx: -0.840  Glx: -0.795  Xaa: -0.000  

Weights for window positions 1,..,7, using linear weight variation model:

   1     2     3     4     5     6     7     
 0.40  0.60  0.80  1.00  0.80  0.60  0.40 
 edge             center             edge



other analysis

Possible functions or pattern

Tool : ScanProsite

[1] PDOC00001 PS00001  ASN_GLYCOSYLATION
N-glycosylation site

Number of matches: 2
      1      53-56 NKSG                                                        
      2      61-64 NSSN                                                        
[2] PDOC00005 PS00005  PKC_PHOSPHO_SITE
Protein kinase C phosphorylation site

Number of matches: 3
      1      34-36 SSK                                                         
      2      43-45 SKK                                                         
      3      52-54 SNK                                                         
[3] PDOC00006 PS00006  CK2_PHOSPHO_SITE
Casein kinase II phosphorylation site

Number of matches: 2
      1      34-37 SSKE                                                        
      2      55-58 SGPE                                                        
[4] PDOC00246 PS00273  ENTEROTOXIN_H_STABLE
Heat-stable enterotoxins signature

             66-78 CCELCCNPACTGC     

other analysis

Calculate its pI and molecular weight

Tool : ProtParam

pI value = 8.66

molecular weight = 8555.96

other analysis