版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于蛋白质生物信息学第一节生物信息学与蛋白质工程一、生物信息学概述生物信息学是利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。1987年,林华安首创Bioinformation一词,被誉为”世界生物信息之父”。第2页,共49页,2024年2月25日,星期天生物信息学分子生物学与信息技术(尤其是互联网技术)的结合体。研究材料和结果就是各种各样的生物学数据研究工具是计算机研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。概述第3页,共49页,2024年2月25日,星期天研究内容1、生物信息的收集、存储、管理与提供2、基因组序列信息的提取和分析3、功能基因组相关信息分析4、生物大分子结构模拟和药物设计5、生物信息分析的技术与方法研究第4页,共49页,2024年2月25日,星期天2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能。“生物信息学”正是从这一前提产生的交叉学科。发展条件第5页,共49页,2024年2月25日,星期天核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系。研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。第6页,共49页,2024年2月25日,星期天以数据(库)为核心1数据库的建立2生物学数据的检索3生物学数据的处理4生物学数据的利用:计算生物学研究过程第7页,共49页,2024年2月25日,星期天由于生物信息学是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。研究展望第8页,共49页,2024年2月25日,星期天要真正解决这一问题,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:"DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关"。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。研究展望第9页,共49页,2024年2月25日,星期天二、生物信息学与蛋白质工程(一)蛋白质序列分析,预测其理化性质、空间结构及生物学功能(二)蛋白质结构预测理论分析法:在理论计算的基础上预测统计分析法:建立序列-结构的映射模型(三)蛋白质功能预测P162(四)蛋白质分子设计第10页,共49页,2024年2月25日,星期天三、生物信息学与蛋白质组学1994、澳大利亚Wilkins和Willians提出蛋白质组:由全部基因表达的全部蛋白质及其存在方式,是一种细胞、组织或完整的生命体在特定时空上所拥有的全套蛋白质蛋白质组学:以蛋白质为研究对象,阐明某生物体全部蛋白质的表达模式及功能模式生物信息学理论、技术方法和软件等在蛋白质组学相关数据库的建立、应用以及蛋白质组分析等方面具有重要的应用第11页,共49页,2024年2月25日,星期天生物信息学作为一门新的学科领域,把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。第12页,共49页,2024年2月25日,星期天第二节蛋白质常用数据库及应用一次数据库:实验获得的原始数据。简单归类整理、注释。Genbank、Swiss-Prot、PDB二次数据库:在一次数据库、实验数据和理论分析的基础上,根据研究内容的需要,对相关生物知识和信息进一步分析整理。包括人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等。第13页,共49页,2024年2月25日,星期天第二节、蛋白质常用数据库一、核酸数据库NCBI的Genbank、EMBL、DDBJ等第14页,共49页,2024年2月25日,星期天二、蛋白质数据库(一)蛋白序列数据库:SWISS-PROT、PIR、TreEMBL、UniProt、GenPept第15页,共49页,2024年2月25日,星期天(二)蛋白序列二次数据库蛋白保守区域和功能位点数据库,PROSITE、PRINTS、BLOCKS第16页,共49页,2024年2月25日,星期天(三)蛋白结构数据库三维结构数据库PBD、MMDB第17页,共49页,2024年2月25日,星期天全人源抗EGFR单克隆抗体红色字体为信号肽,标黄部分为可变区重链可变区(HV)DNA序列(423bp)ATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGTCATAATATCCAGAGGACAGGTGCAGCTGCAGGAGTCGGGCCCAGGACTGGTGAAGCCTTCGGAGACCCTGTCCCTCACCTGCACTGTCTCTGGTGGCTCCGTCAGCAGTGGTGATTACTACTGGACCTGGATTCGGCAGTCCCCAGGGAAGGGACTGGAGTGGATTGGACACATCTATTACAGTGGGAACACCAATTATAACCCCTCCCTCAAGAGCAGACTCACCATATCAATTGACACGTCCAAGACTCAGTTCTCCCTGAAGCTGAGTTCTGTGACCGCTGCGGACACGGCCATTTATTACTGTGTGCGAGATCGAGTGACTGGTGCTTTTGATATCTGGGGCCAAGGGACAATGGTCACCGTCTCTTCA
第18页,共49页,2024年2月25日,星期天ATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGTCATAATATCCAGAGGAGacatccagatgacccagtctccatcctccctgtctgcatctgtaggagacagagtcACCATCACTTGCCAGGCGAGTCAGGACATCAGCAACTATTTAAATTGGTATCAGCAGAAACCAGGGAAAGCCCCTAAACTCCTGATCTACGATGCATCCAATTTGGAAACAGGGGTCCCATCAAGGTTCAGTGGAAGTGGATCTGGGACAGATTTTACTTTCACCATCAGCAGCCTGCAGCCTGAAGATATTGCAACATATTTCTGTCAACACTTTGATCATCTCCCGCTCGCTTTCGGCGGAGGGACCAAGGTGGAGATCAAACGTACTGTGGCTGCACCATCTGTCTTCATCTTCCCGCCATCTGATGAGCAGTTGAAATCTGGAACTGCCTCTGTTGTGTGCCTGCTGAATAACTTCTATCCCAGAGAGGCCAAAGTACAGTGGAAGGTGGATAACGCCCTCCAATCGGGTAACTCCCAGGAGAGTGTCACAGAGCAGGACAGCAAGGACAGCACCTACAGCCTCAGCAGCACCCTGACGCTGAGCAAAGCAGACTACGAGAAACACAAAGTCTACGCCTGCGAAGTCACCCATCAGGGCCTGAGCTCGCCCGTCACAAAGAGCTTCAACAGGGGAGAGTGT轻链全长(L)DNA序列(708bp)第19页,共49页,2024年2月25日,星期天GGTGGTGGTGGCTCTGGCGGTGGTGGCTCTGGTGGCGGTGGTTCT连接肽(G4S)3蛋白质分子设计:VH-L-LVHVLCLlinker第20页,共49页,2024年2月25日,星期天第21页,共49页,2024年2月25日,星期天利用DNAman对VH-L-L的限制性内切酶位点分析,结果显示VH-L-L有31个限制性酶切位点,最多的是Eco57Ⅰ、TthlllⅠ分别有三个酶切位点。第22页,共49页,2024年2月25日,星期天第23页,共49页,2024年2月25日,星期天利用生物信息学软件DNAman将VH-L-L的核苷酸序列翻译为氨基酸序列第24页,共49页,2024年2月25日,星期天
利用NCBI提供的ORFFinder预测VH-L-L的ORF,从预测结果看出VH-L-L是一段连续的较长的ORF,它可能是一个完整的编码序列第25页,共49页,2024年2月25日,星期天
利用ProtParam对VH-L-L的氨基酸序列及基本理化性质进行了分析。结果显示VH-L-L蛋白由392个氨基酸组成的稳定蛋白,分子式为C1867H2894N494O596S11
,分子量42149.1,等电点5.98。理论推导半衰期为:30h(体外,哺乳动物的网织红细胞内)、20h(体内,酵母细胞内)、10h(体内,大肠杆菌)。不稳定参数是38.92,属于稳定蛋白。含的氨基酸如图所示:Ser(S),Glu(G),Thr(T)最多,分别占15.1%,9.9%,7.7%;不含Pyl(0),Sec(U)。总带正电荷残基(Asp+Glu)为32,负电荷残基(Arg+Lys)为29。总的亲水性平均系数-0.169,预测该蛋白属于亲水性蛋白。第26页,共49页,2024年2月25日,星期天第27页,共49页,2024年2月25日,星期天第28页,共49页,2024年2月25日,星期天蛋白质的亲疏水性是影响蛋白质空间结构的因素之一。利用ProtScale分析氨基酸亲水性/疏水性,预测结果显示该氨基酸序列中亲水性和疏水性区域间隔存在,小部分为中性,在氨基酸序列20、170处出现了较高的疏水性,此处富含疏水性氨基酸。总体来说,亲水氨基酸多于疏水氨基酸,因此可以认为VH-L-L是亲水性蛋白第29页,共49页,2024年2月25日,星期天第30页,共49页,2024年2月25日,星期天
利用Tmpred分析VH-L-L的跨膜区,分析表明,该序列无跨膜区,不是跨膜蛋白。可以预测该蛋白在膜外第31页,共49页,2024年2月25日,星期天利用NetPhos进行磷酸化位点分析,结果显示磷酸化位点主要包括丝氨酸Ser位点:28个,苏氨酸Thr:5个,酪氨酸Tyr:3个第32页,共49页,2024年2月25日,星期天
利用TargetP对VH-L-L蛋白的亚细胞定位进行预测,结果表明,VH-L-L是分泌到细胞周质的蛋白第33页,共49页,2024年2月25日,星期天III 蛋白质二级结构预测蛋白质序列:
↓
二级结构:↓第34页,共49页,2024年2月25日,星期天1、二级结构预测概述蛋白质的二级结构预测的基本依据是: 每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题是模式分类问题二级结构预测的目标:判断每一段中心的残基是否处于
螺旋、
折叠、转角(或其它状态)之一的二级结构态,即三态。
第35页,共49页,2024年2月25日,星期天蛋白质结构预测主要有两大类方法:(1)理论分析方法通过理论计算(如分子力学、分子动力学计算)进行结构预测。(2)统计的方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。包括:经验性方法(Chou-Fasman)、结构规律提取方法(神经网络方法)、同源模型化方法第36页,共49页,2024年2月25日,星期天经验参数法由Chou和Fasman在70年代提出.是一种基于单个氨基酸残基统计的经验预测方法。 通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。
第37页,共49页,2024年2月25日,星期天经验参数法蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的85%各种二级结构非均匀地分布在蛋白质中第38页,共49页,2024年2月25日,星期天有些蛋白质中含有大量的
螺旋如血红蛋白和肌红蛋白而一些蛋白质中则不含或者仅含很少的
螺旋如铁氧蛋白有些蛋白质的二级结构以
折叠为主如免疫球蛋白例:肽链Ala(A)-Glu(E)-Leu(L)-Met(M)倾向于形成
螺旋肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成
螺旋
第39页,共49页,2024年2月25日,星期天每种氨基酸出现在各种二级结构中倾向或者频率是不同的例如:Glu主要出现在
螺旋中
Asp和Gly主要分布在转角中
Pro也常出现在转角中,但是绝不会出现在
螺旋中可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测第40页,共49页,2024年2月25日,星期天基本策略(1)
相似序列→相似结构QLMGERIRARRKKLKQLMGAERIRARRKKLK结构?第41页,共49页,2024年2月25日,星期天基本策略(2)
分类分析α螺旋提取样本聚类分析学习分类规则预测….-Gly-Ala-Glu-Phe-….第42页,共49页,2024年2月
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论