蛋白质Cα原子接触数理论分析及modi_第1页
蛋白质Cα原子接触数理论分析及modi_第2页
蛋白质Cα原子接触数理论分析及modi_第3页
蛋白质Cα原子接触数理论分析及modi_第4页
蛋白质Cα原子接触数理论分析及modi_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、蛋白质C原子接触数统计分析及应用*章社生, 范宁,何康,王星(武汉理工大学统计系, 武汉430070) 数字技术与应用_*武汉理工大学自主创新研究基金资助(批准号)资助项目,*国家自然科学基金(批准号69773021)资助项目作者简介:章社生,男,1955出生年,教授,博士,email: sheshengz;联系地址:余家头联盟小区9-3-402,电话摘要C是蛋白质分子中重要原子,是蛋白质折叠和设计中重要研究对象。根据-氨基酸和C原子的理化特性,本文研究蛋白质中C原子空间拓扑结构,引入C原子接触数的概念,讨论了蛋白中C原子数目比重、平均接触数以及平均接触数变化率。发现在蛋白质中,多于65%C原

2、子间距大于3个原子单位,间距在4-10之间时,平均接触数变化率波动大,且C原子分布不均匀。关键字 蛋白质; C原子; 接触数; 数字特征;The statistical analysis and application of the contact number of C atomsZhang She-sheng、He Kang、Wang Xing、Fan NingDepartment of Statistics, Wuhan University of Technology, Wuhan.430070Financially supported by self-determined and i

3、nnovative research funds of WUT (Grant No. ) The granted project of the National Natural Science Foundation of China (Grant No. 69773021)Email:AbstractC plays an important role in protein, as well as in the study of protein folding and design. According to the physical and chemical properties of -am

4、ino acid and C atoms, the study of Protein topology in C atoms is concerned in detail. With the introduction of the concept of contact number of C atoms, the atomic number proportion of C atoms in protein. The average contact number and average rate of change of contact number are discussed respecti

5、vely. Consequently, the interatomic distance of more than 65% of C atoms is greater than 3 ; also the average rate of change of contact number fluctuates drastically within the distance between 4 to10. Additionally, the distribution of C atoms is fairly uneven.KeywordProtein; C atoms; contact number

6、; digital features;1、引言虽然基因组规定了蛋白质的氨基酸序列,但是,蛋白质只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能,蛋白质结构构象多样性导致了不同的生物学功能。研究蛋白质的结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。目前,研究蛋白质结构普遍使用的是实验,理论分析和计算。学者江凡1介绍了X射线晶体学、二维核磁共振(2D-NMR)和低温冷冻电镜等蛋白质空间结构的实验测定方法。应用这些方法,已测定大量蛋白质空间结构,并以PBD等文件形式贮存在公共数据库中,免费

7、供世界各地研究者使用。文献2应用统计分析方法,利用数据挖掘中的数据分布拟合理论对生物科学领域中的蛋白质侧链空间结构进行统计分析。以世界上广泛使用的生物分子三维结构数据库PDB为基础,利用残基侧链碳原子间距离的统计分析方法,通过正交试验设计和信息论中的熵函数等相关知识,给出了不同位置、不同氨基酸残基种类对侧链结构的影响. 文献3-4用统计和几何方法给出了氨基酸在蛋白质空间结构中的深度计算,并利用PDB数据库得到了不同氨基酸在蛋白质中的深度倾向性因子,并得到了这些倾向性因子与氨基酸的物理、化学综合特性的相关性质。文献5就蛋白质结构预测的方法和应用进行了综述,介绍了比较建模、折叠识别、从头计算等3种

8、方法及其在结构基因组学研究、药物设计、蛋白质设计中的应用,并且对蛋白质结构预测存在的主要问题进行了讨论,指出了今后蛋白质结构预测研究重点在于优化比对算法和计分函数以及膜蛋白的结构预测. 文献6以“相对熵”作为优化函数, 仅用蛋白质主链上的两两连续的C原子间的距离信息以及20 种氨基酸的接触势的一个扩展形式,提出了一个有效快速的折叠预测优化算法,对几个真实蛋白质做了算法测试,预测构象相对于它们天然结构的均方根偏差(RMSD) 为57a.u, a.u为原子单位,本文坐标和距离所用单位皆为原子单位,且省略书写单位符号a.u。文献6的工作表明C原子在-氨基酸中的重要作用决定着整体分子的性质与物理形态。

9、但文献6没有计算C原子的接触数及其数学特征。文献7-9讨论了蛋白质的结构和性质,认为C是研究蛋白质的一个生不可缺少的原子,有必要进一步研究。因而,应用数理统计方法,研究蛋白质中C构成的空间拓扑结构及其数字特征有助于蛋白质的折叠预测和设计。本文将研究蛋白质中C原子,文中第二节在简述C原子在蛋白质中的化学性质的基础上,给出C接触数的定义;第三节讨论接触数的计算;第四节对接触数的计算结果进行分析。2、C原子接触数理论分析蛋白质二级结构指蛋白质分子中某一段肽链的局部空间结构,即该段肽链主链骨架原子的相对空间位置,并不涉及氨基酸残基侧链的构象。而肽键平面是二级结构的基础,这些肽键存在于氨基酸之间。因此我

10、们深入分析-氨基酸,并且对其组成成分C进行讨论。2.1、-氨基酸的分析-氨基酸是蛋白质的主要组分,是生物体中最重要的氨基酸。蛋白质分子是由上百或更多的作为单体缩合而成的由20种-氨基酸构成的多肽链组成的。 所谓-氨基酸是指氨基连在羧酸的位,-COOH和-NH2连接在同一个C原子上。-氨基酸的立体结构除甘氨酸外,C原子上所连结的4个基团都不相同,因此存在立体异构体,其绝对构型见图1。每个氨基酸或其残基中羧酸根位上的C原子直接与氢原子、氨基和侧链R基相连。图1、-氨基酸结构通式图对于蛋白质分子的结构层次,蛋白多肽链往往不是一个完全伸展的链。肽键因具双键成分而无旋转的自由,但它周围的每个C原子与相邻

11、两个肽键中的氮和碳原子所形成的C-N和C-C单键都具有较大的回旋余地,从而一个多肽键可能存在于不计其数的构象或立体结构中,其中有些构象使未成键原子间形成较多较强的氢键并产生其他能使整个分子趋于稳定的相互作用。 2.2、C原子分析C原子指的是对应残基上最接近羰基的碳原子,是主链骨架的组成原子。在-氨基酸中,如图2所示,“C”原子连接着4个不同类别的原子或基团:一个氨基、一个羧基、一个氢原子(略去氢原子)和一个条侧链。图2、-氨基酸结构示意图2.3、C原子接触数概念在一个蛋白质分子中,C原子被视为主链的关节,起到了 “桥梁”的作用。然而C原子分布散布于整个分子空间(如图3)。若想对化学键、转角等进

12、行深入分析之前,必须先初步掌握该原子的分布情况、转角特点等。为了方便问题研究,我们引入接触数的概念。图3、肽键平面和C示意图假设: 某个蛋白质分子包括N个原子,其中有n个C原子,记为CA1,CA2,CAn。 所有的原子散布在蛋白质分子空间。简化处理分子结构,选择以原子为基准的立体空间结构(不考虑其他的基团)。接触数的定义:对于第i个C原子CAi,坐标(xi,yi,zi)。以CAi为球心,r为半径作一个球,统计内部包含的C原子的个数(不包括CAi),记为Ki,即球内部除CAi外包含有Ki个C原子。则我们称Ki为CAi原子的接触数(contact number)。令则为该蛋白质分子C原子的平均接触

13、数。显然,及是关于r的增函数(不是严格递增),表示为:3、接触数计算方法3.1、数据预处理(1)导入目标数据。即打开已有的1653个蛋白质分子PDB文件,选择每个分子中所有ATOM的相应数据导入。(2)提取与统计数据。重点利用PDB文件中原子(尤其是C原子)的信息。3.2、 蛋白质平均接触数的计算对某蛋白质分子,从已提取出来的数据中读取原子坐标信息。(1)构造距离矩阵 。其中表示CAi与CAj之间的距离,即(2)对于每一个C原子CAi,以其为球心,求在半径为时,该原子的接触数。表示集合A中元素的个数。(3)计算该蛋白质分子C原子的平均接触数。(4)计算该蛋白质分子所有C原子接触数的方差:(5)

14、计算取不同值时,平均接触数以及接触数方差,并绘制,曲线。(说明:从r=1开始,以1为步长增加,直到调整r恰好将所有的C原子包括即结束)4、数据结果分析对1653个蛋白质PDB数据处理计算,将结果进行分析,得到以下的结论:4.1、对所考察蛋白质的整体分析 (1) C原子数目百分比:蛋白质分子由4个基本原子C,H,O,N组成。在蛋白质中,C原子数量为蛋白质中原子数量的百分比在6.599-15.76范围内,尤其集中在11%-14%范围,见图4;1653个蛋白质分子平均百分比为12.65%,所占比重不大。图4、所考察蛋白分子中C原子所占百分比分布图(2) 平均接触数:在相同的半径下,对所考察的全部蛋白

15、质分子的平均接触数求均值,结果见表1。表1、所考察蛋白质在不同半径下平均接触数的均值r12345678910K0.00390.00740.00412.00332.53005.39437.81559.481412.57516.777r11121314151617181920k22.04327.06632.89139.346.42653.62160.9968.29576.06184.061结合上表和图5,可以看出,在一个C原子的半径为3au的球空间内几乎没有其他的C原子出现。一般情况下,之间的间距是大于等于3au。随着半径增加,平均接触数也累积增加。值得补充的是,这里只考察半径为20以下的情况。事

16、实上蛋白分子中C原子数目有限,所以在r达到一定值后,平均接触数稳定为一个具体值。进一步,通过绘制若干个蛋白质分子关系曲线,发现走势相近。图5、所考察蛋白质在不同半径下平均接触数均值曲线图为了分析不同蛋白质中C原子分布的共性与差异,计算所考察蛋白质在各半径下接触数的方差。结果见下表2:表2、所考察蛋白质分子在不同半径下平均接触数方差半径r=1r=2r=3r=4r=5r=6r=7r=8r=9r=10方差0.000.000.000.010.020.200.330.842.115.16半径r=11r=12r=13r=14r=15r=16r=17r=18r=19r=20方差10.9520.6835.21

17、58.4090.67133.04188.87263.84357.95479.75从上表中看出,半径在8以内,各蛋白质之间差异很小(平均接触数的方差在1以内);随着半径增大,差异慢慢体现出来,所考虑的半径越大,差异越显著。这证明了不同的蛋白质分子具有共性与特性的事实。(3) 平均接触数变化率:在这里我们引入接触数变化率的概念:接触数变化率指的是单位空间体积平均接触数变化大小。定义为:为便于计算,离散化处理,取近似值:主要反映C原子在半径为的球面附近,单位体积包含的C原子个数。研究平均接触数变化率(图7),所考察整体蛋白分子的平均接触数变化率在波动中递减。平均接触数变化率在半径3处为转折点。即在半

18、径0-3之间,几乎没有变化(为0);在半径3-4的同心球的过渡空间内,平均接触数骤升。从半径为4的球面向半径为10的同心球面渐近时,出现较大的振荡。然而在半径10以后的空间内,一致递减,直至C原子全部包含于球内。图7、所考察的蛋白质在半径以步长1变化的平均接触数变化率曲线进一步,为了深入分析半径在4到10之间变化率的波动情况,将步长缩小至0.5,通过图8,可以看出波动情况基本保持一致,保证其收敛性。 图8、所考察的蛋白质在半径以步长0.5变化的平均接触数变化率曲线综合分析,蛋白质分子C原子的平均接触数变化率是先突增,进而在波动中缓慢减小至0。通过k(r)可以侧面反映C原子分布不均。该研究为预测

19、蛋白质氨基酸的位置等物理性质提供依据;也从数学的角度定量化说明了蛋白质的结构组成。通过定量的分析,利用结构规律统计方法,我们猜测一般蛋白质分子中存在相似的性质:分子中只有一定量的C原子;任意两个C原子存在一定间距;并且分布不均匀,不同单位体积内C原子密集程度不同。4.2、对个体蛋白分子的分析由于蛋白质总数多,结构各异,很难一一进行说明。针对每一个蛋白质分子的特性区别,我们随机选择一些蛋白质分子详细分析。具体算例:蛋白质分子1EXS在1EXS蛋白分子中,总共有1248个原子构成,其中有160个C原子,约占总原子数的12.74%。作出1EXS分子在不同半径下接触数曲线图(图9),在半径r>3

20、后,才会出现相邻的C,即该分子的一个C原子独立空间体积至少是半径为3的球空间。这与由整体平均得到的结论是一致的。在r=10到25左右,平均接触数增长迅速。图9、1EXS分子不同半径下接触数曲线图同理,从表3看出,C原子的附近与远处只有少数的C存在。大致在r=45时,平均接触数达到饱和。根据C原子是蛋白质肽链中主链的 “骨节”,贯穿于始终,因此,我们推断该蛋白质分子的立体空间半径可能在50左右。表3、1EXS分子不同半径下平均接触数取值表rkrkrkrkrk101121.492191.8631150.6341158.86201226.612299.3932152.7142158.93301332

21、.5523106.7533154.7643158.9442.011439.0424114.4734156.144158.9752.481546.825121.6935157.144515964.841654.1726128.4536157.784615977.391761.5927134.2237158.164715989.181868.7228139.4738158.5348159911.861976.3629144.239158.7491591016.392084.23014840158.850159基于以上分析,得到半径3为出现接触数的分界点。观察平均接触数变化率曲线(图10),其走势也

22、与又整体平均得到的结果基本吻合(如图7)图10、1EXS分子C平均接触数变化率 图11、1EXS 曲线进一步研究该蛋白分子所有C原子接触数方差(图11),随着半径的增加,C原子之间接触数差异就会增加,离散程度明显;当半径增加到20后接触数差异又缩小(原因是此时r逐渐包括了该蛋白分子所有的C原子,各C原子接触数的差异逐渐变小)。这验证了我们的推测C原子的分布不均匀,不同的C原子有不同的特性,有些C原子附近没有多少C原子(接触数较小),而有些附近则有很多C原子(接触数较大)。因此对于1EXS分子,半径20处可以作为研究C原子特征的参考方法。5、总结与应用在蛋白质空间结构研究进程中,二级空间结构的科

23、学研究突破已较为成熟,可以利用数学知识、统计原理等理论,从不同的角度应用与改进。针对-氨基酸主链骨架的组成原子C原子,我们引入接触数概念,定量与定性相结合,利用结构规律统计与计算机模拟手段,对1653个研究对象进行了处理分析,分别对蛋白质分子中C原子的接触数,关系曲线、接触数变化率等进行了讨论。通过信息收集整理探索,得到了较为满意的效果。其中,在每个蛋白分子中C原子并不是大量存在,一般占所有原子数目的11%-15%。然而任意一个C原子都不尽相同,各有各的表征性质。一般的,每一个C原子都有自身专有“空间区域”,互不干扰且分布不均;大多数C原子的间距都在r=3以上。同时根据平均接触数变化率波动较大,可以推测出C原子较为密集的空间。本文是关于生物、统计学科结合的研究,在数字表征、数据挖掘层面上,分析了二级结构-氨基酸的关节C原子,为人工组合蛋白质提供了数字支持。同时也对氨基酸理化特性指出了以C原子为基准的新方向。本文下一步工作为:研究不同类别蛋白质和氨基酸中C原子的空间分布数学特征。6、参考文献1 江凡; 蛋白质空间结构的实验技术和理论方法; 物理, 2007(4), 272-279.2 王昕, 毛炳蔚, 王福伟, 张婧; 蛋白质空间结构的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论