深兰科技-AI再胜人类!初探AlphaFold预测蛋白质结构的性能达到何种段位?(上篇)_第1页
深兰科技-AI再胜人类!初探AlphaFold预测蛋白质结构的性能达到何种段位?(上篇)_第2页
深兰科技-AI再胜人类!初探AlphaFold预测蛋白质结构的性能达到何种段位?(上篇)_第3页
深兰科技-AI再胜人类!初探AlphaFold预测蛋白质结构的性能达到何种段位?(上篇)_第4页
深兰科技-AI再胜人类!初探AlphaFold预测蛋白质结构的性能达到何种段位?(上篇)_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、深兰科技网 再胜人类!初探AlphaFold预测蛋白质结构的性能达到何种段位?(上篇)2018年12月,谷歌(Google)旗下DeepMind团队的新成果一一人工智能系统AlphaFold,首次参加CriticalAssessment of Protein Structure Prediction(CASP,全球蛋白质结构预测竞赛 )就获得了冠军。CASP相当于蛋白 质结构预测界的世界杯,已经举办到了第13届。该赛事从1994年开始,每两年一届。这里笔者拟从蛋白质结构特点出发,探讨“第一版AlphaFold”可能达到的“段位”。全文将分上下篇两次推送今天首先围绕蛋白质的结构特点进行阐述。 蛋

2、白质的结构特点地球分子生物学和分子遗传学的常识告诉我们:遗传信息被储存在 DNA分子里,特定蛋白质或者多肽链的遗传信息通过转录形成信使(mRNA),然后在核糖核蛋白体内按照mRNA携带的遗传信息被表达成为蛋白质。刚被合成出来的蛋白质只有一级结构。以后在伴侣蛋白质(Chaperone Protein)的帮助下(在本文中这一点非常重要)逐渐形成蛋白质的高级结构(Protein Higher Structure),包括蛋白质的二级、三级和四级结构。 蛋白质的一级结构(Primary Structure) o蛋白质或者多肽链由氨基酸构成,这些氨基酸“一字排开” 就形成了蛋白质的一级结构。常见的氨基酸只

3、有20种,缩写的符号有单字母方式和三字母方式两种,从数学的角度也可以把他们理解成一串三字母或者单字母的字符串。一段三字母缩写方式显示的简单的蛋白质一级结构20种氨基酸的结构符合一个通式,如下图所示,中间的碳原子称为C”碳原子,表示它处在a位;左边连了一个氨基-NH2,称为N端;右边连了一个竣基-COOH,称为C端。20种不同氨基酸的差别就在于 C a上连接的侧链基团 Ro 20种氨基酸连接的方式为脱水缩合,即一个氨基酸的竣基-COOH和另一个氨基酸的氨基-NH2反应,丢掉一个H2O,形成一个肽键-CO-NH-o丢掉了竣基和氨基的氨基酸被称为氨基酸残基。Amino Acid StructureH

4、I H-N Amino Group-C -IRSide Chain0IIC-OHCarboxylGroup蛋白质二级结构。蛋白质二级结构(Protein Secondary Structure)是指在一级结构的基础上,肽链进行盘旋、折叠等变换,形成一种局部的三维结构,这种局部的三维结构通常由氢键支撑。细分的话,蛋白质的二级结构总共有8种,包括转角、无规则卷曲等。有些文献会把8种结构粗分为a螺旋(a -Helix)、0折叠(0 -Sheet,或者0 -Strand卜转角(Turn)和无规则卷曲(Random Coil) 四种结构(请见下图和三级结构中的图示)。当然,具体的细节很多,比如:形成0折

5、叠的两股链都是从N到C(或从C到N),则称为平行排列,否则是反平行排列。每股0折叠都有一个大箭头表示其方向。蛋白质的超二级结构(Proteinsuper-Secondary Structure)是指二级结构里有特定结构和功能的区域,根据功能和结构的完整性,又分为结构域(Domain)和基序(Motif)。上图显示结构域上图显示基序蛋白质的三级结构 (Protein Tertiary Structure)简单理解,三级结构就是把多个二级结构拼接到一起,折叠成一个完整的蛋白质三维结构,一般是由一条多肽链构成的。如下图所示。维持蛋白质三级结构的力比较多样,除了氢键之外,还有二硫键、金属lb) 1b0

6、5homologsa-lactnlbumirinotch ankyrinapotnyoglobitiIISP33KSHV proteinUMT4 phage lysozymeP-lactamaseBeta StrandsAlpha MalicesTurn?Tertiary StructureFoWmgrvd Turn,蛋白质的四级结构 (Protein Quaternary Structure)简单理解,蛋白质四级结构就是由多个独立的蛋白质三级结构构成的、独立分子联合起来组成的复合 请见下图举例。让我们用下图再回顾一遍上面的内容。Secondary Protein Structure口 -he

7、liKg H S 4 M产匚4. I IC小 M-lk-co 窜cVMMA,QIC-*H l_c ft-百kYz 匕il*fi- IC IN,口cHICSR-:Hl euo RIC HN HJ D Me-HINCUD *RtcIH-Pilmanr prcisin siructuirf sequence nf . ehain of anima iods.写tcorias号 praieiftiatroeiJUfe hvdroKefl tnnaixi 翼the pepixle ch幕幅 麻 AMnfK/ io TMd iriirt/lepewingi冲ETertULiy proEcin iructu

8、re tm-.S 时由onaMHdE pneffi 4 a prtMpnn due g sxlv 6m wiarMWiJuateruy protein strucWre pr*ein conaUig oe g 巾 um amno aDddtan第一版AlphaFold对蛋白质三级结构的预测达到了什么段位。蛋白质高级结构(即蛋白质的二级、三级和四级结构)的形成过程和预测蛋白质高级结构的意义。人体能够产生数万甚至数百万的蛋白质。每个蛋白质都是一个氨基酸链,该链扭曲、折叠,因此一种含有数百个氨基酸的蛋白质在单纯的数学计算上有可能呈现出数量惊人(10的300次方)的结构类型。但实际上远远没有这样多的可

9、能性:因为每一种氨基酸都是独特的,包括碱性氨基酸、酸性氨基酸、极性氨基酸和非极性氨基酸等;而且可以帮助蛋白质按照“正常的”方式进行折叠形成二级、三级和四级结构,但不会成为新生蛋白质一部分的伴侣蛋白(Chaperone Protein)。蛋白质折叠错误会导致糖尿病、帕金森和阿茨海默症等疾病。如果科学家可以根据蛋白质的化学构成 来预测其形状,他们就能知道它是做什么的,会如何出错并造成伤害,并设计新的蛋白质来对抗疾病或履 行其它职责,比如分解环境中的塑料污染。AI如何改变蛋白质高级结构的研究方法(1)过去50年对蛋白质结构的预测方法科学家使用低温电子显微镜和核磁共振等实验技术确定蛋白质的形状,但是每

10、一种方法都依赖大量的 试验与误差反馈,每种结构可能需要花费数万美元,历时数年进行研究。最后得到的蛋白质结构都基本上 是准确无误,而且可以见到具体的蛋白质图像。(2)目前各种软件对于蛋白质结构预测的原理由于四级结构仅仅是多个三级结构经过相对比较少的化学键结合到一起,分工合作共同发挥功能。所 以,一般蛋白质结构的预测问题实际上就是蛋白质三维结构的预测问题。从上面最后一个图表可能不是内行的读者也已经猜到了一些:蛋白质的一级结构和构成一级结构的各种氨基酸的特性决定了蛋白质的二级结构、而蛋白质的二级结构极大地决定了其三级结构。通过预测每个氨基酸残基处于哪一种二级结构中,以及根据他们的化学性质进行预测,就

11、可以对蛋白质的二级结构进行预测。接下来就可以对蛋白质的三级结构进行预测。这里,会把蛋白质的一级结构理解为由单字母表示的氨基酸构成的字符串 (比如: Q1A2S3L4P5)。二级结构理解为一级结构上面再叠加各种二级和超二级结构(a螺旋、B折叠、转角、Zn指基序、Zn指结构域等) 。所以,蛋白质的二级结构是一个端到端的问题,很像机器翻译,目前很多文章都会用深度学习NLP的方法来预测蛋白质的二级结构。那么为什么能仅仅通过一级结构的序列信息,预测得到其三级结构呢?1965年,安芬森(Anfinsen)基于还原变性的牛胰RNase在不需其他任何物质帮助下,仅通过去除变性剂和还原剂就使其恢复天然结构的实验结果,提出了“多肽链的氨基酸序列包含了形成其热力学上稳定的天然构象所必需的全部信息”的“自组装学说”,随后这个学说又得到一些补充(相关资料大家可以参考一篇科普性的计算机行业对这个领域的综述, HY

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论