




已阅读5页,还剩56页未读, 继续免费阅读
(计算数学专业论文)蛋白质二级结构中的简化编码技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 := = = = # = = = = = = = = ;= = = = ;= = = = = = 。= = = = = ;= = 一 摘要 生物信息学是用计算机来处理和研究生物信息的一门新兴学科。其中,蛋白 质二级结构预测一直是生物信息学中的一个基本问题。如何获得结果更准确,时 闯空间效率最高的预测方法是生物信息学研究工作者的一个重要课题。蛋白质结 构的预测一直在生物信息学中占有重要的地位。 论文首先用一些篇幅简要介绍了一下生物信息学的基本内容和一些问题,接 着用概要的语言阐述了生物信息学和生物实验的研究方法和重大意义;最后介绍 了蛋白质二级结构的预测和空间结构的预测的主要进展和方法,以及一些最新的 研究成果。接着文章转入理论内容,主要介绍了神经网络建模预测蛋白质二级结 构的理论。更重要的是介绍了如何从一般概率体系出发,更好的理解神经网络这 个经常被视为与概率理论不相关的方法,这种思想将用来指导神经网络结构设计 以及机器学习中代价函数的选择。 在最后,考虑神经网络用于蛋白质二级结构预测对,通常采用正交编码。考 虑到不同蛋白质问的物理化学性质,由此提出了种新的简化的编码技术,并与 其它蛋白质二级结构预测的方法进行了比较,通过数值计算和实验验证,结果表 明:这种方法更加充分利用了蛋白质一级结构的信息,有较好的效果。这种编码 方法在减少输入节点数目的同时,提高了预测精度,为二级结构预测中的编码问 题提出了新的思路。 关键词:蛋白质二级结构结构预测编码技术 华中科技大学硕士学位论文 := = = = = 口= = = = = = = = = = ! = = = = = = = = t = a b s t r a c t b i o i n f o r m a t i c si san e w s u b j e c t ,w h i c ha d o p t sc o m p u t e r s t od e a lw i t ha n dr e s e a r c h i n t ob i o i n f o r m a t i o n a n d p r o t e i ns e c o n d a r y s t r u c t u r e p r e d i c t i o n h a s l o n g b e e na f u n d a m e n t a lp r o b l e mo fi ta n dp l a y sa l l i m p o r t a n tr o l e i t i sa ni m p o r t a n tt a s kf o r b i o i n f o r m a t i c a lr e s e a r c h e r st od e v e l o pa l le f f i c i e n tp r e d i c t i n gm e t h o dt og e tt h em o r e a c c n r a t er e s u l t s t h ea u t h o rf i r s tb r i e f l yi n t r o d u c e st h eb a s i cc o n t e n ta n df u n d a m e n t a lp r o b l e m si n b i o i n f o r m a t i c s t h ei m p o r t a n c eo fb i o i n f o r m a t i c sa n db i o l o g i c a le x p e r i m e n t sa sw e l la s t h er e s e a r c hm e t h o d so ft h e m ,a n dt h em a i n s t r e a mo ft h e d e v e l o p m e n ti np r o t e i n s e c o n d a r ys t r u c t u r ep r e d i c t i n ga n dd i m e n s i o n a ls t r u c t u r ep r e d i c t i n gm e t h o d s i nt h e f o l l o w i n gt h e o r e t i c a lp a r t ,t h ea u t h o rm a i n l yt a l k sa b o u tt h et h e o r yo fa r t i f i c i a ln e u r a l n e t w o r k m o d e l i n gt op r e d i c tp r o t e i ns e c o n d a r ys t r u c t u r e w h a ti sf o c u s e do n i sh o wt o b e t t e ru n d e r s t a n dn e u r a ln e t w o r k w h i c hi su s u a l l yc o n s i d e r e da sh a v i n gn o t h i n gt od o w i t hp r o b a b i l i t y , o nt h eb a s i so ft r a d i t i o n a lp r o b a b i l i t ys y s t e m s u c h u n d e r s t a n d i n g w i l l b ea p p l i e dt od i c t a t et h ed e s i g n i n go fn e u r a ln e t w o r ks t r u c t u r ea n dt h e c h o o s i n go f e x p e n s e f u n c t i o ni nt h em a c h i n e l e a r n i n g t h u s ,c o n s i d e r i n gt h ef a c tt h a tw h e n n e u r a ln e t w o r ki sa p p l i e dt op r o t e i n s e c o n d a r y s t r u c t u r e p r e d i c t i n g ,o r t h o g o n a le n c o d i n g i s u s u a l l yc h o s e n ,a n dt h ep h y s i c a l a n d c h e m i c a lc h a r a c t e r i s t i c so fd i f f e r e n tp r o t e i n ,an e w s i m p l i f i e de n c o d i n gt e c h n o l o g yi s p u tf o r w a r d ,a n dc o m p a r e dw i t ho t h e rp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i n g a n d c a l c u l a t i n ga n de x p e r i m e n t sp r o v et h a tt h i sd e wm e t h o dm a k e sm o r es u f f i c i e n tu s eo f t h ei n f o r m a t i o n p r o v i d e db yp r o t e i ni n i t i a ls t r u c t u r e ,a n dg e t sb e t t e rr e s u l t s t h i sc o d i n g m e t h o di m p r o v e st h ep r e d i c t i n ga c c u r a c y , a n da tt h es a m et i m ec u t st h en u m b e r o ft h e i n p u tn o d e s t h u si tp r o v i d e sn e ww a yo ft h i n k i n gi nt h ec o d i n gp r o b l e mi np r o t e i n s e c o n d a r ys t r u c t u r ep r e d i c t i o n k e y w o r d s :p r o t e i ns e c o n d a r ys t r u c t u r e s t r u c t u r ep r e d i c t i o n e n c o d i n gt e c h n o l o g y 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中己经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承 担。 学位论文作者签名:枷哟 日期:捌侔午月可日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 : 保密口,在年解密后适用本授权书。 本论文属于 不保耐 ( 请在以上方框内打“”) 学位论文作者签名:施唇鹏 日期:槲年钥弱日 指导教师签名王磁錾 日期冲q 月书日 华中科技大学硕士学位论文 1 绪论 2 0 世纪的数理科学对无生命物质的结构和运动的研究,从微观到宇观,可谓 既深远。生命物质和生命现象正在成为2 l 世纪数理科学研究的重要对象。生物数 据量的迅猛增长,既受益于数理科学和计算机科学所提供的方法与手段,也呼唤着 多种学科的共同努力。于是,生物信息学应运而生。生物信息学是计算机和网络大 发展、各种生物数据库迅猛增长的形势下如何组织数据、并从数据中提取生物学 新知识的学问。它使生物学家如虎添翼,而且是数理科学工作者进入生命研究领域 的自然插入点之一。生物信息学是- - i 生物科学和计算机科学的交叉学科。 1 】 在这一章中,我们简要的介绍生物信息学中的一些基本知识,生物信息学中 的些问题,为论文后面的内容提供知识背景。然后介绍论文研究的主要内容以 及其中的创新点。 1 1 生物信息学简介 在这一节中,我们将介绍生物信息学中的一些基本概念圄,详细的内容可以参 考文献。 1 1 1 什么是生物信息学 2 0 世纪后半叶分子生物学的长足进展,把生命活动的物质基础追溯到核酸和 蛋白质两大类生物大分子的序列。核酸是遗传信息的携带者,是e h 4 l 十单体( 核苷酸) 聚合成的一维大分子。把核苷酸用字母代表,遗传信息就编码在4 种字母写成的课 文中。各种蛋白质是生命活动的体现者,它们是f 扫2 0 9 氨基酸组成的一维大分子。 大肠杆菌i 拘i d n a 包含4 6 0 多万个字母,编码4 3 0 0 种蛋白质。人的2 3 对染色体有3 0 多 亿个字母,编码数万种蛋白质。蛋白质要折叠成特定的立体形状,才能发挥生物活 性。核酸和蛋白质的字母序列以及蛋白质中每个原子的坐标,构成生物数据的主要 部分。研究生物大分子的相互作用、它们的演化、变异、生理和病理功能,也产生 1 华中科技大学硕士学位论文 着大量数据。 直到不久前,人类科学实践产生数据量最大的领域,是高能物理实验和脑神经 活动成像,两者都达到每年l o ”字节。现在生物数据的产生率已经达到同样水平,而 且很快要超出前两者。为了说明这种变化,可以考察下图中画出的三条曲线。缓慢 上升、似乎趋近饱和的曲线是1 9 6 6 年以来美国国家医学图书( n a t i o n a ll i b r a r y o fm e d i c i n e ) 所提供的在线检索服务m e d l i n e 所收录的文章中的一大类,即“分子 生物学和遗传学”论文数目的增长情况。m e d l i n e 的选用范围超出医学而囊括了 几乎全部重要的生物学期刊。这条曲线大致反映了人类消化理解实验事实和数据, 使之上升为科学知识的过程。从8 0 年代初迅速抬头的曲线是美国核酸序列数据库 g e nb a n k 中核酸序列数目的增长情况。它清楚地表明,数据增长越来越快,传统的 研究方式已经来不及迅速消化新数据,以把后者及时提升为科学知识。1 9 8 0 年以来 g e nb a n k 中核酸序列总碱基数目( 空心圆点、圆点高度须再乘以1 0 6 ) ,1 9 6 6 年以来 e b l i n e 收录分子生物学和遗传学论文数目( 实心圆点,原点高度须再乘以1 0 3 ) 以 及1 9 7 1 年以来i n t e l 公司每个c p u 芯片上三极管数目( 大实心圆点,圆点高度须 再乘以1 0 3 ) 的增长情况所幸有一条跨越以上两条曲线、由8 个数据点构成的第三 条线,它反映出i n t e l 公司所生产的大规模集成电路单个c p u 芯片上的三极管数目 的增长速率。正是这一技术进步提供了解决问题的关键手段。目前一个典型的基 因测序中心,每年可以产生1 0 ”字节原始数据。数据的产生、搜集和分析,都必须依 靠计算机和网络,都必须发展数据库、算法和程序。 应当特别指出,核酸序列数据库中碱基总数翻番的周期,现已不到8 个月,而且 还将加速。这主要是受到人类和其它相关基因组计划的推动。截至2 0 0 0 年6 月1 日, 已经发表在公开数据库中的完全基因组,包含2 9 个细菌以及酵母、线虫、果蝇等真 核生物:人类的第2 1 和2 2 号染色体、疟疾原虫的两个染色体也已完成。生物学研究 从单个基因和蛋白质,跨入了高产出、多因子、整体性的“大工业”时代。没有计 算机和互联网的长足进步,这一切都是不可能的。生物信息学与计算生物学或生物 计算有密切关系,但又不尽相同。目前归入生物信息学领域的大致有以下几个方 面: 2 华中科技大学硕士学位论文 ( 1 ) 各种生物数据库的建立和管理。这是一切生物信息学工作的基础,通常要 有计算机科学背景的专业人员与生物学者密切合作。 ( 2 ) 数据库接口和检索工具的研制。数据库的内容来自万千生物学者的日积 月累,最终又为生物学所用,但不能要求一般生物学工作者具有高深的计算机和网 络训练水平。因此,必须发展查询数据库和向库里提供数据的方便接口。这是专业 人员才能胜任的工作,通常在生物信息中心里进行。 ( 3 ) 研究新算法、发展方便适用的程序,是生物信息学的日常任务。人类基因 组计划的实施,香b 合大规模的d n a 自动测序,对信息的采集和处理提出了空前的要 求。从各种图谱的分析,大量序列片段的拼接组装,寻找基因和预测结构与功能,到 数据和研究结果的视像化,无不需要高效率的算法和程序。 ( 4 ) 生物信息学最重要的任务,是从海量数据中提取新知识。这首先是从d n a 序列中识别编码蛋白质的基因及调控基因表达的各种信号。其次,从基因组编码序 列翻译出的蛋白质序列的数目急剧增加,根本不可能用实验方法一一确定它们的 结构和功能。而从已经积累的数据和知识出发,预测蛋白质的结构和功能,成为常 规的研究任务。 ( 5 ) d n a 芯片和微阵列的发展,把一定组织或生物体内万千基因时空表达的研 究提上日程。研究基因表达过程中的聚群关系,从中提取调控网络和代谢途径的知 识,进而从整体上模拟细胞内的全部互相耦合的生化反应,在亚细胞层次理解生命 活动。只有掌握已有数据、发展崭新算法,才能刨造新的知识。这是生物信息学刚 刚掀开的新篇章。其实,从生物数据库出发,可以提出和回答许多用实验方法难以 解决的问题。这里有发挥创造性的广阔天地。从我们自己近几年的科学实践,可以 举几个例子。许多原核生物完全基因组中,有明确的缺失或稀少字串。例如至少1 0 种细菌不喜欢c r a g 连在一起,其它细菌则回避另一些短串。这可能反映了演化史 中的某种共存关系。字串计数形象化所启发的数学问题,可用组合学和语言学方法 严格地解决。两种极端嗜热真细菌完全基因组的测序结果,向公认的亲缘关系提出 挑战。美国科学杂志就此对生命之树的评论,在一年间从“动摇”变到一拔根”。 从完全基因组出发建立的亲缘关系,则可能有助于澄清问题。我们在研究“分距离, 1 华中科技大学硕士学位论文 的过程中注意到,热球菌属p y r o c o c c u s 的两个完全基因组中重复次数最多的短串 f t t c c a a t a a g a d t a a a a ,与国际核酸数据库中来自7 万多物种的6 0 0 多万条d n a 序 列、共6 0 多亿基比较的结果,只有同属的三个菌种pa b y s s j 、ph o r i k o f j i i 和 pf u r i o s u s 共享这段长度为1 8 的片段。换言之,这个短串有可能作为d n a 水平 上属的标记。这类观察引发出新的思考和课题。 1 1 2 生物信息学与生物实验 生物信息学的发展,将造就一批不直接作实验而每天坐在计算机终端前的科 学工作者。“生物学是实验科学”这类曾经完全正确、但已不十分符合当今科学 实践的提法,如果不正确理解,就会在一定时期里挫伤有志于生物信息学的年轻人 的积极性,妨碍他们获得必要的经费支持和晋升。因而在此要专门讲一下生物信息 学与生物实验的关系。首先,作为生物信息学基础和出发点的核酸与蛋白质序列都 来自实验。即使是高产出的自动测序机,也都基于以往的实验成就。同时,这也表 明以往的实验技术已经发展成现代化生产线。不重视从分析数据库获得新知识,就 是忽视大量以往的实验成果。其次,在全球每天产生以千万计数的碱基对核酸序列, 从中翻译出以十万计的可能的蛋白序列的时代,已经根本不可能用实验办法去逐 一确定它们的结构和功能。只有根据以往积累的数据和经验,对大量新序列进行分 析筛选,才能突出应当由实验去决断的问题,投入极其宝贵的人力物力。这一决策 也得借助计算机完成。第三,越来越多的物种的基因组将被基本上完全地测定。那 种倾毕生精力研究一个基因、一条代谢途径、一种生理周期的时代已经过去。还 会有学者这么做,但他们将只代表种研究风格,而不再是学术主流。人们正在阐 明细胞内的全部互相鹈台的调控网络和代谢网络,细胞间的全部信号传导过程,从 受精卵到成体的全部生理和病理的基因表达的变化,等等。这一切都超出手工分析 的可能性。因发明了一种d n a 快速测序方法而同f s a n g e r 分享1 9 8 0 年诺贝尔化 学奖的w g i i b e r t 于1 9 9 1 年在英国自然杂志撰写短文,针对生物学的研究范 式的变化指出,“正在兴起的新的范式在于,所有的基因将被知晓( 在可用电子 方式从数据库里读取的意义上) ,今后生物学研究项目的起点将是理论的。一位科 4 华中科技大学硕士学位论文 - = = = = = = 目目= = = = = = ;目= = = = = = ;= = 一 学家将从理论猜测开始,然后才转向实验去继续检验该假设。”这一观点正在被越 来越多的生物学工作者所认同。从根本上说,实验始终起着决定作用。然而,这并 不表明事事取决于实验。许多标准的实验,已经成为半工业化的日常手续。只有那 些有深刻思想的、精心设计的、决定性的新实验,才同过去一样,从根本上推动科 学发展。回顾物理学在1 9 世纪曾是实验科学,2 0 世纪上半叶发展成理论和实验密 切结合的科学,2 0 世纪下半叶成为鼎立在实验、理论和计算三足之上的成熟的发 达学科。生物也是物。生物学的发展也会从物理学得到启示。 1 2 蛋白质二级结构的预测 蛋白质二级结构的预测是蛋白质三级结构预测的基础。开始于二十世纪六十 年代中期,迄今为止已提出几十种预测方法,其预测的准确率大多不超过7 0 ,但仍 提供了许多结构信息。可通过多种方法进行预测结果的综合分析,并结合光谱实验 数据的辅助分析,提高预测结果的准确率。另一方面,二级结构的预测能很好地反 映局域序列片段的结构倾向性因此,二级结构的预测在今天的结构分子生物学研 究中仍是很重要的【3 】,并且随着算法的不断更新,二级结构预溺的准确率在不断提 高1 4 j 。目前,常用的蛋白质二级结构的预测方法有几十种,其中,有些方法已得到了 进步改进。 c h o u f a s m a n 方法 该预测方法是提出最早、相对比较简单、应用较广的方法。c h o u 和 f a s m a n l 9 7 4 年对用x 光衍射得到的2 9 个蛋白质数据进行了统计,从而得到各氨基酸 残基在蛋白质中形成d 螺旋、b 折叠和无规卷曲构象的倾向性因子。统计数据从 1 8 个已知蛋白质结构的2 4 7 3 个残基扩大到2 9 个蛋白质的4 7 4 1 个残基,再到后来的 6 5 个已知结构蛋白质,结果发现统计数据增加并未显著地改变统计结果。继c h o u + o f a s m a n t - 1 9 7 8 年关于二级结构预测的开创性工作后,许多生物学家对氨基酸残 基形成a 螺旋、b 折叠和无规卷曲构象的倾向性展开了广泛的研究,并相继提出了 基于氨基酸构象倾向性的二锻结构预测方法。它们的预测精度在6 5 7 0 。我 国学者孙之荣等对二级结构的倾向性进行了改进性研究,发现二级结构倾向性与 华中科技大学硕士学位论文 折叠类紧密相关,经统计分析得到了二级结构的倾向性因子1 5 】。 g o r ( g a r n i e ro s g u t h o r p er o b s o n ) 方法 g o r 方法也是建立在对己知结构的氨基酸构象分析统计的基础上,计算被预 测结构的位置特异的概率。首先定义参数s i 为肽链上第i 个位置上残基的状态( a 螺旋、伸展、链状态、转角、卷曲) ,统计肽链上全部残基对第i 个位置的影响。 对于每一种结构,它所出现的概率是根据被预测位置前后各8 个残基的构象状态来 计算。g o r 方法与c h o u f a s m a n 方法都属于概率统计预测法,该类方法的缺点在于 没有考虑残基之间远距离相互作用,而这种作用对二级结构的形成和稳定是重要 的。 。 l i m 方法 l i m 方法是基于物理化学方法预测蛋白质二级结构。其基本思想主要是两点: 考虑蛋自质折叠的物理化学性质,如侧链基团的大小、电荷与疏水性。推测可以 形成。螺旋或口折叠的有利残基类型:确认一个典型构象的结构模式和立体化 学特征。这一方法不仅考虑到短程相互作用即共价键和离予键等,而且在定程度 上也考虑到长程相互作用,包括范德华力、氢键和疏水键相互作用。l i m 方法较前 两个方法预测精度稍高一些,但其困难在于它的许多相关规则难于用通常的计算 机语言来实现。近年来,人们不断地尝试如何提高二级结构预测的准确率,将神经 网络方法应用到蛋白质二级结构的预测研究中,使二级结构的预测成功率达n 7 0 左右,最近p e t e r s e n 6 1 等引入新的方法( o u t p u tp a n s i o na n dau n i q u eb a l l o t i n g p r o c e d u r e ) 来改进神经网络,以位置特异性得分矩阵作为输入,使二级结构预测 的准确率提高到7 7 2 8 0 2 ,这是一个相当高的预测精度。 1 3 蛋白质空问结构的预测 蛋白质二级结构的预测和研究仅仅是蛋白质结构与功能研究的基础,要最终 弄清蛋白质结构与功能的关系还必须知道蛋白质的空间结构。这是目前分子生物 学研究中迫切需要解决的问题。已有许多科学家致力于这方面的工作。并且从1 9 9 4 年起每两年国际上都要举行一届关于蛋白质结构预测进展方面的评估( e r i t i c a l 6 华中科技大学硕士学位论文 := = = = = = = = = = 1 4 = = = = = = = = = = = ;= = = = = = = = = = = = g = 一 a s s e s s m e n to fp r o t e i ns t r u c t u r ep r e 2 d i c t i o n ,c a s p ) ,并有不少文献报道了 有关方面的进展w 。 蚺, c a s p l 到c a s p 4 ,在蛋白质结构预测方面取得了较大的进展。 1 3 1 理论计算方法在蛋白质空间结构模建中的应用 所谓理论计算方法是指:根据物理化学、量子化学、量子物理的基本原理,从 理论上计算蛋白质分子的空间结构。主要有分子力学、分子动力学方法。这类理 论计算方法所依据的一个基本热力学假定是:蛋白质分子在溶液中的天然构象是 热力学上最稳定的、自由能最低的构象。从理论上说,如果正确地考虑了一个蛋白 质分子中所有原子间的相互作用以及蛋白质分子与溶剂的相互作用,应用能量极 小化方法就可以在计算机上确定一个蛋白分子的天然构象。不过,在实际应用时, 这类方法存在诸多问题:从理论上计算蛋白质分子空间结构需要精确地知道描 述蛋白质溶剂系统的力场和能量函数,而目前关于系统能量函数的了解还仅仅处 于半定量阶段:能量的极小化方法在数学中属于最优化理论的范畴,存在着大 量的局部极小点,虽然有不少工作致力如何跨越局部势能的研究,但目前从数学上 仍没有有效的方法解决这一问题:迄今为止,所有的研究结果都仅仅表明了每 个蛋白质分子在一定条件下具有特定的、有生物功能的构象,而并没有证明这一天 然构象就是全局自由能最小的构象。因此,目前仍不能用理论计算的方法正确地预 测一个小蛋白质分子的天然构象。尽管如此,还是有不少实验室在继续致力于这方 面的研究,n t h i e l e 等应用递归动力学程序设计方法( r e c u r s i v e d y n a m i c p r o g r m r m i n gr d p ) 进行蛋白质三维结构的预测,结果表明r d p 是有效的,特别是能 对蛋白质的活性位点进行精确的预测。 ( i ) 基于蛋白质结构认识的结构预测 基于知识的蛋白质结构预测( k n o w l e d g e - - b a s e dp r o t e i ns t r u c t u r e p r e d i c t i o n ) 是根据大量己知的蛋白质三维结构来预测序列已知而结构未知的蛋 白质结构,这是目前最为可靠的蛋白质结构预测方法。蛋白质序列繁多,但按其三 维拓扑结构可将不同的蛋白质归属于一些不同的折叠类型和不同的蛋自质同源家 族。据有些生物学家估计,在整个自然界中大约有5 0 0 7 0 0 个折叠子类型。在同一 7 华中科技大学硕士学位论文 一一! _ = = = = = = = = = = = = = = = = = = = ;= = = = = = = ;= = _ 一 折叠子类中,各成员的三维结构相似,但序列之间可能相似,也可能不相似,于是就 产生了蛋白质的同源模建和蛋白质反向折叠模建两种方法。 ( 2 ) 蛋白质的同源模型构建 自8 0 年代后期9 0 年代初期b l u n d e l l 等人提出同源蛋白质结构预测以来,已有 许多在各种同源限制性制约下的结构预测报道。人们通过对类似蛋白质空间结构 的对比发现,蛋白质的三维结构比蛋白质的一级结构更加保守,而后者又比d n a 序 列更为保守。氨基酸残基序列有5 0 g 同的蛋白质,约有9 0 的co 原子偏差不超过3 a ,均方根偏差约1 a 。另外,氨基酸的残基替换通常发生在蛋白质表面回折区域,蛋 白质的主链结构,特别是疏水核心的结构受序列变异的影响很小。因此,用类似物 来预测蛋白质结构是比较可靠的。在1 9 9 8 年c a s p 3 ( t h et h i r dc r i t i c a l & s s e s s i i t e n t i ns t r u c t u r ep r e d i c t i o n ) 对不同的蛋白质结构预测方法进行了比较,对一定的 目标序列,比较各预测方法的预测能力( b l i n dp r e d i c t i o ne f f o r t s ) 。o l s z e w s k i 9 1 对1 0 个同源序列进行预测,其中8 个序列的结构已被实验测定,预测结果表明:其中 3 个较容易的序列的ca 的r m s d 在1 2 a 1 7 a ,两个较复杂的序列的c 的r m a d 在2 , 3 a 左右,另外3 个结构非常复杂的序列的ca 的r m a d 在4 6 a 1 7 9 a :而对1 8 个 序列进行折叠识别的结果发现,仅有其中的6 个序列结构预测结果正确,其余的基 本错误或严重错误。这一结果仍然表明,蛋白质的同源模建仍是当前最为可靠的蛋 白质结构预测方法。利用同源蛋白质进行结构模建,其基本出发点是同一家族蛋白 质结构上的保守性比序列保守性更强。当序列相似性大于3 0 时,同源模型构建的 可靠性很高,否则,结构预测的结果较差。 1 3 2 建模方法 ( 1 ) 反向折叠法( i n v e r s ef o l d i n go rt h r e a d i n g ) 这是近年来发展起来的一种比较新的方法10 1 。它可以应用到没有同源结构的 情况中,且不需要二级结构,即可预测三级结构,从而可以绕过现阶段二级结构预 测的准确性大多不超过7 0 的限度,因而是一种有潜力的预测方法。其主要原理是 把未知蛋白质的序列和已知的这种结构进行匹配,找出一种或几种匹配最好的结 8 华中科技大学硕士学位论文 构作为未知蛋白质的预测结构。它的实现过程是总结出已知的独立的蛋白质结构 模式作为未知结构进行匹配的模板,然后用经过对现有的数据库的学习,总结出可 以区分正误结构的平均势函数( m e a nf o r c ef i e l d ) 作为判别的标准,来选择出最佳 的匹配方式:这样的预测方法也有程序可以使用。这种方法的局限性在于它假设蛋 白质的折叠类型是有限的,所以只有未知蛋白质和已知蛋白质结构相像的时候,才 有可能预测出未知蛋白质的结构。如果未知蛋白质结构是现在还没有出现的结构, 这种方法就不能应用:另外,反向折叠法虽然在方法学上有较大的突破,但在技术 上仍存在许多需要改进的地方。y a d g a r i h i 将遗传算法运用到反向折叠法中 ( g e n e t i ca l g o r it h m t h r e a d i n g ) 取得了较好的结果。虽然蛋白质反向折叠法 为蛋白质的折叠识别及骨架结构的预测提供了有效的方法,但由于其预测的准确 率低以及适用的范围不广,使其应用受到了限制。x u 1 2 1 等结合部n m r ( u n d e r c o n s t r a i n e do rp a r t i a ln m r ) 数据以改善其有效性。结果表明不仅能提 高折叠识别的质量,而且能扩大反向折叠的适用范围。结合部分n m r 数据的反向折 叠方法预测的骨架结构与n m r 数据相当,因此,这项新的技术一方面可减少准确决 定蛋白质结构的n m r 数据,同时也能潜在地加速目前用n m r 确定结构的过程,以及 扩大n m r 用于较大蛋白质结构测定的能力。纵观这几年的情况,t h r e a d i n g 方法是 蛋白质结构预测中有效的一种方法。但是到目前为止它仍只在同源模建( h o m o l o g y m o d e l i n g ) 中有最为有效,在非同源情况下成功率不高。所以对一般序列的成功的 反向折叠仍存在一些障碍。主要是因为无规则卷曲区的长度不同,因此在进行结构 匹配时必须添加或删除一些序列片段,而且即使是在认为正确的预测中,仍存在错 误匹配的可能,这就需要对势能进行可靠的全局最小化,所以提高势能评价标准将 是用于减少当前折叠过程错误率的一个有效手段。 ( 2 ) 从头预测方法( a b i n i t i op r e d i c t i o nm e t h o d ) 从头预测方法从理论上讲是最为理想的蛋白质结构预测方法,它要求方法本 身可以只根据蛋白质的氨基酸序列来预测蛋白质的二级结构和高级结构。但现在 有关的方法还不能达到这个要求,这些方法还有待完善,并发展新的更有效的算 法。近年来,从头预测方法有较大的发展1 3 1 ,其在三维结构的预测中所占的比重在 9 华中科技大学硕士学位论文 稳固地增长。无论是统计势函数还是物理势函数都得到了改进,特别是在最近的从 头预测方法中,统计势函数得到了大量的应用和发展,物理势函数的进展相对较慢, 这可能是由于从序列到结构形成的原因仍不太清楚。文献【l4 】给出的预测结果令人 鼓舞:对由9 9 个残基组成的m a r a ,其r m s d 为6 4 a ,对9 5 个残基的e p s l 5 的e h 2 结构 域,其r m s d 为6 o a ,对6 7 个残基的核糖体蛋白l 3 0 ,其r m s d 为3 8 a ,这些结果表明: 从头预测方法在不久的将来将成为缺乏已知结构的同源蛋白的蛋白质结构预测的 有效方法。到目前为止,从头预测方法基本能模建1 0 0 个左右氨基酸残基的蛋白质, 即便如此,要将其广泛用于蛋白质的结构预测,还有很长的路要走。总之,这个领域 在日趋成熟并已能给出大量较小序列的结构模型。 1 4 论文的主要研究内容 生物信息学的迅猛发展,无论是从数量还是从质量上,都极大地丰富了生物 科学的数据资源。大量多样化的生物学数据资源中必然蕴涵着大量重要的生物学 规律,这些规律是我们解决许多生命之谜的关键。 a e 曲删躜姑庠的蕊摸增长 虹 籁 1 0 0 l a 1 年髂 图1 1 1 9 8 3 年至2 0 0 1 年期间,g e n b a _ r t k 数据库规模的指数形式增长 l o 华中科技大学硕士学位论文 上图显示出数据库规模的指数增长状况。表列出了2 0 个完成测序的常见生物。 由于几年来这种数据一直以相同的指数增长,因此在新的,更快的甚至更便宜的 测序技术出现以前,我们很容易在这张图上得出结论:生物信息数据在高速发展, 可是相关的生物信息处理算法的发展却过于缓慢。生物信息学对研究人员来说, 最紧迫的问题是设计出高效的生物信息处理算法。才能发挥日益增长的计算需要。 本文主要从人工神经网络用于蛋白质结构预测出发,探求更简单的方法。神 经网络用于蛋白质二级结构预测时,通常氨基酸序列采用正交二进制编码。本文 考虑到不同残基间的物理化学性质,由此提出了简化的编码技术,并与其它蛋白 质二级结构预测的方法进行了比较,实施结果表明:这种方法更加充分利用了蛋 白质一级结构的信息,和以前采用的种种方法均大不一样,但又有较好的效果。 并应用种种数值实验验证了自己提出的方法。 1 1 华中科技大学硕士学位论文 2 1 概述 2 神经网络理论 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ) ,也称神经网络( n n ) , 1 5 1 它的提出 源于模拟大脑的信息处理和学习过程。虽然模仿大脑依然是建模的灵感源泉,但 现在大多数人工神经网络中使用的神经元与生物神经元有很大的差别。人工神经 网络不断发展,。它在各个领域( 包括计算分子生物学领域) 都获得大量的实际应 用。人工神经网络技术日益成为解决序列分析和模式识别问题的机器学习技术的 一项重要工具。 根本上而言,神经网络可以看做参数化图模型的一大类别,这些图模型是由 一些随时间变化、交互连接的神经元组成的网络。本书中仅使用点到点的相互连 接构造高阶或“s i g m a - p i ”类型的神经网络。0 6 1 由神经元j 到神经元i 的连接权重 记做w i j o 这样,神经网络可表示为带权重的有向图或结构。为了简化起见,我们 不考虑了点的白连接,即假设对所有神经元都有w i j = 0 。 首先需要了解一些得要的神经网络结构类型,如反馈( r e c u r r e n t ) 、前馈 ( f e e d f o r w a r d ) 和分层( 1 a y e r e d ) 结构。反馈网络是一种含有有向环的网络。不 含有向环的网络称为前馈网络。由于反馈结构的网络动态特性较复杂,将在第三 章中专门讲述。如果神经元被分为几层,而且各层之间存在连接,该类网络为分 层网络。前馈网络不一定是分层网络。 输曲艟 硅屡 图2 1分层前馈网络结构多层感知器 军| 亍 华中科技大学硕士学位论文 本章中涉及较多的,目前在分子生物学中应用较多的网络结构为分层前馈网 络,如图2 - 1 所示。神经元节点通常分为可见节点( v i s i b l eu n i t ) $ i 隐节点( h i d d e n u n i t ) 两类。可见节点指直接与外界作用的神经元节点,如输入、输出神经元节点。大 部分情况下,在简单网络中,输入、输出神经元组成层结构,形成输出层和输入 层。只包含隐节点的层称为隐层。神经网络的规模常常以层数衡量。当然,可以 简单神经网络的模块或层次模式进一步构造更为复杂的整体网络结构。神经网络 可见层的设计取决于用于序列数据编码的输入方式,以及通常代表结构与功能特 征的输出方式。 每个神经元节点的动态行为可阱用微分方程或离散差分方程描述。本书仅涉 及离散差分方程形式。在分层前馈神经网络中,同一层中所有的神经元节点同时 进行更新,而各层逐次顺序更新。有时采用随机型神经元节点效果更好。本章中 将重点讨论确定型的神经元节点。通常节点i 获得与其连接的所有节点的输入的总 量,记做x i ,产生输出y i = f i ( x i ) ,其中是该节点的激活函数( t r a n s f e rf u n c t i o n ) 。一 般地,同一层的所有节点具有相同的激活函数,总的输入量为前一层节点总输出 量的加权和。节点i 的输入、输出量如下如示: 一2 m + w j ( 2 1 ) ) e n “( j ) f1 y i = ,( t ) = z l 嘞m + l ( 2 ,2 ) l j e n “( )j 其中w i 为节点的阈值。这也可以看做加入一个连接权重为w i ,输出恒为1 的 附加节点a 权重w u 和w i 为神经网络的参数。在更一般的神经网络中,还可能拥有 其他参数,例如时间常数、增益、延迟等。在本文涉及的网络中,参数的总数由 网络层数、每层的节点数、层之间的连接方式决定。层之间的一种标准连接模式 为“全连接”,即前一层的每个节点与下一层的每个节点都相连。局部连接模式越 多,网络结构越经济。然而值得注意的是,与所有节点的全连接相比,层2 _ i o - j 的 连接数目,即使是“全连接”方式的连接数目,也是稀疏的。在参量恒值传递的 情况下,对于前一层中的一组节点的输出,层中的每个节点操作相同。这样,一 种简单连接模式可以在给定层中共享。在神经网络中,这被称为权重共享”。这 1 3 华中科技大学硕士学位论文 种技术普遍应用于图像处理问题中,在使用不同距离测量来区别特征的序列分析 问题中,它也获得了成功。这种权重共享的方法定义了一个卷积核( 滤波器) ,对 输入做统一处理。使用权重共享,即使各层的节点数目较多,关联两层的自由参 数的数量也会较少。在3 3 节的二级结构预测中,举出了该技术应用的一个实例。 很多形式的激活函数被广泛使用。例如,在回归问题中,激活函数是线性的( 如 恒等函数) ,此时的节点称为线性节点。然而更多的时候,激活函数是非线性的。 有界激活函数也被称为压缩函数( s q u a s h i n gf u n c t i o n ) 。当f 为一个阀值函数时, f ( x ) = 1 若x 0 ( 2 - 3 ) ,( z ) = 0 其他情况 此节点也称为阀值门节点( t h r e s h o l dg a t eu n i t ) 。阀值门节点实现二值决策功 能,该决策以对相关节点进行加权评价为基础。显然,阀值的选择决定了阀值界 线的位置。本书统一采用( o ,+ 1 ) 的值域,等同于如( 1 ,+ 1 ) 之类的其他值域 定义范围。阀值门节点是不连接的,所以常常用s i g m o i d a l 激活函数取代,这种取 代的优点在于使函数连续可微。本文中,采用l o g i s t i c 激活函数 1 : ,( x ) 2 口( x ) 2 寺 ( 2 4 ) 专门用于估计二值随机事件的发生概率。而使用诸如f f x ) - = t a n _ h ( x ) 和 f ( x ) = a r c t a n ( x ) 之类的s i g m o i d a l 激活函数可以取得相同的结果。必要的情况下,可 以为每个神经元节点引入增益 ,此时激活函数记做咒:z ( 柄) 。另一种重要的神 经元节点类型为“归一化指数节点”,也称做s o f h n a x 函数,常用于计算具有n 个 可能输出的事件的发生概率,例如n 个类别的分类问题。下标j 从l 到n ,代表1 2 个输出节点a 计算出n 个成员的概率,岣表示第n 个输出节点的输入总量,则每个 输出节点的最终输出量y i 为 y i :毒 ( 2 5 ) 2 一 ( 2 ) s 。| i = l 1 4 华中科技大学硕士学位论文 显然,其中m = l 。当n = 2 时,归一化指数函数可通过简单变换表示成l o g i s t i c 一1 函数形式: y :翌 :! : ( 2 6 ) t 2 万了万2 再丽 巾 值得注意的是,任何一种概率分布p = 0 ;) ( 1 i n ) 都对应一组变量x j ( 1 n 时t = 一o o ) , 其中k 取某一正常数,故p 的表示形式不唯一。而i t l - j 过程中优化和提取得 到的,而不是事先已知的。无论穿长w 是多少,输入层与该表示层之间的自由连
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025个人土地转让合同
- 2025电竞馆装饰装修工程施工合同
- 修房屋漏水施工合同样本
- 农田承包合同书二零二五年
- 总工程师聘用合同样本
- 2025年家畜转基因胚胎项目合作计划书
- 二零二五版探矿权股权转让框架协议范例
- pvc地板清洗合同样本
- 二零二五个人借款合同经典
- 乘坐私人校车合同样本
- JJF1030-2023温度校准用恒温槽技术性能测试规范
- YYT 1849-2022 重组胶原蛋白
- 米什金货币金融学英文版习题答案chapter1英文习题
- 红色资本家荣毅仁课件
- 酒店贷款报告
- 会计职业道德对职业发展的影响研究
- 体育赛事推广方案
- 子宫肌瘤健康教育指导
- 手术室专案改善活动护理课件
- 公交驾驶员心理健康辅导培训
- 桩基施工安全培训课件
评论
0/150
提交评论