(计算机应用技术专业论文)structural+modeling+and+characterization+of+protein+interaction+network.pdf_第1页
(计算机应用技术专业论文)structural+modeling+and+characterization+of+protein+interaction+network.pdf_第2页
(计算机应用技术专业论文)structural+modeling+and+characterization+of+protein+interaction+network.pdf_第3页
(计算机应用技术专业论文)structural+modeling+and+characterization+of+protein+interaction+network.pdf_第4页
(计算机应用技术专业论文)structural+modeling+and+characterization+of+protein+interaction+network.pdf_第5页
已阅读5页,还剩130页未读 继续免费阅读

(计算机应用技术专业论文)structural+modeling+and+characterization+of+protein+interaction+network.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

、 j 摘舞 摘要 一、论文的研究意义 随着人类基因组计划的完成以及s t r u c t u r a lg e n o m i c si n i t i a t i v e 的进展,海量的序列 和结构数据被持续,快速的积累,从而为生物信息学的进一步发展提供了数据保障。当 j ;i 该领域的研究工作主要集中在如何对这些海量的生物数据进行分析,从序列和结构的 角度拼接出蛋白质相互作用网络。由于绝大部分基因的功能是通过多个基因相互作用所 形成的蛋白质合成体( c o m p l e x ) 来表达的,而且蛋白质合成体几乎承担了所有的生物功 能活动,其中包括:生物信号的传递、分子的循环控制、基因表达以及新陈代谢等等, 因此蛋白质相互作用被认为是系统生物学的核心。为此我们需要确定那些蛋白质是直接 相互作用的、这些相互作用的蛋白质的对接( d o c k i n g ) i 叉域在那里以及这些蛋白质所构成 的合成体是如何体现相应的生物功能,如何构成生物进化路径( p a t h w a y ) 的。随着各 种高吞吐量( h i g h - t h r o u g h p u t ) 的生物试验和计算策略的进展,我们可以对分子内的所有 蛋白质进行结构和功能的描述,因此使得从系统水平建模和描述蛋白质相互作用成为可 能。而该研究对阐明生物物种的进化途径,解释人类疾病的复杂机理以及药物设计靶点 的筛选等问题提供了理论的支持,同时具有较强的应用价值 二、论文的研究内容和组织结构 本论文的研究内容是从结构的角度,通过在进化过程中相对保守,并且相互作用的 结构域( d o m a i n ) 来描述蛋白质的相互作用。为此我们首先基于序列相似性的比较对生物 序列数据进行了同源( h o m o l o g o u s ) 聚类,同时我们归纳合并了所有己知的酵母和果蝇的 蛋白质相互作用数据,对其进行评估,提炼出高可信的相互作用数据。我们的聚类技术 和评估策略可以应用于其它生物物种的聚类分析和相互作用的评估。 因为生物系统在蛋白质相互作用网络方面是保守的,即从序列到结构,进而到相互 作用网络都存在着某种生物共性,这种共性或者一致性( u n i v e r s a l i t y ) 通常可以描述为一 种模式保守的蛋白质相互作用网络,而该网络的基本构成单元就是蛋白质结构域。由于 当前蛋白质相互作用数据主要来自序列的相互作用,每条蛋白质序列可能含有多条保守 的结构域,这样相互作用的可能性就会成指数级的增长,使得寻找某一相关的相互作用 变得异常困难。因此需要到找一种确定结构域之间相互作用的途径。为此我们对蛋白质 序列进行了结构域的划分和映射,并采用机器学习的方法提取出结构域之间的相互作 用。考虑到当前只有一小部分结构域具有三维结构信息,我们在论文中提出了一种系统 的预测同源结构的方法特别是我们构建了基于结构域聚类的模板数据库,提高了模板 的涵盖范围另外我们提出了一种以模板的三维结构比对作为p r o f i l e 或者锄c h o r 的比 对算法,有效的提高了未知序列同相应模板之间的比对准确性,进而提高了预测结构的 质量数据分析显示,我们的方法可以是现有的同源建模( h o m o l o g ym o d e l i n g ) 算法预 v 摘要 测出近三分之二的蛋白质结构。最后,我们同时采用r i g i db o d y 和f l e x i b l e 这两种对接 工具来研究结构域对接后所形成合成体的同源和一致性。 本论文的组织结构如下: 第一章绪论,简要介绍了该论文的研究背景和意义,对蛋白质相互作用网络拼接过 程中所涉及到的研究内容和方法进行了分类介绍,并结合现有方法总结了所涉及研究内 容存在的问题。我们首先简单介绍了各种生物数据库,包括:核苷酸序列数据库、蛋白 质序列数据库、结构域和同源家族数据库以及蛋白质结构数据库;针对蛋白质序列聚类, 我们介绍了其问题的定义、生物学的背景以及当前所面临难点问题,并且简要比较了几 种常用的聚类算法,包括:d a r w i n 系统、c o g 算法、p r o t o m a p 算法以及g e n e r a g e 算 法等等;对于蛋白质结构预测,我们首先介绍和比较了当盼的蛋白质空间结构预测算法: 同源建模、f o l dr e x x i g n i t i o n 和从头预测( a bm i t f d ) 算法,然后详细介绍了同源建模算法中 的七个步骤;最后针对蛋白质相互作用的预测,我们介绍了其生物学的理论依据,并从 两方面( 预测相互作用的区域和预测相互作用的蛋白质) 简单阐述了当前的研究状况。 第二章基于序列和结构域相似性的蛋白质序列聚类。本论文的研究内容是从结构的 角度,拼接出蛋白质的相互作用网络,因此本课题的第一步工作是对蛋白质序列进行聚 类分析,我们的目的是将直向同源物进行( o r t h o l o g s ) 聚类。首先我们利用b l s t a p 算 法对蛋白质序列进行相似性比较,构建出比对间的相似距离矩阵,同时将蛋白质结构域 作为一个附加的准则来筛选出假的同源关系。然后将剩余的比对用图论的理论进行描 述:节点为序列,边为两条序列间的对应关系最后我们采用m a r k o vg r a p h f l o w 算法 对其进行聚类分析。利用该算法,我们对六种真核生物的序列进行了聚类分析,其结果 要明显优于n c b i 和t i g r 的聚类结果。 第三章蛋白质相互作用数据的整合。蛋白质一蛋白质相互作用是系统生物系的研究 核心,生物体的各种代谢和调控途径都是有蛋白质一蛋白质相互作用来体现的。但是通 过试验手段获得的相互作用数据包含着很多的错误,曾经的统计表明:仅仅有1 0 的相 互作用数据可以支持不同的、独立的试验,而近5 0 的相互作用数据是假阳性的。针对 这一问题,我们首先合并了所有的公共数据库( 1 1 个) 中关于酵母和蠕虫的蛋白质相互 作用数据,通过交叉验i 正( e r o s s - r e f e r e n e e ) 并结合序列的信息,对这些数据进行了提炼, 删除了其中的冗余信息。然后我们采用机器学习的方法对每一种实验方法赋予一定的权 值,这样对于每一个蛋白质相互作用可以获得一个分值,最终根据设置不同的c u t o f f 可 以筛选出高可信度( 高分值) 的相互作用数据。最后我们进行了一系列的实验( 包括拓 扑结构的验证、功能的验证以及m o t i f 的验证等等) 来评估这种得分机制,试验结果显 示该方法可以筛选出高可信度的蛋白质相互作用数据。 第四章基于序列保守结构域( d o m a i n ) 的同源建模算法蛋白质三维结构特征是蛋白 质功能分析、蛋白质相互作用、进化树构建和药物设计等研究的基础通常蛋白质结构 的确定取决于x 一射线晶体衍射和核磁共振等试验方法,但是x 一射线晶体衍射法非常耗 时,核磁共振又无法准确地测定大蛋白质分子的结构因此,利用计算技术开发准确、 v i f t # j 摘委 快速的蛋白质三维结构预测算法就显得尤为关键和迫切。目前蛋白质结构的预测算法主 要分为以下三类:同源建模( h o m o l o g ym o d e l i n g ) 、结构模式预测( t h r e a d i n g ) 和从 头预测( a b i n i t i o ) 。其中同源建模法采用已知的蛋白质结构作为模板,可以准确地预测 其它同源蛋白质的结构,被认为是当前最成功的预测算法。然而,同源建模法存在两方 面的严重缺陷:( 1 ) 作为模板的蛋白质结构相对较少,而所有的同源建模技术都以整个 蛋白质分子结构或者其中一条完整的链作为模板,这样就严重的限制了可预测蛋白质序 列的种类和数量;( 2 ) 已知的同源建模技术均采用经典的序列比对算法( 例如 s m i t h - w a t e r m a n 、b l a s t 等) 来获得目标一模板序列的比对。但是,当目标序列和模板 序列的相似性低于3 0 9 6 ,经典比对算法产生的序列比对存在许多错误。而这些错误严重 降低了同源建模预测结果的准确性。因此,如果能够扩充模板的数量,同时提高目标一 模板序列比对的准确性,就可以完善同源建模算法,拓宽其应用范围,更准确得预测出 更多的蛋白质结构,进而促进蛋白质组学的研究和发展。为此首先对已知的结构域进行 聚类分析,构建以结构域聚类为基础的模板库。该模板库所对应的结构域可以在5 5 的 蛋白质结构中找到,因此极大的提高了模板库的涵盖范围。对每一模板所对应的聚类, 根据每一结构域的三位结构信息构造出一条三维结构比对。给定一未知的目标( q u e r y ) 序 列,预测出其对应的二位结构信息,然后结合模板的三维结构比对和目标序列的二维预 测结构,生成最优的目标一模板序列比对。我们的策略较好的完善了同源建模算法,极 大的拓宽了已有同源建模算法的应用范围。采用我们的方法,更精确的预测出了更多的 蛋白质结构。 第五章基于结构的蛋白质相互作用网络的拼接。因为蛋白质相互作用是通过保守的 结构域来体现的,因此结构域被认为是生物系统的最基本单位( b u i l d i n gb l o c k s ) 。综合上 述各章的研究成果,在所有的酵母、蠕虫和果蝇的序列中,我们从4 6 ,7 4 2 个蛋白质同源 聚类中提取出了1 3 5 ,7 4 4 条蛋白质相互作用,其中有6 ,6 7 9 个蛋白质同源聚类包含有多 个物种,约占总数的1 5 。采用最大相似度估计( m a x i m u ml i k e l i h o o de s t i m a t i o n , m l e ) 算法,我们将这些蛋白质相互作用精简成3 3 , 0 6 8 条结构域间的相互作用,构建出了结构 域之间的相互作用映射。另外,利用我们的同源建模算法,我们成功的预测出了酵母、 蠕虫或者果蝇的1 6 7 ,3 0 0 条蛋白质结构。我们从相互作用映射中挑选出至少含有3 个已 知结构,并且分别源自同样的三个物种的相互作用对( i n t e r a c t i o np a i r ) ,以此来确保其同 源性最后利用刚体( r i g i d - b o d y ) 和柔性( f l e x i b l e ) 的对接( d o c k i n g ) i 具,即z d o e k 和 r o s e t t a ,从结构域的角度论证了同源蛋白质相互作用的保守一致性,为蛋白质相互作用 网络的拼接提供了理论依据。 第六章结论。系统总结了该论文的各项研究成果,并讨论了下一步的工作。 附录一基于s m i t h w a t e r m a n 算法的生物序列并行比较生物序列相似性比较是生 物信息学中最常见的问题,其中基于动态规划思想的s m i t h - w a t e r m a n 算法是相似性比 较中最流行的算法。然而现有的并行s m i t h - w a t e r m a n 都需要庞大的内存,随着生物数 据的急剧增长,并行s m i t h w a t e r m a n 算法内存空问的需求已经成为一个需要紧迫解决 的问题基于这一问题,我们提出了一种基于分而治之策略的并行s m i t h - w a t e r m a n 算 v i | 摘要 法,p s w - d c 算法其基本思想是:采用数据分割的方法给每个处理器分配一定的数据, 然后每个处理器独立的运行s m i t h w a t e r m a n 算法最后再把各个处理器计算的结果进 行合并,得到局部最优比对序列。与现有的并行s m i t h - w a t e r m a n 算法相比,该算法对 内存空间的需求有了很大的降低。在曙光2 0 0 0 1 并行机上进行了模拟试验,有效降低了 算法对内存的需求,提高了算法的运算速度。 三、论文的主要贡献 本论文在蛋白质序列同源聚类、蛋白质相互作用的评估和验证、蛋白质空间结构的 预测、蛋白质相互作用网络的拼接以及生物序列比对等关键问题上展开研究,取得如下 成果: 1 在蛋白质序列同源聚类方面,如何准确、快速、自动的对蛋白质序列进行聚类一直 是研究人员在努力解决的难题。基于蛋白质结构域序列的相似性,本文提出一种准 确的蛋白质序列同源聚类方法。该方法利用m a r k o vg r a p h - f l o w 算法,可以自动、 准确的聚类o r t h o l o g s ( 直向同源物) a n d i n p a r a l o g s ( 横向同源物) 。对多个物种序列的 聚类结果显示,其结果的精确度比n c b i 和t i g r 的结果有明显的提高。该方法可以 应用于所有已知真核生物的序列聚类中,能够大幅提高聚类结果的准确性。 2 通过试验确定的蛋白质相互作用都存在一定范围的误差。我们合并了所有y e a s t 和 w o r m 的蛋白质相互作用数据,提出了一种评价和交叉验证蛋白质相互作用的方法。 该方法采用机器学习的理论,从进化的角度对每一相互作用的可信度进行了评价。 试验结果显示,该方法可以筛选出高可信度的相互作用。另外该方法可以评价其它 物种蛋白质相互作用的可信度。 3 蛋白质空间结构的预测一直是国际上研究的热点和难点问题。本文为了解决同源比 较建模( h o m o l o g ym o d e l i n g ) 算法的两个瓶颈问题:模板的选择和目标一模板序列 比对的准确性,提出了相应的解决方案,完善了同源建模算法。在模板选择方面, 我们以结构域为基础,通过构建模板库极大的提高模扳的涵盖范围;针对目标一模 板序列比对的准确性问题,我们基于结构域的三维结构信息,提出了一种新的序列 比对算法,该算法能够产生更准确的目标一模板序列比对。采用所提出的方法,极 大拓宽了已有同源建模算法的应用范围。更精确的预测出了更多的蛋白质结构。 4 在蛋白质相互作用网络的拼接方面,由于确定结构域一结构域的相互作用一直是一 个研究难点,本文根据已知的蛋白质一蛋白质相互作用关系,构建出结构域一结构 域的相互作用映射。通过蛋白质对接( d o c k i n g ) 程序,我们从结构域的角度论证了 同源蛋白质相互作用的保守一致性,从而为蛋白质相互作用网络的拼接提供了理论 依据。 5 生物序列的相似性比较是生物信息学中最常见的问题,其中基于动态规划的s m i t h - w a t e r m a n 算法是最基本的算法之一然而该算法的运算速度以及对内存的需求严重 制约着算法的应用。我们提出了一种基于分而治之策略的并行s m i t h w a t e r m a t l 算法, 大幅降低了算法的存储需求,并有效地提高了算法的运行速度,扩展了该算法的应 v 1 1 1 , - 白质相互作 1 _ 。 、 a b s t r a e t 。一 a b s t r a c t f az h a n g ( c o m p u t e r a p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db y :p r o z h i y o n gl i u & d r b oy u a n a ss e q u e n c ei n f o r m a t i o nc o n t i n u e st o r a p i d l ya c c u m u l a t ef r o mt h eh u m a ng e n o m e p r o j e c ta n da ss t r u c t u r ei n f o r m a t i o nb e c o m e si n c r e a s i n g l ya v a i l a b l ef r o mt h es t r u c t u r a l g e n o m i c si n i t i a t i v e , t h en e x tl o g i c a ls t e pi st o i n t e g r a t eb i o l o g i c a li n f o r m a t i o nf r o mt h e m o l e c u l a rl e v e lo fs e q u e n c ea n ds t r u c t u r et ot h ea s s e m b l yo fp r o t e i ni n t e r a c t i o nn e t w o r k n l e c e n t r a li d e ao ft h i sd i s s e r t a t i o ni st od e s c r i b ep r o t e i ni n t e r a c t i o n si nt e r m so fe v o l u t i o n a r i l y c o n s e r v e ds t r u c t u r a ld o m a i n st h a ta r ei n v o l v e da st h ei n t e r f a c e sw i t he a c ho t h e r w ef i r s tu s e d s e q u e n c e - b a s e dc o m p a r i s o n st oc l u s t e rh o m o l o g o u ss e q u e n c e s c o n c u r r e n t l y , w ei n t e g r a t e d h i g h - t h r o u g h p u tp r o t e o m i c sr e s u l t sf o rp r o t e i ni n t e r a c t i o n s b e c a u s es u c hd a t as e t sw e r e l a r g e l ya v a i l a b l eo n l yf o raf e wm o d e ls y s t e m ss u c ha sy e a s ta sw e l la sf l ya n dw o r m ,o u r i n t e g r a t i o na n dc l u s t e r i n ga l l o we x t r a p o l a t i o no fp r o t e i ni n t e r a c t i o ni n f o r m a t i o nf r o mm o d e l s y s t e m st oa l lo t h e rh o m o l o g o u ss p e c i e s s u c hi n t e g r a t i o na l s oa l l o w sf o rt h ec r o s s - v a l i d a t i o n a n da s s e s s m e n to fa l lk n o w np r o t e i ni n t e r a c t i o n s w i t ht h es e q u e n c ec l u s t e r sb e i n gi n t e r a c t e d t oe a c ho t h e r , t h ee e n w a lh y p o t h e s i so ft h i sw o r ki st h a tb i o l o g i c a ls y s t e mi sc o n s e r v e da tt h e l e v e lo f p r o t e i ni n t e r a c t i o nn e t w o r k s ,t h a tt h e r ei sag e n e r a li n c r e a s eo f b i o l o g i c a lu n i v e r s a l i t y f r o ms e q u e n c e , s t r u c l t t r et ot h en e t w o r kl e v e l s w eb e l i e v es t r o n g l yt h a ts u c ha b i o l o g i c a l c o n s e r v e n e s so ru n i v e r s a l i t yc a r lb el a r g e l yd e s c r i b e db yan e t w o r k , i nw h i c hp a u e r n so f p r o t e i ni n t e r a c t i o n s a l ec o n s e r v e d t h i si n c l u d e st h ec o m p o n e n t sa n dt h eo r g a n i z a t i o n s i n v o l v e di nt h e $ a m en e t w o r k o n c ea g a i n ,s u c ha ni n t e r a c t i o nn e t w o r km u s tb em e d i a t e db y c o n s e r v e dp r o t e i nd o m a i n s t h ek e yt oc r e a t es u c h 勰a s s e m b l yo fp r o t e i ni n t e r a c t i o nn e t w o r ka tt h ed o m a i nl e v e li s t oc r e a t eap a r t i t i o no fs e q u e n t i a la n ds t r u c t u r a lr e p r e s e n t a t i o n sf o ra l le x i s t i n gp r o t e i n d o m a i n s w eb e l i e v et h e s ed o m a i n sa r et h ea c t u a lb i o l o g i c a lb u i l d i n gb l o c k s w et h e nu s e da m a c h i n el e a r n i n ga p p r o a c ht od e d u c eap r o t e i ni n t e r a c t i o nm a pt h a ti sm o s tc o n s i s t e n tw i t h t h eu n d e r l y i n gd o m a i ni n f o r m a t i o n t h ei d e ai st h a tc u r r e n ti n t e r a c t i o ni n f o r m a t i o ni ss t i l l l a r g e l yo b t a i n e da tt h es e q u e n c el e v e lw h e r e a se a c hs e q u e n c ec o u l dh a v em u l t i p l ec o n s e r v e d d o m a i n s ,t h u sa ne x p o n e n t i a ln u m b e ro fp o s s i b i l i t i e so fi n t e r a c t i o n sh a v et ob ec o m p a r e d t l l i sw o u l dh a v eb e e na ni n t r a c t a b l ep r o b l e mi fa l le x h a u s t i v es e a r c hh a dt ob ep e r f o r m e dt o c o r r e l a t et h ei n t e r a c t i o nm a p sb e t 、e c l lt h es e q u e n c ea n dd o m a i nl e v e l s o u rs t r a t e g yo f g e t t i n gs u c ha no p t i m a lm a pi nt e r m so fc o n s e r v e dp r o t e i nd o m a i n si st oa p p l ya l le m a l g o r i t h m 舔as h o r tc u tf o rt h es e a r c h i n g i tw a so u rh o p et h a tw i t ht h ei n t e r a c t i o n i n f o r m a t i o na v a i l a b l ea tt h ed o m a i nl e v e l ,o u ru l t i m a t eg o a lw o u l db et om o d e la sm a n y i a b s t r a e t t h r e e - d i m e n s i o n a ls t r u c t u r e sa sp o s s i b l ef o ra l lt h ee x i s t i n gd o m a i n s n ei d e ao fp r o t e i n i n t e r a c t i o nb e i n gh i g h l yc o n s e r v e dc a l lt h u sb er e v e a l e db yt h ec o n s i s t e n c yf o rt h e d o m a i n d o m a i nd e c k i n g sa m o n gm u l t i p l ed i f f e r e n ts p e c i e s r e s p e c t i v e l y t h i sd i s s e r t a t i o nh a s t h u st a k e nas y s t e m a t i ca p p r o a c ht om o d e lh o m o l o g o u ss t r u c t u r e s s p e c i f i c a l l y , w ei m p r o v e d t h et e m p l a t er e p r e s e n t a t i o nw h i l er e m o v i n ga l lr e d u n d a n c i e s w ea l s ou s e ds t r u c t u r e s 私 a n c h o r st oi m p r o v et h ea l i g n m e n tb e t w e e naq u e r ys e q u e n c ea n di t st e m p l a t e s w es h o ws u c h a ne f f o r ta l l o w se x p a n d i n ge x i s t i n gh o m o l o g ym o d e l i n gt e c h n i q u e st op r e d i c ta sm a n ya s t w o - t h i r do f e x i s t i n gp r o t e i ns e q u e n c e s w eu s e db o t hr i g i d - b o d ya n df l e x i b l e - d e c k i n gt o o l st od e m o n s t r a t et h eh o m o l o g ya n d c o n s i s t e n c eo f t h ed o c k i n gc o m p l e x e sf o r m e du s i n gp r e s u m a b l yi n t e r a c t i n gd o m a i n s w eu s e d c o n t r o l sw h e r ei n t e r a c t i n gp a r t n e r sa r er a n d o m i z e dt os h o ws u c hc o n s i s t e n c yw o u l db e s t a t i s t i c a l l ya b s e n t w ef i r s ts e l e c t e di n t e r a c t i n gp a i r st h a th a v ea tl e a s tt h r e ek n o w n s t r u c t n r e s d e r i v e df r o mt h es a m et h r e es p e c i e st oa s s u r et h ec o m p a r i s o n st ob eh o m o l o g o u si nn a t u r e o n c ew es h o ws u c hh o m o l o g yc a nb ed e m o n s t r a t e db vt h ec o n s i s t e n c i e so f d o m a i n - d o m a i n d o c k i n go f h o m o l o g o u ss p e c i e s ,w ep l a nt 0e x p a n dt h es t u d yt ou s ep r e d i c t e ds t r u c t u r ei nt h e n e a rf u t u r e t h ei d e ai st os h o wt h a tc o n s e r v e dd o m a i nc o m p l e x e s ,r a t h e rt h a na b s o l u t e c o m p a r i s o n so fa c c u r a t ed o c k i n gp r o p e r t i e s w h i c hw ek n o wa r e s t i l ln o tp o s s i b l ew i t h e x i m i n gk n o w l e d g ea n ds o f t w a r e w ew a n t t oe m p h a s i z et h a tp r e d i c t e ds t r u c t u r ew o u l dh a v e r e a s o n a b l ea c c u r a c yt oa r c h i v es u c hal e v e lo fr e s o l u t i o n , w h e r en o to n l ys h a p eb u tm o s t i m p o r t a n t l yr e l a t i v es p a t i a lc o n t e x mw h e r ek e ya m i n oa c i d sa r ei n v o l v e di nt h ei n t e r a c t i o n s w o u l db em o r ei n f l u e n t i a lt h u si n d i c a t e di nt h ec o n s i s t e n c y i ns u m m a r y , t h eo v e r a l lg o a lo ft h i sd i s s e r t a t i o ni st ob u i l da l li n i t i a li n t e r a c t i o nm a pt h a t w i l lf u l l yu t i l i z ea n di n t e g r a t et h ed a t ad e r i v e df r o mb o t hc o m p u t a t i o n a la n de x p e r i m e n t a l m e t h o d s w ei n t e n tt oe x t e n dt h en o t i o no f m o t i f si nb i o l o g yt ot h es y s t e m sl e v e l w ed e s c r i b e p r o t e i ni n t e r a c t i o n sa sr e c u r r i n ga n dn o n - r a n d o md o m a i n - d o m a i ni n t e r a c t i o n si nan e t w o r k t h e s ed o m a i ni n t e r a c t i o n s ,a sb i o l o g i c a lb u i l d i n gb l o c k s ,w o u l da l l o wu st oa s s e m b l ea n e t w o r kt h a tc a nb ed e s c r i b c db yb o t h p r o t e i ns e q u e n c e sa n d s t r u c t u r e s k e yw o r d s :s e q u e n c ec l u s t e r i n g , p r o t e i n - p r o t e i ni n t e r a c t i o n ,c o m p a r a t i v em o d e l i n g , p r o t e i nd o c k i n g ,p r o t e i ni n t e r a c t i o nn e t w o r k f t i 、 卜 , 0 声明 本人声明所呈交的论文足我个人在导师指导下进行的研究工作及取得的研究 成粜。就我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 作者签名 j 艺嗍砷;阳 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件, 允许论文被查阅和借阅:并可以公布论文的全部或部分内容,可以采用影 印、缩印或其它复制手段保存该论文。 作者签名:狼讫导师签名: 醐:州种目 7 磐 憋 , 步 薯 、一 g e n ee x p r e s s i o n ,m e t a b o l i s m ,a n ds u b c e l l u l a rs t r u c t u r e s i ti st h u se s s e n t i a lt h a tw ek n o w w h i c hp r o t e i n sd i r e c t l yi n t e r a c tw i t he a c ho t h e r , w h e r et h e s ep r o t e i ns t r u c t u r e sa r ed o c k e d , w h a tt h es t r u c t u r a ld e t e r m i n a n t sa r e ,a n dh o wt h eo r g a n i z a t i o no fac o m p l e xr e l a t e st oi t s b i o l o g i c a lp a t h w a ya n df u n c t i o n u n d e r s t a n d i n go fp r o t e i n - p r o t e i ni n t e r a c t i o ni sa l s oc r i t i c a l f o rt h em o l e c u l a ri n t e r p r e t a t i o no fc o m p l e xh u m a nd i s e a s e $ a n dt h ee l u c i d a t i o no fs p e c i f i c p a t h w a y sa n dt a r g e t s f o rs e l e c t i v ep h a r m a c o l o g i c a li n t e r v e n t i o n s w i t ht h ea d v e n to f h i g h - t h r o u g h p u te x p e r i m e n t a la n dc o m p u t a t i o n a ls t r a t e g i e sf o rt h es t r u c t u r a la n df u n c t i o n a l e h a r a e t e r i z a t i o no fa l lp r o t e i n si nac e l li ti sn o to n l yd e s i r a b l eb u ta l s of c a s i b l et om o d e la n d c h a r a c t e r i z ep m t e i n - p m t e i ni n t e r a c t i o n si na s y s t e m a t i cw a y t h ec e n t r a li d e ao ft h i sd i s s e r t a t i o ni st od e s c r i b ep r o t e i ni n t e r a c t i o n si nt e r m so f e v o l u t i o n a r i l yc o n s e r v e d s t r u c t u r a ld o m a i n st h a ta r ei n v o l v e da st h ei n t e r f a c e sw i t he a c ho t h e r w ef i r s tu s e ds e q u e n c e - b a s e dc o m p a r i s o n st oc l u s t e rh o m o l o g o u ss e q u e n c e s c o n c u r r e n t l y , w ei n t e g r a t e dh i g h - t h r o u g h p u tp r o t e o m i c sr e s u l t sf o rp r o t e i ni n t e r a c t i o n s o u ri n t e g r a t i o na n d c l u s t e r i n ga l l o we x t r a p o l a t i o no f p r o t e i ni n t e r a c t i o ni n f o r m a t i o nf r o mm o d e ls y s t e m st oa l l o t h e rh o m o l o g o u ss p e c i e s w i t l lt h es e q u e n c ec l u s t e r sb e i n gi n t e r a c t e dt oe a c ho t h e r , t h e c e n t r a lh y p o t h e s i so ft h i sw o r ki st h a tb i o l o g i c a ls y s t e mi sc o n s e r v e da tt h el e v e lo fp r o t e i n i n t e r a c t i o nn e t w o r k s ,t h a tt h e r ei sag e n e r a li n c r e a s eo f b i o l o g i c a lu n i v e r s a l i t yf r o ms e q u e n c e , s t r u c t u r et ot h en e t w o r kl e v e l s w eb e l i e v es t r o n g l yt h a ts u c ha ni n t e r a c t i o nn e t w o r ki s m e d i a t e db yc o n s e r v e dp r o t e i nd o m a i n s t oc r e a t es u c ha sa s s e m b l yo fp r o t e i ni n t e r a c t i o n n e t w o r ka tt h ed o m a i nl e v e l ,w ep a r t i t i o n e dt h es e q u e n t i a la n ds t r u c t u r a lr e p r e s e n t a t i o n sf o r a l le x i s t i n gp r o t e i nd o m a i n s t h e nw eu s e dam a c h i n el e a r n i n ga p p r o a c ht od e d u c eap r o t e i n i n t e r a c t i o nm

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论