




已阅读5页,还剩96页未读, 继续免费阅读
(生物医学工程专业论文)基于机器学习方法的基因和蛋白预测研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于机器学习方法的基因和蛋白预测研究摘要同数据集的结果分析表明,l o c s v m p s i 方法是一种高效、鲁棒性强的真核蛋白质亚定位的预铡方法。使用该方法,我们构建了一个在线预测阿站提供服务( b ! ;i ! i ! ! ! 里! ! ! ! ! :! ! ! :1 4 1 :! ! ! ! ! ! ! ! ! p i i ! ! ! ! ! ! q ;i :p j q ) 。3 使用支持向量回归技术对残基可溶性的真实值进行预测。对r s 1 2 6 ,m a n e s h 一2 1 5 和c b 一5 1 3 三个数据集进行了测试,通过比较不同的参数及窗宽模型来获得最佳结果,采用平均绝对误差、相关系数等参数来衡量预测效果,同时与多层反馈神经网络方法( r v p n e t ) 的实验结果比较,在3 次交叉验证情况下三个数据集预测结果的平均绝对误差和相关系数参数均有提高。另外,该算法采用了多序列比对作为输入,效果比单序列有显著提高。采用该方法,对c b 一5 1 3 数据集平均绝对误差可以达到1 6 8 、相关系数为o 5 6 2 ,而用r v p n e t 方法分别为1 8 8 和o 4 8 0 。最后将p s i b l a s t 方法同支持向量回归相结合,提出了名为r s a p r e d 的在线预测系统,可以同时对残基相对可溶性的真实值以及可溶状态进行准确快速地预测。该预测系统的网址是堕! ! 卫;旦jq i ! ! ! q 里垦i 曼苎:婪曼羔璺:竺垒丛:生旦基妄乜! 曼鱼z ! 塑立垦基:! 丛。本文的研究工作得到了中国科学技术大学高水平大学建设重点项目以及国家科技部重点科研项目( 2 0 0 4 a a 2 3 5 l l0 ) 的资助。u苎王垫竖堂翌互莲塑董里塑里垒堡型塑塑塑曼a b s t r a c tb i o i n f o r m a t i c si san e w jr a p i d l y g r o w i n ga r e ao fs c i e n c ew h i c hi n t e g r a t e sm a t t l e m a t i c s ,i n f o r m a t i o na n dc o m p u t e rs c i e n c et oa 1 1 “y z eb i o i o g i c a id a t aa n ds o i v eb i o l o g i c a lp r o b l e m s w i mt h er a p i dp r o g r e s si nc u r r e n tb i o l o g y m ee x p l o s i o no fi n f o r m a t i o na b o u ts e q u e n c ea n ds t r u c t u r ed e m a n d se m c i e n tc o m p u t a t i o n a lm e t h o d st ou n d e r s t a n dt h ec h a r a c t e r i z a t i o no ft h er a wb i 0 1 0 9 i c a id a t ad e p o s i t e di nt h ep u b l i cd a t a b a s e s ,s u c ha sm 0 1 e c u l a rf l l n c t i o n ,b i o l o g i c a lp m c e s sa n dc e l l u l a rc o m p o n e n te ta 1 t h ef i e l do fb i o i n f o n n a t i c si sp l a y i n ga ni n c r e a s i n g l yl a r g er 0 1 ei n l es t u d yo f胁d 锄e n t a lp m b l e m s c o m p a r e dw i t he x p e r i m e n t a im e t l l o d s ,am a c h i n ei e a m i n gp r e d i c t i o nm e t h o dt h a tc a np r o v i d ef b t ,a u t o m a t i ca n da c c u r a t ep r e d i c t i o ni sv e r yd e s i r a b l e ,e s p e c i a l l yf o rh i g h t h r o u g h p u ta n a l y s i so fl a r g e - s c a l es e q u e n c ed a t an o w a d a y s ,s u c hp r e d i c t i o nm e 也o d s 珏l v eb e e no n eo ft h em o s ta c t i v eb r a n c h e so fb i o i n f o r m a t i c s ,w h i c hi n c l u d e sr e c o g n i t i o no fc o d i n gs e q u e n c ei ne u k a r y o t i cd n as e q u e n c e s ,p r o t e i ns t r u c t l l r ea n dc h a r a c t e l 。i s t i cp r e d i c t i o n ( r e s i d u es o l v e ma c c e s s i b i l i t ya n ds u b c e u u l a rl o c a l i z a t i o n ,甜d da n ds oo n i nt h i sd i s s e r t a t i o n ,s o m eo r i g i n a lr e s e a r c hw o r kb yt h ea u t h o ri si n t r o d u c e dt h a tc a nb ef o r m u l a t e da sf b n o w :l tm o d e i i n ga n dp r e d i c t i o no fs p l j c ej u n c t l o ns i t e s ne u k a r y o t j cg e n es e q u e n c e t w on e wm o d e l sf o rp r e d i c t i n gt h esp l i c ej u n c t i o ni ne u k a r y o t j cd n as e q u e n c e sw e r ed e v e i o p e db ye x p l o i t i n gb a y e s i a nn e t w o r k ,o n ef o l d o n o rs i t ea n dt h eo t h e rf o ra c c e p t o rs t h et o p o l o 到s t r u c t u l e sa n dt h el i p s t r e a m ( d o w n s t r e a m ) n o d e so ft h e s et w om o d e l sw e r eo p t j m i z e dj nc o n s i d e r a t i o no f t h eb i o l o g i c a lc h a r a c t e r so f a c c e p t o rs i t ea n dd o n o rs i t e b o t ho f t h em o d e l sw e r et r a j n e db yam l ( m a x i m u ml i k e 】i h 0 0 d ) a l g o r i t h mf o rb a y e s i a nn e t w o l ki e a r n i n g ,t h ee x p e “m e n t a lr e s u l t ss h o wt h a ti na v e r a g e ,t h es e n s j t i v 时o fa c c e p t o rs i t ed e t e c t i o nw a s9 2 5 a n dt h es p e c m c 时w a s9 4 o ,a n dt h es e n s i t i v 时o fd 。n o rs i t ed e t e c t i o nw a s9 23 a n dt h es p e c i 行c i t yw a s9 3 5 t h er e s u i t sp r o v e dt h a tt h e s em o d e l sw e r eb e t t e rt h a n 小em o d e l sb a s e do nt h ei n d e p e n d e n tm a t r j xa n dc o n d l t l o n a lp r o b a b i | l i ym a t r i x ,a swe l la st 1 1 eh i d d e nm a r k o vm 。d e if o rs p l i c ej u n c t i o ns i t ed e t e c t i o ni ns o m e 、v a y s t h e s ec o n c i u s 0 1 1 s基于机器学习方法的基因和蛋白预测研究摘要3i n d i c a t et h a tl h eo p t i m j z e db a y e s i a nn e t w o r km o d e j sa r ep o w e r n i lt o o 】sf o rs p l i c ej l 1 c t l o nd e t e c t i n gi ne u k a 叮o t i cg e n e sf u r t h e r m o r e ,w ee m p l o y e dg e n e “ca l g o r i t h ma n dp n c i p a lc o m p o n e n ta 1 1 a i y s i sf o rf 色a t u r es e l e c t i o na n de x t r a c t i o nr e s p e c t i v e l yb yr e g a r d i n ge a c l lp a i ro fp a r e n ta n dc h i l dn o d ej nb a y e s i a nn e t w o r ka si n p u tf 毫a t u r e r e s u i t ss h o wt h a tt h e s er w oa l g o r i t h m sc a no p t i m i z et h ec h a i nm o d e l sa n dj m p m v et h ep r e d i c t i o na c c u r a c yo fs p i j c ej u n c t ;o ns ;t e s w 毫d i s c u s s e dt h ep r e d 记t j o nm e t h o d sf o rp r o t e i ns u b c e 小l l a ri o c a j j z a t l o na n dj n t r o d u c e dan 。v e lm e t l l o dn a m e dl o c s v m p s lf o fa u t o m a t i ca s s i g n m e n to f e u k a r y o t i cp r o t e i n s ,w h i c h sb a s e do nt h es u p p o r tv e c t o rm a c h i n e ( s v m ) a n dt h ep o s j t i o n s p e c i f l cs c o r i n gm a t r i x ( p s s m )g e n e r a t e df r o mp r 0 矗l e so f p s i b l a s tw i l ha j a c k k n i f e t e s to nt h ee h 一2 4 2 7d a l as e t ,t j l e9p r e d i c t i o na c c u r a c yo fl o c s v m p s ir e a c h e d8 8 1 ,w h i c ho u t p e r f o r m e dm a n yp e r v i o u sm e t h o d s ,s u c ha sm a r k o vc h a i nm o d e l i n 岛s u b l o ca n d 向z 列k - n n “o m o r ee x p e m e n t a if e s u ! t ss 1 1 。w 托a tl o c s v m p s lp e 哟r l n sb e t t e ro a t e 破v e f yc l o s e ol h eb e s te x 确n gp r e d i c t j o nm e t h o d s e s p e c i a l ly ,f o rt h ed a t as e to fs w n u n i q u e ,廿1 i sn l e t h o da c l l i e v e das u p e r o rp r e d i “o nr e s u l tw i t h9 0 f 7 1 9 ,a b o u t7 7 a b o v et h el o c n e tw h l c hp e r f 0 i n l e db e s ti na l ip t e v i o u sm e t h o d s f l l r t h e fa 丌a f y s i si n d i c a f e st h a tt h el o c s v m p s im e t h o d ;sap o w e “u la n dr o b u s tt o o lf o rt h ep r e d i c “o no f e u k a r y o t i cp r o t e j ns u b c e l lu j a r l o c a l ;z 砒i o na no n l i n ew e bs e r v e rv e r s i o no fl o c s v m p s li sn o wa v a i l a b i eb yv i s i t i n g3 鲢;i q 地鱼衄a 碴:! 堡:型! :n l q ! 墅p i i q 竖! 些茁i :曲e an o v e lm e t l l o dw a se x p l o i t e dt op r e d i c tt h er e a lv 8 i u eo f r e l 砒i v es o i v e n ta c c e s s i b i l i l y ( r s a )o fr e s i d u e st h i sl n e t h o di sb a s e do ns u p p o r tv e c t o rr e g r e s s i o 九( s v r ) a n du s e st h el o c a ii n f o r m a t i o no f p r o t e i ns e q u e n c e sa s i n p u t h r e e d a t as e t s ,r s 一1 2 6 ,m a n e s h 一2 15a n d c b 一5 1 3 ,w e r eu s e dt oe v a i u a t ep r e d i c t i o np e r f o r m a n c e w t h3 一f o l dc r o s sv a l i d a t j o nt e s t t h ea v e l a g eo fn l e a na b s o l u t ee r r o r ( m a e ) a n dc o r r e i a t i o nc o e 衔c i e n t ( c c ) f o rd i f f e r e n td a t as e tw e r ec o n s i s t e n l i yb e t t e rt h a nap r e v j o u sm e t h o dc a l i e dr v p - n e tw h i c hw a sb a s e do n am l i i t i i a y e i f e e d _ f o n v a r dn e u r a ln e t w o r k i na d d i t i o n ,w eu s e dm u i t i p l es e q u e n c ea l i g n m e n ta sl n p u ti n f o f i n a t i o na n do b t a i n e dap r e d i c t i o nr e s u l to f16 8 f o rm a ea n d0 5 6 2f o rc c ,w h i c hw a ss u p e r i o rt 0t h er e s l i l t so f188 a n d0 4 8 0o b t a i n e db yr v p - n e t m 0 1 e o v e lw ep r e s e n t e dan o v e lm e t h o dn a m e dr s a p r e db yl n c o r p o r a t i n gp s i - b l a s ta n ds v rf 0 1 f e a iv a i l l ep r e d i c t i o no fr s a nc a na l s om a k ef a s ta n da c c u r a t ea s s i g n m e n to fr e s j d u es o i v e n ts t a t eb yl v基于机器学习方法的基因和蛋白预测研究摘要u s i n gt h ep r e d i c t e dr e a lr s av a l u ew ea l s oc o n s t r u c t e da no n i i n ep r e d i c t i o ns y s t e mb yu s i n gr s a p r e d ,w h l c hc a nb et r e e i ya c c e s s e df r o m ! ! 虫;型旦l q i 鱼! 翼熊i ! ! ! :竺鱼丛:! 堡曼乜! ! g i n d e xh t mt h er e s e a r c hw o r ki nt h i sd i s s e r t a t i o ni ss p o n s o r e db yt h ek e yr e s e a r c hp r o j e c t so fu n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo fc h i n aa n dd e p a r t m e n to fs c i e n c ea n dt e c h n o i o g yo fc h i n a ( 2 0 0 4 a a 2 3 51 1o ) ,v基十机器学习方法的基因和蛋白预测研究第1 带绪论第1 章绪论1 1 生物信息学的定义自从上个世纪5 0 年代d n a 的双螺旋结构被阐明,以生物学和医学为主要研究内容的生命科学获得了高速的发展。有关分子生物学和遗传学的文献,从6 0年代中期的l o 万篇,迅速增长到8 0 年代中期的约3 0 万篇:至9 0 年代中期已经上升到4 0 万篇,而到了2 0 0 0 年,则迅速增长到5 0 万篇,即在约5 年的时删里增加了1 0 万篇。同时,随着现代测序分析技术的高速发展,在个大型的基因测序中心旱,每天可以进行数十万的测序反应,得到超过1 0 ,0 0 0 ,o ( ) ( ) 的序列数据。这就直接导致包括d n a 和蛋白质等多种生物序列数据的爆发式增长。如欧洲分子生物学实验室( t h ee u r o p e a nm o l e c u l a rb i o l o g yl a b o r a t o r y ) 负责维护的e m b l 数据库,其1 9 9 6 年1 0 月发行的第4 9 版中只含有l ,0 4 7 ,2 6 :j 条d a 序列。而随着多种模式生物基因组计划的开展,包括酵母( s a c c h a r o m y c e sc e r e v i s i a e ) 、线虫( c a e n o r h a b d i t i se e g a n s ) 、果蝇( d r o s o p h 】hm e l a n o g a s t e r ) 、拟南芥( a r a b i d o p s i st h a l i a n a ) 、小鼠( m u sm u s c u l u s ) ,人( h 0 m os a p i e n s ) 等生物的基因组全序列的相继公布,到目前为止,其最新版本的数据库( 2 0 0 5 年3 月发行) 中,已经包括了4 9 ,4 7 4 ,4 0 2 条序列数据的8 5 ,1 3 4 ,7 1 4 ,3 8 2 个碱基。因此,如何存储和管理这些数据,并提供强大而有效的搜索服务,使其可以被世界各地的生物学家方便地获取并进行进一步的分析研究,是当前亟需解决的一个重要问题。另外,随着世纪之交人类基因组物理图瀚的完成,生命科学的研究已经进入到后基因组时代,即在基因组静态的碱基序列逐步搞清楚后,转而对基因组进行动态的生物学功能的研究。找出人类基斟字母表的顺序仅仅是迈出了一小步,就d n a 序列信息本身而言,并不能提供特定旗陶功能的确定信息。如何鉴定基因组编码的基因,并最终理解这些基因,、1 7 物在乍命活动中调控提供支持,是一。个更为深刻而复杂的问题。基于机器学习方法的基吲和蛋白预测研究以上这些问题,使得传统的生物科学遇到了极大的挑战。解决这些问题,则需要多学科、多领域的理论和技术支持。生物信息学就是在这种情况下发展起束的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科,它的研究目标是揭示”基因组信息结构的复杂性及遗传爵言的根本规律”,解释生命的遗传语言。生物信息学的研究内容,广义上包括基因组信息的获取、处理、存储、分配、分析和解释。因此,需要发达的并可相 i交流的网络在线数据库系统,并在此基础上发展高效的算法和相关的分析软件,以及自动化、高通量的生物信息学研究平台。这既是产生生物信息数据的主要方法,又是利用生物信息的分析结果,进一步验证、修改和完善生物学的理论,指导设计实验和发展相关技术的有效方法。从研究的具体对象上讲,生物信息学划基因组d n a 序列进行分析,得到全部基因在染色体上的确切位置以及各d n a 片段的功能,找到其中编码蛋白的区域,对非编码区的功能和参与调控的机理进行深入阐释,从而破译隐藏在d n a 序列旱的遗传语法;并归纳整理与表达润控相关的转录谱和蛋白质谱数据,分析认识有关代谢、发育、分化和进化相关的,k 命规律,生物信息学综合基因信息,蛋白质结构以及蛋白一蛋白相互作用数据,剥蛋自质的空间结构和功能进行预测和分析,以及进行特定蛋白质的功能药物设计等。牛物信息学的另外一个重要应用领域,是通过将基因和蛋臼的相关信息,同生命过程的生理生化信息相结合,从而从分子生物学角度描述和阐明人类疾病的诊断、治疗的内在规律,最终进行分子设计、药物设计和个体化的医疗保健设计。幽此可见,生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的一个热点前沿1 3 l i “。目前生物信息学的研究内容大致包括以下几个方丽”:生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和4 二物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务:生物信息可视化和专家系统。基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际e s t 数据库( d b e s t ) 和各自实验室测定的相应数据,经过大规模并行计算发现新蕈闲和新s n p s 以及各种功能位点;基因组中非编码区的信息结构分析,提出理论模型,阐明浚区域的重要生物学功能:进行模式生物完整基因组的信息结构分析和比较研究:利用生物信息研究遗传密码起源、基因组结构的演化、基因组空刚结构与d n a 折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。基于机器学习方法的基因和蛋白预测研究第l 章绪论功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。生物大分子结构模拟和药物设计。包括r n a ( 核糖核酸) 的结构模拟和反义r n a 的分子设计;蛋白质空间结构模拟和分子设计:具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计:基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于d n a 结构的药物设计等。生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建。切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等:建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探索d n a 序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空削结构模拟、电子结构模拟和药物设计的新方法与新技术。应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数掘库。1 2 生物信息学中的预测问题随着基因组和其他测序技术的不断进展,生物信息学的重点正在逐渐从数据的积累、存储、检索转移到如何分析和解释这些数据。如何将序列数据与结构功能数据、基因表达数据、信号转导的p a t h w a y 等多种信息进行相互融合,特别是在当前多种生物数据成几何级数增长的情况下,如何有效地处理海量的,卜物数据,对生物信息学的理论:算法和软件的发展提出了迫切的要求。今天,越来越多的生物学家使用b l a s t 进行序列相似性搜索和比对,通过( ;e n e s c 州等软件进某于机器学习方法的慕因和蛋白预测研究第1 章绪论行进行基因编码区和非编码区识别,使用p h d ,t a r g e t p 等进行蛋白结构和功能的预测,使用c l u s t a l w 等多序列比对软件进行分子的进化分析等,这些软件已经成为当前生物信息学研究的基本工具,帮助我们进行数据分析和指导实验,成为我们了解生命和进化的本质,以及靶点设计和新药开发的的基础。但是需要指出的是,仍然有许多挑战性的问题需要解决,需要我们提出新的思想和方法。数学、统计学以及计算机科学的一些传统方法,曾经发挥了很大的作用,但是面埘庞大的生物信息数据库,加之人类缺乏在分子水平上对生命活动的了解,已经很难仅仅通过这些方法,从已有的数据和有限的认识中了解生物系统内在的复杂性。而机器学习方法( 如神经网络,支持向量机,h m m ,贝叶斯网络等) 萨适合这类数据量大、含有噪声并且缺乏系统理论知识的领域。随着生物信息学的快速发展,已经涌现出很多基于机器学习方法的预测方法和网站,涉及到生物信息学的各个领域,如基因编码区识别、蛋白质结构和可溶性预测、蛋白质皿细胞定位等方面p l 。下面介绍一些常见的预测网站:表1 1 基因编码区识别网站名称预测对象w e b 地址c d s b线虫、酵母、h t t p :d e f r a g b c m t m c e d u :9 5 0 3 l t 口h t m l植物和细菌g e n e i d脊椎动物e 埘a i l :g e n e i d d a r w i n b ue d ug e n e m a r k多种单独物种h t t p :i n t r o n b i o l o g y g a t e c h e d u g e n m a r kg e n e p a r s e r人类h t t p :b e a 9 1e c 0 1 0 r a d o e d u e e s n y d e r g e n e p a r s e r h t m lg e n i e人类h t t p :w 。w w h g c 1 b 1 g o v i n f g e n ieh t m l取子叶植物、h t t p :c b i l h u g e n u p e n n e d u 、s d o n g g e n l a n g h o m eh t mg e n l a n g果蝇、脊椎动物lg e n s c a n脊椎动物、玉h t t p :g n o m i cs t a n f o r d e d u c h r is g e n s c a n wh t l i米、拟南芥等g e n v i e w人、鼠、拟南h t t p :w w w i t b a m i c n r i t w e b g e l l e芥等x g r a i l人h t t p :a v a l o n e p mo r n l g o v g a l l e r yh t m l基于机器学习方法的纂糊和毯白预测研究错1 诱绪论表1 2 蛋白二级结构和可溶性预测网站名称预测对象w e b 地址p r e d i c t- 二级结构、可h t t p :c u b i c b i o c c 0 1 u m b l ae d up r o t e l n溶性等j n e t二级结构、可h t t d :w w w c o m p b i o ,d u n d e e a c u k w w w j p r e d jn e t 溶性簿s s p r o二级结构、可h t t p :w 。w w i c s ,u c ie d u b a l d i g s c r a t c h a c c p r o溶性等n e t a s a可溶性h t t d :1 】r 州n e t a s ao r g 可溶性( 真实r s a p r e d值和状态预h t t p :b i o i n f o r m a t i c s u s t c e d u c n r s a p r e d i n d e xh7 r m测)表1 3 蛋白亚细胞定位预测网站名称描述w e b 地址利用蛋白质氨基酸组成来区分亚n n p s l细胞定位在原核细胞的三个定h t t p :w w w d o e m b i u c l a e d u 4 、e a s t “位或者真核细胞的四个定位。d a s t r i d h t m l利用核定位信号m o t i f 来判断蛋白h t t p :c u b i c b i o c ,c o l u m b i a e d u p r e dp r e d i c t n l s质是否属了二核亚定傍i c t n l s通过预测是否存在信号肽来预测h t t 口:w w wc b sd t u d k s e r v lc e s t a r gt a r g e t p植物和真核蛋白的甄定位e t p 预测一种通过非传统分泌机制分h t t p :w 、w c b s d t u d k s e r v i c e s s e c rs e c r e t o m e p泌蛋白e t o m e p利用蛋白质氢基酸组成和s 蹦来预h t t p :w w w b i o i n f o ,t s i n g h l l ae 【uc n s u b 【0 c测真核蛋白的四个定位和原核蛋白的三个定位s u b l o c通过预测n 端信号肽来对真核和原h t t d :w l w c b s d tl i ( 】k s e r v i c e s s i g ns i g n a l p核蛋白进行弧定位预测a l p c e l l oh t t p :c e l l oi i f e n c t ue d uc w 利用s 删利n 段蛋白质组成来预测革兰氏阴性菌的亚定位l o c n e ta n d利用数种c u b i c ss e r v i c e s 来预h t t p :w w w r o s t l a b o r g s e r v i c e s l o cl o c t a r g e t测真核和原核蛋白的难细胞定位t a r g e t利用s v m 和p s i b l a s t 将蛋白定位h t t p :w w w i m t e c hr e s i n r a b h a v a e se s l p r e d到四个哑定使1 d r 8 d p r o t e o m e能够分类革兰氏阴。| 生苗革兰氏冈性菌,真菌,植物,动物等蛋白到h t t d :w w wc su a l b e r t a c a 、i :b i ) i n f ( )a n a l y s tp a s u b i n d e xh t m l许多细胞定位利用遗传规划算法来判断是否存h t t d :w w ws b cs u s e e m a c c a11r + n u cn u c p r e d在核定位信号d r e d h t t d :b i o l n f o r m a t i c sl l s t c e dl 1 c n7 1l o c s v m p s i利州p s i b l a s t 的d r o f i l e 和s v mo c s v m p s i l o c s v m p s i p h 臼基于机器学习方法的基因和蛋白预测研究锖l 带绪论表1 4 蛋白质物理性质预测网站名称网址c o m p u t ep i m wh t t p :e x p a s y h c u g e c h c h 2 d p i t o o lt h m lp e d t i d e m a s sh t t p :e x p a s y h c u g e c h s p r o t p e p t i d e m a s s h t m 】t g r e a s ef t p :f t pv r g n i a e d u 口u b f a s t a s a p sh t t p :u l r e c 2 u n i c h s o f t w a r e s a p s o r m h t m 】1 3 本文的研究内容和安排1 3 1 研究内容和意义本文主要研究如何将机器学习的理论和方法应用予生物信息处理,通过对赫因或蛋白序列等生物数据的预处理、特征提取和机器识别,来分析、预洲基冈位点和蛋白质的功能结构,从而了解遗传信息转录、翻译和表达的机理。贝州斯网络、遗传算法、支持向量机等广泛应用于机器学习领域的技术将被成功地应用到相关数据的分析和处理中。本文的主要研究内容包括以下三部分:1 真核细胞生物基因序列中剪接位点和启动子的预测由于真核生物的基因在结构上具有不连续性,如果能从渊a 序列中准确预测出基因的剪接位点,就可以定位d n a 序列中的编码区,将基因中的表达区域和非表达区域区分开,从而可以进步通过d n a 序列预测其编码的蛋白序列和- 绒结构,甚至预测三级结构和相应的生理功能。这部分内容将在本文第二章进行详细的分析。2 蛋白功能相关的预测( 亚细胞定位)蛋白质要参与f 常的生命活动,必须处于特定的亚细胞位点( 如身】;| 胞核、线粒体、细胞质等) ,因此亚细胞定位是蛋白质的一项重要功能特性,但是目前公共数据库中大量原始蛋白数据缺乏确定的亚细胞定位信息。传统实验测定方法的速度慢、代价高,已经不能满足对海量的生物信息进行处理的需要;向基于机器学习的预测方法可以提供快速、自动的蛋白质亚细胞定位,特别活用二f 二离诵特、基于爿【器学习方法的基刚和蛋白预测研究第l 章绪论规模的基因组序列标注分析,因此有必要发展能提供准确、高效的蛋白亚细胞定位预测算法。本文第三章将介绍相关的内容和我们提出的【m c s v m p s i 方法。3 蛋白结构的相关预测( 蛋白残基的相对可溶性)当前生物信息学中一个很重要的课题就是对蛋白质一级序列及其结构和功能关系的研究。对于没有明显相似性( 同源性) 的蛋白序列,现有的三维结构预测方法都是不够可靠的,包括用t h r e a d i n g 方法的同源性模型和折叠识别等。对于这类蛋白,基于机器学习的方法可以获得它们结构与功能之间的有用信息,如残基可溶性,蛋白二级结构等。残基相对可溶性是蛋白残基的一个重要特征,它包含蛋白三维结构的一些有用信息,加上蛋白活性位点常位于其表面,因此准确预测蛋白质表面残基对了解蛋白质功能也有重要的意义。这部分内容在本文第四章进行分析和讨论。1 3 2 关键问题和技术路线一个典型的生物信息学预测系统,其主要模块包括:信息获取、信息预处理、特征的提取和选择、学习算法和决策( 如图所示) 。本文工作的重点将放在特征的提取和选择、学习算法和决策这两部分。在剪接位点统计建模的过程中,由于其上下游节点的选择有明确的生物学知识可以借鉴,因此我们将工作的重点放在相应的特征选择和优化上;在技术上,我们使用了被广泛使用的统计建模方法一贝叶斯网络,而在特征选择和提取上,我们则采用了遗传算法和主分量分析等经典可靠的优化和模式识别方法,以保证其有效性,图1 1 典型的生物信息学预测系统示意图对于蛋白质亚细胞定位,目前常用的特征为蛋白序列的氨基酸组成和氨幕酸对组成。这些特征均存在一些缺点。首先,氨基酸组成不包含序列的顺序信息,因此一些对分类有用的信息,在计算组成的过程中丢失了:另外这些特征也_ :包7基于机器学习方法的基因和蛋白预测研究含如进化信息和蛋白结构等信息。因此,我们从引入新特征的角度出发,尝试使用p s i b l a s t 的p r o f i l e 中所包含的信息作为特征,取得了很好的效果。对丁二机器学习算法,我们则使用最新的支持向量机技术,以确保在相同特征下获得最好的分类效果。蛋白质残基可溶性预测是一个被广泛研究的方向,其预测方法也多种多样;但是这些预测方法主要基于可溶性的状态分类。用状态预测的一个缺点在于这样会导致一些有用信息的丢失。另外,由于目前对不同可溶性状态分类的阈值没有准确的定义,人为的选择经常导致不同甚至完全相反的结果。因此一一种新方法r 、,p n e t 采取了直接对可溶性状态的真实值进行预测。基于这种思路,我们利用支持向量回归技术,改进了原有算法,从而有效地提高预测效果。进一。步从特征入手,引入多序列比对等新特征,在原有的基础上大幅度地提高了性能。另外,随着网络技术的发展与普及,越来越多的生物信息学预测方法,都通过网络的方式向国际同行提供o n l i n e 预测服务和资源共享,这也是检验我们所设计的预测算法是否成功的最好途径。因此,有必要将我们对残基可溶性预测和亚细胞定位中算法的研究成果,通过构建w e bs e r v e r 的方式具体实现,以利f 学术交流和预测服务。我们设计和构建的生物信息学网络预测平台的整体结构蜘i i 期1 2 所示,包括数据层:使用诸如p d b ,s w i s s p r o t 等网络公共数据库,它们是用于蛋白亚细胞定位和蛋白残基可溶性预测的训练数据集。蛋白质结构和功能预测的算法实现层:根据蛋白质的亚细胞位点以及残基可溶性的生物学特性,对支持向量机,h m m ,贝叶斯网络等预测算法进行改进,构成相应的预测算法,以提高最终分类的预测效果。w e bs e r v e r 层:包括用户层和后台服务进程层子模块,其中用户层包括用户通过网络访问时的界面,以及和预测相关的分析服务等。后台服务进程层包括对用户提交数据的预处理,提取特征,使用相应的模块进行预测,并将结果通过e m a i l 的方式返回给用户。桀于机器学习方法的基和蛋白预测研究鹕l 章绪论h k b蛋白的算数据层数据训练集留四数据库图1 2 生物信总学网络预测平台的整体结构示意图9基于机器学习方法的基因和蛋白预测研究第2 章基于统计建模方法的真核基因剪接位点预测第2 章基于统计建模方法的真核基因剪接位点预测本章讨论真核生物d n a 序列中的剪接位点的预测方法。对供体位点和受体位点分别建立了贝叶斯网络的模型,并根据两种位点的生物学特性,对模型的拓扑结构和上下游节点进行选择优化。后续工作从特征选择和提取的角度出发,提出了两种有效的特征优化方法用于剪接位点的建模和预测。预测结果和分析表明,将特征优化技术和贝叶斯网络建模方法结合是预测剪接位点的一种有效手段。2 1 真核基因剪接位点的生物学基础细胞要不断的进行新陈代谢和物质更新,而表现出生命现象和生命活动的物质基础是蛋白质,因此在细胞内利用2 0 种氨基酸进行蛋白质合成就成了生命现象的主要内容。由图2 1 所示的遗传的中心法则( c e n t r a ld o g m a ) ,d n a 序列是遗传信息的贮存者,它通过复制得到保存,同时它还能把信息传递给以本身为模板合成的r n a ,进而将m r n a 携带的信息转变成特定的蛋白质产物来控制生命现象;由m r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年高中语文 第9课 劝学教学设计7 新人教版必修3
- 2024-2025学年高中物理 第一章 机械振动 4 阻尼振动 受迫振动教学设计3 教科版选修3-4
- Unit 6 Useful numbers(教学设计)-2024-2025学年人教PEP版(2024)英语三年级上册
- 2024-2025学年高中语文下学期第15周《白马篇》教学设计
- 2024-2025学年八年级历史上册 第12课 国民革命教学设计1 北师大版
- 5 我是小音乐家 (教案)-2023-2024学年人音版(2012)音乐三年级下册
- 1《学会尊重》第三课时(教学设计)-部编版道德与法治六年级下册
- 2024秋二年级道德与法治上册 第16课 家乡新变化教学设计 新人教版
- 九年级历史上册 第六单元 资本主义制度的初步确立第17课 君主立宪制的英国教学设计 新人教版
- 22我们奇妙的世界(教学设计)2023-2024学年统编版语文三年级下册
- 2024情绪与健康睡眠白皮书
- 小学数学计算专项训练之乘法分配律(提公因数)
- 车辆采购投标方案(技术方案)
- 2024年中国邮政集团有限公司重庆分公司招聘笔试参考题库含答案解析
- 公安宣传培训班课件
- 中小学必背飞花令诗词-(春、月、风、花、山、江、人、日、动物、颜色、数字)
- 金属表面处理中的陶瓷涂层技术
- 轨检数据分析报告
- 妇科手术及围手术期处理课件
- 管材管件的供货、运输、保障措施与售后服务全面解析
- 《放射防护知识培训》课件
评论
0/150
提交评论