（植物学专业论文）基于hmm模型的启动子预测系统的设计与实现.pdf

上传人：扣*** IP属地：宁夏上传时间：2020-01-10 格式：PDF 页数：46 大小：1.73MB 积分：12 举报 版权申诉

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

兰州人学颂i 学位论文摘要启动子是基因表达调控中非常重要的一类顺式作用元件它决定着基因转录的起始位置和转录频率因此启动子的研究对于阐释基因表达凋控网络的机制和基因组的功能都具有非常重要的意义启动子的识别作为启动子研究的首要环节讵同益成为生物学研究的一个热点传统启动子识别是通过免疫沉淀突变分析等生物学实验来进行的这些方法成本高效率低极大地限制了启动子研究的进展因此利用计算机领域新兴的数据挖掘技术并开发相应的软件来进行启动子预测已经成为生物信息学的一个重要方向本文通过对启动子的序列特征进行深入分析利用隐马尔科夫模型简称为h m m 进行数学建模设计并编码实现了一个基于h m m 的启动子预测软件系统本研究获得了以下结果 l 设计并实现了一个基于h m m 的启动子预测系统包括序列输入预处理模型训练未知序列识别和结果输出等部分本系统能深入挖掘出启动子序列的内部统计学规律建立相应的h m m 用于进行启动子预测 2 用人类启动子序列和拟南芥启动子序列对系统进行了验汪验证结果显示本系统预测的准确率较高通用性较广对人类启动子预测的准确率达到8 4 5 拟南芥启动子的准确率达到8 3 5 本系统为启动子的预测提供了一个平台极大的提高了启动子的预测效率节约大量的人力物力为启动子的研究提供有力的支持此外本系统的设计与实现方案也可以推广为一种通用的序列元件预测系统的解决方案加速各类元件的预测和分析最终将加快整个基冈表达调控网络的构建关键字启动子预测隐马尔科夫模型 h m m j a v a 数学建模数据库设计兰州人学硕i 学位论文 a b s t r u c t p r o m o t e ri sav e r yi m p o r t a n tr e g u l a re l e m e n ti ng e n ee x p r e s s i o n i td e t e r m i n e st h ep o s i t i o no f t r a n s c r i p t i o n a ls t a r tp o i n ta n dt h ef r e q u e n c yw i t hw h i c ht h eg e n ei st r a n s c r i b e d t h er e c o g n i t i o no f p r o m o t e rw i l lp l a ya ni m p o r t a n tr u l ei nu n d e r s t a n d i n gt h eb i o l o g i c a lm e c h a n i s m a st h ep r i m a r y k e yi nt h ep r o m o t e rr e s e a r c h t h ep r o m o t e rr e c o g n i t i o ni sb e c o m i n gah o t s p o tn o w a d a y s t r a d i t i o n a lm e t h o d sf o rp r o m o t e rr e c o g n i t i o ni sb i o l o g ye x p e r i m e n t s s u c ha s i m m u n o p r e c i p i t a t i o na n dm u t a t i o na n a l y s i s b e c a u s et h e s e sm e t h o d sa r ew i t hh i g hc o s ta n d l o w e f f i c a c y t h e yc r a m p e dt h ed e v e l o p m e n to ft h ep r o m o t e rr e s e a r c h s ou s i n gd a t am i n i n g t e c h n o l o g yt od e v e l o ps o m es o f t w a r ef o rp r o m o t e rr e c o g n i t i o ni sb e c o m i n gav e r yi m p o r t a n t r e s e a r c hd i r e c t i o ni nb i o i n f o r m a t i c s i nt h i sa r t i c l e w ed e s i g n e dap r o m o t e rr e c o g n i t i o ns y s t e m b a s e do nh i d d e nm a r k o vm o d e l s i tc a nf i n ds t a t i s t i c sl a wo u td e e p l yi n s i d et h ep r o m o t e rs e q u e c e s a n du s ei tf o rp r o m o t e rr e c o g n i t i o n t h em a i nw o r ka n dr e s u l t sa r ea sf o l l o w s 1 d e s i g n e dap r o m o t e rr e c o g n i t i o ns y s t e mb a s e do nh i d d e nm a r k o vm o d e l s i n c l u d i n gs e q u e n c e i n p u t m e n t p r e p r o c e s s i n g l e a r n i n g p r o m o t e rp r e d i c t i o na n do u t p u t 2 u s i n gh u m a np r o m o t e r sa n da r a b i d o p s i st h a l i a n ap r o m o t e r s t ot e s t t h er e s u l ts h o w st h es y s t e m s s e n s i t i v i t yf o rh u m a np r o m o t e rp r e d i c t i o ni s8 4 5 a n d8 3 5 f o ra r a b i d o p s i st h a l i a n ap r e d i c t i o n t h es y s t e mi so fg e n e r a l i t ya n dh i g he f f i c i e n c y i tc a ng r e a t l yp r o m o t et h ee f f i c i e n c yo f p r o m o t e rr e c o g n i t i o na n dp r o v i d es t r o n gs u p p o r tf o rp r o m o t e rr e s e a r c h b e s i d e s i to f f e r sc u r r e n t s o l u t i o na n dc a na c c e l e r a t et h ep r o c e s so ft h eo t h e re l e m e n t s r e c o g n i t i o n f i n a l l yi m p r o v et h e c o n s t r u c t i o no fr e g u l a t o r yn e t w o r k s k e yw o r d s p r o m o t e rp r e d i c t i o n h i d d e nm a r k o vm o d e l s h m m j a v a m a t h e m a t i c a lm o d e l i n g d a t a b a s ed e s i g n 兰州人学顾i 学位论文原创性声明本人郑重声明本人所呈交的学位论文是在导师的指导下独立进行研究所取得的成果学位论文中儿引用他人己经发表或未发表的成果数据观点等均已明确注明出处除文中已经注明引用的内容外不包含任何其他个人或集体已经发表或撰写过的科研成果对本文的研究成果做出重要贡献的个人和集体均已在文中以明确方式标明本声明的法律责任由本人承担论文作者签名同期社关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品知识产权归属兰州大学本人完全了解兰州大学有关保存使用学位论文的规定同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版允许论文被查阅和借阅本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用任何复制手段保存和汇编本学位沦文本人离校后发表使用学位论文或与该论文直接相关的学术论文或成果时第一署名单位仍然为兰州大学保密论文在解密后应遵守此规定论文作者签名醢蔓导师签名日期砷 6 7 兰州人学硕l 学位论文 1 1 启动子 1 1 1 启动子预测的意义第一章绪论随着人类基因组计划和各种模式生物测序工作的完成人类积累了大量的生物学数据并且这些数据还在以几何级数增长但是数据并不是知识怎么样对这些数据进行分析和处理进而从这些看似杂乱无章的数据中探索和发现生命的规律和真谛是目前人类所面临的巨大挑战在测序得到的数据中并非所有都是编码蛋白质的基因恰恰相反编码区只占了全部序列的很小一部分以人类为例在大约3 0 亿对碱基中只有3 5 是编码蛋白质的编码区而剩下的9 5 以上是非编码区即所谓的 j u n kd n a 9 他们并不编码蛋白质虽然目前对他们的功能还不清楚但是从生物进化的观点看他们必然在遗传信息的传递和表达中发挥着不可或缺的作用现在普遍的认识是非编码区与基因在四维时空的表达凋控有关冈此也把这部分非编码区序列叫做调控区如果说编码区是创建生命大厦的基石那么凋控区就是这座宏伟大厦的设计蓝图是他们在指挥着这座大厦的构建在调控区中分布着形形色色的调控元件目前已知的有增强子启动子沉默子等而其中的启动子可以况是最重要的一类调控元件它控制着基因表达的第一道关卡基囚的转录基因的表达调控体现在很多层面上但主要的调控是转录水平的调控而启动子控制基因转录的起始位置和转录频率所以启动子可以说足扮演着一个遗传丌关的角色只有它r 丌启了遗传信息彳能进行表达因此对启动子的研究将对理解整个基因转录调控机制和表达模式进而理解整个调控网络起到至关重要的作用也正是由于启动子在调控中的重要作用其正同益成为一个研究热点启动子的预测作为对启动子研究的自订提就自然而然成为重中之重了启动子对转录的调控位于整个基因表达调控网络的最上游它相当于丌关控制着整个调控体系的丌启因此对启动子的研究对于在基冈层面卜研究转录调控关系进而构建表达调控网络有非常重要的作用而启动子研究的自订提就是启动子的识别启动子的预测还为新的未知基因尤其是真核生物基冈的发现提供了一条新途径因为在真核生物中编码蛋白质的基因只占了很小的一部分它们就像是一个个小岛分布在无垠的序列海洋中传统发现新基冈的方法是找剑首个外显子但是首个外显子往往是很难找的尤其足当它兰州人学硕 i 学位论文很短或处在未翻译区时通过启动子预测我们可以i 口j 接找到首个外显子的转录起始位点这也就意味着找到了基因的一端所以找到启动子就意味着找到基因启动子的预测还为人类从转录调控层面攻克各种疑难杂症提供了新的方法由于基因的转录调控对人类的健康有着直接影响人类的很多癌症如胃癌直肠癌等都与基因的不正常表达有关如果我们找到了调节这些基因进行转录的启动子就可以设法使这些基因的表达变慢甚至是完全破坏这些基因从而从源头掐断病源 m c k n i g h ts le ta 1 1 9 8 2 启动子预测建立的预测体系也将为别的调控元件的预测提供参考模型以便于更好的预测别的调控元件 1 1 2 启动子的结构和功能 1 1 2 1 启动子的结构 1 1 2 1 1 原核启动子的结构原核启动子的核心区域一般在转录起始位点上游2 0 0 b p 至下游1 0 0 b p 的范围内距基因编码区起点2 0 6 0 0 b p 杜耀华等2 0 0 2 原核启动子最显著的特征就足在核心区域存在小段的保守序列通过对已知大量的原核生物启动子序列的分析人们发现大多数原核启动子存在着以下几个保守区域转录起始位点 t t s 一般都是嘌呤碱基通常是在序列c a t 的中心 p r i b n o w 框它是一段富含a t 碱基的六联体核苷酸序列它的中心一般位于转录起始位点上游1 0 b p 附近因此也叫做一1 0 区域为了方便人们把转录起始位点记为1 沿转录方向顺流而下记为正逆流而上的启动子部分均用负值表示 p r i b n o w 框的一致性序列足 t a t a a t 每个位点的保守频度为瓦鸽死以 4 五可以看出在p r i b n o w 框中第6 位t 的保守性很高因此这个t 也被叫做保守t 它几乎存在于目自发现的所有原核启动子中推测其在结合r n a 聚合酶时起十分重要的作用 p r i b n o w 框是原核启动子中非常蕈要的一类元件 r n a 聚合酶在此部位与启动子进行结合因此p r i b n o w 框也被称为结合位点当 r n a 聚合酶结合到p r i b n o w 框上后在r n a 聚合酶的诱导下 p r i b n o w 框中d n a 序列首先在转录方向上解 1 然后进一步扩大成1 7 个核苷酸长度的泡状物即所谓的丌放性起始子复合物在泡状物中 r n a 聚合酶从模板链了i 始顺流而下转录r n a 产物据推测p r i b n o w 框之所以成为第一个解旋的部位可能与它富含a t 碱基有关冈为a t 碱基对问只有两个氢键作用力较弱相比有三个氢键相互作用的g c 碱基更易于打丌原核启动子的另一个保守区是位于一3 5 b p 附近的序列称作s e x t a m a 框也叫 3 5 区序 2 兰州人学硕i 学位论文列它的一致性序列为t t g a c a 各碱基出现频率如下五毛g 7 a 6 c 5 4 其中t t g 具有很高的保守性 s e x t a m a 框是原核生物启动子的r n a 聚合酶识别位点 r n a 聚合酶全酶依靠因子识别s e x t a m a 框并与之结合因此s e x t a m a 框的核苷酸结构在很大程度上决定了启动子的强度 r n a 聚合酶易识别强的启动子 p r i b n o w 框和s e x t a m a 框序列几乎存在于所有已经发现的原核启动子中可见这两个元件对原核生物的转录至关重要研究发现 p r i b n o w 框和s e x t a m a 框协同作用控制着原核生物转录的丌始在这个过程中 r n a 聚合酶通过因子首先识别s e x t a m a 框然后与之结合随后再与p r i b n o w 框结合并在p r i b n o w 框将d n a 序列打开形成丌放性启动子复合物转录也就开始了对于r n a 聚合酶的这种先结合s e x t a m a 框再与p r i b n o w 框结合的行为目前存在着两种说法一种是滑动假说即r n a 聚合酶分子沿着模板链从s e x t a m a 框滑动到p r i b n o w 框另一种贝0 认为r n a 聚合酶分子比较长当它的一端与s e x t a m a 框结合后它的分子的某一与p r i b n o w 框序列亲和性很高的部位诈好到达p r i b n o w 框从而与之结合后者似乎更为合理因为已有实验表明 r n a 的分子很大它的覆盖范围大概为7 0 b p 左右因此当它一端与s e x t a m a 框结合后分子的其它部位完全可以到达p r i b n o w 框这两个序列不仅决定在转录的起始与否而且对转录的效率也有很大的影响这两个序列还对启动子的活性有很重要的影响目前发现影响启动子活性的若干突变体的突变位点都位于 s e x t a m a 框序列中或者p r i b n o w 框序列附近位于s e x t a m a 框和p r i b n o w 框之间的碱基序列并不特别重要但是它们之间的距离却十分重要天然启动子中一般都是1 5 2 0 b p 实验表明s e x t a m a 框和p r i b n o w 框之间的距离为 1 7 b p 时转录的效率最高据推测这样的距离正好有利于r n a 聚合酶与s e x t a m a 框和 p r i b n o w 框的结合因为这个最佳距离使得各个位点币好保持在双螺旋的同一侧从而促使它们和r n a 聚合酶结合 1 1 2 1 2 真核启动子的结构真核生物的启动子结构相对于原核生物要复杂得多真核生物中有3 类启动子 ntt u n g e ta 1 分别与真核生物中三类4 i 同的r n a 聚合酶即r n a 聚合酶i i i i i i 结合 i 类启动子比较单一由上游控制元件 u c e 和核心启动子两部分组成它与r n a 聚合酶i 结合主要用于调节核糖体r n a 5 8 s 1 8 s a n d2 8 sr r n a s 的合成 1 i 类启动子与r n a 聚合酶i i 结合主要参与蛋白质基因和部分s n r n a 的转录由于编码蛋白质的基因各种各样因此参与转录调控的相应的启动子序列也不尽相同所以i i 类启动子是最复杂的 i i i 类启动子又可以分为三个亚类第一亚类和第二亚类位于转录起始位点下游因此又称为内部启动兰州人学硕i 学位论文子它们主要负责调控5 sr r n a 和t r n a 的转录第三亚类启动子和自i 两类一样是上游启动子主要用于调控s n r n a 的合成因为在真核生物中编码蛋白质的基因的转录主要是i i 类启动子进行调控的所以目前的启动子预测主要是i i 类启动子的预测 i i 类启动子有由核心启动子和上游启动予元件组成 l 核心启动子是位于转录起始位点附近大约1 0 0 b p 的 4 段d n a 序列是能够使r n a 聚合酶i i 转录正常起始的最小d n a 序列 a n d e r sgpe ta 1 1 9 9 9 s m a l este ta 1 2 0 0 3 它由 t a t a 框起始子 i n r t f i i b 识别元件 b r e 和下游启动子元件 d p e 四个部分组成 b u t l e rj e fe ta 1 2 0 0 2 s m a l es te ta 1 2 0 0 3 但是这四个部分并不一定同时出现在同一个核心启动子中通过对取自e p d p 6 r i e rr ce ta 1 19 9 7 p i e rr ce ta 1 2 0 0 0 和d b t s s s u z u k i y e ta 1 2 0 0 2 的1 0 0 0 0 条人的启动子序列进行分析发现在这些序列中只有5 0 存在起始子而在这5 0 的序列中同时存在t a t a 框的只有1 0 左右分析还发现下游启动子元件的存在并不依赖于t a t a 框和起始子但是t f i i b 识别元件只存在于t a t a 框缺失的序列中核心启动子单独起作用时只能确定转录起始位点和产生基础水平的转录到b r e t a t a b o x ll 毒i n r 嚣yl 懦鬻图1 1 核心启动子结构图 s t e p h e nt s m a l ee ta l2 0 0 3 a t a t a 框又称h o g n e s s 框 g o l d b e r g h o g n e s s 框是最早被发现的真核生物启动子元件 g o l d b e r gm l 1 9 7 9 b r e a t h n a c hr e ta 1 1 9 8 1 最早注意到它是因为它的结构和功能都和原核启动子的p r i b n o w 框相似但是后来的研究表明它和p r i b n o w 框并不是同源的 t a t a 框是一段富含a t 碱基的序列其碱基一致性序列为t a t a a a a 各位点的保守频度为瓦 4 4 a 6 4 4 它通常位于转录起始位点上游约一3 0 到 5 0 b p 处 t a t a 框存在于大多数真核基因中作为r n a 聚合酶的结合处之一它起着精确选择转录起始位点的作用也就是说t a t a 框决定了转录起始点的选择 r n a 聚合酶与t a r a 框牢固结合之后爿能丌始 4 兰州人学硕学位论文转录由于r n a 聚合酶的拓扑结构是固定的其结合位点和催化位点的距离也是固定的因此其决定了起始点的选择除了精确起始转录之外 t a t a 框还能影响转录的速率体外实验证明 t a t a 框中任何一个碱基的改变都会显著降低转录效率 b r e a t h n a c hre ta 1 1 9 8 1 g r o s s c h e d lre ta 1 1 9 8 0 w a s y l y kbe ta 1 1 9 8 0 g r o s v e l dg ce ta 1 1 9 8 1 h usle ta 1 1 9 8 1 在伴清蛋白基因中当t a t a 框突变为t a g a 后转录效率大大降低如人类的b 珠蛋白基因启动子中t a t a 序列发生突变 p 珠蛋白产量就会大幅度下降而引起贫血症 b 起始子 i n r 它是一个与t a t a 框同等重要的核心启动子元件统计分析显示围绕着转录起始点的具有i n r 活性的序列保守性很低但是对部分功能性的i n i t i a t o r 元件进行的突变和计算机分析仍然揭示出规律性的结果 1 1 1 r 偏好的是一段富含嘧啶的序列一p yp y a 1 n t a p y p y 其中 1 位a 3 位t 或a 以及一1 位的嘧啶对i n i t i a t o r 活性最为关键 j a v a h e r y re ta 1 1 9 9 4 1l oke ta 1 1 9 9 6 i n r 在功能上与t a t a 盒类似它能起始基础转录能介导上游至少一部分激活因子的调控作用并能决定转录起始点的位置对海胆组蛋白h 2 a 包括起始子的部分进行敲除显示转录的效率显著降低而且转录起始位点发生位移 g r o s s c h e d lre ta 1 1 9 8 0 c t f i i b 识别元件 b r e 它是唯一目前已经清楚的除了t f i i d 之外还能被别的转录因子识别的核心启动子元件它在上游紧挨着t a t a 框共同的保守序列为 g c g c g a c g c c 其能够被t f i i b 识别在真核细胞中调节前起始复合物的装配 d 下游启动子元件被认为是核心启动子的下游模体是t a t a 缺失的启动子结合纯 t f i i d 所必须的元件 b u t l e rjefe ta 1 2 0 0 2 b u r k etw e ta 1 1 9 9 8 k a d o n a g aj te ta 1 2 0 0 2 它在果蝇和人类启动子序列中捌有一样的保守序列下游启动子元件通常存在于 t a t a 框缺失的启动子序列中和i n r 一起发挥作用它的核心区域一般位于转录起始位点上游2 8 到3 2 b p 处 k u t a c h a ke ta 1 2 0 0 0 2 上游启动子元件它位于距离核心启动子上游1 k b p 的近端启动予区这个区域的元件对基因转录水平的调节发挥着很重要的作用连接体扫描突变实验显示这个区域的任何一个调节元件的任何一个位点的碱基发生突变都会引起转录水平的显著改变 c o o p e r sje ta 1 2 0 0 6 这个区域的元件可以分为两类一类是位于 3 5 0 剑 4 0 的元件包括通常 7 0 b p 附近的c a a t 框和g c 框等这些元件对启动子的活性有一个讵向调节作用另一类是位于 3 5 0 到 1 0 0 0 的元件这类元件则对基冈的表达起到负凋节作用 a c a a t 框也叫做c a t 框或c c a a tb o x 是另一个特征序列一般位于在5 端转录起始点上游约7 5 8 0 个核苷酸的地方它的一致性序列为g g g t c a a t c t c a a t 框和g c 兰州人学硕i 学位论义框用于和通用转录因子结合并控制着启动子转录的频率 c a a t 框和g c 框一般位于t a t a 框1 0 0 1 5 0 个碱基处 b g c 框常位于一些t a t a 框缺失的管家基因的启动子序列中管家基因又叫做持家基因这些基因的产物是维持细胞的正常结构运动以及参与新成代谢等生命活动所必须的组蛋白基因核糖体蛋白基因线粒体蛋白基因糖酵解酶基因等都是持家基因它的一致性序列为g g g c g g 是s p l 的结合位点 s p l 结合在g c 框上对转录的活化具有重要作用 c c p g 岛上游启动子元件的另一个显著特征是c p g 岛的存在 c p g 岛是一段长度大于 2 0 0 b p 的富含g c 的未甲基化的d n a 序列在这段序列中碱基g 乖i c 的含量大于5 0 即 p g p c 0 5 并且c p g 岛的频率大于0 6 l i l j p c p g 0 6 x p g x p c c p g 岛存在于4 0 哺乳动物启动子中在人类启动子中的含量更是高达7 0 1 1 2 2 启动子的功能虽然基因的表达调控有很多层面例j z l i d n a 水平的调控转录水平的凋控转录后调控翻译水平的调控翻译后水平的调控但是转录调控被看做是最重要的层面因为在任何连锁反应中控制和凋节第一步往往是最有效果的而启动子正好控制和调节着基因表达调控的第一步即调控转录的丌始时间和转录频率因此启动子区和相关的调节元件被看作是基因表达调控中最重要的一类元件 c o o p e rs je ta 1 2 0 0 6 启动子是最初结合 r n a 聚合酶的d n a 序列在很多情况下与转录起始因子一起结合的启动子与聚合酶的复合体形成之后结构就发生改变使起始过程继续进行启动子对转录的调控可以分为两类一类是非凋节性模式负责持续表达基冈的转录调控另一类是调节性模式在这种调控模式中启动子对转录的调控受胞内和胞外的信号调节通常r n a 聚合酶i i 不能单独起始转录而需要其它蛋白质因子的协同参与这能够防止对细胞具有灾难性的无序转录的发生我们把这种调控基因转录的蛋白质冈子称为转录因子 1 1 2 2 1 转录因子的概念通常在转录过程中启动子需要其它辅助蛋白因子的协助才能与r n a 聚合酶结合这种蛋白辅助因子叫转录因子转录因子是一类具有 f 调控作用的反式作用元件它们能与 d n a 上特定的序列结合并构成一种构像从而促进基因的转录根据结合部位的不同转录因子可以分为两类结合在t a t a 序列附近的蛋白质因子称为通用转录因子以t f i i 表示有t fi i a t fi i b t fi i d t fl i e t fi i f t fi i h t fi i i 等结合在上游启动子元 6 兰州人学硕i j 学化论文件上的蛋白质因子称为转录调控因子女i j s p i g a l 4 g c n 4 p h 0 4 等另外还存在着诱导型转录因子 i n d u c i b l ef a c t o r 它的作用与上游因子相同但它们是受调控的其在特定时间细胞发育阶段条件或特定的组织中合成或被活化因而有调控基因在不同时间条件或不同地点表达的作用 1 1 2 2 2 转录的定义转录是基因进行表达的第一步也是最关键的一步它是指d n a 遗传信息传递到r n a 的过程在这个过程中各种r n a 如m r n a 及非编码的t r n a r r n a 被合成转录包括起始延长终止三个阶段在转录起始阶段 r n a 聚合酶的o 因子识别d n a 启动子的识别部位 r n a 聚合酶核心酶贝0 结合在启动子的结合部位 d n a 双链打丌形成一个大约 1 7 个碱基对长度的转录泡 r n a 聚合酶随后进入转入泡在r n a 聚合酶的催化作用下 n t p 根据碱基互补原则依次结合在d n a 模板链上在转录的延长阶段核苷酸之间以3 5 一磷酸二酯键相连接沿5 一3 方向进行r n a 的合成反应随着反应的进行由局部打丌的d n a 双链 r n a 聚合酶及新生成的r n a 局部形成的转录泡也随之移动 0 因子从模板及r n a 聚合酶上脱落下来于是r n a 聚合酶的核心酶沿着模板向下游移动脱落下的0 因子可以再次与核心酶结合而循环使用在r n a 延长进程中当r n a 聚合酶行进到d n a 模板的终止信号时 r n a 聚合酶就不再继续前进聚合作用也凶此停止由于终止信号中有由g c 富集区组成的反向重复序列在转录生成的m r n a 中有相应的发卡结构此发卡结构可阻碍r n a 聚合酶的行进由此而停止了r n a 聚合作用 1 1 2 3 启动子预测的现状 1 1 2 3 1 启动子预测的方法传统的测定启动子的方法是通过生物学实验如免疫沉淀突变分析印迹技术等来进行的这些方法费时费力随着高通量实验的进行大量的数据涌现传统实验的方法已经远远不能满足要求近几年出现的芯片技术虽然能在一定程度上提高效率但是也存在着不少局限例如受随机因素影响大可重复性差费用昂贵等计算机技术的发展使得对启动子的预测研究进入了一个新的阶段利用计算机已成为目的启动子预测的主流手段 a l f r e dqme ta 1 2 0 0 9 这种方法成本低效率高并且得到的结果也较为可靠姚凤霞等2 0 0 5 各种各样的启动子预测算法也相继涌现 1 1 2 3 2 启动子预测的算法兰州人学硕i 学位论文现行的启动子预测算法都是基于启动子区域的序列特征不同于别的功能区域的序列特征这一基础的可分为三类 w ushe ta 1 2 0 0 7 基于信号的预测方法基于 c p g 岛的预测方法以及基于内容的预测方法基于信号的预测方法主要通过尝试识别启动子的各类保守序列如原核启动子的 1 0 区序列 3 5 区序列真核启动子的t a t a b o x c a a t b o x 以及启动子序列中的转录因子结合位点等一些启动子元件来区分启动子序列和非启动子序歹l j l iqz e ta 1 2 0 0 6 例如e p o n i n e d o w nt ae ta 1 2 0 0 2 d r a g o np r o m o t e rf i n d e r b a j i cv be ta 1 2 0 0 3 等都是基于信号的预测软件但是由于目前对启动子的研究还不是很透彻积累的数据还比较有限导致很多含有其他元件的启动子序列不能被很好的识别出来另外由于启动子保守模式的碱基序列一般较短很多保守模式在d n a 序列其他区域也大量存在例如被普遍用于作为预测特征元件t a t a b o x 将t a t a b o x 权矩阵应用于哺乳动物的非启动子序列结果显示每1 2 0b p 就预测出一个t a t a b o x p r e s t r i d g edse ta 1 1 9 9 3 这些因素导致了单纯使用转录因子结合位点序列模式进行启动子预测存在居高不下的假阳性率基于 c p g 岛的预测方法的依据是大部分的哺乳动物基冈的启动子都和 c p g 岛有关典型算法有f i r s t e f d a v u l u r irve ta 1 2 0 0 1 等通过 c p g 岛来寻找肩动子大约可以找到哺乳动物一半的启动子大约7 0 的人类基因启动子和 c p g 岛有关如果单纯依靠 c p g 岛来进行预测的话其正确率不会超过7 0 基于内容的启动子预测方法是根据启动子序列相对于其它d n a 功能区域具有不同的碱基选择偏好柬区分启动子序列和非启动子序列的 w ushe ta 1 2 0 0 7 虽然d n a 序列都是由a t g c 四种碱基构成但是四种碱基在各个功能区域中的分布并不均匀即每种功能区域存在着各自的内部统计学规律如单核苷酸或核苷酸联体的统计分前i 规律基于内容的方法运用各种数据挖掘技术挖掘出启动子序列内部统计学规律作为判断启动子的依据其准确率关键在于数据挖掘这种基于内容的方法不需要了解转录的生物学意义使得不具有生物学背景的研究者也可以进行研究降低了研究的准入门槛有助丁二启动子预测的快速发展这种方法还可以推广到别的功能区域的预测因而具有广泛的应用自订途本系统采用的h m m 的算法就是基于内容的算法兰州人学顾l 学位论文 1 2 h m m 1 2 1 马尔可夫模型介绍 1 8 7 0 年俄国有机化学家v l a d i m i rvm a r k o v n i k o v 第一次提出马尔可夫模型马尔可夫模型是一个随机的过程它的根本特点就是马尔可夫性也叫无后效性即一个过程的将来仅依赖现在而不依赖过去假设x 是一个马尔可夫过程 x 在时刻t 的状态是x t 则x 在时刻t l 的状念x t 1 只与x 在时刻t 的状态是x t 有关可以表示成x t 1 f x t 马尔可夫过程中的时间和状念可以是连续的也可以是离散的我们把时间和状态都离散的马尔可夫过程就叫做马尔可夫链马尔可夫链的数学定义如下随机序列x 在任一时刻n 它可以处在状态鼠岛包且它在m k 时刻所处的状态为q 的概率只与它在f f l 时刻的状态q 有关而与m 时刻以前它所处的状态无关 1 2 2 h m m 介绍 1 2 2 1h m m 的定义马尔可夫链适用于状态和事件一一对应的情况但是现实中的很多问题往往比较复杂有很多时候观察到的事件并不是与状念一一对应的而是通过一组概率分命对应这种情况下马尔可夫模型就不适用了 h m m 就这样应运而生 h m m 是马尔可夫模型的一种扩充最早在1 9 7 0 年左右被提出 b a u ml e1 9 7 2 b a u ml ee ta 1 1 9 6 7 b a u ml ee ta 1 1 9 6 6 b a u ml ee ta 1 1 9 7 0 隐马尔可夫过程是一个双重随机过程由两个部分组成马尔可夫链和一般随机过程其中马尔可夫链用来描述状念的转移用转移概率描述一般随机过程用来描述状态与观察序列问的关系用观察值概率描述观察值序列和状念序列并不是一一对应的关系而是通过一组概率相联系 h m m 的强大之处在于在观察到的事件与内在的状态间建立了一种概率模型使用v e r t b i 算法能够根据一个给定的观察序列和一个模型在最佳的意义上确定内部状态序列也就是说根据可观察的事件序列来推测不可观察的内部状态序列一个h m m 可以表示为一个五元组 n m a b 也可以用简化了的三元组 b 卫来表示其中 9 兰州人学硕i 学位论文 n 表示h m m 的状态数目 s s is 如为状态集合模型在t 时刻的状态记作q 模型经历的状态序列记为q 孙q 2 q m 表示每个状态可能的观察值数目假设用v v i 屹来表示观察值集合 a 2 2p 吼 2 s jq 2 s 表示状态转移概率矩阵表示从状态s 转移到状态0 的概率且满足 o 1 l b 钆 b k p q 咋iq s i 表示观察值概率矩阵表示在状态s 下出现观察值k 的概率万万f 乃2p g l2 s 初始状态分布概率且 7 i 1 m a r k o v 链状态序列随机过程观察值序列尢 a q 1 q 2 o o o q t b 0 1 0 2 o t 图1 2h m m 示意图 1 2 2 2 h m m 的可解决的问题及算法 1 2 2 2 1 h m m 主要用于解决三类问题 1 评估问题给定观察序列o q 0 2 0 以及模型入亍卅 b 吧如何有效地计算出观察序列的概率即求p o l 入可以把它看作是评估一个模型和给定观察输出序列的匹配程度由此可以用来在一系列候选对象中选取最佳的匹配 2 解码问题给定观察序列o d i d 2 q 以及模型入亍 a b 吧确定一个对应的状态序列9 q lg g 使得q 能够最为合理的解释观察序列o 3 学习问题在模型参数未知或不确定的情况下如何根据观察序列0 q 0 2 q 求得模型参数或调整模型参数使得p o i 入最大即试图优化模型的参数来最佳的描述一个给定的观察序列是如何得来的 1 2 2 2 2 h m m 的三个基本算法针对h m m 的三个基本问题模型提供了三个算法分别是前向后向算法 v i t e r b i 算法和b a u m w e l c h 算法三个算法的核心思想都是迭代思想 1 0 兰州人学硕i 学位论文 1 前向后向算法前向后向算法用于解决h m m 的评估问题给定观察序列o a 0 2 0 7 和模型入亍 a b 吧计算由模型产生序列0 q d 2 q 的概率p oi 九即给定模型和观察序列如何计算从模型生成观察序列的概率这种算法主要由如下两部分组成 a h i j 向算法定义前向变量 q f 2p d 1 d 2 0 t q 2 i 旯 2 f 丁 1 1 它的含义是给定模型入亍 a b 吧在时刻t 状态处于j 并且时刻1 2 t 的观察序列为 o d l q q 的概率前向算法的步骤为 1 初始化变量口l f 2 乃6 d 1 l f n 1 2 2 递归过程喇陛o l t f 小 o t 1 l t t l 1 俐 l ij 1 3 3 终结 p oi 五 l a d o q i 图1 3 前向变量计算示意图 b 后向算法后向算法和前向算法类似都是采用动态规划的思想两个算法的差别只是在于递归的方向不一样日订向算法是从后往前递归而后向算法是从自订往后递归后向变量的含义訇意示是屯川博 o o o 儿她形馕骺图厂l墨 s o 埘鳓嘶锄编识咖 o o o 八乳眈彤跗兰州人学硕i 学位论文是给定模型入时刻t 处在状态s 并且部分观察序列为d 小d o r 的概率其定义如下 f l i p o f ld 2 0 rlq t a 后向算法的步骤为 1 初始化变量历 f 1 1 f n 2 递归过程屈 f 口p b j o 1 屈 l r 丁一i t 一2 11 f n 1 3 终结 p ol 兄屈 f 1 5 1 6 1 7 1 8 前向算法和后向算法又统称为前向后向算法他们解决了h m m 的评估问题虽然用传统的定义法即排列组合的方法也可以解决h m m 的评估问题但是时间复杂度很高而前向算法和后向算法大大的降低了时间复杂度 2 v i t e r b i 算法 v i t e r b i 算法主要用于解决解码问题它能够根据一个给定的观察序列o q 0 2 q 和一个模型旯彳 b 万在最佳的意义上确定一个内部状态序列q g q 2 q 定义4 f 为t 时刻沿着一条g f r 径q q 2 q 且g s i 产生出序列0 q q9o o p 的最大概率该算法的计算步骤如下 1 初始化西 f 7 0 岛 d 1 l f n 1 9 识 f o 1 f n 1 1 0 2 递归谚 m a x 巧一l f 2 r 丁 1 1 l1 谚 a r g m a x 4 一l i a 2 t 1 j n 1 1 2 3 终结 p m ax 4 1 13 1 2 兰州人学硕i 学位论文 g a r g m a x 6 7 叫 1 1 4 4 求状态序列口j 谚一也 f 丁一1 t 一2 1 1 1 5 3 b a u m w e l c h 算法模型训练算法 b a u m w e l c h 算法是目自仃使用较广的一种用于h m m 参数选择和优化的算法主要通过迭代的思想进行相关运算初始时由用户根据先验知谚给出各个参数的估计值通过不断迭代使参数逐渐趋于更为合理的较优值这个算法主要解决给定一个观察序列 o d l 0 2 0 7 和初始模型九 4 鼠通过计算确定一个模型旯彳 b 万使得观察序列o q 0 2 q 产生的概率最大的 u j 题首先定义所 f 为t 时刻处于状态的概率缶 f 为给定模型入和观察序列的条件下从s 到s 的转移概率则缶 f 2p q f q r 2 l 0 旯又根据前面前向变量q f 1 1 和后向变量屈 f 1 5 的定义毒 f 可进一步写成毒c f 墨鱼三毫铲竺2 9 兰三墨学2l 三兰耄畿 1 初始化乃 f 2 乃 2 迭代计算根据形 f 和毒 f 的定义可以得出形泸毒 f j i 3 参数莺估 1 1 7 1 18 7 i7 l 由于形 f 表示整个过程中从状态i 转出次数的预期专 f 表示整个过程中从状态s 转 t lt l 移到状态j 的次数的预期所以根据状态转移概率的定义乃点 i 1 19 兰州人学硕 i 学位论文 r i 参 f 二1 7 一l 棚 i 7 门 l 6 七等l 以 l 1 2 0 1 2 1 4 结束当il o gp oa 一l o gp ol 九 i

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（植物学专业论文）基于hmm模型的启动子预测系统的设计与实现.pdf

文档简介

温馨提示

最新文档

评论

（植物学专业论文）基于hmm模型的启动子预测系统的设计与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档