(植物学专业论文)基于hmm模型的启动子预测系统的设计与实现.pdf_第1页
(植物学专业论文)基于hmm模型的启动子预测系统的设计与实现.pdf_第2页
(植物学专业论文)基于hmm模型的启动子预测系统的设计与实现.pdf_第3页
(植物学专业论文)基于hmm模型的启动子预测系统的设计与实现.pdf_第4页
(植物学专业论文)基于hmm模型的启动子预测系统的设计与实现.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

兰州人学颂i 学位论文 摘要 启动子是基因表达调控中非常重要的一类顺式作用元件 它决定着基因转录的起始位 置和转录频率 因此启动子的研究对于阐释基因表达凋控网络的机制和基因组的功能都具 有非常重要的意义 启动子的识别作为启动子研究的首要环节 讵同益成为生物学研究的 一个热点 传统启动子识别是通过免疫沉淀 突变分析等生物学实验来进行的 这些方法 成本高 效率低 极大地限制了启动子研究的进展 因此利用计算机领域新兴的数据挖掘 技术并开发相应的软件来进行启动子预测已经成为生物信息学的一个重要方向 本文通过 对启动子的序列特征进行深入分析 利用隐马尔科夫模型 简称为h m m 进行数学建模 设计并编码实现了一个基于h m m 的启动子预测软件系统 本研究获得了以下结果 l 设计并实现了一个基于h m m 的启动子预测系统 包括序列输入 预处理 模型训 练 未知序列识别和结果输出等部分 本系统能深入挖掘出启动子序列的内部统计 学规律 建立相应的h m m 用于进行启动子预测 2 用人类启动子序列和拟南芥启动子序列对系统进行了验汪 验证结果显示本系统预 测的准确率较高 通用性较广 对人类启动子预测的准确率达到8 4 5 拟南芥启动 子的准确率达到8 3 5 本系统为启动子的预测提供了一个平台 极大的提高了启动子的预测效率 节约大量 的人力物力 为启动子的研究提供有力的支持 此外 本系统的设计与实现方案也可以推 广为一种通用的序列元件预测系统的解决方案 加速各类元件的预测和分析 最终将加快 整个基冈表达调控网络的构建 关键字 启动子预测 隐马尔科夫模型 h m m j a v a 数学建模 数据库设计 兰州人学硕i 学位论文 a b s t r u c t p r o m o t e ri sav e r yi m p o r t a n tr e g u l a re l e m e n ti ng e n ee x p r e s s i o n i td e t e r m i n e st h ep o s i t i o no f t r a n s c r i p t i o n a ls t a r tp o i n ta n dt h ef r e q u e n c yw i t hw h i c ht h eg e n ei st r a n s c r i b e d t h er e c o g n i t i o no f p r o m o t e rw i l lp l a ya ni m p o r t a n tr u l ei nu n d e r s t a n d i n gt h eb i o l o g i c a lm e c h a n i s m a st h ep r i m a r y k e yi nt h ep r o m o t e rr e s e a r c h t h ep r o m o t e rr e c o g n i t i o ni sb e c o m i n gah o t s p o tn o w a d a y s t r a d i t i o n a lm e t h o d sf o rp r o m o t e rr e c o g n i t i o ni sb i o l o g ye x p e r i m e n t s s u c ha s i m m u n o p r e c i p i t a t i o na n dm u t a t i o na n a l y s i s b e c a u s et h e s e sm e t h o d sa r ew i t hh i g hc o s ta n d l o w e f f i c a c y t h e yc r a m p e dt h ed e v e l o p m e n to ft h ep r o m o t e rr e s e a r c h s ou s i n gd a t am i n i n g t e c h n o l o g yt od e v e l o ps o m es o f t w a r ef o rp r o m o t e rr e c o g n i t i o ni sb e c o m i n gav e r yi m p o r t a n t r e s e a r c hd i r e c t i o ni nb i o i n f o r m a t i c s i nt h i sa r t i c l e w ed e s i g n e dap r o m o t e rr e c o g n i t i o ns y s t e m b a s e do nh i d d e nm a r k o vm o d e l s i tc a nf i n ds t a t i s t i c sl a wo u td e e p l yi n s i d et h ep r o m o t e rs e q u e c e s a n du s ei tf o rp r o m o t e rr e c o g n i t i o n t h em a i nw o r ka n dr e s u l t sa r ea sf o l l o w s 1 d e s i g n e dap r o m o t e rr e c o g n i t i o ns y s t e mb a s e do nh i d d e nm a r k o vm o d e l s i n c l u d i n gs e q u e n c e i n p u t m e n t p r e p r o c e s s i n g l e a r n i n g p r o m o t e rp r e d i c t i o na n do u t p u t 2 u s i n gh u m a np r o m o t e r sa n da r a b i d o p s i st h a l i a n ap r o m o t e r s t ot e s t t h er e s u l ts h o w st h es y s t e m s s e n s i t i v i t yf o rh u m a np r o m o t e rp r e d i c t i o ni s8 4 5 a n d8 3 5 f o ra r a b i d o p s i st h a l i a n ap r e d i c t i o n t h es y s t e mi so fg e n e r a l i t ya n dh i g he f f i c i e n c y i tc a ng r e a t l yp r o m o t et h ee f f i c i e n c yo f p r o m o t e rr e c o g n i t i o na n dp r o v i d es t r o n gs u p p o r tf o rp r o m o t e rr e s e a r c h b e s i d e s i to f f e r sc u r r e n t s o l u t i o na n dc a na c c e l e r a t et h ep r o c e s so ft h eo t h e re l e m e n t s r e c o g n i t i o n f i n a l l yi m p r o v et h e c o n s t r u c t i o no fr e g u l a t o r yn e t w o r k s k e yw o r d s p r o m o t e rp r e d i c t i o n h i d d e nm a r k o vm o d e l s h m m j a v a m a t h e m a t i c a lm o d e l i n g d a t a b a s ed e s i g n 兰州人学顾i 学位论文 原创性声明 本人郑重声明 本人所呈交的学位论文 是在导师的指导下独立进行研究所取得的成 果 学位论文中儿引用他人己经发表或未发表的成果 数据 观点等 均已明确注明出处 除文中已经注明引用的内容外 不包含任何其他个人或集体已经发表或撰写过的科研成果 对本文的研究成果做出重要贡献的个人和集体 均已在文中以明确方式标明 本声明的法律责任由本人承担 论文作者签名 同期 社 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品 知识产权归属兰州 大学 本人完全了解兰州大学有关保存 使用学位论文的规定 同意学校保 存或向国家有关部门或机构送交论文的纸质版和电子版 允许论文被查阅和 借阅 本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索 可以采用任何复制手段保存和汇编本学位沦文 本人离校后发 表 使用学位论文或与该论文直接相关的学术论文或成果时 第一署名单位 仍然为兰州大学 保密论文在解密后应遵守此规定 论文作者签名 醢蔓 导师签名 日期 砷 6 7 兰州人学硕l 学位论文 1 1 启动子 1 1 1 启动子预测的意义 第一章绪论 随着人类基因组计划和各种模式生物测序工作的完成 人类积累了大量的生物学数据 并且这些数据还在以几何级数增长 但是数据并不是知识 怎么样对这些数据进行分析和 处理 进而从这些看似杂乱无章的数据中探索和发现生命的规律和真谛 是目前人类所面 临的巨大挑战 在测序得到的数据中 并非所有都是编码蛋白质的基因 恰恰相反 编码 区只占了全部序列的很小一部分 以人类为例 在大约3 0 亿对碱基中 只有3 5 是编 码蛋白质的编码区 而剩下的9 5 以上是非编码区 即所谓的 j u n kd n a 9 他们并不编 码蛋白质 虽然目前对他们的功能还不清楚 但是从生物进化的观点看 他们必然在遗传 信息的传递和表达中发挥着不可或缺的作用 现在普遍的认识是 非编码区与基因在四维 时空的表达凋控有关 冈此也把这部分非编码区序列叫做调控区 如果说编码区是创建生 命大厦的基石 那么凋控区就是这座宏伟大厦的设计蓝图 是他们在指挥着这座大厦的构 建 在调控区中分布着形形色色的调控元件 目前已知的有增强子 启动子 沉默子等 而其中的启动子 可以况是最重要的一类调控元件 它控制着基因表达的第一道关卡 基囚的转录 基因的表达调控体现在很多层面上 但主要的调控是转录水平的调控 而启 动子控制基因转录的起始位置和转录频率 所以启动子可以说足扮演着一个遗传丌关的角 色 只有它r 丌启了 遗传信息彳 能进行表达 因此 对启动子的研究将对理解整个基因转 录调控机制和表达模式进而理解整个调控网络起到至关重要的作用 也正是由于启动子在 调控中的重要作用 其正同益成为一个研究热点 启动子的预测作为对启动子研究的自订提 就自然而然成为重中之重了 启动子对转录的调控位于整个基因表达调控网络的最上游 它相当于丌关控制着整个 调控体系的丌启 因此对启动子的研究对于在基冈层面 卜研究转录调控关系 进而构建表 达调控网络有非常重要的作用 而启动子研究的自订提就是启动子的识别 启动子的预测还 为新的未知基因尤其是真核生物基冈的发现提供了一条新途径 因为在真核生物中 编码 蛋白质的基因只占了很小的一部分 它们就像是一个个小岛 分布在无垠的序列海洋中 传统发现新基冈的方法是找剑首个外显子 但是首个外显子往往是很难找的 尤其足当它 兰州人学硕 i 学位论文 很短或处在未翻译区时 通过启动子预测 我们可以i 口j 接找到首个外显子的转录起始位点 这也就意味着找到了基因的一端 所以 找到启动子就意味着找到基因 启动子的预测还 为人类从转录调控层面攻克各种疑难杂症提供了新的方法 由于基因的转录调控对人类的 健康有着直接影响 人类的很多癌症 如胃癌 直肠癌等都与基因的不正常表达有关 如 果我们找到了调节这些基因进行转录的启动子 就可以设法使这些基因的表达变慢 甚至 是完全破坏这些基因 从而从源头掐断病源 m c k n i g h ts le ta 1 1 9 8 2 启动子预测建立的 预测体系也将为别的调控元件的预测提供参考模型 以便于更好的预测别的调控元件 1 1 2 启动子的结构和功能 1 1 2 1 启动子的结构 1 1 2 1 1 原核启动子的结构 原核启动子的核心区域一般在转录起始位点上游2 0 0 b p 至下游1 0 0 b p 的范围内 距基 因编码区起点2 0 6 0 0 b p 杜耀华等2 0 0 2 原核启动子最显著的特征就足在核心区域存在 小段的保守序列 通过对已知大量的原核生物启动子序列的分析 人们发现大多数原核启 动子存在着以下几个保守区域 转录起始位点 t t s 一般都是嘌呤碱基 通常是在序列c a t 的中心 p r i b n o w 框 它是一段富含a t 碱基的六联体核苷酸序列 它的中心一般位于转录起始 位点上游1 0 b p 附近 因此也叫做一1 0 区域 为了方便 人们把转录起始位点记为1 沿转录 方向顺流而下记为正 逆流而上的启动子部分均用负值表示 p r i b n o w 框的一致性序列足 t a t a a t 每个位点的保守频度为瓦 鸽 死 以 4 五 可以看出在p r i b n o w 框中 第6 位t 的 保守性很高 因此这个t 也被叫做保守t 它几乎存在于目自 发现的所有原核启动子中 推测其在结合r n a 聚合酶时起十分重要的作用 p r i b n o w 框是原核启动子中非常蕈要的一 类元件 r n a 聚合酶在此部位与启动子进行结合 因此p r i b n o w 框也被称为结合位点 当 r n a 聚合酶结合到p r i b n o w 框上后 在r n a 聚合酶的诱导下 p r i b n o w 框中d n a 序列首 先在转录方向上解 1 然后进一步扩大成1 7 个核苷酸长度的泡状物 即所谓的丌放性起始 子复合物 在泡状物中 r n a 聚合酶从模板链了i 始顺流而下转录r n a 产物 据推测p r i b n o w 框之所以成为第一个解旋的部位可能与它富含a t 碱基有关 冈为a t 碱基对问只有两个氢 键 作用力较弱 相比有三个氢键相互作用的g c 碱基更易于打丌 原核启动子的另一个保守区是位于一3 5 b p 附近的序列 称作s e x t a m a 框 也叫 3 5 区序 2 兰州人学硕i 学位论文 列 它的一致性序列为t t g a c a 各碱基出现频率如下 五 毛g 7 a 6 c 5 4 其中t t g 具 有很高的保守性 s e x t a m a 框是原核生物启动子的r n a 聚合酶识别位点 r n a 聚合酶全酶 依靠 因子识别s e x t a m a 框并与之结合 因此s e x t a m a 框的核苷酸结构 在很大程度上决定 了启动子的强度 r n a 聚合酶易识别强的启动子 p r i b n o w 框和s e x t a m a 框序列几乎存在于所有已经发现的原核启动子中 可见这两个元 件对原核生物的转录至关重要 研究发现 p r i b n o w 框和s e x t a m a 框协同作用 控制着原核 生物转录的丌始 在这个过程中 r n a 聚合酶通过 因子首先识别s e x t a m a 框 然后与之 结合 随后再与p r i b n o w 框结合 并在p r i b n o w 框将d n a 序列打开 形成丌放性启动子复 合物 转录也就开始了 对于r n a 聚合酶的这种先结合s e x t a m a 框 再与p r i b n o w 框结合 的行为 目前存在着两种说法 一种是滑动假说 即r n a 聚合酶分子沿着模板链从s e x t a m a 框滑动到p r i b n o w 框 另一种贝0 认为r n a 聚合酶分子比较长 当它的一端与s e x t a m a 框结 合后 它的分子的某一与p r i b n o w 框序列亲和性很高的部位诈好到达p r i b n o w 框 从而与之 结合 后者似乎更为合理 因为已有实验表明 r n a 的分子很大 它的覆盖范围大概为7 0 b p 左右 因此当它一端与s e x t a m a 框结合后 分子的其它部位完全可以到达p r i b n o w 框 这两 个序列不仅决定在转录的起始与否 而且对转录的效率也有很大的影响 这两个序列还对 启动子的活性有很重要的影响 目前发现影响启动子活性的若干突变体的突变位点都位于 s e x t a m a 框序列中或者p r i b n o w 框序列附近 位于s e x t a m a 框和p r i b n o w 框之间的碱基序列并不特别重要 但是它们之间的距离却十 分重要 天然启动子中一般都是1 5 2 0 b p 实验表明s e x t a m a 框和p r i b n o w 框之间的距离为 1 7 b p 时转录的效率最高 据推测 这样的距离正好有利于r n a 聚合酶与s e x t a m a 框和 p r i b n o w 框的结合 因为这个最佳距离使得各个位点币好保持在双螺旋的同一侧从而促使它 们和r n a 聚合酶结合 1 1 2 1 2 真核启动子的结构 真核生物的启动子结构相对于原核生物要复杂得多 真核生物中有3 类启动子 ntt u n g e ta 1 分别与真核生物中三类4 i 同的r n a 聚合酶即r n a 聚合酶i i i i i i 结合 i 类启动 子比较单一 由上游控制元件 u c e 和核心启动子两部分组成 它与r n a 聚合酶i 结合 主要用于调节核糖体r n a 5 8 s 1 8 s a n d2 8 sr r n a s 的合成 1 i 类启动子与r n a 聚合酶i i 结合 主要参与蛋白质基因和部分s n r n a 的转录 由于编码蛋白质的基因各种各样 因此 参与转录调控的相应的启动子序列也不尽相同 所以i i 类启动子是最复杂的 i i i 类启动子 又可以分为三个亚类 第一亚类和第二亚类位于转录起始位点下游 因此又称为内部启动 兰州人学硕i 学位论文 子 它们主要负责调控5 sr r n a 和t r n a 的转录 第三亚类启动子和自i 两类一样 是上游启 动子 主要用于调控s n r n a 的合成 因为在真核生物中编码蛋白质的基因的转录主要是i i 类启动子进行调控的 所以目前 的启动子预测主要是i i 类启动子的预测 i i 类启动子有由核心启动子和上游启动予元件组 成 l 核心启动子是位于转录起始位点附近大约1 0 0 b p 的 4 段d n a 序列 是能够使r n a 聚合酶i i 转录正常起始的最小d n a 序列 a n d e r sgpe ta 1 1 9 9 9 s m a l este ta 1 2 0 0 3 它由 t a t a 框 起始子 i n r t f i i b 识别元件 b r e 和下游启动子元件 d p e 四个部分组成 b u t l e rj e fe ta 1 2 0 0 2 s m a l es te ta 1 2 0 0 3 但是这四个部分并不一定同时出现在同一个核 心启动子中 通过对取自e p d p 6 r i e rr ce ta 1 19 9 7 p i e rr ce ta 1 2 0 0 0 和d b t s s s u z u k i y e ta 1 2 0 0 2 的1 0 0 0 0 条人的启动子序列进行分析发现 在这些序列中只有5 0 存在起始子 而在这5 0 的序列中同时存在t a t a 框的只有1 0 左右 分析还发现下游启动子元件的存 在并不依赖于t a t a 框和起始子 但是t f i i b 识别元件只存在于t a t a 框缺失的序列中 核 心启动子单独起作用时只能确定转录起始位点和产生基础水平的转录 到b r e t a t a b o x ll 毒i n r 嚣yl 懦鬻 图1 1 核心启动子结构图 s t e p h e nt s m a l ee ta l2 0 0 3 a t a t a 框 又称h o g n e s s 框 g o l d b e r g h o g n e s s 框 是最早被发现的真核生物启动子 元件 g o l d b e r gm l 1 9 7 9 b r e a t h n a c hr e ta 1 1 9 8 1 最早注意到它是因为它的结构和功能都 和原核启动子的p r i b n o w 框相似 但是后来的研究表明它和p r i b n o w 框并不是同源的 t a t a 框是一段富含a t 碱基的序列 其碱基一致性序列为t a t a a a a 各位点的保守频度为 瓦 4 4 a 6 4 4 它通常位于转录起始位点上游约一3 0 到 5 0 b p 处 t a t a 框存在于大多 数真核基因中 作为r n a 聚合酶的结合处之一 它起着精确选择转录起始位点的作用 也 就是说t a t a 框决定了转录起始点的选择 r n a 聚合酶与t a r a 框牢固结合之后爿 能丌始 4 兰州人学硕 学位论文 转录 由于r n a 聚合酶的拓扑结构是固定的 其结合位点和催化位点的距离也是固定的 因此其决定了起始点的选择 除了精确起始转录之外 t a t a 框还能影响转录的速率 体外 实验证明 t a t a 框中任何一个碱基的改变都会显著降低转录效率 b r e a t h n a c hre ta 1 1 9 8 1 g r o s s c h e d lre ta 1 1 9 8 0 w a s y l y kbe ta 1 1 9 8 0 g r o s v e l dg ce ta 1 1 9 8 1 h usle ta 1 1 9 8 1 在伴清蛋白基因中 当t a t a 框突变为t a g a 后 转录效率大大降低 如人类的b 珠蛋白 基因启动子中t a t a 序列发生突变 p 珠蛋白产量就会大幅度下降而引起贫血症 b 起始子 i n r 它是一个与t a t a 框同等重要的核心启动子元件 统计分析显示 围 绕着转录起始点的具有i n r 活性的序列保守性很低 但是对部分功能性的i n i t i a t o r 元件进行 的突变和计算机分析仍然揭示出规律性的结果 1 1 1 r 偏好的是一段富含嘧啶的序列一p yp y a 1 n t a p y p y 其中 1 位a 3 位t 或a 以及一1 位的嘧啶对i n i t i a t o r 活性最为关键 j a v a h e r y re ta 1 1 9 9 4 1l oke ta 1 1 9 9 6 i n r 在功能上与t a t a 盒类似 它能起始基础转录 能介导 上游至少一部分激活因子的调控作用 并能决定转录起始点的位置 对海胆组蛋白h 2 a 包 括起始子的部分进行敲除显示 转录的效率显著降低 而且转录起始位点发生位移 g r o s s c h e d lre ta 1 1 9 8 0 c t f i i b 识别元件 b r e 它是唯一目前已经清楚的除了t f i i d 之外还能被别的转录因 子识别的核心启动子元件 它在上游紧挨着t a t a 框 共同的保守序列为 g c g c g a c g c c 其能够被t f i i b 识别 在真核细胞中调节前起始复合物的装配 d 下游启动子元件 被认为是核心启动子的下游模体 是t a t a 缺失的启动子结合纯 t f i i d 所必须的元件 b u t l e rjefe ta 1 2 0 0 2 b u r k etw e ta 1 1 9 9 8 k a d o n a g aj te ta 1 2 0 0 2 它在果蝇和人类启动子序列中捌有一样的保守序列 下游启动子元件通常存在于 t a t a 框缺失的启动子序列中 和i n r 一起发挥作用 它的核心区域一般位于转录起始位点 上游2 8 到3 2 b p 处 k u t a c h a ke ta 1 2 0 0 0 2 上游启动子元件 它位于距离核心启动子上游1 k b p 的近端启动予区 这个区域的 元件对基因转录水平的调节发挥着很重要的作用 连接体扫描突变实验显示 这个区域的 任何一个调节元件的任何一个位点的碱基发生突变 都会引起转录水平的显著改变 c o o p e r sje ta 1 2 0 0 6 这个区域的元件可以分为两类 一类是位于 3 5 0 剑 4 0 的元件 包括通常 7 0 b p 附近的c a a t 框和g c 框等 这些元件对启动子的活性有一个讵向调节作用 另一类是位 于 3 5 0 到 1 0 0 0 的元件 这类元件则对基冈的表达起到负凋节作用 a c a a t 框 也叫做c a t 框或c c a a tb o x 是另一个特征序列 一般位于在5 端转录 起始点上游约7 5 8 0 个核苷酸的地方 它的一致性序列为g g g t c a a t c t c a a t 框和g c 兰州人学硕i 学位论义 框 用于和通用转录因子结合并控制着启动子转录的频率 c a a t 框和g c 框一般位于t a t a 框1 0 0 1 5 0 个碱基处 b g c 框 常位于一些t a t a 框缺失的管家基因的启动子序列中 管家基因又叫做持家基 因 这些基因的产物是维持细胞的正常结构 运动 以及参与新成代谢等生命活动所必须 的 组蛋白基因 核糖体蛋白基因 线粒体蛋白基因 糖酵解酶基因等都是持家基因 它 的一致性序列为g g g c g g 是s p l 的结合位点 s p l 结合在g c 框上 对转录的活化具有重要 作用 c c p g 岛 上游启动子元件的另一个显著特征是c p g 岛的存在 c p g 岛是一段长度大于 2 0 0 b p 的富含g c 的未甲基化的d n a 序列 在这段序列中 碱基g 乖i c 的含量大于5 0 即 p g p c 0 5 并且c p g 岛的频率大于0 6 l i l j p c p g 0 6 x p g x p c c p g 岛存在于4 0 哺乳动 物启动子中 在人类启动子中的含量更是高达7 0 1 1 2 2 启动子的功能 虽然基因的表达调控有很多层面 例j z l i d n a 水平的调控 转录水平的凋控 转录后调 控 翻译水平的调控 翻译后水平的调控 但是转录调控被看做是最重要的层面 因为在 任何连锁反应中 控制和凋节第一步往往是最有效果的 而启动子正好控制和调节着基因 表达调控的第一步 即调控转录的丌始时间和转录频率 因此 启动子区和相关的调节元 件被看作是基因表达调控中最重要的一类元件 c o o p e rs je ta 1 2 0 0 6 启动子是最初结合 r n a 聚合酶的d n a 序列 在很多情况下与转录起始因子一起结合的 启动子与聚合酶的复 合体形成之后 结构就发生改变 使起始过程继续进行 启动子对转录的调控可以分为两 类 一类是非凋节性模式 负责持续表达基冈的转录调控 另一类是调节性模式 在这种 调控模式中启动子对转录的调控受胞内和胞外的信号调节 通常r n a 聚合酶i i 不能单独起 始转录而需要其它蛋白质因子的协同参与 这能够防止对细胞具有灾难性的无序转录的发 生 我们把这种调控基因转录的蛋白质冈子称为转录因子 1 1 2 2 1 转录因子的概念 通常在转录过程中 启动子需要其它辅助蛋白因子的协助才能与r n a 聚合酶结合 这 种蛋白辅助因子叫转录因子 转录因子是一类具有 f 调控作用的反式作用元件 它们能与 d n a 上特定的序列结合并构成一种构像 从而促进基因的转录 根据结合部位的不同 转 录因子可以分为两类 结合在t a t a 序列附近的蛋白质因子称为通用转录因子 以t f i i 表示 有t fi i a t fi i b t fi i d t fl i e t fi i f t fi i h t fi i i 等 结合在上游启动子元 6 兰州人学硕i j 学化论文 件上的蛋白质因子称为转录调控因子 女i j s p i g a l 4 g c n 4 p h 0 4 等 另外还存在着诱 导型转录因子 i n d u c i b l ef a c t o r 它的作用与上游因子相同 但它们是受调控的 其在特定 时间 细胞发育阶段 条件或特定的组织中合成或被活化 因而有调控基因在不同时间 条件或不同地点表达的作用 1 1 2 2 2 转录的定义 转录是基因进行表达的第一步 也是最关键的一步 它是指d n a 遗传信息传递到r n a 的过程 在这个过程中 各种r n a 如m r n a 及非编码的t r n a r r n a 被合成 转录包括 起始 延长 终止三个阶段 在转录起始阶段 r n a 聚合酶的o 因子识别d n a 启动子的 识别部位 r n a 聚合酶核心酶贝0 结合在启动子的结合部位 d n a 双链打丌 形成一个大约 1 7 个碱基对长度的转录泡 r n a 聚合酶随后进入转入泡 在r n a 聚合酶的催化作用下 n t p 根据碱基互补原则依次结合在d n a 模板链上 在转录的延长阶段 核苷酸之间以3 5 一磷酸二酯键相连接沿5 一3 方向进行r n a 的合成反应 随着反应的进行 由局部打丌 的d n a 双链 r n a 聚合酶及新生成的r n a 局部形成的转录泡也随之移动 0 因子从模板 及r n a 聚合酶上脱落下来 于是r n a 聚合酶的核心酶沿着模板向下游移动 脱落下的0 因子可以再次与核心酶结合而循环使用 在r n a 延长进程中 当r n a 聚合酶行进到d n a 模板的终止信号时 r n a 聚合酶就不再继续前进 聚合作用也凶此停止 由于终止信号中 有由g c 富集区组成的反向重复序列 在转录生成的m r n a 中有相应的发卡结构 此发卡 结构可阻碍r n a 聚合酶的行进 由此而停止了r n a 聚合作用 1 1 2 3 启动子预测的现状 1 1 2 3 1 启动子预测的方法 传统的测定启动子的方法是通过生物学实验 如免疫沉淀 突变分析 印迹技术等来 进行的 这些方法费时费力 随着高通量实验的进行 大量的数据涌现 传统实验的方法 已经远远不能满足要求 近几年出现的芯片技术 虽然能在一定程度上提高效率 但是也 存在着不少局限 例如受随机因素影响大 可重复性差 费用昂贵等 计算机技术的发展 使得对启动子的预测研究进入了一个新的阶段 利用计算机已成为目的启动子预测的主流 手段 a l f r e dqme ta 1 2 0 0 9 这种方法成本低 效率高 并且得到的结果也较为可靠 姚 凤霞等2 0 0 5 各种各样的启动子预测算法也相继涌现 1 1 2 3 2 启动子预测的算法 兰州人学硕i 学位论文 现行的启动子预测算法都是基于启动子区域的序列特征不同于别的功能区域的序列特 征这一基础的 可分为三类 w ushe ta 1 2 0 0 7 基于信号的预测方法 基于 c p g 岛 的预测方法以及基于内容的预测方法 基于信号的预测方法 主要通过尝试识别启动子的各类保守序列如原核启动子的 1 0 区 序列 3 5 区序列 真核启动子的t a t a b o x c a a t b o x 以及启动子序列中的转录因子结合 位点等一些启动子元件来区分启动子序列和非启动子序歹l j l iqz e ta 1 2 0 0 6 例如e p o n i n e d o w nt ae ta 1 2 0 0 2 d r a g o np r o m o t e rf i n d e r b a j i cv be ta 1 2 0 0 3 等都是基于信号的 预测软件 但是由于目前对启动子的研究还不是很透彻 积累的数据还比较有限 导致很 多含有其他元件的启动子序列不能被很好的识别出来 另外 由于启动子保守模式的碱基 序列一般较短 很多保守模式在d n a 序列其他区域也大量存在 例如被普遍用于作为预测 特征元件t a t a b o x 将t a t a b o x 权矩阵应用于哺乳动物的非启动子序列结果显示每1 2 0b p 就预测出一个t a t a b o x p r e s t r i d g edse ta 1 1 9 9 3 这些因素导致了单纯使用转录因子结 合位点序列模式进行启动子预测存在居高不下的假阳性率 基于 c p g 岛 的预测方法的依据是大部分的哺乳动物基冈的启动子都和 c p g 岛 有关 典型算法有f i r s t e f d a v u l u r irve ta 1 2 0 0 1 等 通过 c p g 岛 来寻找肩动子 大约可以找到哺乳动物一半的启动子 大约7 0 的人类基因启动子和 c p g 岛 有关 如 果单纯依靠 c p g 岛 来进行预测的话其正确率不会超过7 0 基于内容的启动子预测方法是根据启动子序列相对于其它d n a 功能区域具有不同的碱 基选择偏好柬区分启动子序列和非启动子序列的 w ushe ta 1 2 0 0 7 虽然d n a 序列都是 由a t g c 四种碱基构成 但是四种碱基在各个功能区域中的分布并不均匀 即每种 功能区域存在着各自的内部统计学规律 如单核苷酸或核苷酸联体的统计分前i 规律 基于 内容的方法运用各种数据挖掘技术 挖掘出启动子序列内部统计学规律作为判断启动子的 依据 其准确率关键在于数据挖掘 这种基于内容的方法不需要了解转录的生物学意义 使得不具有生物学背景的研究者也可以进行研究 降低了研究的准入门槛 有助丁二启动子 预测的快速发展 这种方法还可以推广到别的功能区域的预测 因而具有广泛的应用自订途 本系统采用的h m m 的算法就是基于内容的算法 兰州人学顾l 学位论文 1 2 h m m 1 2 1 马尔可夫模型介绍 1 8 7 0 年 俄国有机化学家v l a d i m i rvm a r k o v n i k o v 第一次提出马尔可夫模型 马尔可 夫模型是一个随机的过程 它的根本特点就是马尔可夫性也叫无后效性 即一个过程的 将 来 仅依赖 现在 而不依赖 过去 假设x 是一个马尔可夫过程 x 在时刻t 的状态是x t 则x 在时刻t l 的状念x t 1 只与x 在时刻t 的状态是x t 有关 可以表示成x t 1 f x t 马尔可夫过程中的时间和状念可以是连续的 也可以是离散的 我们把时间和状态都离散 的马尔可夫过程就叫做马尔可夫链 马尔可夫链的数学定义如下 随机序列x 在任一时刻n 它可以处在状态鼠 岛 包 且它在m k 时刻所处的状态为q 的概率只与它在f f l 时刻的状态q 有关 而与m 时 刻以前它所处的状态无关 1 2 2 h m m 介绍 1 2 2 1h m m 的定义 马尔可夫链适用于状态和事件一一对应的情况 但是现实中的很多问题往往比较复杂 有很多时候观察到的事件并不是与状念一一对应的 而是通过一组概率分命对应 这种情 况下 马尔可夫模型就不适用了 h m m 就这样应运而生 h m m 是马尔可夫模型的一种扩 充 最早在1 9 7 0 年左右被提出 b a u ml e1 9 7 2 b a u ml ee ta 1 1 9 6 7 b a u ml ee ta 1 1 9 6 6 b a u ml ee ta 1 1 9 7 0 隐马尔可夫过程是一个双重随机过程 由两个部分组成 马尔可夫链 和一般随机过程 其中马尔可夫链用来描述状念的转移 用转移概率描述 一般随机过程 用来描述状态与观察序列问的关系 用观察值概率描述 观察值序列和状念序列并不是一 一对应的关系 而是通过一组概率相联系 h m m 的强大之处在于在观察到的事件与内在的 状态间建立了一种概率模型 使用v e r t b i 算法 能够根据一个给定的观察序列和一个模型 在最佳的意义上确定内部状态序列 也就是说 根据可观察的事件序列 来推测不可观察 的内部状态序列 一个h m m 可以表示为一个五元组 n m a b 也可以用简化了的三元组 b 卫 来表示 其中 9 兰州人学硕i 学位论文 n 表示h m m 的状态数目 s s is 如 为状态集合 模型在t 时刻的状态记作q 模型 经历的状态序列记为q 孙q 2 q m 表示每个状态可能的观察值数目 假设用v v i 屹 来表示观察值集合 a 2 2p 吼 2 s jq 2 s 表示状态转移概率矩阵 表示从状态s 转移到状态0 的 概率 且满足 o 1 l b 钆 b k p q 咋iq s i 表示观察值概率矩阵 表示在状态s 下出现观察值k 的 概率 万 万f 乃2p g l2 s 初始状态分布概率且 7 i 1 m a r k o v 链 状态序列 随机过程 观察值序列 尢 a q 1 q 2 o o o q t b 0 1 0 2 o t 图1 2h m m 示意图 1 2 2 2 h m m 的可解决的问题及算法 1 2 2 2 1 h m m 主要用于解决三类问题 1 评估问题 给定观察序列o q 0 2 0 以及模型入亍卅 b 吧 如何有效地计算出 观察序列的概率 即求p o l 入 可以把它看作是评估一个模型和给定观察输出序列的匹配 程度 由此可以用来在一系列候选对象中选取最佳的匹配 2 解码问题 给定观察序列o d i d 2 q 以及模型入亍 a b 吧 确定一个对应的状 态序列9 q lg g 使得q 能够最为合理的解释观察序列o 3 学习问题 在模型参数未知或不确定的情况下 如何根据观察序列0 q 0 2 q 求 得模型参数或调整模型参数 使得p o i 入 最大 即试图优化模型的参数来最佳的描述一个给 定的观察序列是如何得来的 1 2 2 2 2 h m m 的三个基本算法 针对h m m 的三个基本问题 模型提供了三个算法 分别是前向后向算法 v i t e r b i 算法 和b a u m w e l c h 算法 三个算法的核心思想都是迭代思想 1 0 兰州人学硕i 学位论文 1 前向后向算法 前向后向算法用于解决h m m 的评估问题 给定观察序列o a 0 2 0 7 和模型入 亍 a b 吧 计算由模型产生序列0 q d 2 q 的概率p oi 九 即给定模型和观察序列 如何计算从模型生成观察序列的概率 这种算法主要由如下两部分组成 a h i j 向算法 定义前向变量 q f 2p d 1 d 2 0 t q 2 i 旯 2 f 丁 1 1 它的含义是给定模型入亍 a b 吧 在时刻t 状态处于j 并且时刻1 2 t 的观察序列为 o d l q q 的概率 前向算法的步骤为 1 初始化变量 口l f 2 乃6 d 1 l f n 1 2 2 递归过程 喇 陛o l t f 小 o t 1 l t t l 1 俐 l ij 1 3 3 终结 p oi 五 l a d o q i 图1 3 前向变量计算示意图 b 后向算法 后向算法和前向算法类似 都是采用动态规划的思想 两个算法的差别只是在于递归 的方向不一样 日订向算法是从后往前递归 而后向算法是从自订往后递归 后向变量的含义 訇 意 示 是 屯 川 博 o o o 儿她 形馕 骺 图 厂l墨 s o 埘鳓嘶 锄 编识 咖 o o o 八 乳 眈 彤 跗 兰州人学硕i 学位论文 是给定模型入 时刻t 处在状态s 并且部分观察序列为d 小d o r 的概率 其定义如 下 f l i p o f ld 2 0 rlq t a 后向算法的步骤为 1 初始化变量 历 f 1 1 f n 2 递归过程 屈 f 口p b j o 1 屈 l r 丁一i t 一2 11 f n 1 3 终结 p ol 兄 屈 f 1 5 1 6 1 7 1 8 前向算法和后向算法又统称为前向后向算法 他们解决了h m m 的评估问题 虽然用 传统的定义法即排列组合的方法也可以解决h m m 的评估问题 但是时间复杂度很高 而 前向算法和后向算法大大的降低了时间复杂度 2 v i t e r b i 算法 v i t e r b i 算法主要用于解决解码问题 它能够根据一个给定的观察序列o q 0 2 q 和一个模型旯 彳 b 万 在最佳的意义上确定一个内部状态序列q g q 2 q 定义4 f 为t 时刻沿着一条g f r 径q q 2 q 且g s i 产生出序列0 q q9o o p 的最 大概率 该算法的计算步骤如下 1 初始化 西 f 7 0 岛 d 1 l f n 1 9 识 f o 1 f n 1 1 0 2 递归 谚 m a x 巧一l f 2 r 丁 1 1 l1 谚 a r g m a x 4 一l i a 2 t 1 j n 1 1 2 3 终结 p m ax 4 1 13 1 2 兰州人学硕i 学位论文 g a r g m a x 6 7 叫 1 1 4 4 求状态序列 口j 谚 一 也 f 丁一1 t 一2 1 1 1 5 3 b a u m w e l c h 算法 模型训练算法 b a u m w e l c h 算法是目自仃使用较广的一种用于h m m 参数选择和优化的算法 主要通过 迭代的思想进行相关运算 初始时 由用户根据先验知谚 给出各个参数的估计值 通过不 断迭代 使参数逐渐趋于更为合理的较优值 这个算法主要解决给定一个观察序列 o d l 0 2 0 7 和初始模型九 4 鼠 通过计算确定一个模型旯 彳 b 万 使得观察序 列o q 0 2 q 产生的概率最大的 u j 题 首先定义所 f 为t 时刻处于 状态的概率 缶 f 为给定模型入和观察序列的条件下 从s 到s 的转移概率 则缶 f 2p q f q r 2 l 0 旯 又根据前面前向变量q f 1 1 和后向变量屈 f 1 5 的定义 毒 f 可进一步写成 毒c f 墨鱼 三毫铲 竺2 9 兰三墨学2l 三 兰 耄畿 1 初始化 乃 f 2 乃 2 迭代计算 根据形 f 和毒 f 的定义可以得出 形 泸 毒 f j i 3 参数莺估 1 1 7 1 18 7 i7 l 由于 形 f 表示整个过程中从状态i 转出次数的预期 专 f 表示整个过程中从状态s 转 t lt l 移到状态j 的次数的预期 所以根据状态转移概率的定义 乃 点 i 1 19 兰州人学硕 i 学位论文 r i 参 f 二1 7 一l 棚 i 7 门 l 6 七 等l 以 l 1 2 0 1 2 1 4 结束 当il o gp oa 一l o gp ol 九 i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论