版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
隐马尔可夫模型
HiddenMarkovModel
HiddenMarkovModel
思考题:对给定的一定长度的DNA序列,识别其上CpG岛大致位的方法。两个问题:(1)给定一段DNA序列片段,判断它是否是CpG岛?对应于Markov模型问题(2)给定一段DNA序列,识别其中的CpG岛?对应于隐Markov模型问题主要内容隐马尔可夫模型的基本概念隐马尔可夫模型中的三个基本问题隐马尔可夫模型的生物信息学应用—CpG岛识别
一、隐马尔可夫模型的基本概念
隐马尔可夫模型(hiddenMarkovmodel,记作:HMM)是马尔可夫模型的进一步发展。其在生物信息学分析中得到了广泛的应用。(1)HMM的基本概念
马尔可夫模型主要是把一个总随机过程看成一系列状态的不断转移,其特性主要使用“转移概率”来表示。HMM则认为模型的状态是不可观测的(这是“隐”的由来)。能观测到的只是它表现出的一些观测值(observations)123a12a21a22a11a23a32a13a31a33例:隐马尔可夫链—观测三个硬币状态
每个硬币代表一个状态;每个状态有两个观测值:正面H和反面T;
每个状态产生H的概率:P(H);
每个状态产生T的概率为:1-P(H)对比两个模型可见:马尔可夫模型的观测序列本身就是状态序列;隐马尔可夫模型的观测序列不是状态序列;设有N个篮子,每个都装了许多彩色小球,小球颜色有M种.现在按下列步骤产生出一个输出符号(颜色)序列:按某个初始概率分布,随机的选定一个篮子,从中随机地取出一个球,记录球的颜色作为第一个输出符号,并把球放回原来的篮子.然后按照某个转移概率分布(与当前篮子相联系)选择一个新的篮子(也可能仍停留在当前篮子),并从中随机取出一个球,记下颜色作为第二个输出符号.引例2
如此重复地做下去,这样便得到一个输出序列.我们能够观测到的是这个输出序列—颜色符号序列,而状态(篮子)之间的转移(状态序列)被隐藏起来了.每个状态(篮子)输出什么符号(颜色)是由它的输出概率分布(篮子中彩球数目分布)来随机决定的.选择哪个篮子(状态)输出颜色由状态转移矩阵来决定.隐马尔可夫模型的示例—赌场欺诈问题:(本例来自戴培山等生物信息专题课件)某赌场在投骰子,根据点数决定胜负。在多次投掷骰子的时候采取了如下手段进行作弊:准备了两个骰子A和B,其中A为正常骰子,B为灌铅骰子,由于怕被发现,所有连续投掷的时候偶尔使用一下B,A和B之间转换的概率如下:(2)隐马尔可夫模型的参数
①状态总数N;②每个状态对应的观测事件数M;③状态转移矩阵:④每个状态下取所有观测事件的概率分布:⑤起始状态:我们将图对应到赌场作弊问题,以便深入理解隐马尔可夫模型:
赌场作弊隐马尔可夫模型中,状态空间—观测空间示意图:
注:隐马尔可夫模型中,是马尔可夫链,是隐蔽层,是不可观测的,也称为状态链。是观测到的序列,是一个随机序列,也称为观测链。因此,隐马尔可夫模型是有两个随机过程组成:即由状态链(马尔可夫链)和观测链组成二、隐马尔可夫模型中的三个基本问题
(1)评估问题(evaluation):从骰子的数列中推断是否使用了作弊骰子,如果知道使用了作弊骰子,那么在投掷骰子的过程中出现这个序列的概率有多大。(2)解码问题(decoding):如果确实使用了作弊骰子,这些序列中哪些点是由B投掷出来的。(3)学习问题(Learning):也称为参数训练问题,即仅仅给出大量的数据点,如何从中推断出细节问题(如骰子B投出各个点的概率?赌场是何时偷换的骰子的)。
问题一:给定模型参数和观测序列,如何快速求出在该模型下,观测事件序列发生的概率?问题二:给定模型参数和观测序列,如何找出一个最佳状态序列?问题三:如何得到模型中的五个参数?
问题一:前向和后向算法(估计问题)问题二:Viterbi算法(解码问题)问题三:Baum-Welch算法(学习问题)如何解决三个基本问题1.评估问题(evaluation)
评估问题:是已知观测序列和模型,如何计算给定模型的情况下,产生观测序列的概率。路径:隐马尔可夫模型中从初始状态到终止状态的一个彼此到达的状态序列,称为一个路径。也就是马尔可夫链。
前向算法:
后向算法:
前后向算法
2.解码问题(decoding)
对于骰子作弊问题中,解码问题是:如果确实使用了作弊骰子,这些序列中哪些点时由B投掷出来的。
Viterbi算法
3.学习问题(Learning)
三、HMM在CpG岛识别中的应用
1)模型的建立:共8个状态,“+”标记的状态表在CpG岛内部,“-”标记的状态表CpG岛外部。识别CpG区域:识别CpG区域相当于寻找连续的C+和G+组合的区域,相当于把生成原始序列隐状态鉴别出来,隐状态中C+和G+连续较高的区域为CpG区域,这对应到隐马尔可夫模型的第二个问题,译码问题。
应用HMM3类基本问题中解码问题(decoding):给定一个隐马尔柯夫模型M和一个字符序列X,在M中为X寻找一条最优路径
*,要求使得P(X|
*)最大(Vite
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 播音主持人雇佣协议
- 销售提成奖金合同
- 培训学校专业职业指导培训服务合同
- 终止水泥购销合同协议
- 安全协议与合同
- 招标投标表格部分的内容解读与分析
- 网络营销合同范本版合同协议解读
- 数字风向计仪表采购合同
- 公司总公司与分公司合作合同
- 房屋购买委托协议范本
- 2024年度餐饮店合伙人退出机制与财产分割协议2篇
- 《招商银行转型》课件
- 灵新煤矿职业病危害告知制度范文(2篇)
- 大学英语-高职版(湖南环境生物职业技术学院)知到智慧树答案
- 2025北京语言大学新编长聘人员招聘21人笔试模拟试题及答案解析
- 中国航空协会:2024低空经济场景白皮书
- 大学美育学习通超星期末考试答案章节答案2024年
- DL∕T 5210.2-2018 电力建设施工质量验收规程 第2部分:锅炉机组
- 唐宋文学与中学语文智慧树知到期末考试答案章节答案2024年绍兴文理学院
- 贷前调查前准备工作
- 强化财务稽查防范作用助推企业合规化发展
评论
0/150
提交评论