生物信息学常用算法简介_第1页
生物信息学常用算法简介_第2页
生物信息学常用算法简介_第3页
生物信息学常用算法简介_第4页
生物信息学常用算法简介_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学

常用算法简介北京大学生物信息中心北京基因组研究所李松岗lsg@pku.eud.c用算法1:

动态规划

动态规划算法是一种优化算法,它本质上是一种有效的穷举法。它的基本想法是最优路径上的每一段都应该是局部的最优路径。动态规划算法的典型应用:序列比对。序列比对应用举例序列组装进化分析保守区发现蛋白质结构与功能预测cDNA的基因组定位基因结构与功能分析序列比对模型类型:全局比对与局部比对需考虑的因素:替换,插入,删除例:AGCTA–CGTACATACCAGCTAGCGTA––TAGC打分系统:替换矩阵。记为:σ(a,b)其中a,b为我们考虑的字符集中的元素。比对算法的目标,就是找到在给定打分系统下,得分最高的比对方式。动态规划算法(全局比对)两序列:A=a1a2a3……am

B=b1b2b3……bn

用Ai,Bj分别表示上述序列的前i个和前j个碱基。矩阵元素S(i,j)表示Ai,Bj所有可能比对中的最高得分。则有递推公式:S(i,j)=max{S(i-1,j-1)+σ(ai,bj),S(i,j-1)+σ(–,b),S(i-1,j)+σ(a,–)}局部动态规划递推公式改为:S(i,j)=max{0,S(i-1,j-1)+σ(ai,bj),S(i,j-1)+σ(–,b),S(i-1,j)+σ(a,–)}局部动态规划图示动态规划算法的改进用动态规划方法进行序列比对,需要nm到nm2的计算时间和nm的存储空间。当序列很长时,常常无法计算。因此人们陆续提出了许多改进算法,能节省空间和时间。有兴趣的同学可参考相关文献。其他DNA打分矩阵

及其对比对结果的影响例如:若得分大于罚分,则可得到长的,有较多插入删除的结果;反之,则得到短的,局部的比对结果。蛋白质序列比对的打分矩阵PAM矩阵(PersentAcceptedMutation):基于进化模型的打分矩阵。当进化过程中一条序列1%的氨基酸发生了突变,定义该序列在进化的历史上走过了1个PAM单位。此时定义的转移矩阵称为1-PAM的突变矩阵。Dayhoff等(1978)从71个蛋白家族中的1300条近相关(closelyrelated)序列出发(其中任何两对序列之间氨基酸残基差异不大于15%),通过构造进化树对序列进行联配,得到氨基酸对之间的联合概率分布。在此基础上得到了1-PAM的突变矩阵。

ARNDCQEGHILKMFPSTWYVA989055612911125256921029141217R4990752216438123020355432N349888182856131110112138131D4221990507285600500375010C31109946001111011031112Q411751985618214131461455112E85630028989027111530475113G1149724399523013102102211H14731931989511322122191I21202210298782222671152242L542038213359919348224345519K533135022152822988351469122M3110241021012298595023114F10103100451009992301110283P62220531212301994365012S23517899786127418986232242T115116485276297273398791212W01001100101013000995640Y12213110131212221211099242V1521083412511431252314149884

1-PAMmutationmatrix(allvaluesmultipliedby10000)

表中各列满足

若fi(i=1~20)表示20种氨基酸在自然界中的分布,该矩阵还满足

由于fi是自然界中氨基酸经过长期进化后形成的一种稳定分布,因此满足关系

也就是说,可以通过对1-PAM突变矩阵外推得到n-PAM的突变矩阵,用来表示相距n–PAM进化单位的蛋白质之间氨基酸残基的突变概率。即

ARNDCQEGHILKMFPSTWYVA13506777337338847487818846476495977146714618341006899342468803R4601583568493323751589424616304320995361253429512507366351337N4254851092747299534563496601239228552275225366558507197326271D50149688115932606661007549591221213604268188453597536164284273C2121141249126601079411913814513410015315793193166149169187Q359530442468215705558300496243261538303208359390379201253264E58064572210952938631334483635315305768370237525614572215312376G8275838017524665856083387530264264567332224512799569291292346H194271310259173309256170946143153267175231182225221194387149I4803303042394463753142083531460109435410277263203795103814891185L71756647337467365349233961217792390576179815015615757077939421443K53510977136623118407744546673583591240425276510600605264360394M195154138114185183144103170403435165608326130166198181217330F23919320214334022416512439951064919158320411712132469371312419P4843673663852254344103183532512713962591912614495467144222299S774580741671619625636657578394368616439315656997844285393475T7075876876165446216054785805424626355353726328621101274397622W579057401037048521088611059104301416258339833672Y19521523517329322017513053927632720031110541602132118431955253V7084374133526894864463264401415106046410047124545456983825351501250-PAMmutationmatrix(allvaluesmultipliedby10000)

对25附0-段PA滔M突变闭矩阵壳,有涨:即经裳过25乏0个PA杰M单位映进化荒后的挤蛋白缘瑞质分访子,健与它哪的祖原先相柴比较孤,大寨约只童有20爹%左右晕的氨扔基酸扣残基锯保持懒不变占。当我逼们通燥过动疯态规关划对康两个损序列展进行纪联配撇时,劝用到PA布M突变馋矩阵停的另摔一种嗓形式严,PA犬M打分凉矩阵竿,其机中PA粱M-痕1打分污矩阵矛定义厕为:PA践M-屑25果0打分铲矩阵叛定义年为:C脊17S嫌-尾19替1烘2T尸-烧22结-1墨3胆12P训-牲33础-1叠9–20档1券3A蛮-格18徐-1萄4盒-弦18盖-1阿9冷11G坚-柴25门-1街9掀-诸25厚-2慢5赞-忠18森1吵1N构-皇24野-1余6前-耻18徐-2袭4于-斩22希-1瓶9插13D波-午32毛-1前9膝-稠20枕-2绞3嚼-提21套-2既1升-柜14炮1骨3E稻-数35雅-1羊9蔬-捡21乘-2胳2带-支19嘱-2筛4颂-证20赔-1遥3诱12Q愉-挺29驶-1英8狼-兆19粥-2遮0及-候19野-2对3厘-琴17承-1湾9呢-厘13听1惰4H盼-移22稳-2堡0右-众20婶-2趁3沟-赠22农-2石4纷-械15根-1乞9素-克19挨-1哄4保16R算-税24盼-2终0陡-秧21缩慧-2绿3庄-掌22笑-2弹2议-揉20尖-2需4堂-算21路-1拘5园-宝18献1演3K浇-瓜33何-2晴0乱-焰18摘-2喷2储-炉21拨-2追4塞-助17炼-2患0棋-桂16掠-1联4寨-云19–13个1胞2M俱-印22拼-2惨2哈-外19黎-3火1傲-稳19蜜-2莲8附-局25搜-3貌3智-座24肝-1乓8五-状21效-2魄4–21这1被6I释-细26笑-2烘6厕-兄20孔-2做8班-桨25贩-3穷5缸-挎26添-3俭4撒-说27弃-2注6城-啦25恼-2英7爷-博24–13渡1淘2L资-覆25食-2侄6圾-顷24惨-2陪4凤-桑22烦-3构1颗-团28顺-3济5抄-衫27遗-2姐1殊-稼24遵-2恼4择-亦24称-1陪3役-善14斥1坦0V损-轮19殃-2庄4煌-菠17少-2杠5鞋-妻17峡-3反0树-翠27董-3古4址-立23视-2感4泽-重27工-2袋5耗-哪24饼-1英8狱-泼11踢-1胶7哪12F梯-崖22肠-2紫8朋-典25朴-3吸0吐-使25掠-3慈2仓-嗽27您-3滥3驰-微33累-2甩6纵-瓣20园-3码1右-借30来-1呆7涝-别19苦-1初6–22仅1祸4Y恨-牛21吧-2滥2帆-杨25相-2漂7合-巴26捷-3场0纽奉-拳22乏-2翻6丙-铺27害-2乓4透-巾14硬-2忘3狐-没25唉-2扇3裙-未24畏-2院2活-罗23博-1艰2您15W耕-青22低-2鉴5闭-撤29励-3妄2惊-漏29筛-2周7房诚-倾28插-3圣8–30音-2继4现-告23浊-2灿2咏-赞31旗-2帅3桐-恼25企-2娇3米-庄29湖-1惹6持-滑15艺19C狸S统T幅P治A那G毯N闹D咏E灵Q阶H爬R关K样M共I戒L档V后F扔Y凑WPA碌M-司1侧sc登or缝in鄙g旋ma佩tr鸽ix(经过徐四舍茎五入闯)PA晨M-蚕25士0重sc蜜or宽in咸g助ma末tr犁ix(经过膏四舍沟五入费)C蜓12S任0港2T泄-2直1假3P纺-3称1坊0咱6A烧-2罗1蓬1薄1跑2G勺-3瓶1俗0深-用1散1份5N辞-4谱1裹0贞-痒1园0缘瑞0若2D迅-5钞0幕0星-驰1虽0鞋1俩2扒4E增-5典0樱0箭-婶1乞0爷0举1屠3翼4Q亩-5孙-电1共-1钱0亏0划-发1涉1介2舌2皆4H蕉-3骂-最1搂-1绒0控-1逐-茎2隙2锣1款1茶3白6R该-4截0抹-1发0忌-2斜-剥3赏0辈-付1述-1细1松2郑6K散-5特0薪0舒-先1智-1针-霉2各1氧0暗0叮1全0梁3还5M甘-5观-逆2辜-1有-赵2已-1溉-蜂3厕-2驶-堵3标-2凯-佩1挺-2倚0风0艳6I百-2趣-墨1辽0没-骑2议-1钥-刷3查-2倒-兽2削-2双-兵2龙-2墓-拴2塑-2居2例5L停-6笛-瓦3托-2吴-痛3释-2龄-袍4血-3话-旧4幻玉-3照-垃2伐-2际-等3垫-3妥4槽2羡6V敌-2冒-遥1唇0绪-奋1炒0狡-货1妥-2下-削2车-2祖-芝2女-2渔-钱2秃-2锈2研4沙2蔽4F坡-4垒-口3厉-3声-另5眉-4纠-究5此-4耀-碰6促-5般-读5欠-2随-筋4险-5纪0繁1验2吊-1察9Y未0著-胁3景-3骆-脆5猾-3键-鱼5诵-2罗-切4续-4失-窝4吩0瘦-朱4狼-4凯-度2耀-1皮-胳1滴-2紫7胳10W脏-8忍-恋2叹-5龟-字6笋-6可-矛7窄-4誉-暖7搜-7政-饱5惑-3舰2固-3墓-速4废-5屡-拢2醋-6窄0桌0普1烛7C冰S圆T啄P弯A衡G耽N府D那E疗Q池H窄R风K方M只I针L星V约F牵Y革WBL监OS肌UM打分潮矩阵BL瓜OS但UM矩阵钩建立膊在BL必OC温KS数据梦库的反基础幸上。麦这个扶数据停库由毕很多书序列县块(bl好oc长k)组成冶,一售个bl吩oc认k包含跪了对SW晚IS症SP驼RO塞T库中辨蛋白芒序列踢进行活多序筹列联切配(mu发lt辉ip链le桥a尾li为gn妙me颈nt)得到倍的一赛组氨结基酸钥序列善片段朗。这锯些序膀列具谅有很贼高的两相似陶性,捧把它右们截涉断为援长度菠相同做,中棵间没葬有插戚入或拒删除课空位甩的一爹组,坐就称碍为一凭个bl狮oc盏k。通过渐对这业个数茧据库目中联标配氨记基酸忙残基饿出现语频率围的统偶计,种生成赚了BL嫩OS代UM矩阵牺。下表固为BL羊OC词KS拳v欺.9数据蛙库中败某一悬个块疫的数院据结咱构片粱段,屈其中别包括性三个标类(cl绢us舞te豪r)。类中矮的每论一条同序列验都能此在同惯一类列中至胀少找山到另地一条皆序列还,两礼条序病列之婚间80谎%以上胃的氨晋基酸径残基陕是相巾同的畅。FA节9_山BO尾VI晚N喜(故6)众L法EE脊FV现RG慰NL众ER刺EC愤KE犹EK扫CS狠FE屿EA签RE武VF眯EN棚TE软KT俗TE灰FW值KQ拉Y自2岸9FA耍9_愈CA裙NF处A鞭(妖4贫5)化L梁EE锁FV裙RG反NL烟ER尤EC凡IE女EK轻CS漆FE轻EA烦RE值VF刺EN诸TE趋KT劫TE撞FW著KQ侦Y谷2截9FA根9_移HU冤MA蜜N捡(圾5毅2)姥L守EE醉FV战QG太NL泰ER乱EC冷ME析EK重CS袜FE闲EA命RE于VF阴EN芹TE蜘RT橡TE言FW将KQ暗Y横3端0MG宁P_姿BO竭VI却N蛋(命5茧6)愈E便RI化RE帐LN拔KP劣QY森EL自NR慨EA纹CD瓦DF州KL遵CE棍RY臂AM营VY签GY晚NA日AY钩DR龙Y采7犹0MG漂P_棕HU医MA关N星(傅5屈6)昌E五RI乞RE捧RS故KP役VH短EL绒NR逆EA耐CD俱DY义RL填CE犹RY放AM与VY怠GY扬NA傅AY搂NR填Y泼7虚3MG施P_乡丰MO气US各E季(滔5饺6)监K篇RV偷QE肆RN安KP麦AY滩EI梨NR好EA右CD昌DY钻KL救CE棵RY秀AM阔VY垂GY硬NA晃AY采NR筐Y蚁6奸5MG手P_康RA网T数(荐5另6)窜E挂RV督RE任LN顶KP绵AQ符EI档NR国EA姓CD戏DY鸡KL指CE采RY仰AL钟IY辉GY洋NA著AY疼NR撇Y释7为1OS茎TC合_B忘OV哄IN推(渡57辉)办LG符AP券AP落YP辟DP颠LE暖PK站RE挣VC寸EL见NP遭DC炭DE慨LA挣DH太IG讽FQ戒EA暴YR饭RF脖33OS灵TC达_F谎EL腿CA但(棵6蓝)饶LG缩慧AP头AP罩YP葬DP灰LE消PK伸RE路IC健EL磨NP卵DC衔DE层LA释DH览IG洗FQ令DA助YR盐RF蛾34OS江TC尾_H承UM治AN拼(怒57蒸)缸LG染AP散VP遥YP民DP龟LE猎PR缴RE医VC匠EL睬NP翠DC是DE严LA睁DH亡IG善FQ款EA吃YR主RF稻34OS观TC膀_M幕AC皮FA各(浴6司)武LG烦AP饲AP胸YP吩DP拦LE愧PK单RE悼VC铅EL曲NP菠DC垫DE蒜LA摔DH母IG絮FQ列EA养YR螺RF爬33OS乏TC赌_R甚AB乌IT遵(坝6杆)俊QG捞AP昨AP打YP厨DP挪LE榴PK慎RE骆VC李EL匠NP唯DC警DE居LA住DQ蛾VG颗LQ泉DA俱YQ姜RF卷45OS拦TC削_R镰AT止(界55月)炮LG勤AP的AP欣YP众DP胖LE厨PH少RE工VC针EL细NP其NC誉DE艺LA剖DH废IG盾FQ宴DA饥YK追RI繁46一个猛类被翅作为妹一条榆序列裹处理临,因融此如蜂果一委个类馆中包楼含n条序烂列,销那么丽其中隔每一阴个氨治基酸驰残基云出现逝的频抓率被像乘以趋权重粗因子1/时n。对BL秘OC顺KS数据习库进夕行统衬计,婶得到野氨基愈酸对袄之间叠的联礼合概染率分讽布P(i,阔j),BL灾OS拍UM矩阵店定义持为其中C为常恰数,尘在不锄同的BL撑OS陕UM矩阵锻(BL宵OS源UM势62,BL切OS摔UM陆80等)邀中,C取不查同的粱值(1/赵2,1/歪3)。按照62龄%的标填准对BL咐OC去KS数据垃库进晋行聚畜类(循即类喝中的键每一网条序许列都沾能在猫同一钓类中配至少亿找到贸另一蚁条序向列,诊两条煮序列冲之间62续%以上舱的氨筑基酸伟残基旷是相弦同的孤),危得到BL蔽OS狐UM校62矩阵靠,按圈照70影%的标另准对BL筹OC晶KS数据甩库进炼行聚洒类,滨得到BL兆OS屡UM货70矩阵没。两种坏打分弊矩阵茫的比倚较PA溪M矩阵艳基于谋进化铲的突贫变模我型,级且是趋从进找化距烫离近片的数高据外故推到净远的搁。BL渡OS为UM矩阵匙基于逗蛋白怠家族伍中的雀保守兆区段箱,不毙考虑的进化付距离贼远近欠。PA蠢M矩阵宴计算旦了相近关序亿列中皱的所狗有位何点,殃而BL分OS约UM矩阵读只计偏算了吉一些狂保守哪区段树中的惯位点腐。比对笔得分暖的统难计检耀验这种郊统计闻检验愤主要那用于拆局部红比对朋,因皆为在羊局部桃比对电中我够们需锅要判荷断哪边些结从果是构真正碗有意格义的占。在局制部比欲对中肾,通柄常能勤比上煮的只仁占参然加比址对序白列总牢数的算一小乌部分茅。因妈此从蜘整体息上说且,可痛把比腥对过区程视锋为反致复进哲行大境量小棚片段泡间的夸比对果。由历于随堵机序吐列之压间的株比对趁结果私服从纯正态土分布悲,故形可用烧极值伸分布云来对烛某一土具体淹结果连进行阳检验元。极值珍分布:分布昆函数:故有辅:常用蔬比对吧软件晚介绍FA脾ST胃A计算晴步骤波:1.查找溉查询旗序列指和数扣据库论序列魂之间况长度侍大于k(氨基援酸1-易3,核撕酸1-勒6)的驰精确跨匹配典片段罗;2.把顺妨序相只同,迎互相照间距烦离小延于给健定值孕的匹网配片下段连峰成没锋有洞捡(ga痛p)的区金间;3.用打议分矩剂阵对稳其中附匹配莲数和语匹配狸密度期最高确的区虑间重蝴新打鹊分,必选出纹其中予得分校最高滔的区顷间;4.通过贵“ga抱p”把得分视最高吨的区岂间连粉接起影来,捕加上朴它们棋的匹诱配分妨数,名并减闭去加乞入“ga属p”带来恋的罚旗分,乳记录菌下分换值最飞高的解连接柱;5.用动隆态规药划重侄新处商理上扯述有肤“ga同p”的联长配格。BL系AS宜T计算户步骤夹:1.屏蔽非序列妨中低康复杂帖性区担域;2.对“忆字”摘(氨穴基酸今:3-菠tu傍p,核酸吨:11驱-tu袖p)在数衡据库琴中每之一条节目的糊位置淋建立唐索引基表;3.对查赤询序砍列建能立字过集,惕对其乎中每证一个杯字建狼立它价的邻槐域(钉即虽队然不铅同,洞但比宴对分丈值大燥于给恢定阈荐值的役字,励蛋白连的每撞个字死大约誉有50个近咐邻)德;4.在数愈据库咱中搜辰索与冠查询供序列孩字集惜邻域秤中相哨同的禁字;5.以找影到的良字为阶种子筛,向烈两端查延伸守,直贡到累怒计得誉分开膨始下绘降。夏这样滔就得百到了桶匹配歪片段度;6.对找浴到的功匹配碗片段剂进行轨统计嗽检验错;7.对检私验显痒著的醒片段诉重做降动态店规划道的局找部比贯对。8.在BL宇AS呈T2中,遵不是甜对每半个匹似配片传段做点动态挪规划俗比对啦,而膀是把虑数据您库每昌条序漫列中雾的匹猫配片征段连帆起来确做有ga寄p的局水部比令对。云这样锹有可挑能得箱到更跳长的凭匹配卧片段蔑。动态忌规划油算法侮的其编它应怎用例1.核酸疑序列叼的字稠典模辉型已知礼观测彼序列S=(s1s2..誓..乔..sn),si∈(验A,车C,码G,蛾T),给定范模型其中wi称为基单词贞,观共测序由列是夕由这狸些单批词生锁成的裙,pwi是单视词出脸现的桌概率层,满稳足求P(S|M)解:因为即求浅序列S在模伪型M下的腊概率喜,需愚要穷诉举S在模土型M下的截所有富可能布划分参方式灵。定肉义变驾量Z(1烦,i),它表堡示观蜘测序旧列S中从1到i的片龟段s1s2..橡..贱..si在模溜型M下的滔概率取,则享得到匪递归诊关系其中δ(i,犯l)表示跑序列S中从i-纠l+1到i,长度竖为l的子轰字串卡。如导果δ(i,孙l)为模团型中慈的单团词,复则pδ(i,结l)等于粮该单垦词的城概率pw,否则悬为0。例2.模笨体的清权重冰矩阵驼描述志模型已知艰观测脸序列S=(s1s2..新..伟..sn),si∈(胞A,罩C,览G,烘T),给定魔模型其中q0为噪逢声出镜现的耗概率回,qi,i遍=1送,2虚,.厘..帖,6为六赠个模绪体出隆现的冻概率强,满赢足p(bk|0井),bk∈(班A,之C,暂G,戏T)是bk作为忘噪声枯时出副现的豆概率猫,满绑足p(bk|i,孝j),bk∈(露A,壳C,赔G,涝T)是bk在模材体i中位铜置j出现追的概煮率,傍满足求P(S|M)。解:同样杆定义男变量Z(1直,i),在权耽重矩市阵模疾型下用,递忌归关貌系关劲系为常用管算法2:僵隐马规模型基本裕概念随机胶过程障:一锻族无穷穷多涂个、汪相互育有关拆联的逐随机坦变量进。记熄为:由于咐参数t经常盐代表详时间谎,故坛称为析随机扁过程港。T常为厅自然和数,塘整数当或区攀间。哪当参便数取币值为宏整数麦时,相也称淋为随呆机序猫列。马尔黄可夫梯过程拘:取蓝值为来整数绝的随趴机过溉程,掏若t皮=套i时刻鸟的取提值只冒与时殊刻i-组1取值小有关蛛,则荣称为煮马尔贼可夫抚过程坐。隐马巷氏模往型(HM港M)模型认的数使学描痒述:存在射一个世隐序肢列H,它是抽不可帮观测护的,迅且由口以下姐参数裹生成玩:其中πα为初吐始状厅态出仪现概掠率;Tαβ为转蜓移概讲率,送即tαβ=傻P(卷hi=β深|苦hi-殊1=硬α);α,β属于{σ};{σ}为字抽符集仔,即联隐序抛列由工哪些蜂字符蛇组成索。观测帖的结诉果称宿为明丽序列O,它由骨隐序南列按魄照生皆成概危率eαa生成妥。其辜中eαa=P喝(a侄|阀α皮);{a妨}为明牲序列菜字符亿集。隐马当模型衡的典增型应膀用:乎基因宅识别基因些结构戴及重年要信饥号基因恐识别劝模型问题羽:从航基因休组序宁列出辈发,警识别喇其中普的基盈因(肉基因元组注泄释)贵。输入造:基铲因组篇序列输出虑:各工种基务因元船件(畜包括锹启动番子,迟外显狱子,脑内含隙子等猴)在狐基因岩组上立的位惭置。陆如果仰需要扑,也倒可输艳出翻落译的抢蛋白旺质序情列,汗预测秀结果触的可反靠程柳度等挥。例:蝇基因秒组编帝码区普的隐肉马模取型设基因放组由飘两种方功能洲区域贵组成韵,即谜编码骨区和嫁非编以码区笼。分追别由袖字母c,n代表逝。转证移矩骄阵为赠同种温字母权延伸喝或变广为另罩一种额字母读的概烟率。学初始肿状态境概率糊为第枪一个胁字母葛出现c或n的概绵率。达明序撕列由A,C,G,T四个倍字母爆组成舱,生织成概殊率分四别为奋编码轨区和雾非编当码区腥四个库字母谦出现枣的概虾率。隐马阶氏模邻型的答三种凭典型含问题可能亡性问森题:懒给定景模型吴参数万,当邀观察航到一乱个明释序列链时,编这一矛明序搬列确松实由瓣给定辫模型柄生成巩的概炭率有竿多大矩?解码颈问题篮:给阀定模穿型参才数,厦当观多察到捏一个就明序吊列时倚,这瓜一明剂序列战所对阔应的群最可卫能的葱隐序疯列是锡什么寄?学习凡问题蛾:观醉察到吩足够盏多明饺序列啦时,月如何卧估计厚转移堡概率圈和生鸣成概柳率?基本优算法可能绢性问相题:鲜已知侍参数帜为w的隐董马模习型和利长为T的序剩列O={o1o2…ot…oT};求在勺给定搁模型挣下观嗽测到择序列O的概闻率。解:面对于替任意壶一条吸隐序票列H,有:其中α为隐军序列H第i-碧1位置贱的状军态,β为i位置笋的状奇态。扒当i=1时,tαβ应由πβ代替毙。因此返,所肉求概眯率为穴:其中H为一厉切可抹能的触隐序心列。由于H的数赶量随T的增存加以川指数请增长密,这绣种算素法实求际并裁不可室行。前向企算法定义庸在模泼型w下,环隐序拥列第i位置付状态窃为α,明序研列为o1…oi时的摇概率昌为:则有凝递推柄公式叼:初值机为:则有层:后向段算法定义妥在模阀型w,隐序苏列第i位置扫状态公为α条件住下,明序苦列为oi+1…oT时的恋概率析为:则有汗递推健公式迅:初值准为:则有墙:使用唱前向被或后叫向算无法,松计算P(白O|颠w)的复议杂度量约为O(侮N2)级。联合岸应用榆前向听和后橡向算胀法,焰可以阅容易裁地计葬算隐眯序列沟位置i处于扑状态α的概寇率:通过嫌计算灵上述萍概率乘的极美大值庭,可嫩以得甩到位陪置i处隐惑序列威最可胡能的塑状态畜。但在溪解码乏问题傻中,臣我们渐更关阳心的洒是最淡可能井的隐结序列愈。它胖是一授个整身体,柴不能鸡分解走开一轮位一岂位算亮。解勾决这祸个问施题,左需要鼠使用Vi同te叛rb傅i算法哈。Vi识te车rb博i算法定义其中Hi为一子切长控为i、以α结束神的隐启序列倾。显怎然δi(α)对应谷的隐蹄序列日就是争最可帜能生狠成前i个字杨母明泛序列弃的隐今序列剑。递眨推公散式为哑:显然就是粒解码液问题触的解拣。学习录算法HM筒M的学想习算腐法有逃许多足种,仗包括EM(期望但最大勺化)东算法蓬,不说同形工式的锤梯度扒下降战法,特模拟隐退火咽算法壮等。浓下面翼我们棚主要静介绍EM算法约。常用足算法3:EM算法EM算法级的用呼途EM算法介(Th菠e垦ex秩pe胜ct踏at解io飞n巩ma董xi乔mi丹za咬ti鼠on蓄a浪lg廉or否it辆hm)是拥根据胁不完蠢整数闪据作孟最大究似然状估计服的一床般方樱法。盟这种券不完敏整可凡以是不缺失爽了某倒些数牲据,湿也可魔以是贼存在患某些店无法总观测浴的隐勾藏变四量。似然忆函数尸的概淡念我们材从某呢个未贫知分皆布得络到了扛一组抢观察肤值X=忆{x1,x2,…xn}。此未蹲知分循布是因由一原组参衡数Θ=饲{θ1,θ2,…θm}决定者。定若义似侮然函元数为吼:由于窃对数铃函数贪是单源调递疮增的待,因欢此不添会改舅变极令值点烂的位粒置;班而且脾它可汁以把魂连乘喜变成苗连加尿,从状而大趟大简升化计栽算。伶因此穴实际皱工作牢中常越使用壶的是筑对数福似然博函数桂。即押:最大弱似然里估计目标裤:根筑据已饿知观印测数驱据估秘计总秤体参块数。似然剧函数衣可视齿为以大未知秘参数牙为自怪变量照的函浪数,侨它的市统计距意义秀又是显在未秧知参勇数下疯观测膝到该霜组数补据的晕概率亩,因稿此我潜们很袍自然唇地取览使似灰然函烈数达本到最界大值膏的未柳知参堂数为衰估计春值。你这就坟是最乎大似芬然估撇计。子即:为简古化计读算,留实际毫工作井中常夫使用恭的是挣对数色似然鞋估计牌。即锻:具体衫计算幅公式用为:如果慎参数且不止啄一个将,相化应令您偏导亭数为0即可业。例题1正态胁分布御的最访大似密然估舌计设x1,x2,…xn是取昼自正训态总炼体N(μ,缠σ2)的简注单随辈机子鸦样,μ与σ2是未叔知参巡寿数,竿求μ和σ的极隔大似伐然估很计。解:归由于故有无似然诊函数取对悔数,矮有:∴似然览方程俱为:由(1)解眯得:代入湿(2),镰得:即:μ和σ2的极薪大似居然估胁计分哪别为映和仰。例题2二项尤分布哥的最辫大似常然估僻计取n粒种衡子作牢发芽比试验藏,其尚中有m粒发伙芽,趁求发沉芽率p的最涨大似稀然估拨计。解:耐每粒狭种子芦发芽器与否抚可视才为两武点分转布:发芽榆,圣则X=对1,其概粱率为p不发苹芽,数则X=院0,其概买率为1-缠p由似香然函陷数的消构造幼,有罢:L(怀p)炒=P竖(X宁=x1|p籍)·滴P(冬X=虫x2|p壮)…寒P(路X=xn|p)由于遭共有m粒发狸芽,(n躬-m评)粒不凉发芽第,∴L(渠p)高=pm(1劫-p捐)n-称m令上庆式等欲于0,由演于盛,订有:即:星发芽君率p的极饶大似禽然估脂计为EM算法福的一句般概淋念X:观测杠得到采的数侦据,耻它是版不完足全的描;Z=毯(X炭,Y炊),是完购全的热;其借中Y是缺失吧的或健隐藏颈的。柿它的忽联合森分布脏为:对于会这个退联合那分布酒函数嘱,我灶们可缘瑞以定利义它被的似狡然函拜数:称为鼓完整棉数据刚的似殊然函缠数。收而X的似铅然函召数称为取非完赌整数伴据的决似然延函数沫。注意庄完整手数据坝似然偷函数抖的自懒变量夺中,X和θ为常年数,搭而Y是随酱机变亲量,击且服揭从于蚕某种宾由X和θ所决私定的扁分布胀。参缸数X是观跃测数唤据,盒是完撕全确恶定的即;参撇数θ则是休我们扯需要夹估计素的,忠在计贺算过蛛程中猴它会偶不断跳调整圾。设θ(i妻-1萝)为当奇前我按们使核用的θ估计抵值,园则我午们可北以定钟义完整脑数据对数集似然蓝的期射望:函数Q(θ,喇θ(i痛-1奸))就是EM算法迅中,E步骤师所要锄计算猴的值幸。在躺上述果函数弄中,θ(i闭-1庙)是上一轰步计挺算的爆结果死,是拔确定顽的值赛。而θ是接着合的M步骤惠中要宅调整梨的参驳数,似调整宫它以倘便使陵似然况函数载的值械增加尸。即拾:在EM算法参中,报上述E步骤说和M步骤啦不断灰重复岩,每另一次斗重复非似然赴值都绪会增鸽加,饲直到专收敛详到似穗然函逐数的秃局部呆极大勉值。隐马乔模型掠的参刻数估忍计利用EM算法查进行梦隐马支模型晒的参帝数估拦计,炉又称折为Ba嗽um卖-W贤el糠ch算法哭。它单要解瓦决的矮主要粉问题剂,是览求隐马弱模型缺复习隐马踏模型润:存在药隐序报列H,由下斜列参缓数生净成:观测樱序列O称为良明序悼列,撞由下卡列参逆数生好成:直接丙估计安隐马开模型斥参数并的算烟法定义王后验新转移炭概率冈:注意奋利用屋上述最表达签式可鼻以方私便地攀计算挽一些世重要童的后制验期萍望值框:隐序礼列中耗状态帅出现他的期疼望数看:隐序劣列中迈状态残转移摸为惜的浇期望末次数奔:按EM算法孤,我秤们更歼关心躲如何踪蝶根据庙观测标数据访和现音有参隔数估误计新蜘的参祖数。果直观牢上,批可以乘简单卖地利披用上狱述期屿望值镇计算跑:其中利用Q函数荐的估转计公忌式改用说隐马己模型庄的有高关参郑数,刚有关暴公式饰可写蔬为:非完歪整数缓据的孤似然锤函数雨:完整勒数据撞的似泄然函猾数:Q函数村:其中抹为长挥度为T的所哥有隐滥序列籍的集怜合。在已知演模型垮参数亮且针副对特牧定隐惧序列椅的条阻件下循,计总算观牌察到鸦明序败列的僵概率匙是简市单的蹈:代入Q函数链表达齐式,类得:由于才我们虫要优纤化的墓参数愁分成扎了相途互独存立的疤三部国分,支故我勾们可那以分刘别对夕它们粮进行针优化劈燕。对上滴述表部达式熔中的起第一您部分猛,有网:由于得要在德约束纷下逆对上居式进蒸行优死化,诵引入La毁gr砌an爬ge乘子如,得寻:化简炮,得机:由约前束条丑件,蒙得:即:对Q函数预表达屑式第心二部产分,常类似必地有壤:同样陆引入La的gr领an破ge乘子没,在漂约束下,游可得臭:对Q函数嫂表达且式第叛三部徐分,垦类似释地有鲁:同样公引入La谦gr信an咳ge乘子雪,在根约束下,标可得琴:其中比较保可知挑,用Q函数坝方法挂求得厦的叠鸡代公持式与夕直观蔬方法恼得到桐的是沙完全竞一样驱的。隐马顶模型惠例题1例1.模体的字宅典模涛型已知猫观测柴序列S=(s1s2..剖..离..sn),si∈(踢A,环C,穴G,再T),给定良模型其中wi称为躬单词专,观分测序锤列是程由这看些单孝词生捏成的幅,pwi是单笨词出箭现的万概率秋,满娃足(1倒)求P(S|M)(2嗓)求路沟径π*,使得解(1茄):因为即求惕序列S在模帝型M下的棕概率仅,需回要穷辱举S在模稳型M下的常所有赠可能茅划分撇方式今。采论用动专态规站划。尘定义盘变量Z(1高,i),它表竞示观业测序泛列S中从1到i的片包段s1s2..药..辛..si在模贞型M下的粘概率木,则先得到缎递归耀关系其中δ(i,凭l)表示例序列S中从i-耳

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论