版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
真核生物5’端外显子和翻译起始位点的预测PredictionofFirstExonsandTranslationInitiationSitesinEukaryoticGenomes力学与工程科学系00级胡钢清GangqingHuDept.ofMechanicsandEngineeringScience摘要真核生物翻译起始位点(TIS,translationinitiationsites)的正确预测对于基因的正确注释有着重大的意义。本文试图通过发展和结合一些现有的算法来较好地预测出真核生物翻译起始位点。本文算法的得出主要基于三种方法自然结合。我们首先基于简单的权重矩阵方法(WMM,WeightMatrixMethod)【1】,发展了多状态信号的熵距离判别分析方法,由此可以得到一些待定ATG信号,这些信号包含了大部分的翻译起始位点。接下来,我们采用WMM找出与该ATG对应的GT信号并将它们之间的序列提出(这里ATG信号以及GT信号的定义详见正文)。通过引入模糊词汇的概念,我们发现翻译起始位点前存在某些模糊词汇,这样可以通过判断ATG信号前是否含有某个“模糊词汇”进一步选出待定ATG信号。最终我们结合了佘振苏教授提出的以统计语言学为特色的多元熵距离(multivariateentropydistance,MED)方法【2】对这些ATG信号对应的阅读框在20维空间中进行多中心聚类形成了预测翻译起始位点的完整算法并达到了较好的结果。1引言2001年2月,人类基因组计划的相关组织和机构公布了人类基因组测序草图【3】,人类基因组计划的提前完成,基因组的研究热点已转向揭示基因信息结构的复杂性与遗传语言的根本规律。其中,基因预测算法的研究也成为对基因组序列进行统计分析的重要目标。所谓基因预测,就是在对DNA序列编码潜能(codingpotentials)提出某种模式(pattern)描述的基础上,对一未知的DNA序列上完整的基因结构进行注释。对于原核生物,由于其基因结构较为简单,在基因组的DNA链上表现为一个编码蛋白质的基因对应为一段连续的开放阅读框(openreadingframe,ORF),因此,基因预测的问题也相对简单,本人所在的佘振苏教授研究小组已经在这方面取得了很好的结果【4】。但是对于真核生物,它们的基因结构远比原核生物的复杂,许多基因是断裂基因,间断成外显子(exon)和内含子(intron),并且exon在序列中长度比例极小【5】。生物体通过对剪接位点(SpliceSite)的剪接等过程最终构成蛋白质。现有很多真核生物基因结构的预测算法就是针对SpliceSite的预测,即对外显子的预测,著名的有Genescan,GeneMark等。本质上可以将外显子分为4类:包含起始编码子(startcodon)和终止编码子(terminationcodon)的singleexon,包含起始编码子和供体位点(donorsite)的firstexon,包含受体位点(acceptorcite)和供体位点的internalexon,以及包含受体位点和终止编码子的terminalexon【6】。现有基因预测软件中对于firstexon、terminalexon以及singleexon,它们的识别精度通常都大大低于internalexon的识别精度【7】。Firstexon的预测实际上包含了对翻译起始位点的预测。本文重点在于翻译起始位点的预测算法设计,同时也给出了5’端外显子(即firstexon)的预测结果。一般认为,对基因结构预测所用到的信息有三部分组成:序列上的信号(signal),内容(content)统计以及与已知基因的相似度(similarity)【8】。我们用到的信息只是包含了前两部分,对ATG信号的多状态熵距离判别分析以及找出模糊词汇是属于信号的范畴,而对阅读框运用MED方法实际上关系到了内容统计。在预测时,我们采用的算法是简单的线性判别。2材料床我们富采用钓了K纱ul布p客&别Re巾es化e(巴19帜95醒)帽、A已LL坐SE虚Q材【9均】奔以及偿HM匀R1净95嫩【7统】毅三部远分数之据集组,其沃中前臂两者污的部近分序工列作没为学请习集态,最晓后者歪的部姥分数浴据作吐为测裙试集衫。馋如引走言所开提到样,真剑核生佣物的蚁基因谋按是曲否含列有内抄含子呈可以哗分为誉多外身显子扛基因立以及阵单外悄显子匠基因竖。实齐际上应,前聪者在亚数目滚上占历绝大罚多数兼,因帅而本煤文关劳心的林是对纲多外孤显子辉基因乡中的盼翻译摊起始圈位点抱以及低5扣’泰端外也显子邀的研楚究与筋预测厨。掌Ku娇lp翅&投R至ee纱se泰(1叉99初5)族提供普的数跃据集末是通益过运泄用B阻LA培ST考P攻【1强0】形删除怀一些篇相似买和冗肆余的同序列备后得亲到的纠。数稼据库卸包含丧了人脱类的恭单外夜显子两基因虏18击6个管,多宣外显夜子基趁因3小04酱个,豪其中绪多外尸显子他基因童中共帝包含炼17滥98季个外家显子火。宅我们辈直接嫩采用灿了其扔中的编30黎4个惑多外张显子胶基因绳作为战学习且集的着一部杨分。弓AL柿LS耻EQ锅数据主集经遗过了孙一些撑严格冬的标源准刑【1唯1】州筛选摘、整麻理出段来的泪。它秩包含狼的是上一些史脊椎影动物外的袖多外惨显子勉基因乡,有饺57情0个普,其仓中有往外显链子数抱目为屋26结49第。我鲜们采够用A缠LL碗SE袭Q数忍据集沫构成顽学习沸集的巨另一豪部分冒。攀HM饰R1晋95步数据屡集是往Ro留gi明c等判于2霞00施1年林整理苦出的婆,其套中包抢含了丹人、朗小鼠干和大搅鼠共带19排5条厉基因雅的注剥释。冬数据寨集中疾人、生小鼠骡、大沿鼠的抗比例拣为1喘03馅:8吗2:伸10甩,包邪含1准52馋个多坑外显闻子基发因和冻43禁个单债外显齿子基忍因。溪我们害采用亲其中誓15镇2个介多外悉显子室基因窜作为杯测试戴集。映这样高我们文一共喜得到富了8币74贴个基许因作亮为学沸习集谁,1筑52笼个基奴因作菜为测凉试集吴。化3反方法艰3.针1络万AT猎G信害号的隶多状票态熵避距离尝判别避分析架方法狼准真核累序列蝇中,幸基因需一般骆是由肉编码帖甲硫言氨酸续(M身et缓)的宰密码由子A计TG萌开始翻,我涌们把揪这样久的A滋TG恼称为导翻译季起始添位点荷,根而将括DN凳A序水列上劣出现筐的核板苷酸赚三联沫码枝“眉AT纱G厌”进称为掘AT捧G信违号。疼越为了渗描述帮AT卷G信款号,幼我们锹取出煤由A滚TG柳信号司前m延bp委,后青nb艰p组书成的凡核苷挣酸序地列L冒。用疮q贿ij迷(所j巨=1励,慢…割,m坏+n苹,堡i辽=罗0,级…粱,3骨分别挖表示宜核苷宽酸A艺、C宏、G获、T颈)表命示出垦现在钞该序佣列上者第j疗个位蒙置上现的核冒苷酸玻i,绣q裙ij谈是一求个4矮×傍(m孟+n劣)的贡矩阵虾,其宾特征富如图悦1所益示。先图1携用合矩阵柄q来元反映命序列项的核烧苷酸戴的位烫置以拉及内武容爬我们孟可以饥简单涌地将充AT环G信北号分声为两痛类,费一类结是翻美译起林始位姻点,君剩下拘的A辽TG铺信号交归为菜另一乌类。耀为了陡刻画抓这两训类信游号的渗区别恩,我蜜们分匙别统轰计出遮他们燥对应怖于L支的权雁重矩遗阵伐、罩(它慨们都董是4骡×翁(m眨+n番)的慕矩阵环)参,固进而士依次欢定义湿出该哥序列户的相贫对熵法以及扯熵距滥离牌如下劝:,灭然而宽通过叹引入解多状狼态熵裳距离唉判别锅分析虹,我域们将谜对A办TG俭信号骨有更浴细致巧的描薪写。直为了横描叙胀处于宇不同薯状态桨的A牢TG挖信号亚(腹“贯状态拿”妨这个罢词将蹲在下哀文阐饭明)鸦,菊我们踏要用骡到阅阁读框禁这个摄概念展:在纲同一蹈DN泼A序名列上叔,疮如果炸用迹、产来分湿别表皆示翻咏译起瓦始位途点以奉及某弊个A繁TG翁信号里的位五置污,累则可讲以定秒义出寒该A诵TG葱信号洲的阅肺读框捧(表舟示视对3梁的求抖模运监算)撞,可拒以看奏出翻逮译起匠始位咸点对筑应A弓TG喷信号钞的畅阅读腊框邮为0芦。卖阅读徒框黄概念这的引鸭入是酱有生叠物学竭意义徐的,特生物写体通浴过糠对剪苹接位导点剪胸接等暴操作做形成搞mR暖NA突,在伴mR秤NA担的核美苷酸航序列旦中只借有场与纠翻译荐起始浮位点绍有相类同敏阅读照框晶的3侄个核耍苷酸帅才可尝能编矩码氨畏基酸公。盟在第芳一个显供体谣位点随前,伏AT俯G信僻号在反DN宁A序命列上旨出现饼的位放置决红定了申该A扇TG收可能伯具有巾的某碰个属俭性:天N:勉出现低在翻辽译起障始位郑点之摘前,瑞或出业现在弄翻译掠起始仗位点拾之后安且摧阅读耍框响与翻杰译起肾始位动点对脸应的壳阅读爱框丛不同腾。头S:胃出现突在翻组译起筐始位门点位披点上单。捧C:橡出现端在翻歇译起晓始位蔽点之览后且跃阅读互框允与翻瑞译起稼始位漂点对器应的留阅读摘框默相同舱。袭我们考猜想状,每铃一个目AT壶G信质号并华不是绪独立辜的,阔它与冈邻近棚的其糕它A洽TG狠信号众存在积某些揉关联饺,尤甲其对异于具涌有同冻一阅榴读框既的A惊TG蒙信号归这种荡关联幅将更训为强长烈。姥这样旦的话强,考屋察同橡一阅摘读框兰的3都个相裁邻A召TG奥信号另之间经的关蜻联性乌,可送以归枕纳出悲中间垃那个妇AT幼G信港号可葱能具糊有的就6种骄状态镰:晕1,稍当A歼TG馋信号葱与听翻译拔起始省位点谢有倘相同叉阅读亭框时泽,有域5种雹:N吼NN道_0仙(N排NN春_0喉,表便示这济3个霸AT驱G的览属性负依次咬为:模N,萄N,夫N。疗后面大的数提字表处示这纷3个手AT植G的尾阅读披框,队后类菜推)榨,N份NS智_0迹,N例SC尿_0读,S作CC述_0施,C他CC归_0床。瓶2,息当A微TG建信号航不与鹅TI扶S同滩阅读耳框时妄归为奔第6粉种:俘NN筑N_平1,勉2。丹为了次刻画隔具有楚NS寄C_嗓0状搭态的俱AT联G信你号与桌具有迷其它溪状态欠信号象之间拒的区观别,卫我们满取出景与其册有相院同阅哥读框先的前米后各和一个茫AT暗G信振号,啊将这梦三个晋AT居G信镰号各违自对忍应的脉取其姻前m掘t嫁后n米t辱核苷零酸序呢列L究t新(鸽t颈=1哗,2萌,3蜘)拼向接起垫来构登成一炒条序伸列总钞长为国l=房的序挠列S惑(如槽图2运)。轨图2唱将果三条劲序列贿拼接吉起来抽,构省成一楼条新孤的序泻列S蕉(这痛里假驶定(戴m,数n)白分别伐为(耻4,诉7)虏、(恳2,川9)胀以及秒(5现,6搂))创适在统毛计出罪不同炮状态拣对应腥于S晕权重屋矩阵勉后,电类似输于往将A芒TG要信号钩分为柏两类牌时相神对熵清的定考义,白我们锦给出神将A中TG供信号探分为追6个油状态努时的拆相对借熵损的讯定义需鱼为了胆刻画舌具有遍状态刮NS秤C_锁0的敢AT筐G信染号与匙其它猎状态禽的A知TG熊信号送的差且别,袄我们房同样栋可以约引入览熵距地离的嘴概念弓,不铺过这筑里的图熵距焰离是朋一个族5维麻向量顺:徐护如券果认粥为非沫编码卵区内荣的核蜓苷酸内之间巧是相纺互独允立的稻以及丧结合北生物讲学上签每个挣氨基绞酸是昼由3鼓个核贼苷酸凝编码塘而成捉这个彻事实治,我蜓们可忽以认柴为将夹序列宾L波t裁划分耻为p锅t图个泉片段偷Lt御j滥(其烟中竟,如油图3港)判,旦并将值每个奥片段旬统计帮出的妈熵距结离组东成一哲个向观量匹是有趋意义转的地。用这样尚S就带被化裁为n显=早个片奋断,长第m踏个片数断的岭相对者熵、益熵距老离以航及S驾的熵锐距离亿依次徐为:级图3刃棒将序慨列L幻t划煌分为朗各个喉片断致佛可以苍看出段,每猪一A托TG县信号格都可浪以在贯5亡×干n维袍的熵汇距离屑空间堪中对载应一腥个向逐量厚。这添样对屿于给展定的亲一个擦AT震G信正号,恳我们讲构造床出其臂,计垦算该奉与各糟种状肤态A选TG花信号苏对应协中心子的距汇离l万k谨,取脊d析k软=曲σ匠k丑*注l今k采(读k=简1,勾2,澡…屠6,南0领<蒙σ夹k轰为参唇数)绘,取左最小到值对叔应的筐状态还为该猛AT多G最笑可能卵的状兵态,到进而量判断协出该姓AT默G的崭属性筛。保胃表1腥给出堵了在险相同河条件灾下,钩采用扭多状缩态熵姑距离圆判别射分析怒方法染(各纺种参抵数如辛表2奥)与威WM家M连【1届】离对测你试集谜的A膛TG筋信号败进行讽分析去的胀对照抢结果趁。从备表中对可以捉发现幻:聚对勤于剪在第趟一个惜内含恶子前欢面的绑序列施,在跨要求懂较高扩精度墨(>积93吐%)滋地识获别出作TI盖S的青条件垫下,越采用渡多状拜态熵戚距离唤判别抵分析滥方法点总比阶WM准M方显法能冈减少弟不少误假阳喉性。岔多状切态熵军距离唤判别束分析截方法涉从W凶MM丹方法兆中减勿少假陶阳性通AT霜G信秋号数额目的室能力艺(减冲数/宴WM慕M数奇目)枝是随麦分析辩范围妇的从目5丹’幼端往资后延膝伸而监降低壤的。护即与更WM蛾M相匠比,若保守隶地估悼计多县状态桥熵距遥离判甘别分摧析方摸法只邀在分梁析惯第一鼓个受断体位救点前璃的A能TG绪信号律占优嘉势。幸而这瘦对我涌们设宾计可数以算胶法就赛已经辰够用稿了,送如下浩文可痕以看呀出我腔们只忘需要得学习叹第一枪个受能体位缓点前呀信息洗。痕表1晨多状睬态熵惹距离谁判别辆分析盗方法包与W凑MM纺的对捧照结恒果已(这依里把艘判断杀为T废IS丙的不唇具有喇NS诵C_拥0状误态的员AT贪G信向号成殖为假剂阳性捆的A真TG谅信号袄)闹分析矛到第跃一个合供体辈位点弯之前畜分析宗到第谁一个渗受体鼓位点漫之前事TI多S忆=A禾TG淘信号烂假阳繁性脸的A爬TG管信号暂减少翁数目杏减数导/缠WM腐M疤数目词TI干S乘=A苗TG穷信号傲假阳是性克的A款TG伤信号森减少牛数目智减数首/赵WM相M踩数目敢多状厉态熵墨距离鹿数目膀WM铃M石数目仰多状藏态熵隐距离品数目贸WM欣M匹数目轻辞标13茎4黑83板2挪84旁8僚16零0.缩01忧9刺13尼4要14慧89创14停03否-8转6游-0蹄.0贷6掀13绿8津10券13恰10姿40色27镇0.摄02哨6赶13豪7寻17寄68吉17贤64症-4屯-0泛.0玩0稀14森3储12着35染13馆65皂13君0卵0.匹09覆5秒14肿2赶21访23竭21搜57余32惯0.静01老5他14探5亦13碧00论14揪82垂18余2赚0.唯12风2翠14运9飘30方73框34慧32鞠35销9牺0.嘉10坚5掏15释1旧19祖73徒22绑30汗25真7征0.军11委5甩15应1普34偿73稻39资20比44码7坦0.蜜11煎4拔表2辉多极状态挠熵距灾离判概别分燃析的的各种轧基本张参数装3同倚阅读毕框的屋AT冲G信非号北AT富G信调号前死核苷要酸数虎bp留AT菠G信狼号前块片段肝数毫每片丧段含楼核苷棕酸数部bp蜜AT发G信杏号后蝶核苷宰酸数曾bp冤AT尸G信远号后凉片段强数视每片首段含刮核苷杯酸数俊bp墙1温st谜AT上G火60唱60项1习60甚60圆1胁2唯nd余AT川G民30业30凝1借90奋30舅3泥3崇rd贫AT问G透30段10栏3然30油10塔3述3.节2迫须GT经信号态的W蜓MM煌方法剥赠在多额外显刷子基捐因中绘,外湾显子雨后面丘往往认出现丛“残GT廊”胸两个临核苷兄酸,冈这样土的G烫T在附DN另A序集列中卸位置捕称为敲供体易位点饥。G徐T信肺号是忆指出海现在糠真核骆生物耳DN羡A序披列上梦的2叫个相岸邻核欢苷酸帝“烦GT裹”破,这裹里还转要用头到S蛇TP晃信号究:3览个相驶邻核掘苷酸段“筐TG俗A陆”诸、脉“旗TA绿A畅”翼或乡“烘TA五G筒”愧。风忠我们袄将学赤习集绞中第召一个兰供体帖位点宗上的液GT铁信号镜归到障类D怪(d董on副or瘦)中接。洞在学宁习序能列5府’歼页端到赶第一差个受创体位伴点之翼间的部范围自内,父我们炕用亦多状败态熵细距离参判别匠分析校方法强对序伙列中颜的A栗TG绸信号叠依次箱分析去。当池有A槐TG挪对应充的状喘态判惰为N启SC削_0纠时,呼找出侄与其扯同相己位的倾第一葱个S器TP霉信号馆,将丹它俩穗之间井非D种类的亦GT俯信号块归到镇类N佳D(刻no同t饶do晒no胜r)棍中,恨然后雁对S仅TP摩以后柴的A粮TG印信号狗重复如以上勤的操氧作。堤包含卷GT宫信号速的核叠苷酸捆序列谣,相嫁应地垦可分找为两框类:滥包含荐D类倾GT飘信号冒的序伯列赴,和遥包含怨ND扒类G营T信程号的接序列霞。亏各类柿序列怠在其敏不同危位置拾对核刮苷酸恋的偏沿好程忧度可移以通笨过权待重矩疤阵得粘到刻址画。受对于旅给定纷的一讲个G牲T,令我们净取出兼其懒相应亩序列导,将粱该质序列报中每巴一纠核苷每酸在他ND姐权重纽矩阵丑相应完位置讽上的差数据搂相加狗得出冠其归子为N晓D类栋的概恢率p症,同敞样方腥法可穷得出寄其归魄为凳D归类的参概率援q,笋如果乞p>贩q则潜该G尘T信五号成醉为妨受体武位点危的可仍能性休大。归程编序中辅,G现T信蕉号对俗应序律列的须参数斥选为演GT仗信号彻前2穴0b惊p后洗20淹bp牌。吹3.锻3泡选取早模糊废词汇乎以及简得出银用于毯ME息D聚杠类的惑[痕AT嘱G剧…维]G旱T序助列进我们刊在学音习集皆的每老一条霞序列堂第一校个受飘体位晒点之逗前,拍先用溉多状丙态熵顿距离厦判别牌分析倡方法胶找出毫状态琴为N阶SC仓_0武的A兄TG浑信号眨,再究找出赛与该体AT摧G信踏号有挤相同祝阅读山框的穴第一月个候ST亡P信商号幸,在赢它俩裤之间块用W奇MM手找出塌最大欣可能尾成为观D类李的G息T信盗号,堵将A饼TG贡信号企与该赶GT失信号夺标识斜的序友列取逝出构量成[禽AT腐G忠…萝]G荐T序数列糠,这丹样将县找出制不包性含T疗IS怜的[折AT愁G旬…弱]G孙T序者列将共为22廊97遥个,销归为励类N相IE亏(气no恳t秀in头it盖ia妥l每ex政on芦,这坛其间迷要求都:如臭果[悠AT沟G昂…航]G骨T序宿列陶中A伞TG铅的相婚位与备其所痛在序博列T谢IS六的相皂位相仰同,赶则该扮序列云与迹5略’述端外晕显子镰相重滤叠的互部分失不超股过序秋列总豪长的击1/扎3)们。另咐外我让们选蠢取包六含T货IS标的[哗AT疫G深…勺]G勤T序匆列效(即迟5奋’羡端外盘显子劣)共破87晒4银个,帅归为店类I畅E(继in想it戒ia迁l萌ex国on堤)。饱然而写我们殊发现报,通羞过引色入模车糊词醉汇的抹概念群可以千将N低IE器类的崇数目敬进一杨步缩潜小。毫嗽党原核范生物旨中,朵翻译伐起始五密码狼子上汗游4督~7东个核名苷酸叹之前帝有一泻段富冶含5邀’…赞AG谁GA承GG船…稻3梯’而的短惹小序尊列,竖成为登SD拆序列摄【1边2】爱。我竿们猜骂想在遣真核泡生物榴中是坐否也鹅有类鸡似的牛现象犁,这是样的值短小烦序列盲不只端一种杠形式啦,并很且它蠢们在惰进化午的过皆程中址可能蛙会发山生变员异、挠插入澡以及轻缺失刊。这妻种的涌短小钢序列鸽称为捆模糊开词汇窑。这台样我逼们对镜长度答为6悬的4解6漆个信颈号在睁77受7个扮翻译筐起始漆位点誓(要冤求对勉应第蚊一个虎外显甘子的俊长度脑大于姜30匙bp里)前舰14门bp疑范围涉内进杜行枚者举得互出最债多允婆许2企个核倘苷酸各变异胖的模挎糊词周汇浑CC敏AG练CC洞,醋CT教CA贿GC咽以及蹲GC蠢CA愈GC智,满屠足I字E类博中有蜻90庸%以黎及N峡IE我类中甩有5参9%流的[军AT医G柜…滩]G话T序衫列障前出谁现了放其中波的某讯个或体多个犹词汇娃。我作们只诸保留猜将N罪IE议类中鸣出现劲某个届模糊垒词汇物的[疫AT行G索…送]G遍T序叠列魂共1促35量3条糠以及擦IE敞类中借长度怜大于贴30翅bp果的[努AT驴G牧…地]G唱T序精列勉共7伶77帽条。租3.翼4狱[需AT饺G健…头]G续T序勤列闭的M同ED船多中泻心聚颠类孩ME拖D主京要思昆想如蠢下简桨述快【1湿6】疲。敌Sh香an位no矛n套【1图3】殿在讨颤论人研工语浆言时升指出骑,呀对一抢段文挤字或赴语言息最好俗的刻凝画是恳从其魔基本络词汇山的出战现频日率出检发.女那斜么,烟对凤于[掏AT抖G医…玩]G槽T序伏列酱如何牢选取奸这些喂基本辰词汇否呢?治根递据中腹心法血则,想具逗有编洗码功榨能的悉DN皇A序态列按演照通译用遗绞传密酒码被传翻译沿成具悲有生会物学劣意义极的氨歇基酸弟序列鲜,箩氨基讯酸序锄列通辩过特忠定的轮空间亏折叠垃得到特具有识生物扫活性害的蛋般白质挡,钢在生灯命过碎程中锯发挥箩功能燕。网因此伪,以届20蛋种氨邪基酸帐作为唐理解好生物共DN絮A序洽列的浑基本驳词汇哀是一钻个很叔自然搂的选闹择。蜓我们酒认为是,修具有半生物停学意拖义、雅能编注码蛋勿白质蹦的I启E类臂[超AT泼G顿…挖]G派T序栏列荷的与舍非编件码的于NI显E类禽[银AT女G指…巷]G冈T序选列的虽编码蚂潜能勤有着涝一定述的差素别.眠为票刻画键编码杰潜能疫,性我们资引入陷多变蕉量的绘参数险——激熵密绩度分孩布(务en尊tr帐op体y荒de燥ns手it犯y喂pr啊of悔il纵e,释简黄称E袍DP里)。某假定酱所给客定[丧AT祸G乘…鞭]G债T序脑列且长度兼为准L名(以蔬氨基授酸为摇单位潮),之第蔬i饺种氨纪基酸榨(按汁照其涝字母集简称流排序翅)的丹出现问次数星为功L毫i圈,草则得谁到第爽i番种氨素基酸连的使缘用频部率(隶或丰再度)全为盐.鹅根据坐Sh陶an筝no圾n熵虚的定戴义朴可以赤构造批该[示AT酸G覆…租]G史T序替列赛的熵花密度榴分布蜂(E辜DP税):章这样季,坐对于尽任意行的[降AT醒G易…组]G犁T序魂列甩,乌我们搬都可芝以构善造出享它的腊多变渐量的塌参数稀ED饶P,铜即穴(野i凭=1爸,鼻…敞,眼20染),猫使蜂之对恐应于剪20炮维的崖相空槐间上刻的一衬点.弓然后脱,我畜们用骆相空碑间中酸任意慕两点兽和犯(分可别对痒应两饲段D战NA运序列礼的E虾DP滤)的膨欧氏巴距离素D谣来刻繁画两叫[东AT冻G袋…之]G摩T序虑列却的差滔异:,阀通过辛计算葬一个枣未知惰[狮AT进G踢…题]G奏T序条列御的E嗓DP椒与一叛系列毁已知券ED锣P相战点的挽距离陵,伤我们模可以再方便编地将绪未知找[举AT忠G爷…况]G区T序鹊列旋进行茂归类剃。电我们本认为瓶,在燥20栏维相美空间订中,舰对一磨个给四定的负[锄AT撞G昌…会]G交T序交列斥,它清的E略DP秤在相管空间吃中总默是更冻倾向管于分例布在茶自己棵所属倚一类观的某尖个中攀心周融围。影也就确是说滚,[之AT鱼G拴…若]G闪T序乘列袖的E病DP桨在相贤空间胜中表蜡现出堂很明苗显的炊聚类抄性。裕这里谋同时手也指墓出每误一类丈的聚骗类中潮心往肺往有脚不只辱一个窑,为税了较政好的迟刻画赖这样仙的聚锤类性狡,我段们采蝶用了陡多中制心聚艘类方口法。衔下面滑结合诊[辅AT健G拜…掀]G庭T序窄列易对多陕中心匠聚类削方法酿作简梨要介好绍厉【1登4】棒。政在苗20术维相嘱空间沃上有平两类婶集合灭IE叼、N汁IE宾(以逮下分响别用荐X,蜡Y表迁示,仰分别腊有I驻,J页个评点)栽。我狡们要甚解决音的问坊题是梯,找伯出反耍映集腿合X谊、Y幕中样粪品点屡分布占性质若的两汽类多轻中心嫂、府,这优里的疼,圣是中潮心的池序号木,且晒,俯。浅在判牙别未维知点害时,愉计算云其中奔是欧祝氏距相离。族通过盾比较质距离赚和歪的大秆小,阻若扎,则篇;爹若油,则协。粉因此赚,关岗键问宁题是叛如何咸得到惠两类弹多中辉心恳和星。下标面以芒求次的多欣中心绞(m竭ul健ti信-c鱼en锅te蚕rs收)平为例帖。杜首先牢在退中随像机挑询选一亩批有忠代表寨性的挺样品张点稿,称磨之为监聚点面(c泰lu格st趴er筒in赚g漏po涂in住t)辽,要庸求它猛们满恒足:狭(1款)、害两两含之间需的距删离不舒小于兵(r市为聚趟类半奋径)误,即;宾(2扭)、俭构造锅区域伐,披是以它为球遥心、凝为半纺径的利小球挂,若静,有剧:其然后冠,对宏以聚绸点抢为球铲心、邀为半轿径的写小球巨进行街平均污,得遍到它丝的初乖始中艳心纹。钟以初普始中椒心筒作为共下一绪步的晒新样床品点谢集,喉仍然凉以半萌径耽r堡为标回准构孩造新略的聚狭点,毙并得遣到新挖的中恒心股。重塞复计汗算下悔去,静直到训第开m弊步中屯心满揪足收悲敛标异准,押即。妻由此旅得到冷,迭腥代计细算结阿束。桂理论财上可臭以证湾明,剃当认m悠增大耳时,恋会趋前于稳膏定,久即芦,过n市=1借,鬼…刘,蹦N吉同样侍可以浇得到吸点集胞的多淋中心业。介上述泰聚类倚算法气的关厨键参度数是元聚类榨半径胁r胀,上r太任小学万习出住的数颤据特棍异性鬼太强唤,不素具有匀一般续性,若r过控大则鞠又不浙能反雅映多杠中心愚的性夹质。琴我们渗通过逼多次只尝试饼,可户以大凤致估稠计I迈E和约NI未E的劳聚类眼半径挣宜在劣0.丹2左柔右。茅我们副对启13拌53降条N短IE雁类[秆AT恋G脉…抖]G汉T序吧列胞以及亮77闹7条汗IE马类[属AT融G删…馒]G赛T序针列通运用执多中析心聚搅类,随得出铃中心系数目群分别团为2弟13考,9垂0。租同时下可以银分析编出:坑I凭E类咏的E辜DP蝇点在勉相空掌间上认的分包布要病更晕“保紧凑刘”骡,而圣NI枯E类击的E障DP取点在迈相空悔间上久要更渐“颤松散快”吓一些秘。塑对于驻给定厉的一悄个[湿AT桌G患…哪]G蹄T序设列事,求秒出它飞与I枯E类配多中谜心的晶最短停距离絮D田IE胜及与减NI赔E类宣多中谷心的红最短冤距离险D肠NI莫E硬。取军=疤*设,遇=捏*争(0挺<柴<1吴,0墨<到<1梳为参前数)擦,如股果蹄<塔,则推该[化AT日G秧…骗]G技T序集列属营于I与E类困,否市则为艰NI寒E类谅。这温样我恳们就您给出拌了罩5镰’护端外角显子喊的预粪测。猾4悔结果菌与讨舰论腾我们驼采用暖如下家方法柿对测圈试集川进行巨测试紫:从甲每一烧测试肾序列绍的5稀’纽端馋开始屠用养多状嫂态信终号的件熵距截离判穗别分乔析方库法寒分钉析头出状搞态为川NS帝C_捆0的僚AT抢G信啦号后雕,爆在斩该A授TG键信号矛之后颗找出想与之隔同阅直读框伞的S于TP种信号袖,再彼利用脱WM驼M在应AT磁G与筋ST监P之泽间找雹出最亿大可当能成轿为D扬类的醋GT浮信号鼻,如激果该阁AT贯G及附GT凝组成巡的[峡AT蝶G朽…肾]G默T序狭列闸前出木现了没某个戴模糊登词汇劳则采短用M案ED革多中怒心聚带类方浩法进夕行判蝶别,羽将判湿为类竞IE凡的[临AT慈G例…邮]G典T序柱列擦对应枣的A数TG宇、G忽T信矮号存渡入结委果,背接下氧来季多状丙态熵裕距离惑判别圆分析较方法编对该犬ST多P信事号以激后的诞AT益G信照号进店行分跪析,窗重复僻以上船过程拴,图动4给插出了册该算再法的揪流程故图。续图4横蓝翻译庄起始腾位点件以及歼5络’阁端外偶显子截预测啦算法覆流程桌图陪为塌了预惰测出饼翻译惨起始棕位点电,D丙NA嘉序列榨上的换AT忙G信科号、暗GT灿信号峰,模派糊词贞汇以固及[元AT惧G专…惠]G热T既序列叮编码楼潜能插三个架方面凭的信均息被茶综合召考虑狭了。拆我们蔽知道碑如果姥只采诱用算触法中吴的某收些步鲜骤,阻也能粮构成删对翻葱译起救始位残点的副预测追,比省如只森考虑诚AT等G信耀号的超特征眯。这甘表3即给出绣了对垃于预岔测翻窗译起坊始位是点,威如果卵只考埋虑A惊TG际信号牛,只租考虑贞AT挠G、统GT丰信号姨,只弃考虑倒AT所G信宫号、印GT猴信号攻、模挠糊词蜘汇的哲算法棵以及韵最终扇采用企的算础法的件对比日结果推。庭表3坦只船采用票算法渣中某梅些步贞骤与朽采用吧完整若算法陈对比际结果馒对T耽IS遮出现胖、未椒出现滴(扭假阳考性A球TG驾)车在T车表位座置K址上的后次数位作统像计悠T中差元素础的个慎数不惩超过淘K(第T中排包含造元素秧可能吩多于怠3个初,这刷里只斤给出倍不超豆过3唐的情专况)甲T中惯元素段的个主数漆昼乏1县案扭2贵观晌3泰TI内S吴假阳傅性的嗽AT疲G歼TI爷S雕假阳姜性霞的A已TG百TI钱S鉴假阳考性拨的A特TG悲TI主S扔假阳奏性的界AT池G醒AT冠G信禽号辜10蛛30蹦12邀2乡14趣13窜8但15造13镰7暑11萝0误13垮72盗AT亮G,换GT食信号丛8挎55宜96傲22六12虏8蔑15泥12俗8垒11快7盐88权9诱AT封G,胁GT邻,模犹糊词鸟汇霜5壤65虫85宵16机12盟3伯15测11酸2园10宴4滚51堵9够最终英采用遭算法汇3盈73艘77挥6占11锹0疤9艰60润82槐24辅7中每条取序列归可能职测出炭多个厚“张翻译跳起始舞位点己”挖,将脂它们佣按在叉DN法A序测列上抛出现按的位辟置从态小到别大排楚列成徐一个与队T盲,如私果翻面译起晶始位仇点出翅现在厚该队河中,腰则其历出现偿在表按中的软位置豪记为望K基对物翻译谋起始口位点烫的预诸测,鞋就实故际应往用而泛言,花我们声有两热种模竿式从实际滑的含歌有一扔条基舒因的灯DN敬A序键列,粪只有梁不多岩于一徐个翻挥译起筐始位难点。期这样姑在只泛需要桂得到锁一个兽翻译察起始都位点画或5延’托端外距显子价情况恰下,缴由表馋3可馋知最蓄终采柳用算慎法在俱这方咸面表均现最浅好,长它能景预测积对7弯3个律翻译俘起始露位点盈,居核于首荷位。喊设计宝预测刑完整荷的基厚因的鼻算法歉时,串可能垂要用测多个镰预测旋出的枣翻译诱起始遮位点津或5绞’挠端外登显子茄,作栗为预故测其讯它信阳号如遇剪接寿位点危的初总值。撕在这娱种模链式上绢,为恐了评爱估哪面种方水法最蜂优,恐我们坊要兼厌顾两税方面勉。一接方面某是判刺为状赛态N嫂SC字_0答的A柴TG掌信号较数目阅不宜慈太少伯,否低则我茧们最嚷终满乓足不掏了预办测翻渗译起隆始位火点的澡精度茅要求继。另字一方族面是渗假阳而性的昌AT内G种不宜杆太多缓,否笛则可骄能出迅现初题值包腾含大材量冻假阳晨性的够AT厦G丸信息秃以至集于将羽TI棍S的亡信息腐湮没兵掉的般情况仍。为忠此,单定义个sn洋、s意p,盖以s隶n+白sp尾的高施低评爸判方浸法的朱优劣归。表砍4给豆出了凡表3仪中各翠种方掏法的辈sn幼、s柄p以鞭及s督n+都sp膀,可延以看寒出只贯考虑蜂AT视G以帆及G念T信魄号是产最合喇理的驰。早表4光在凉模式女2下汽,评浙价表式3各裂种方颜法优拐劣的留参数长方法伞Sn施(%破)区Sp扔(%休)葱sn增+s盖p(洪%)白AT控G信突号斧72存.4后7.愧4涨79氧.8合AT委G,歼GT技信号屈77铜.0躬11臂.6畏88静.6坡AT坑G,彻GT旨,模与糊词笨汇矩68凡.4租16叹.7肿85愚.1抱最终落采用套算法亩53义.9雅24国.9掩78梦.8负在这桌种模槽式下榴,申最露终采瑞用算吩法出手人意汗料地傅被评今为最皮差。壮从下凳面分尿析可烟以看症出这独可能奖是由粘于[辈AT俯G择…筋]G询T序荷列的不长度辟过短饱导致悔ME辩D方想法的齿一个喘缺点丑引起盈的。城而队在原上核生绪物中弃,己ME忽D方膛法对株于短兔OR欧F(警长度梅低于网30初0b强p)闲预测姜的精赠度低流于对胜长的明OR至F的上预测秤精度浇不少方【1恐5】植。在脏本文很中O施RF熔将对爆应于喉[遮AT畅G跑…近]G塔T序系列。溉我们旬接下绘来看核一下疲学习挂集中拼的以两及测维试出香具有摇NS势C_爆0状险态中吴AT镰G信帖号对绕应的误[植AT祥G幅…屠]G橡T序敲列留长度存分布晒,如浇图5铃。联可以舍看出层在真涛核生予物中鸭5存’物端外杂显子且的长渡度绝园大多桃数低胀于3柄00故bp赶,同权时我券们构耐造出膝的N捡IE粉类的正[箩AT煤G搁…梦]G题T序程列亮也存忘在这骂样的轰情况罩。实纺际上董,5班’排端外阅显子柏过短拨也是夸导致设其很登难准顾确预雪测的炮重要料原因舅,因拴为它浙一方锤面包亡含的影信息涨量少菠,另旧一方赤面太淋短以园致于破很难梯从内劲容度犹量(授co慨nt弟en榜t半me卧as之ur辜e)间上进虾行判弊别材【8或】座图5提燕[A款TG摩…殖]G婚T序准列的感长度询分布负图牌(a辰)般学习边集中私[A暂TG录…复]G园T序宫列长声度分插布劣(b泥)测邀试集独中具腰有N干SC羞_0乐状态素中A值TG专信号质对应漠[A述TG荷…壮]G浪T序味列长哄度分伙布钱深模但式2雹为我狼们今灯后设暂计包有含翻炎译起伙始位虚点、恩剪接歉位点说以及响翻译械终止场位点悦等的很完整贿基因略结构策算法学奠定交了基状础。查毫文章寿的最谁后,磁我们油在采独用模却式1池的情欣况下骨,将慌最终熊算法秒在预胸测5古’室端外堆显子搁的结理果与东国际振相关撞知名室基因引识别戴软件恼预测令的结走果进列行比淘较,滤如表详5编【7吗】赠。欧表5浓将纪预测挽5匆’飘端外讯显子抗的结灯果与楚国际穴相关敏知名示基因遍识别直软件奋预测撤的结却果进否行比浮较皂%酒FG爪EN今ES痕Ge柏ne旺M抗ar蜓k臭Ge沫ni占e秆Ge握ns极ca身n侍HM锁Mg督en肃e躁Mo且rg转an粉我们猾的方椅法唇Sn谣64票40曲49浆57港68址35晴48带Sp嘱55机48秩45详71写72涨35切48垒可以喝看出个,对窝5屋’独端外掘显子议的预慰测,首我们笼的精消度以豪及和何Ge厕ni店e荷不相筐上下浮。通渗过前喂文可胀以发谅现我砖们的码算法纵与G绑en矛eS摩ca讽n采徐用到凑的H却MM姓模型厦【1章6】异相比康较是误极其政简单详的,辽也达抄到了枝令人昏满意未的结压果,档这也赢构成蕉了我牧们算性法的档一个辟优点浪。描参考芹文献馅【1匹】沿St戒ad接en筝,R鸽.己(1践98师4)禁.确Co裹mp民ut求er尝m泼et浅ho元ds赔t功o损lo童ca雷te荡s鬼ig绩na仓ls姓i蒜n壳nu句cl子ei捆c便se总qu备en蜓ce舌s.廊N惑uc弱le驳ic童A扇ci管ds偏R循es云.1睡2:避5多05殖-5瑞19恶【2睬】罗Hu种ai贷qi书u薪zh承u,蛾Z富he晋n工su嚼S滴he众,摔an膊d枝Wa贝ng解J.汁(识20所02亡).羞A酱n妈ED枪P芦ba炕se圣d消De巨sc扑ri鉴pt柏io贿n残of欧D盗NA钢s街eq熔ue头nc兽es泥a双nd师I未ts武A圈pp丹li估ca犬ti弟on荡o若f懂Ex靠on裤s跌in栏H呆um筋an慧G抵en怖om孔e.甲Th求e苍2n凉d肤Ch证in需es胁e惭Co崭nf激er罢en章ce露O遇n哑Bi均oi允nf镜or括ma耳ti飘cs菊,渴23训.踏【3贴】C岩on的so蛇rt辰iu矛m,摄I丽.H阔.G嚷.S赴.童(2倍00刻1)线.意In愁i犁ti胆al烟s刚eq府ue轨nc购in黑g叛an迎d丙an区al古ys膏is没o菊f浑th及e盛hu较ma笛n唐ge斜no猜me堪.N合at赛ur脸e.叼40驱9:端86峰0-嚼92孝1推【4纸】扮Sh赞e兵Z.挣S.众,关Ou着ya越ng规Z旧.Q鉴.,例R搂en甩K蓄.,穷S冬he询Z献.S五.,侄O灯uy复an鬼g环Z.庄Q.叠,梨Re族n销K.片,a暗nd他W桑an跟g纸J.滥(搂20健02认).导M旦ul诱ti惰va盖ri塑at算e盗En打tr蝇op辨y那De墙ns联it繁y印of沟D伍NA均S悲eq坚ue竭nc疏e.概S模ub乘mi岔tt聋ed道t算o攻“且Ph秘ys煮ic喉al岩R这ev森ie宽w洗Le懂tt吗er烧s株”谊.劈【5卸】篇T寸.A偷.布誉朗著植,带袁建钳刚,陪周羽严,尽强爷伯勤悬译岩.矿(2辰00框2)情.痛基因齿组汗.各科先学出贝版社秆【6膊】嗓R.饼Gu蜜ig俗o,惭S精.K刮nu痛ds旁en店,鲁N.警Dr梨ak粒e,汇T依.S抄mi教th讲.互(1僻99泪2)春.叛Pr涛ed搜ic毅ti辫on振o予f瞒Ge康ne饿S雄tr扎uc坐tu胖re让.锻J.役Mo然l.枣Bi书ol毅.迹22里6:雷14千1-斜15器7.狱【7创】反Sa宏nj参a检Ro帅gi来c,柳档Al暑an伤K校.m付ac奴kw西or码th共,造an泡d挡Fr轧an川ci圣s请B.怎F.赠O拣ue猪ll塌et较te齿.智(2铃00勉1)蒙.逝Ev荐al繁ua榆ti焰on闸o借f盛Ge乖ne薯-F妨in回di箭ng容P日ro总gr弊am株s回on开M屯am俱ma断li衬a绒n璃se离qu东en闷ce伙s.在G腾en连om轧e掌re欣se浮ar洒ch镰,烈11匆(5什):庸8浅17静-8派32苍.榜【8腿】室St塌or插mo蔽G背D.阶G仰en设e-仆fi恋nd滔in统g惰ap可pr使oa劝ch应es连f拜or店e夕uk贺ar烤yo天te该s.梁(拴20讨00献)岗Ge居no踪me宫r菌es财ea劲rc答h,多1畜0(遮4)产:遮39振4-揉39宪7.酿【9也】叉Bu末rs谎et迫M免.区an盆d金Gu盼ig学o省R.池(种19溉96桃)形Ev虹al动ua弓ti晴on吼o剑f疗ge呀ne熊s谁tr技uc雁tu认re膨p搏re闭di端ct窑io意n炎pr括og棕ra裳ms广.G共en疯om仪ic居s.鸭34灯:3匪53挺-3流67冶.槐【1通0】追A月lt桃sc屋h织ul晓,兼S.创F.弹,黎Gi园sh疮,古W.竖,巨My多er皮s,鼠E免.W台.撕an殊d峰Li袋pm激an恼,叮D.浪J.暗(求19钞90抄).怎B素as底ic闯l辛oc通al剑a挂li崭gn梁me作nt丑s奥ea束rc劲h喂to嚷ol范.坐J.格Mo光l.旺Bi盯ol源.2杠15碑:4报03滴-4毛10固.策【1驻1】文ui物go们R盆.(光19役97改).悼Co基mp敏ut申at雁io矿na财l肝ge们ne盈i百de织nt写if骂ic乞at睁io界n:送a劈n薄op便en算p网ro写bl给em倘.舟Co较mp幅ut袍er荡C主he财m.超21您(4刺):相21切5-外22魄2.捡【1煎2】糊戴灼御华等宴.(歼19直99宿).娇遗传捏学.蝶高等腹教育交出版热社.粮p2虾35繁.凝【1赵3】劝Sh豆an驴no依n,物C.军E.迫(1房94合8)院A西m灯at擦he育ma驶ti付ca胜l缴th氧eo崭ry渡o饼f造co壮mm指un唐ic独at昆io僻n.叛Be赤ll肤S岩ys们te蚀m宵Te浮ch拾ni穷ca仓l影Jo析ur肿na习l,装27野,3那79冲-4砌23周a品nd普6腊23刺-6洞56案【1钉4】庄朱怀它球皮基因严组序班列复精杂信纱息结挂构分园析与信基因睛预测油新算递法的伶研究姥北袜京大必学博孟士后题研究秧工作挂报告闪【1属5】尺Zh寺en贱gq倡in智g蛾Ou奴ya菠ng馆,吗Hu服ai寻qi棚u影Zh该u,蹈J膀in心W剑an物g台an翁d找Zh顽en强-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【中考考点基础练】第15章 从指南针到磁浮列车 电能从哪里来 2025年物理中考总复习(福建)(含答案)
- 基于MCGS的锅炉汽包水位计算机控制系统设计终稿
- 财经法规与会计职业道德模拟试卷第一套有答案1
- 2024至2030年中国六火眼烤箱灶数据监测研究报告
- 2024年中国高导磁芯绕线市场调查研究报告
- 2024年中国虎杖甙市场调查研究报告
- 2024年中国百叶窗式管道风机市场调查研究报告
- 2024年中国机房漏水监测系统市场调查研究报告
- 2024年中国显微激光拉曼光谱仪市场调查研究报告
- 2024年中国区界牌市场调查研究报告
- 铝两片罐工艺流程
- 《了凡四训》原文及译文-拼音版
- 科幻画教案设计
- 法医病理学 教学大纲
- YY/T 0321.2-2021一次性使用麻醉用针
- GB/T 450-2008纸和纸板试样的采取及试样纵横向、正反面的测定
- GB/T 26829-2011脉冲激光测距仪测距参数的室内测试方法
- 盐城介绍(英文)
- GB/T 15530.6-2008铜管折边和铜合金对焊环松套钢法兰
- 培训机构班主任绩效考核细则
- 2018年武术套路社会体育指导员题库与标准答案
评论
0/150
提交评论