基因的分类与癌症基因识别_第1页
基因的分类与癌症基因识别_第2页
基因的分类与癌症基因识别_第3页
基因的分类与癌症基因识别_第4页
基因的分类与癌症基因识别_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2008高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B/C/D中选择一项填写):D我们的参赛报名号为(如果赛区设置报名号的话

2、):所属学校(请填写完整的全名):参赛队员(打印并签名):1.2.3.指导教师或指导教师组负责人(打印并签名):日期:2010年8月旦日赛区评阅编号(由赛区组委会评阅前进行编号):基因的分类与癌症基因识别摘要本论文旨在通过分析基因的表达水平建立模型,并能通过模型对癌症患者与健康者在基因水平上进行分类,直观表现两者区别。同样也能通过模型对未知个体做出癌症的诊断。第一问,此问题的特殊性在于样本信息之间的关联性,我们首先采用Fuzzy聚类的方法对癌症患者与健康者分类,建立Fuzzy分类模型作为模型一。最后在不同的相似水平下得出了不同的分类结果,此结果较为模糊,我们只将作为进一步研究数据的参考。通过对

3、所有样本基因表达水平的进一步研究,使用matlab作图工具箱刀,将所有样本的基因表达信息分别反映到图表上,观察图像发现,每个基因其实都有一定的正常表达范围,那么由此建立作图模型作为来确定这一范围。得到这一判定范围,就可以拿来对样本分类和诊断了。若基因表达超出该基因正常范围的样本,可以被确定为癌症患者。通过作图模型对样本只能做粗略判断,且缺少精确的标准。因此,我们建立了概率模型,即为模型三。实际中,每个基因的客观表达水平的概率分布服从正态分布,那么就可以通过建立模型,利用样本信息估计出每个基因表达的概率分布参量,即期望和方差,确定其分布函数。再将样本在某基因上的表达水平在概率分布中标出,得出概率

4、值,不考虑此值概率意义,将其作为判断的依据。值越小,此基因致病可能性越大。概率模型给出解决问题的依据只反映在单个基因上,不能在将对每个基因的表达水平值求出后来判断总体,即基因与基因之间缺少可做累加的标准。为解决此问题,我们建立了Fuzzy集模型作为模型四。Fuzzy集此模型的建立灵感来源于模糊数学中一般形式的综合评判模型。即将每个样本在某基因上的表达水平理解为在此基因上的一种打分值。那么最终得到此基因的Fuzzy集,即为所有样本对此基因的综合评判。第二问,待检测样本的分析,联合应用前面四个模型,首先的做简单分类,将数据作为资料的扩展信息。诊断样本即模糊识别,利用Fuzzy集模型将待检测样本的平

5、均隶属水平求出,根据此值的大小来做出诊断结果。根据模糊集模型,对比不同类样本的平均隶属水平得出,平均隶属水平在0.85以上者为正常人,0.80.85之间的为癌症子类,0.8之下的为癌症患者。通过以上依据最后得出的结果为:在癌症样本中:1,3,4,7,8,11,13,14,17,19,20号样本为癌症子类。在待检测样本中:42,45,57号样本为正常人;41,50,51,54,55,56,58,59号样本为癌症患者;43,44,46,47,48,49,52,53,60为癌症子类。最后的直观图示可将样本经作图模型来将图示信息标出。56样本经作图我们得出,其54,56,62,85,87,94,101

6、,102号基因最有可能致使其患病。【关键字】Fuzzy聚类分析相似系数正态分布模糊集模糊识别平均隶属水平一、问题重述附件中的文件给出了一个114个基因,60个人的基因表达水平的样本.其中前20个是癌症病人的基因表达水平的样本(其中还可能有子类),其后的是20个正常人的基因表达信息样本,其余的20个是待检测的样本(未知它们是否正常).(1).试设法找出描述癌症与正常样本在基因表达水平上的区别,建立数学模型,及识别方法,去预测待检测样本是癌症还是正常样本.(2).设计图示(可视化)方法,使得在你的数学模型下,尽量清楚地表现癌症与正常样本在基因表达水平上的区别,以及癌症样本中是否有子类.二、问题分析

7、癌症是危机人类健康与生命头号杀手,时至今日,可以说人类仍然没有彻底根治癌症的有效方法。但是我们依然可以通过现代医学手段预防癌症。现代医学研究表明,癌症的病发,不单是外部环境刺激引起,还与人的基因表达有关,实际上任何病症都可以从人类基因方面找出或多或少的牵连关系。此题的实质也就是从基因表达水平上分析癌症与健康人的区别,并通过科学的建模方式,有效地对待检测人群进行癌症的诊断,即问题一。根据医学理论,某一或某些基因的异常表达,可能会引起癌症及其他病症的病发。此题中已给出114个基因的表达水平,有理由相信每个基因的表达水平都是在统一的标准上进行的数字化处理。因此可以根据个体基因表达水平之间的差别进行分

8、类,将癌症患者与健康人分开,即典型的聚类分析问题。对于聚类分析,现有的比较好的方法有Fuzzy聚类分析和人工神经网络模型。在对正常个体之间一种基因表达水平的差别分析中,可以看出基因的表达水平分布在了一定的范围,但是再与癌症病人的基因进行比较,并不能看出癌症与健康人在基因表达水平上明显的划分。显然直接在癌症与健康人之间建立精确的模型将二类完全分隔是不可能的,也是不科学的(见下文分析)。对于有精确分类模式的人工神经网络显然是不合适的,同样在接下来的分析中,我们也会看到神经网络解决此问题的不足。对于有这样模糊关系的集合进行分类,使用Fuzzy聚类分析的方法求解就比较合适了。我们已讲到建立精确的模型进

9、行分类是不科学的,原因在于有这样的事实:群体中,某个基因的表达水平是不确定性的以及一种癌症多基因控制的可能性。同时,由于所给样本数量有限和样本个体是否患有除癌症之外的其他病症并未可知,这就对某些基因的异常表达所产生的病症的判断带来了复杂性和不确定性。对于有些癌症可能是有潜伏期的,在这我们也看到了Fuzzy分类的不足,即正常人中是否也会存在癌症隐患的人也是未知的,从而对分类中模糊程度的确定带来了困难。但在此题中,可以忽略这种情形。不论是Fuzzy聚类分析还是人工神经网络,都是只进行了对不同集合的分类,最终都没有明确给出集合中哪些元素在分类中起到关键的作用。在此问题中,虽然可以通过上方法进行分类,

10、但是并不能解决此问题的要求,即无法看出不同类之间的区别。这便是Fuzzy聚类分析和人工神经网络在解决此题中相同的不足之处。为解决这样的不足,我们就需要另建模型来对此问题进行求解。从整体分类中,我们知道个体与个体之间的相似系数,即模糊关系是通过考虑全部基因表达水平而来(从相似系数公式可知),故而也就无法得知癌症患者与正常人在基因表达上的区别。这就让我们想到,可以研究某一种基因来分析。在群体中,对于一个基因,其表达水平是随机的,既然是自然界中的随机规律现象,就有理由相信这种规律是符合正态分布的。根据人群中患癌症的人很少这一事实可知,基因表达水平位于小概率附近的个体就可以定义为患者了。由于样本有限,

11、我们将这种分布转化为Fuzzy集分布如此一来,通过对某一种基因的研究,观察某一个体的基因表达水平的Fuzzy程度,我们不仅可以看出不同个体之间的基因表达水平不同,而且可以更加明确地划分癌症子类。对于第二问,我们可通过第一问的求解过程直接给出所对应的曲线族、分布图,以及最终所求的Fuzzy集分布,可以将待检验样本的基因表达水平画到Fuzzy集分布中,通过观察即可实现模糊识别,既方便又清晰明了。三、模型假设假设每个样本之间相互独立,并且每个基因相互独立。即每个基因的表达水平不受其他基因表达水平的影响。这就将基因之间存在的关联关系忽略了,这在只有114个少量基因的研究中是合理的。假设所给出的所有样本

12、个体的基因表达水平都是由统一标准的计算公式求得,不需要另做转换,可以直接在不同模型中参与计算。假设所给出的样本都具有一定的代表性,不包含特殊样本。因此这些样本的基因表达水平就分布在了一个较小范围内,分布在其他范围较少,可视为小概率事件,进而假设一种基因表达水平的分布符合正态分布。假设所有样本之间,只存在是否患有癌症的区别,忽略除癌症以外的其他病症。假设癌症病人样本中,致癌基因均可以从这114个基因中找出。这即是将癌症样本的致病原因明确地归为基因异常表达所致。四、符号说明主要符号及说明:X全体样本基因表达水平矩阵R样本中样本之间的相似系数矩阵HL所有基因正常表达水平矩阵九对基因正常表达范围修正时

13、的允许误差值CH为研究单个基因,所选出的样本矩阵A在所选样本中,第j基因对应样本值的1阶矩X在Fuzzy集中,每个基因隶属水平为0值时的表达水平TFuzzy集中,每个样本在每个基因上表水平隶属水平为1是的范围Z所有基因,其出现的表达水平对应隶属水平的Fuzzy集,40,40五、模型建立与求解5.1问题一5.11问题分析通过以上对此问题的分析,权衡下选择Fuzzy聚类分析求解部分问题。前已经提到使用此方法存在有一定的不足的,这里不再累述。为解决此不足,我们在Fuzzy聚类分析的基础上,进行完善。在以分得的结果中观察,找出明确区分癌症患者与正常人在基因层面的不同之处。考虑到基因控制疾病的原理与过程

14、非常复杂,需要忽略一些因素,比如:114个基因中,任一基因的异常表达,都可能引起病变,不考虑多基因控制病症的情况;120号患者除癌症外,并未患有其他与基因有明显关联的病症;2140号正常人是完全正常,不存在任何病症,其中也不存在将来患有癌症的可能性,即每个基因的表达水平都是在正常范围内的。5.1.2模型建立5.1.2.1模型一进行Fuzzy聚类分析,首先需要确定要进行分类的对象,在此问题中,需要分类的对象为140号样本,将其分为两类,对象中的元素为114个基因的表达水平,即得到:X=(x)40 x114(1.1)元素Xj即表示为第1号样本的第j个基因的表达水平。根据X找出各样本之间的相似系数。

15、对于相似系数的计算,由于不同的计算公式最后得出的结果不同,在这里我们选择了两个相似系数的计算公式,目的在于通过对比,选择最适合本题意情况下的公式,这两个公式分别是1指数相似系数公式:1114-3(Xk-xjk)2rj=帀弋e4S,Xj=口,40(1.2)其中:sk=丄送(x.k-xk)22,k=1,2,114k40ikk(1.3)2相关系数公式:(1.4)艺(x-x)(x-x)ikijkj(1.5)k=1k=1其中:ik(1.6)呎=占艺X,xj=艺xjk,i,j=1240k=1k=1之所以选择这两个,是由样本元素之间的关系决定的。样本元素是一系列的数字,并且同位置的元素在一定程度上同是在一定

16、范围内波动的,我们已经假设在这样的范围出现的数值是正态分布的,因此两样本之间的相似性反映在元素差值上。通过以上任一求解样本之间相似性的相似系数公式,得到样本相似系数矩阵:R=(r.)(1.7)40 x40其中元素寫即为第i样本和第j样本之间的相似系数,显然R2是一对称矩阵。要得到此样本的Fuzzy等价关系,需要对R进行转化。已知R的2次幕是自反、对称和传递的,所以R的2次幕可作为样本的Fuzzy等价关系,即可进行聚类分析。根据模糊矩阵的取幕公式得R的2次幕矩阵:R2=R。R=(r,)(L8)ij40 x40(1.9)其中元素:rj=妙(rar)i,j=1,2,40jikkjk=1根据R2做出聚

17、类图,逐步取不同的相似水平d,直到将样本分为两类,且此两类应正是题目中正常人和癌症患者两类。分类过后,比较通过不同的相似系数计算公式得出的分类结果,在将两类人分开时应选择相似水平较高的计算方法,这样才是更符合实际的。5.1.2.2模型二通过前面的分析以及模型一求解结果我们都能得知,简单的分类是不能看出癌症患者和正常人之间的本质区别。模型一仅仅求得了一相似水平Q2值,此参量不能反映两类人在基因表达上的区别,而且也不直观。因此我们需要另建模型,即对基因的单独研究模型。对于每个基因,其必存在正常水平的表达范围,即有上限和下限,若此基因的表达水平超出这个范围,那么就有可能会引起疾病。为了研究癌症患者与

18、正常人之间的区别,我们有必要根据正常人的基因表达水平来确定每个基因的这个范围。因此取20个正常人样本中每种基因表达水平的最大值作为上限,最小值作为下限得基因正常表达矩阵:(2.1)hHL=ij,j=1,2,.,114Ljlxll4其中hj和和分别为j基因正常表达范围的上限和下限。又由于样本数量有限,样本值是不能完全反应此基因的真正表达水平范围的。已知样本是选择的正常人的基因,那么根据正常人的基因表达完全正常的假设条件可知,h要比实际小而l要比实际大。这就要求对HL每个基因对应的jj(2.2)值进行修正。引入允许误差九(Ov久vl),则得到修正后的基因正常表达范围矩阵:HLf=:,j=12,11

19、4Lj1x114其中:H=h+A,厂=_AjjjolAiA,A=(hj-lj)/(2.3)再将i号癌症患者的基因表达情况xi与HL绘制到同一张图上,并设计程序,只将xij大于上限或小于下限的点描出,并将这个差值反应到图标上。如此一来,癌症患者的基因表达情况就直观的反映在了图上。观察图表并与模型一的分类结果进行联系比较,分析模型一中分类不明确的样本在图表上点的情形。结果显示,一些分类不明确的样本其在图表上的点是非常接近上限或下限的。这就说明了此样本与正常样本的相似水平是很高的,由此也就解释了分类不明确的原因。此图表也同样给出了影响相似水平的关键因素是在那些基因上。同样也可以大体上为研究此样本所患

20、癌症的直接关联基因提供参考。虽然根据以上所绘制的图表能够对癌症患者的基因进行分析和比较区别,但是在癌症诊断中,通过观察某个基因的表达水平在正常范围的位置或偏出多少,毕竟个体之间是存在差距的,如果这样就主观地就去判断引发病症的会与否,就显得有些缺乏科学性了。故而还需要进一步的建模,来解决此问题。5.1.2.3模型三在对基因单独研究的基础上,虽然我们已经给出了较为直观的图表来说明患者与正常人之间在单个基因上的表达区别,以及可以将此图表用来进行癌症的诊断,但是如前所说,这样通过观察得出来的结果或结论主观色彩较浓,缺乏依据。为此我们就需要确定这样的某种依据,依此来进行更具有说服力的判断。在概率论中我们

21、知道,一件事件的发生与否可以通过其发生的概率这一依据来做出判断,概率即反映了事件发生的可能性。同样在Fuzzy数学中,也确立了类似的依据,即模糊性或隶属度等概念。这些都可以将一些事物的属性做出较为科学地判断。在这里,我们将首先建立概率模型,对问题进行分析。在确定基因表达水平分布中,为使其更符合实际,可采取适当增加样本数量的方法。在此题中,总共有60个样本,20个健康人的样本当然是必选,至于其他样本我们可以通过模型二来确定是否选择。针对一个基因,某一样本此基因的表达水平与模型二所确定的正常表达范围进行比较,若超出范围则不选,在范围之内即可选择。建立样本选择矩阵:CH=(c.),c.ij60 x1

22、14ijlWxHjijj其他(3.1)选择出样本之后,再对每一个基因所对应的表达水平作如下计算:1爭卩j=c.Q2Jsl1八=1=昱(c.一卩.)2,c.丰0,=1,2,.,114sJIJl=12(3.2)其中s为第基因所选择出的样本数。J我们已经知道,每个基因的表达水平是正态分布的,为了对其进行研究以及解决以上模型的不足,就需要将此正态分布的参数找出来,即此分布的均值和方差。如何确定这两个参数呢?其实我们也已经看到,这其实就是借助于总体的一个样本来估计总体未知参数的值的问题,即参数的点估计问题,在此类问题中,概率论中给出了具体的方法。在此我们选择使用矩估计法并简要说明其方法。在矩估计法中所依

23、据的原理就是样本矩依概率收敛于相应的总体矩,样本矩的连续函数依概率收敛于相应的总体矩的连续函数。故而将样本矩依作为相应的总体矩的估计量,样本矩的连续函数作为相应的总体矩的连续函数的估计量。具体做法中,我们直接引用本题的参数来说明。对总体的一个随机变量样本即本题中的CH,其第基因样本值对应的k阶(3.3)可/127乙cl,1=1,2矩分别为:A=1J(3.4)同样由总体的分布函数计算得的k阶矩是包含有k个未知参数的函数,可分别简化表示为:卩1=卩/0,02,.,0丿TOC o 1-5 h z1112卩2=卩2(0,02,.,0丿2212k%=%(01,02,k)这是包含有k个未知参数的联立方程组

24、,一般来说可以从中解出000,12k得到:0.=0/卩.,卩?,卩(3.5)1112k0=0.2(卩十卩.2,,卩丿V22120k=0k(卩.,卩.2,,卩丿*kk12k以A.7分别代替上式中的卩,就可以得到待估计参数的估计值:170z=07(A,AA/=1,2,.,kGO1112k在本题中,因基因表达水平是正态分布的,通过以上矩估计法进行估计之后,得出的均值和方差的估计值分别为:=卩,&2=2,=1,2,.,1147)7777同样也可以直接应用matlab工具箱中的估计函数来对正态分布总体的均值和方差进行估计,格式为:muhat,sigmahat,muci,sigmaci=normfit(v

25、,alpha)此命令在显著性水平alpha下估计数据v的参数(alpha缺省时设定为0.05),返回值muhat是v的均值的点估计值,sigmahat是标准差的点估计值,muci是均值的区间估计,sigmaci是标准差的区间估计4。得到基因表达分布的均值和方差后,不妨就认为其分布是连续的,则即可作出概率密度函数曲线。到这里,虽然也可通过概率的描述来对某一样本基因表达水平的异常情况作出判断,即如果概率大就说明在总体中出现的可能性较大,在实际中出现可能性较大者往往是正常的,一般病症的出现才是小概率的,所以能够判断其正常可能情况。但也不难看出,通过概率密度函数,是不能反映该基因的正常表达范围的,即不

26、论此样本基因表达水平是何值,总是一个不为1的概率值,除非都是以均值出现,这就与实际情况不相符了,在实际中我们完全可以通过一个基因的表达水平确定其概率为1的不会致病,虽然我们也可以通过划定一个范围来作为正常范围,但是范围之外的概率就似乎受到了一定的约束,即其值只会在一定的范围内,正常范围越大,概率值的变化范围越小,最后的结果可能就是样本值无论超出正常范围多少,都是小概率的了,这在实际中更加不相符了。这就使最后作出的判断不准确。因此我们还需要对模型做进一步的改进。我们的做法就是将基因表达水平的概率分布转化为其Fuzzy集分布。5.1.2.4模型四之前我们已经说到概率模型和Fuzzy模型都能够就此问

27、题进行分析和研究,模型三的概率模型我们给出了其存在的不足之处,那么为了建立更好的模型,我们将结合以上两种理论,做出创新,建立新的模型。首先我们通过对样本的研究,找出单个基因表达水平满足怎样的分布,即概率论的知识。然后根据所确定的分布转化成基因表达水平的模糊集,这样就可以通过模糊判断作为依据了。针对于一个基因,某个样本在此基因上的表达水平实际上也是有一定范围的,因样本的不同这个范围也不同,这在生物学角度上也是不难解释,即某一性状在一个个体上是允许有所变化的(例如鼻梁的高或低),虽然一个个体从一出生就已经确定了其性状,但在出生时刻如果分为两个完全相同的个体,之后成长的性状也不能保证完全相同(比如同

28、卵双胞胎就是不完全相同的)。根据以上解释,我们就可以将解决问题的模型进一步深入,即单个样本在单个基因表达水平的研究上。这样的建模必然要求的样本性质较高,为此我们只选择20个完全健康的人的基因来分析建模。为说明模型需要的量,我们假设样本在某基因上的表达水平理解为此样本在此基因上的一个打分,那么此基因的表达水平就是所有样本对此基因的综合评价。问题就转换为Fuzzy数学中一般形式的综合评判问题2,建立综合评判模型即可求解。建立综合评判型就需要知道每个样本打分的Fuzzy集以及评判所占比重的Fuzzy集。已知样本在同一基因上的表达水平是服从同一的正态分布,即每个样本在此基因上表达水平的Fuzzy集中隶

29、属水平为0时的值是相同的。所以在模型三中,我们可以通过确定一概率值p,来找出基因表达水平的一个范围,而这个范围的界线正是样本在基因表达水平的Fuzzy集中隶属水平为0时的值。实际分析知,如果基因表达水平的隶属性为0,那么就是说此水平对于正常水平的隶属性为0即完全属于不正常水平了。在模型三的概率分布中,此种情形正是小概率的表达水平,根据概率论中的小概率概念即可确定p值,根据p值确定此基因表达水平的Fuzzy集中隶属水平为0时的值,得到所有基因此范围的矩阵:X=x,x(4.1)j/j其中Lj与j满足下公式:(4.2)八一八(Xj入出)二p,(Xj入卩丿)二1-p,j=1,2,.,114在模型二中我

30、们已经给出了每一个基因的正常表达范围,在此范围内的表达水平是正常的,即落在此范围的样本基因表达水平的隶属性为1,但前面已经提到,对于不同的个体隶属性为1的表达范围是不同的。这就需要针对不同的样本来逐一分析。我们所确定的这个区间范围Tj满足下规定:T(/,medl,x+dImed,hLxd,hJjij2jdd且ddij1j2ij1j3dddj3j1j2dd且ddj2ij1j2j3dddj3ij2j1(4.3)其中med了为第j号基因表达水平的中位数,其中,d二lx/I,d二lxhI,d二lxmed(4.4)j1Ijjij21jijIjji=21,22,40,j=1,2,114则T.即为第i样本在

31、第j基因上的表达水平Fuzzy集中隶属性为1时表达范围。此计算中之所以选择中位数而非平均数的原因在于中位数更能反映样本值的分布情况。另外每个样本在同一基因上计算综合评判水平时所占比重是没有模糊性的均为0.05(即1/20)。_i_21j_120 x(2)ija(4.5)根据以上所求,即可计算出隶属性为a时j基因所对应的综合评判水平:%(1)jaZ(1)二i_2jT,Z(2)ja20皿最后根据Z做出每个基因综合评判后的表达水平Fuzzy集曲线。这样就弥补了概率图的不足。至此,根据做出的曲线在对待检测样本或癌症患者的基因表达水平的描点进行分析,不仅区别明显,而且进行诊断时更有说服性较强的依据。5.

32、1.3模型求解5.1.31模型一求解模型一意在应用Fuzzy聚类方法进行分类,首先建立分类对象矩阵X,即题目附件中的基因表达水平。根据X,分别应用公式(1.2)和(1.5)将分类对象之间的相似关系矩阵R求出,具体实现matlab编程见附录8.2,再对R进行乘幕运算得到Fuzzy等价关系矩阵,由于R的2次幕已是自反、对称和传递的了,因此我们只求到R2,编程实现见8.3。由于篇幅有限,以上经计算所得结果不再列出,最后只将经分类后的结果给出。分类程序见附录8.4。应用公式(2)来计算相似关系后的分类结果为:第一类122226第二类3818第二类4516第四类6第五类71419第八类91015第七类1

33、112第八类13203437第九类1723252930323539第十类21242731第十一类3340第十二类2836此时的相似水平匕=0.6461;可以看出并没有将样本分为两类,将a值继续减小,分类结果也只是减少了分类数,其中也有将癌症样本与健康样本分为一类的情况。为与实际相吻合,我们将以上结果进行合并即健康人一定会分在一起的,则可得到:第一类21317202122262324252728293031323334353637393840第二类134567891011121415161819表2应用公式(1.5)来计算相似关系后的分类结果为:第一类12345679第二类48101415161

34、819第二类11第四类12第五类13172021232425262730313536373940第八类22第七类28第八类2932333438表3此时的相似水平匕=0.9250,显然要比使用公式(1.2)求得的相似水平高,而且使用此公式所得的分类数也少。再将以上分类进行合并,得到:第一类1317202122232425262728293031323334353637383940第二类1234567891011121415161819根据最后的分类结果,得出的两种分类没有太大差别,但是应用公式(1.5)时的相似水平要高的多了,因此选择公式(1.5)更为合理且接近实际水平。模型一虽然给出了分类的一

35、种思路,并确定了分类时的相似水平和计算公式,但是依然看不出样本之间的实质差别,更不能直观的进行观察出。但是模型一还是给我们提供了接下的模型求解结果的参照。5.1.3.2模型二求解通过模型二的建模分析,我们需要知道是每个基因的正常表达范围,这个范围反应了正常人的基因会出现的表达水平,附件中给出了20个健康者,那么样本中每个基因的最大表达和最小表达即是这个范围的上限和下限。经附录8.5的程序求得所有基因正常表达水平矩阵HL,HL具体数据见附录8.6。为能更直观的表现这样的范围,根据HL做出条形图,如图1。黄色区域即表示正常表达范围。600040003000卫口1000又因为样本数量有限,并不能代表

36、全部,所以图1中每个基因的表达范围有一定误差,我们将此误差d定为较常规的一般允许误差值0.05,对利用公式(2.2)和(2.4)对皿进行修改得到HL,并绘制条形图,得图2。浅蓝色区域为允许误差范围。至此模型二基本求解完毕,我们通过观察图2就可以很清晰的看出每个基因的表达水平。下面我们来观察模型一所得出的分类结果中本是癌症患者却分到健康者一类的样本其基因表达水平在图二中的情况,在此选择20号样本。如图3。图中只描点出基因表达水平超出正常范围的基因,红色表示其超出的量。E口III-600异常基因分布ju40III-200100基因序列异常基因不计误差偏离表达ju山ju2ju-2_11L表达偏离量1

37、120406080基因序列异常基因考虑误差偏离表达100120Oju山ju2ju-2L表达偏离量11204060基因序列80100120O图3实现程序见8.7。从图3中我们可以看出20号样本基因表达水平超出范围的基因非常少,而且超出的量也没有超过400,这就解释了在模糊分类中为什么20号患者总会被分到健康者一类中,这是因为20号的基因表达与健康者的几乎没有太明显的区别。对模型二的求解我们可以看出,通过图3,我们可以类似的对待检测样本的基因表达进行观察,研究个别基因的表达水平的异常水平。同时在对癌症患者基因的表达研究中,甚至可以看出与致癌原因关联性较大的基因。这就为癌症的研究提供的参考依据。虽然

38、已经非常直观的表现了癌症患者与健康人之间的区别,但在癌症诊断中,我们也能发现其中的不足,就是不确定性较大大。超出的范围有多大才能确定其引发病症还需要进一步探讨。5.1.3.3模型三求解为了进一步说明基因表达水平的正常与否,我们建立了模型三,即通过概率水平来说明:概率大则说明此表达水平在总样本中出现的是大多数,又实际中大多数往往又是健康的,因此得出结论即为健康的可能性较大。所以概率模型为我们进行判断提供了一个依据。此概率说明不患病的可能性,而非真正意义上的概率。为了得出这样的概率分布函数,我们利用公式(3.1)首先确定应选择的样本,得到样本选择矩阵CH,篇幅有限在此不再列出,具体实现程序见附录8

39、.8。之后再根据CH提供的样本,利用公式(3.2),求出每个基因样本的均值和方差。编程实现见附录8.9。在模型三的建立中,我们已经知道,每个基因的表达水平都是服从正态分布的,利用矩估计的方法,并由公式(3.3)、(3.4)、(3.5)和(3.6)经计算得到正态分布的期望和方差即为公式(3.7)所示,最终得到每个基因表达水平分布的期望和方差,算法程序代码及具体数据见附录8.9和8.10。这样就可以根据附录8.10所示的数据画出每个基因表达水平的概率分布了。通过概率分布,我们针对一个样本在此基因上的表达水平就可给出其异常表达水平及致病的可能性。我们选择3号样本一例,56号基因的分布图做出图表,如图

40、4所示。图4观察图4,我们可以看到3号样本的56号基因表达水平出现的概率非常小,已经达到概率论中所说的小概率概念的水平。这样低的概率事件的发生,足以说明极大可能的致癌性,而这更与实际相符。虽然模型四给出了作为我们进行癌症分类和判断的依据,但如前所说,此模型依然还是有所欠缺的,同时我们也能够容易的看出,样本数据太大,分布更是分散,这就导致了正态分布的方差过大,从而使每个值所对应的概率是非常小的。虽然我们不会将真正的概率意义来解释表达水平,但是如此小的数据还是给研究和判断上带来麻烦。那么就要对模型进行改良,具体做法我们曾考虑,在求解均值和方差时,将所选择出的样本数据进行归一化,这样可以消除以上方差

41、过大的不足,但是这样做未免使得求解过程太过复杂,而且也并不能解决模型建立时所讨论的不足。因此我们另辟蹊径,创造性的将概率分布转化为Fuzzy集分布,即模型四。5.1.3.4模型四求解模型四建立中我们已经分析了,样本在某个基因上的表达水平可以理解为此样本对该基因的打分水平,这样就要建立一般形式的综合评判模型。建立综合评判模型就需要知道每个样本打分的Fuzzy集以及评判所占比重的Fuzzy集。P值我们取正态分布中变量为2b时对应的概率,以此来确定总体表达水平Fuzzy集中隶属度为0时的表达水平,同时也是每个样本的隶属度为0时的表达水平。利用公式(4.1)、(4.2)求得X,编程实现与具体数据见附录

42、8.11。j然后再确定出每个样本,在每个基因上的表达水平的隶属性为1的范围,应用公式(4.3)、(4.4),计算机编程,最后求得范围矩阵T。同样具体数据与程序见附录8.12。这样就将每一个健康人样本在每个基因上表达水平的Fuzzy集求解出来了。由于数据过大,在这里我们不一一将数据列出。为方便研究,这里将21号样本在57号基因上表达水平的Fuzzy集画出,如图5所示,其他样本的Fuzzy集见附录8.13。从图5中可以看出就21样本来说,其在57号基因上的表达水平也是一个模糊集,只有当其表达水平的隶属度为1时,才是合理的。虽然实际中并不存在这样的模糊集,但我们也只是通过这样的假设,来求解整个基因的

43、Fuzzy集。根据公式(4.5),编程实现所有样本对同一基因的综合评判,其也是一模糊集,即得乙Z中列出了114个基因的Fuzzy集,由于数据过于庞大,现没有列出,感兴趣研究的话可以自行运行本论文中的程序,即可得到结果。那么根据Z,我们就可以一一将全部基因的表达水平的Fuzzy集画出,通过对Fuzzy集的研究,我们就可以做出更为准确的判断。图6为57号基因的Fuzzy集。图6同时在图6中将2号样本在57号基因上的表达水平的隶属性已标出。可以非常清楚的看出,此时的隶属性几乎为0也就是说明此2号样本此基因的表达水平是不正常的。这也就有理由判断其为癌症患者了。综上四个模型,我们逐一深入研究,从首先的F

44、uzzy聚类分类,直观的表现基因的表达水平正常范围,再到使用概率的方法分析,最后再到Fuzzy集的概念来说明问题,每一个模型都有其优点,诚然也有其不足之处。不过我们所要做的就是用此四个模型综合来应用,不仅做到对癌症和健康人之间的分类与区别,同样对待测样本进行癌症的诊断。5.2问题二5.2.1问题分析前面问题一已经得到解决,为了能够更加明确的说明问题,我们建立了四个模型。从模型中我们也很容易的看出,模型也适合于模糊识别。这就为第二问中设计可视化模型创造了契机。问题二便是模糊识别问题,我们需要做的不仅是能够看出待检测样本的健康与否,还应对其可能患病的情况做出判断,这在疾病诊断中是非常有必要的。至于

45、所建立的图示,就要能够从图中可以读出这些方面的信息。在解决问题一中,最后我们采取了综合应用四个模型,利用Fuzzy集的方法来进行分析,这样的Fuzzy集同样可以作为诊断之用。5.2.2模型建立5.2.2.1模型五模型五实际是对前面几个模型的一种综合,我们利用前面几个模型所提供确定的参数,对待测样本分类,得出数据并作图辅助分析,再与样本信息做比较。最后通过样本在fuzzy集上的情况做出更为深入的判断。现就具体问题,阐述模型五的具体算法步骤。首先,根据模型一确定a,再建立2160号样本的相关系数矩阵,在相似水平a下的分类情况,以及将健康人完全归为一类情况下的分类情况,这样可以对待检测样本进行总体的

46、分类。可作为之后求解结果的对比参考数据。然后,将剩余样本基因的表达水平,直接根据模型四,算出各样本的平均隶属水平,所谓平均隶属性是指该样本所有基因表达水平的隶属性的平均值,而平均隶属性正是我们最终需要的数据。正常人样本的隶属水平是分布在一定的范围的,同样癌症患者的隶属水平也是在一定的水平的。根据这样的结论,我们就可以对样本进行判断了。最后,应用模型二,做出经我们判断得出的癌症样本的基因表达水平在图表上的直观表示。因此我们可以进一步判断引起癌症的基因。5.2.4模型求解根据以上模型五的算法步骤,利用模型一的Fuzzy聚类分析方法对21一60号样本的分类结果为:第一类212223242526272

47、8293031323435363739414245505357第二类23465152585960第三类38435456第四类4044474849第五类55此时的a=0.8665,从分类结果不难看出,414245505357是正常者。至于其他类我们还不能进行判断。现在我们再用模型四进行求解,模型四已经将每个基因的表达水平的Fuzzy集Z求出,我们利用此Fuzzy集,将所有样本的平均隶属性求出来,编程计算得结果:癌症样本隶属水平正常样本隶属水平待测样本隶属水平10.84595143210.896663305410.79865117720.789429106220.877037351420.8827

48、000530.816922387230.884193179430.81863444340.823074575240.903300804440.82017929850.64136324250.894129939450.87577027260.718971764260.914851652460.81677747570.85028539270.931354995470.82684593980.852503136280.785316819480.82797036490.796481515290.889235749490.849213974100.712823785300.87296535500.783

49、9530371202012020110.821382807310.886132378510.766760645120.663744113320.910648133520.84194588130.841123163330.828892544530.847635182140.824395567340.897926071540.675841439150.719660476350.858036927550.79609263160.706252631360.836527244560.631305619170.808225371370.862412711570.879292265180.748472033

50、380.84866248580.753513714190.825220569390.885296355590.77756237200.805348896400.857925251600.812045044从表6中我们能够看出,正常人的平均隶属水平一般都在0.8以上,而癌症患者的隶属水平是通常低于这个值的。因此通过表6的数据,对待检测样本的隶属水平,我们可以得出这样的结论:样本隶属水平在0.8以下者,判断其为癌症患者,而介于0.8与癌症样本中隶属水平的最大值0.85之间的样本,我们定义为癌症子类,0.85之上的为正常人。根据以上的结论,我们得出我们最终求解的结果:在癌症样本中:1,3,4,7,8

51、,11,13,14,17,19,20号样本为癌症子类。在待检测样本中:_|600耳常基因分布4060基因序列异常基因不计误差偏离表达0040鬼朝故畴BM10200III-200juOo00o1表达偏离量卩11nLi口r406080100基因序列异常基因考虑误差偏离表达In200jooo00o4060基因序列8010012020分类人员编号正常人42,45,57癌症患者41,50,51,54,55,56,5&59癌症子类43,44,46,47,4&49,52,53,60表7最后还可以将选择出的癌症样本基因的表达水平利用模型二作图,就可直观的看出与正常基因表达水平的区别。比如56号样本,如图7所示

52、:从图7中可以看出异常表达的基因非常多,这也就说明了其平均隶属水平最低的原因。完全可以判断其为癌症患者。从图中我们还可以做出推测,致使56号患病的原因出在54,56,62,85,87,94,101,102号基因的异常表达的可能性最大。我们可以看出,模型的综合应用使得问题的研究更为深入,最后得出的结论也具有更为可靠的依据。本论文建立模型并不是孤立无联系的,虽看起来是属于不同的模型,但是他们之间都能够通过相互补充不足来使问题解决的更为完美。六、模型评价与推广6.1模型优点本论文模型,首先克服了单一模型的求解不足,利用多个模型联合进行求解和判断,即增加了求解结果的准确性也增强了求解结果的说服力。其次

53、本论文中所建立的模型之间存在很大的关联性,并不是毫无关系的独立模型,这就为求解中的综合应用提供了便利,同样,这样的模型的好处更是体现在问题二的求解中,通过多个模型的综合应用,不仅更加形象对结果进行解释,同样使判断过程更加便捷。本论文模型最大的优点在于将问题研究的深度增加至单个样本单个基因的层次上,这就为解决问题的精确程度提高了几个数量级,使得无论在样本分类还是在区别样本不同,以及在诊断中都达到了较高的水平。6.2模型缺点由于此模型是在分析基因表达水平的基础上建立的,又是针对一个样本一种基因的较深入的研究和建模,因此此模型受样本选择和基因表达水平精确程度的影响较大。同时,此模型适合较大的样本,由

54、于样本过小,对数据要求较高的此模型,最后求得的结果是存在较大误差的。但是,这些缺点都可以通过提高基因表达水平精确度和增加样本数量上得到较好的解决。6.3模型的现实性意义此模型得到的结果经过给出样本的检验,可以看出-其判别标准误差非常小,可以运用于基因与癌症关联的诊断中。通过编程不仅可以对大量的待检测样本进行分析,而且实现了可视化,更清晰明了,具有人性化特点。如果运用于诊断软件的开发算法中,将带来客观的经济效益。七、参考文献【1】赵静,但琦,数学建模预实验(第2版)M,北京:高等教育出版社,2004【2】彭祖赠,孙韫玉,模糊(Fuzzy)数学及其应用M,全国优秀出版社,武汉大学出版社,2003,

55、P131-142,P230-307。【3】盛骤,谢式干,潘承毅,概率论与数理统计(第四版)M,北京:高等教育出版社,200&P149-168。【4】陈理荣,数学建模导论M,北京:北京邮电大学出版社,1999。【5】王冬琳,数学建模及实验M,国防工业出版社,2004,P82-91【6】费培之,程中瑗,数学建模实用教程M,四川大学出版社,2003,P167-203。【7】楼顺天,陈生潭,雷虎民,MATLAB5.X程序设计语言M,西安电子科技大学出版社,2000。【8】楼顺天,胡昌华,张伟,基于MATLAB的系统分析与设计-模糊系统M,西安电子科技大学出版社,2003。八、附录8.11-60号样本基

56、因表达信息及matlab编程实现癌症病人基因样本20406080基因序列正常人基因样本100120ju40III-200III-50020406080基因序列待检测基因样本100120ju40III-200III-500204060基因序列80100120ju40III-200III-500算法代码:a=load(Adata.txt);t=1:114;subplot(3,1,1)fori=1:20b=a(i,:);plot(t,br.-)holdonendgridxlabel(基因序歹U)ylabel(基因表达水平)title(癌症病人基因样本)subplot(3,1,2)fori=21:40

57、b=a(i,:);plot(t,bg.-)holdonendgridxlabel(基因序歹U)ylabel(基因表达水平)title(正常人基因样本)subplot(3,1,3)fori=41:60b=a(i,:);plot(t,bb.-)holdonendgridxlabel(基因序歹U)ylabel(基因表达水平)title(待检测基因样本)8.2相似系数编程实现8.2.1指数相似系数函数functionR=zhishuxs(a)n,m=size(a);liefc=var(a,1);fori=1:nforj=1:nfork=1:mb(k)=exp(-3/4*(a(i,k)-a(j,k)八2

58、/liefc(k);endR(i,j)=sum(b)/m;endend8.2.2相关系数函数functionR=xiangguanxs(a)n,m=size(a);hangpj=sum(a,2)/m;fori=1:nforj=1:nfork=1:mb_1(k)=(a(i,k)-hangpj(i)*(a(j,k)-hangpj(j);b_2(k)=(a(i,k)-hangpj(i)八2;b_3(k)=(a(j,k)-hangpj(j)八2;endR(i,j)=abs(sum(b_1)/sqrt(sum(b_2)*sum(b_3);endend8.3相似系数阵的乘幕函数编程functionR=xi

59、angsizm(a,x)%x为幕的次数n,m=size(a);A=a;s=0;whilesb(k)&a(i,j)=b(k)A(i,j)=1;elseA(i,j)=0;endendends=sum(A);pint=0;fori=1:nifs(i)=chpint=1;endendifpint=1break;break;endendl=0;d=;fori=1:nifisempty(find(d=i)p=1;d(l+1,p)=i;forj=i+1:nifisempty(find(d=j)fork=1:mifA(i,k)=A(j,k)break;endendifk=md(l+1,p+1)=j;p=p+1

60、;endendendl=l+1;endendR=A;bd8.5求解基因表达水平范围程序代码a=load(Adata.txt);hl=HL(a);functionhl=HL(a)fori=1:114h(i)=a(21,i);l(i)=a(21,i);forj=21:40ifa(j,i)=h(i)h(i)=a(j,i);endifa(j,i)h(i)plot(t(i),a(m,i)r*)b(i)=a(m,i)-h(i);elseifa(m,i)l(i)plot(t(i),a(m,ir*)b(i)=a(m,i)-l(i);b(i)=O;endendendbz=b;%匕为不考虑误差时,基因的偏离量。b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论