【毕业学位论文】（Word原稿）基于统计方法的结肠癌基因信息提取研究-统计教育学

上传人：O*** IP属地：江苏上传时间：2016-07-09 格式：DOC 页数：19 大小：870KB 积分：26 举报 版权申诉

【毕业学位论文】（Word原稿）基于统计方法的结肠癌基因信息提取研究-统计教育学_第2页

【毕业学位论文】（Word原稿）基于统计方法的结肠癌基因信息提取研究-统计教育学_第3页

【毕业学位论文】（Word原稿）基于统计方法的结肠癌基因信息提取研究-统计教育学_第4页

【毕业学位论文】（Word原稿）基于统计方法的结肠癌基因信息提取研究-统计教育学_第5页

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于统计方法的结肠癌基因信息提取研究内蒙古财经学院摘要本文主要采用了修正的信噪比、基于密度的祛噪声方法以及统计检验相结合的方法提取基因图谱信息。通过对治疗结肠癌新途径中基因疗法中的致病基因提取做研究分析，利用统计学的相关知识更加精确有效地提取致病基因。旨在对于提取基因图谱信息方法的改进，找到可以能够对样本分类信息量进行更有效估计的方法采用基于密度的祛噪声方法进行噪声祛除，并使用噪声云图对祛噪前后的效果进行了直观描述，表明可以有效祛除噪声。并利用聚类分析和判别分析统计的方法，最终确定了与结肠癌有关的 8个信息基因。关键词：修正的信噪比；祛噪声；统计检验。 2 目录一、引言 . 3 （ 1）研究背景和选题意义 . 3 （ 2）国内外研究现状 . 3 （ 3）研究思路 . 5 二、基因图谱信息提取的实证研究 . 5 题分析 . 5 据的正态性研究 . 6 因序列的初步提取 . 9 计检验 . 11 声处理 . 12 瘤基因的确定 . 16 三、结论及分析 . 17 参考文献 . 19 3 一、引言（ 1）研究背景和选题意义结肠癌是胃肠道常见的恶性肿瘤，仅次于胃癌、食管癌。癌肿部位最常发生于直肠和乙状结肠，约占其次为盲肠及升结肠，再次为降结肠、肝曲及脾曲。结肠癌生长较慢，转移较晚。手术切除仍然是目前结肠癌治疗的主要治疗方法，并可辅以化疗，免疫治疗、中药以及其它支持治疗。结肠恶变是常见的恶性恶变之一，以 40 岁 50岁年龄组发病率最高。据世界流行病学调查，发现结肠恶变在北美、西欧、澳大利亚、新西兰等地的发病率最高，居内脏种瘤前二位，但在亚、非、拉美等地发病率则很低。我国的发病率与死亡率低于胃恶变，食管恶变、肺恶变等常见恶性恶变。随着人民生活水平的提高，饮食结构的改变，其发病率呈逐年上各趋势。中国和日本人的大肠恶变发病率明显低于美国，但移民到美国的第一代即可见到大肠恶变发病率上升，第二代基本接近美国人的发病率。从流行病学的观点看，结肠恶变的发病和环境、生活习惯、尤其是饮食方式有关。慢性大肠炎症，如溃疡性结肠炎的肠恶变发生率高于一般人群，炎症的增生性病变的发展过程中，常可形成息肉，进一步发展为肠恶变；克隆氏 (时，有结肠、直肠受累者可引起恶变变。血吸虫流行区和非流行区的结肠恶变发病率与死亡率有明显区别，过去认为慢性血吸虫病患者，因肠壁血吸虫卵沉积与毒素刺激，导致大肠粘膜慢性溃疡，炎性息肉等，进而引起恶变变。这个观点一直在争论，据浙江省嘉善县血吸虫病日渐控制，新发病例明显减少，晚期病人趋于消失，而结肠恶变的发病率仍很高。就目前形势看，国内外学者对有关致癌基因提取的研究各抒己见，分别采用不同的理论基础以及技术手段对其进行了研究分析，仁者见仁，智者见智，但是尚未形成统一的结论，而且在医学领域中尚有许多有待改进的地方，因此，需要对基因信息的提取进行更进一步的研究。由于基因数量繁多，要在如此众多的属性中选出一组对分类而言最为有效的属性，即样本的分类因素，同时又兼顾计算复杂度是很困难的。由于肿瘤分型在诊断和治疗中的重要作用，研究人员一直在寻找获得更加准确、精细的肿瘤分型方法。为了更加方便研究、治疗肿瘤等基因疾病，我们针对基因提取这一课题展开了研究分析。（ 2）国内外研究现状据世界流行病学调查发现，结肠癌在北美、西欧、澳大利亚、新西兰等地的发病率最高，居内脏肿瘤前两位，但在亚、非、拉美等地发病率则很低。近几年各地资料显示随着人民生活水平的提高，饮食结构的改变，其在我国的发病率呈逐年上升之势。以前结肠癌在国内并不引人注意，但如今在某些经济发展快的城市中，结肠4 癌发病率的上升非常明显。从正式公布的数据来看，已从原来的第六位上升到第三或第四位 (与肝癌不相上下 )。肿瘤是一类复杂的基因疾病。由于癌细胞是克隆性的 ,基因的改变限于癌细胞中 ,而在正常组织中不存在。因此 ,从研究肿瘤和对应正常组织的基因表达谱出发 ,借助分类特征选取技术 ,就有可能从中发现肿瘤组织中普遍特异表达的基因 ,并对其在不同肿瘤组织中的表达行为进行分析。基于肿瘤基因表达谱 ,利用生物信息学的方法 ,从肿瘤与正常组织的样本分类入手就肿瘤特异表达基因的发现及其表达模式问题进行了分析和研究 ,进而探讨了肿瘤在基因表达上的特点。在分析肿瘤基因表达谱特点的基础上 , 提出了基于法的样本分类特征基因选取策略；以支持向量机为分类工具进行样本类型的识别 ,以分类错误率为标准选取样本分类特征基因 , 并对其中反映肿瘤与正常样本组织构成特点的组织特异表达基因进行排除以突出肿瘤样本真实的类别特征；最后结合统计学方法 ,从信息学的角度论证了分类特征基因在肿瘤组织中特异表达的确实性和普遍性 ,并对这些基因在肿瘤组织中呈现出的特异的表达模式进行了分析（阮晓钢，李颖新，李建更，龚道雄，王金莲， 2006） 1。在分析基因表达谱数据特性的基础上，李泽提出了一个将之用于肿瘤分子分型和选取相应亚型特征基因的策略。采用一个无监督的基因过滤算法以降低用于分型计算的数据的噪声，提出了一个概率模型对样本中的分类结构进行建模，基于聚类的结果采用相对熵的方法获得对分类贡献大的基因作为特征基因，应用该策略对两个公开发表的数据集进行了再挖掘，具有明显的优越性（李泽，包雷，黄英武，孙之荣， 2002） 2。目前，各学者对基因的研究具有不同的方法。基于基因表达谱结构提出一种基因表达谱的样本分类方法。用基因的离衡量其所含样本类别的信息，过滤离较小的噪声基因；然后修改重复剪辑近邻算法，剔除噪声样本；再基于法构建支持向量机组合分类器；最后以结肠癌基因表达谱样本为例，进行分类实验（刘全金，李颖新， 2008） 3。汪伟于 2010年提出了基于遗传算法支持向量机的特征基因选择，从结果可以看出通过遗传算法降维可以提高支持向量机的分类准确率，特别是剔除了数据中的大量无关基因和噪声，使得经过特征选择后分类准确率提高。结果显示遗传算法与支持向量机结合方法对分类更加有效。此外，通过分析结果显示特征基因的主要功能体现在信号传导和氨基酸代谢上 (汪伟，刘红， 2010)4。基于最小二乘模糊支持向量机的基因分类方法。该方法融合了最小二乘支持向量机与模糊技术两者的优点 ,它既有支持向量机的泛化能力强、全局最优等优点 ,又有模糊技术的不依赖被控对象模型、鲁棒性强等优点。在模糊隶属度设计过程中 ,充分地考虑了样本与类中心以及样本与样本之间的关系 ,很好地减小了噪声或野值样本对分类的影响（骆嘉伟 , 苏涵沐 , 陈涛， 2010） 5。基于支持向量机的灵敏度分析方法选取结肠癌特征基因。用支持向量机分析基因对分类决策函数的灵敏度。递归去除灵敏度较低的若干基因，得到一组候选特征基因子集；以支持向量机为分类工具。检验候选特征基因子集对样本分类的贡献。选取具有最佳分类能力的候选特征基因子集作为结肠癌特征基因子集通过实验比较该特征基因子集的分类能力优于文献给出的其他特征基因子集，表明了该方法的可行性和有效性（刘全金，李颖新，阮晓钢， 2007） 6。相对而言，从癌症的研究状况来看，对致病基因提取的研究具有迫切性和现实意义的。因此，本文采用了修正的信噪比离基于密度的祛噪声方法以及统计检验相结合的方法提取基因图谱信息。通过对治疗结肠癌新途5 径中基因疗法中的致病基因提取研究分析，利用统计学的相关知识更加精确有效地提取致病基因。（ 3）研究思路本文通过对治疗结肠癌新途径中基因疗法中的致病基因提取做研究分析，利用统计学的相关知识更加精确有效地提取致病基因。旨在对于提取基因图谱信息方法的改进，找到可以能够对样本分类信息量进行更有效估计的方法。通过信噪比的改进、密度去噪声方法、非参数检验和判别分析相结合的方法，找到 8组携带致病信息的基因。通过对比、比较运用更加有效的方式准确提取结肠癌致病基因。二基因图谱信息提取的实证研究符号说明符号符号说明 d 信噪比 B 基因离附计数器取一种子 N 总体数量 n 样本容量标准差显著性水平题分析本文的分析对象是结肠癌数据集 ,可从相关网站 7下载得到。该数据集包含了 62个样本 ,其中 22个为正常样本 (40个为肿瘤样本 (每个样本包含有 2 000个基因 ,这 2000个基因是 500个基因中挑选出来的具有代表性的基因。由于原始样本集中的每个样本都是以 2000个基因测量值来表征的，要在如此众多的属性中选出一组对分类而言最为有效的属性，即样本的分类因素，同时又兼顾计算复杂度，可以采用对每个基因包含的样本分类信息量进行有效估计的方法进行。因此，如何衡量每个属性包含的样本分类信息量，准确估计该属性对样本分类的贡献程度就成为有效选择分类特征的关键。选取样本分类特征的一个基本思想是考察样本类别在每个属性上的可分性，而可分性的计算又可以通过考察该属性在同类别样本上的相似性 (类内距离 )以及该属性在不同类别样本间的差异性 (类间距离 )来进行计算。不同的样本总体分布形态会带来不同的样本指标间关系的差异性，因此为了更好的对数据进行研究，从总体上把握数据的分布状况，需要研究总体的分布情况。对数据进行分布形态分析。由于给定数据样本有两千组，若对全体的基因进行分析，势必会造成分析问6 题的复杂性和时间的延误。为了兼顾研究的科学性、考虑时间的紧迫性，本文通过统计抽样的办法，从总体中抽出的可以代表总体信息的适当数目的样本进行研究，以样本信息反映总体情况。本文采用的方法为等距抽样，该抽样方法应先确定适宜的样本个数。本文采用的是假定数据服从正态分布的前提下的样本抽样，采用的抽样公式为： n= （ 1）其中，的界值， s 为总体标准差，为容许的误差。本文选取本总数为 2000；样本标准差为定允许的误差范围为过公式（ 1）计算结果如下： n=(=于样本抽取必须为整数，理论上无法实现，因此，选取的适宜的样本数目为 198 个。确定样本数目之后，采用公式（ 2）计算样本间隔。抽样间隔 2）依据公式（ 2），确定的抽样间隔为 =此，选取 10 为抽样间隔。先通过随机选取，从 1 10中随机选取随机数 3，依此可以确定本文抽出的数据为 3、 13、 23、 33、 43。 1993，共抽取样本数目为 200。据的正态性研究急性白血病基因表达谱数据集共含有 72 个急性白血病样本 ,每个样本均含 7 129 个基因的表达数据。其中 47 个样本被诊断为急性成淋巴细胞白血病 (25 个被诊断为急性骨髓性白血病 (本文在此基础上分析结肠癌的基因表达水平，目的在于寻找出含有病变信息的基因序列。共有 2000 组数据，分别按照和进行分类， 22人、 8 人。由于在正态分布中有左偏分布、对成分布和右偏分布的差异，且每个不同的分布都有各自的分布特征，因此，在研究之前应该先研究总体的分布情况，即需要研究这 2000 个数据的正态性。将 2000 组数据分别按照和别计算其偏度，这里以第 13组为例进行说明。为了研究每个基因的正态分布特征，做出正态检验 7 . 0 1 0 . 5 1 1 . 0 1 1 . 5 1 2 . 0 1 2 . 5 1 3 . 0 1 3 . 5h e o r e t i c a l Q u a n t i l e - Q u a n t i l 的正态检验从图 1看出第 13组数据 22个是还是有部分点偏离直线较远，存在误差的可能。再通过直方图的分布进一步验证其正态性。 01234561 0 . 5 1 1 . 0 1 1 . 5 1 2 . 0 1 2 . 5 1 3 . 0S e r i e s : XS a m p l e 1 4 0O b s e r v a t i o n s 2 2M e a n 1 1 . 5 7 6 5 5M e d i a n 1 1 . 3 2 4 9 0M a x i m u m 1 3 . 1 1 6 0 7M i n i m u m 1 0 . 3 5 4 6 3S t d . D e v . 0 . 6 9 9 9 8 7S k e w n e s s 0 . 4 3 5 6 2 3K u r t o s i s 2 . 3 5 0 7 8 7J a r q u e - B e r a 1 . 0 8 2 1 7 0P r o b a b i li t y 0 . 5 8 2 1 1 6图 2 图 2表明，其图形没有明显规则，显著异于正态分布。其偏度值为此，第 13组数据 22个 8 5 1 0 . 0 1 0 . 5 1 1 . 0 1 1 . 5 1 2 . 0 1 2 . 5 1 3 . 0h e o r e t i c a l Q u a n t i l e - Q u a n t i l 图 3表明，第 13 组基因中 40个是在最左端和最右端部分值偏离较远，且多数分布在直线的左端，存在左偏的的可能。再通过直方图的分布进一步验证其正态性。 01234567891 0 . 5 1 1 . 0 1 1 . 5 1 2 . 0 1 2 . 5 1 3 . 0S e r i e s : YS a m p l e 1 4 0O b s e r v a t i o n s 4 0M e a n 1 1 . 9 5 6 9 2M e d i a n 1 2 . 0 6 2 0 4M a x i m u m 1 3 . 0 7 0 9 7M i n i m u m 1 0 . 3 1 0 2 1S t d . D e v . 0 . 6 9 3 7 3 0S k e w n e s s - 0 . 3 8 8 7 6 7K u r t o s i s 2 . 5 4 8 2 4 1J a r q u e - B e r a 1 . 3 4 7 7 4 3P r o b a b i li t y 0 . 5 0 9 7 3 1图 4 从图 4可以看到，其图形也没有明显规则，但明显侧重于右半部分，显著异于正态分布，有左偏的倾向。其偏度值为此，第 13 组数据 40 个以对第 13 组基因的处理为例，处理 200 个组中的其他组，判断其正态性。本文依据抽取的 200个样本的检验结果来看， 0个样本右偏分布，169 个样本左偏分布。而在中有 74 个样本右偏分布， 116 个样本左偏分布。鉴于这种情况，本文对于选择均值作为判断指标做出一定的改进。以下为几种偏态分布的均值、中位数、众数的关系图。 9 图 5 均值、中位数、众数的关系图图 5说明，对于对称正态分布，其均值、中位数、众数是等同的，三者没有大小的关系区分。但是在左偏分布中，均值小于中位数；而在右偏分布中，均值大于中位数。鉴于这种情况，若仍旧选取均值作为衡量标准，就会出现偏差。为此，首先想到的是对于均值进行偏度上的矫正，使其更好的代表真实情况。但是复杂之处在于从抽样抽取出来的 200个样本来看，多数样本服从左偏分布，也有部分服从右偏分布；有极个别近似对称分布。在这种情况下，选取中位数作为均值的替代，具有更强的代表性和说服力。因序列的初步提取由于基因数量很大，在判断肿瘤基因标签过程中，存在“大量无关信息”，由于在基因表达谱中一些基因的表达水平在所有样本中都非常接近，这些基因没有对样本类型的判断提供有效信息，反而增加了计算的复杂性，因此对这些“无关信息”必须予以剔除。在衡量基因含有样本分类信息多少的度量问题上，本文仍采用“信噪比” 8的方法进行研究，即 : 1212d （ 3）其中 : 1、 2分别为该基因在 1、 2为其表达水平的标准差。依据式 (3) ，若某一基因在则其信噪比 d =0 ，该基因将被作为无关基因而被剔除。为了找出用均值和用中位数计算信噪比之间的差异，本文同时用两种方法计算信噪比，以便分析两种方法的优劣。计算结果如下：表 1 均值、中位数“信噪比”比较关系表均值计算的信噪比中位数计算的信噪比 d0 623 1090 无影响，若 D0，为有影响。依据该判别公式（ 9），对 23组基因分别进行计算，计算结果见表 3：表 3 23组基因判别结果表基因序列得分基因序列得分基因序列得分 82 487 65 567 27 45 668 60 53 672 65 039 797 7 99 067 892 53 328 920 52 381 依据判别公式的计算结果，可以断定出含有致病信息的基因为 039、 328、 381、 487、 567、 668、 672、797、 892、 920，共 11组。用聚类分析的结果和判别分析的结果对比分析，这八组基因的描述，见表 4：表 4 特征基因集合中信息最大的 8个特征基因的说明及描述表 C 24203 ( ( ( 三、结论及分析在癌症的研究中，致病基因是通过基因测量值来表征的，由于基因数量繁多，要在如此众多的属性中选出一组对分类而言最为有效的属性，即样本的分类因素，同时又兼顾计算复杂度是很困难的。本文旨在对于提取基因图谱信息方法的改进，找到可以能够对样本分类信息量进行更有效估计的方法。本文通过信噪比的改进、密度去噪声方法、非参数检验和判别分析相结合的方法，找到 8组携带致病信息的基因，在信息分类的过程中，我们可以得到如下结论：（ 1）从抽取的样本来看， 0个样本右偏分布， 169 个样本左偏分布；而在中有 74个样本右偏分布， 116个样本左偏分布。在偏态分布的情况下 ,中位数的代表性优于均值，通过使用中位数计算的“信噪比”可以更加准确地反映真实情况。 18 （ 2）利用中位数和均值分别计算离并对原始基因数据进行初步分类，找到的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）基于统计方法的结肠癌基因信息提取研究-统计教育学

文档简介

温馨提示

最新文档

评论

【毕业学位论文】（Word原稿）基于统计方法的结肠癌基因信息提取研究-统计教育学

文档简介

温馨提示

最新文档

评论

相关文档