




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、聚类分析与分类分析 数据聚类和分类是重要的数据挖掘方法,表达谱基因聚类可以将那些具有相 关功能和共调控关系的基因聚在一起,用于推断调控基因、注释基因功能和确立 分子标签, 为进一步详细研究基因的功能打下基础。 表达谱样本聚类可以帮助发 现新的疾病亚型。样本分类可以提高复杂疾病诊断的正确率。 XXX 学号 基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。 聚类分析 聚类分析是一种 无监督学习方法,不需要任何先验领域知识。从生 物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内 基因的表达谱相似,它们可能有相似的功能。 但聚类只是为了寻求类,不管所聚的类别是否有意义。 对基因
2、表达谱进行聚类分析之前,必须首先确定反映 不同基因表达谱相似程度的度量函数,根据该函数可以将 相似程度高的基因分为一类。在实际计算中,还可以用距 离代替相似的概念,相似性度量被转化为两个基因表达谱 之间的距离。距离越小,表达模式越相近;反之,则表达 模式差异大。 常见的相似性度量: 欧氏距离(Euclidean distance ) Pearson 相关系数(Pearson s correlation coefficiency ) 互信息( mutual information ) 聚类分析相似性(距离)尺度函数 欧氏距离 欧氏距离( Euclidean distance )是一个通常采用的距
3、离定义,它 是在空间中两个点之间的真实距离。 Minkowski Distance公式 不是一种距离,而是一组距离的定义 可以随意取值,可以是负数,也可以是正数,或是无穷大 Euclidean Distance公式 明氏公式=2的情况 从本质上说 Pearson 相关系数是测量两个表达矢量所指方向的相似性, 处理 时将其视为单位矢量,因而对幅度的变化不敏感。 但若两个不很相似的基因表达谱在某一突出的的峰或谷特别相关的话, Pearson 相关系数可能得出假阳性。 相关系数的一个有趣的性质是它可用来检测负相关的基因 Pearson 相关系数 几何距离比较适合衡量样本间的相似性或 基因在样本空间(
4、如不同组织间)的相似性。 当基因表达数据是一系列具有相同变化趋势的 数据时,运用几何距离会丢失重要信息 距离和相关系数反映的都是基因表达谱 之间的相似性,这种相似性反映了基因的共 表达行为,而基因的行为是复杂的,它们之 间存在调控和被调控的关系,或者存在调控 链,调控还有正性调控和负性调控之分。对 于这些调控关系,它们的表达谱往往是不相 似的,或者存在时延、或者存在反相,而基 因表达的幅度也可能不相等。 如何从数据中发现这些复杂的基因关系 呢? 考虑到了两个或多个基因对同一输入基因控制信号反应可能不同 ,一 个基因可能上调 ,而另一个可能下调。这两种基因反应虽然不同, 但 常被认为功能相关 。
5、 互信息 目前,还没有理论来指导如何选择最好的相 似性度量,也许一个“正确”的距离在表达模式 空间是不存在的,选择何种度量函数依赖于我们 要解决的问题。 总的来说, 对同一种聚类算法 , 所用度量函 数不同,结果也可能不同。 聚类算法 对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不 全面,没有聚类的先验知识,所以通常采用无监督学习方法。 在基因表达 数据分析方面,层次聚类、 K 均值聚类、自组织映射聚类在应用中是常用的 方法。 下面主要介绍这几种常用的聚类方法。 层次聚类 层次聚类法,在统计分析中也称为系统聚类法。 其就是一层一层的进行聚类,可以由上向下把大的类别(cluste
6、r)分 割,叫作分裂法;也可以由下向上对小的类别进行聚合,叫作凝聚法; 但是一般用的比较多的是由下向上的凝聚方法。 凝聚法: 首先将每个表达谱当作一个类, 根据一定的距离度量标准计算两类间的 距离 。然后反复地将距离最近的两类合并为一类 ,并重新计算类间距离 ,直 到达到某种终止标准或只剩一个类 。这一过程产生一树状结构, 树枝高度与 类间距离成正比。最后选取某一水平(即某一类间距离)的类数作最终结果 。 距离度量标准 层次聚类缺点: 算法的时间复杂度大 结果依赖聚类的合并点和分裂点的选择 层次聚类过程最明显的特点就是不可逆性,也就是说,一旦聚类结果形 成,想要再重新合并来优化聚类的性能是不可
7、能的了 聚类终止的条件的不精确性,要求指定一个合并或分解的终止条件,比 如指定聚类的个数或是两个距离最近的聚类之间最小距离阈值 层次聚类优点: 容易理解和实现 所得到的结果以树状图的形式表示,可以直观地观察基因之间的相互关系, 尤其是类与类之间的关系 K均值聚类 K 均值(K-means)聚类在数据划分上不考虑类的分层结构问题 步骤: 随机选择初始类中心 将所有的表达谱分配到 K 个类中,根据欧氏距离,反复计算每个类的 类中心,然后将每个表达谱分配到类中心与之最接近的类中 , 形成新 的类再计算新的类中心 直至类中心保持不变, 或达到最大叠代次数。该算法使待聚类的所有 向量到聚类中心的距离的平
8、方和最小 K-均值聚类缺点: 要求预指定类数 ,而实际应用中很难预测类数, 因此需要通过试误 ,即使用多 套不同的参数设定,比较其结果 ,并且从生物学角度对结果进行验证 。 需要用随机初始类中心,不同的随机类中心会有得到完全不同的结果 是完全无结构的方法,聚类的结果是无组织的 K-均值聚类优点: 采用误差平方和为准则函数的动态聚类方法,其计算快速,适合于大规模 的数据计算 自组织映射聚类(SOM) 在 SOM 算法中 ,使用者预先指定一个具有某种拓扑构形的结点群(即二 维网格 -每个结点对应一个类), 在将这些结点随机映射到基因表达数据空间, 再反复随机挑选一个表达谱 ,将与之最近的结点向它移
9、近, 其他结点随之移动, 但移动距离与初始结点拓扑结构中结点间距离成比例。反复挑选表达谱 , 并 移动结点 SOM缺点: 也需要预先指定参数(节点群的拓扑构形) 是一种拓扑保留的神经网络, 易产生不均衡分类。若不相关数据过多, 感兴趣的数据较少时,分辨率可能会很低。因此,在应用 SOM对基因表 达谱聚类前,需要对数据进行筛选 SOM优点: 可以将高维表达谱映射到二维, 从网格上的数据可以清楚地看到数据 (基因或样本)的空间聚类情况,这非常有利于理解样本之间的关系 具有稳健准确和抗噪能力强的优点 双向聚类 以上对基因表达谱采用的都是单向聚类 法(one-way clustering),即要么以整
10、 个样本中特性相似的基因进聚类,或者 以基因表达相似的样本进行聚类。 对样本和基因同时进行聚类就是双向聚 类法 双聚类的目的: 在基因表达数据矩阵中寻找满足条件的 子矩阵,使得子矩阵中基因集在对应的 条件集上表达波动一致,反之亦然。不 同的双聚类算法采用不同的方式度量结 果质量,所能找到的双聚类类型是有很 大差别的。 分类分析 上述无监督的聚类分析可同时对样本和基因进行聚类。而有监督的分类分 析一般是单向的,即以基因为属性,构建分类模式对样本的类别进行预测。还 可以同时进行疾病相关基因的挖掘。 常用分类方法: Fisher线性判别 K近邻分类法(略) PAM方法 决策树 Fisher线性判别
11、像上图所示的两种投影方案,左边的投影方向可以将两种样本区分开 来,而右边的投影方向不能区分开来,所以左边的投影方向更好。 Fisher线性判别的思想是: 找到一个投影矩阵,通过这个投影矩阵将各类样本数据映射到一个新的空间, 使得投影后两类相隔尽可能远,而同一类内的样本尽可能聚集。 PAM方法 又叫K-medoids(K-中心点)聚类,使K-means(K-均值)聚类的改进。 基本思想:每类样本的质心向所有样本的质心进行收缩。 基因基因1 1 基因基因2 2 K-均值聚类和K-中心点聚类区别: k-means的质心是各个样本点的平均,可能是样本点中不存在的点 k-medoids的质心一定是某个样
12、本点的值 这个不同使他们具有不同的优缺点: k-medoids的运行速度较慢 k-medoids对噪声鲁棒性比较好 虽然k-medoids也有优点,但是只能对小样本起作用,样本一大其速度就太 慢了,而且当样本多的时候,少数几个噪音对k-means的质心影响也没有想象中 的那么重,所以k-means的应用明显比k-medoids多的多。 决策树 决策树是一种常用于预测模型的算法,它通过将大量数据有目的的分 类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分 类速度快,特别适合大规模的数据处理 分割准则: Gini指数变化 信息增益(熵) 上面两个准则是值越大,表示节点越 “不纯”,
13、越小表示越“纯” (二者选一即可) 决策树应用于肿瘤基因表达谱的分类分析 决策树优点: 不需要使用者了解很多背景知识(这同时也是它的最大缺点), 概念 简单, 计算效率高 作为一种非参数分类方法,使用者不需要输入任何参数 分类的结果意义明确, 可解释性强 有关决策树的演变算法也很多 优化方案:修剪枝叶 决策树过度拟合往往是因为太过“茂盛”,也就是节点过多,所以需 要裁剪(Prune Tree)枝叶。裁剪枝叶的策略对决策树正确率的影响很大。 主要有两种剪枝方法: 前剪枝: 在构建决策树的过程时,提前停止。那么,会将切分节点的条件设置 的很苛刻,导致决策树很短小。结果就是决策树无法达到最优。实践证明
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度金融行业竞业禁止协议补偿金计算细则
- 二零二五年度精装修房屋租赁协议书
- 二零二五年度主合同与从合同在新能源汽车产业链中的协同发展及风险共担协议
- 二零二五年度文化产业股权投资合同协议
- 2025年度苗木种植与生态农业开发协议
- 初中家长会学生代表发言稿
- 2025年林芝货运从业资格证在哪里练题
- 2025年鹤岗道路货运驾驶员从业资格考试题库
- 挂职锻炼发言稿
- 网站设计与开发合同
- 社区获得性肺炎临床路径
- 产品品质检验流程标准规范模板()
- DB12-595-2015医院安全防范系统技术规范
- 五年级下册英语课件-Unit 2 My favourite season B Let's learn 人教PEP版(共15张PPT)
- GB∕T 7260.40-2020 不间断电源系统 UPS 第4部分:环境 要求及报告
- 高边坡施工危险源辨识及分析
- 水厂项目基于BIM技术全生命周期解决方案-城市智慧水务讲座课件
- 幼儿园绘本:《闪闪的红星》 红色故事
- 三年级学而思奥数讲义.doc
- 刘姥姥进大观园课本剧剧本3篇
- 产品承认书客(精)
评论
0/150
提交评论