




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章数据挖掘与基因表达调控信息分析(2)主讲人:孙啸制作人:刘志华东南大学吴健雄实验室第四节基因表达数据的聚类分析基因表达数据主要来自于两个方面:一是基因芯片,这是最主要的表达数据来源,利用基因芯片技术可以大规模并行获取基因转录结果mRNA的数据。表达系列分析SAGE和差异显示、蛋白质芯片等是快速检测蛋白质及其含量的另一类技术。聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。从机器学习的角度来看,有两种基本的聚类分析:有教师聚类无教师聚类基因表达数据聚类分析一般包括以下几个步骤:(1)确定基因表达的数据(2)计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似(3)选择算法进行聚类分析(4)显示分析结果。对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。在实际计算中,往往以距离代替相似的概念,相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。几种常用的聚类方法1.简单聚类2.层次式聚类3.K平均聚类4.自组织映射神经网络5.模糊聚类分析方法6、聚类分析结果的树图表示1、简单聚类假设有n个基因表达数据向量分别为X1,X2,…,XN
令任意一个基因的表达向量为第一个聚类的中心依次处理其它基因在处理第i个基因时,首先计算该基因的表达数据向量与现有各类中心的距离假设与第j类的距离Dij最小,并且Dij<T,则将基因i分配到第j类;否则生成一个新类,该类的中心为第i个基因的表达向量。2、层次式聚类
3、K平均聚类
任意选取K个基因表达向量作为初始聚类中心
Z1,Z2,…,Zk
反复迭代计算如果||X-Zj(l)||<||X-Zi(l)||(i=1,2,…,K,i
j),则将X所代表的基因归于第j类。按照上述办法处理所有的基因;经过上述处理,聚类可能发生变化,因此需要重新计算K个新聚类中心:
对于所有的聚类中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),则迭代结束,得到最后的聚类结果;否则继续进行迭代计算。
4、自组织映射神经网络
图9.12SOM聚类结果示意5、模糊聚类分析方法主要过程:(1)建立模糊相似矩阵(2)生成模糊等价矩阵(3)构建动态聚类图6、聚类结果显示图9.15基因表达模式聚类结果图示分类分析方法
有监督学习
疾病诊断、细胞类型识别样本分类:(例)急性淋巴细胞白血病(ALL)急性髓性白血病(AML)例:两类划分
问题:基因的选择?分类的方法?
贝叶斯分类法支持向量机(SVM)k最近邻法神经网络方法决策树方法
投票分类法(多分类器)
7、主成分分析PCA
图9.13主元素对应特征值图示分析基因表达数据发现与疾病直接相关的基因发现这些基因的活动规律第五节基因调控网络分析一个基因网络由一组生物分子(如基因、蛋白质)以及它们之间的相互作用构成,这些生物分子共同完成一些特定的细胞功能任务。在实际分析过程中,往往以图这种数据结构表示基因网络,图中的节点代表基因或者蛋白质,而节点之间的连线代表基因、蛋白质之间的相互作用。基因网络描述了特定细胞或组织中的功能路径,如代谢、基因调控,信号传导等。图9.16基因表达在化学催化中的作用图9.17代谢路径示例:脯氨酸的生物合成基因表达实际上是细胞、组织、器官受遗传和环境影响的结果。一个基因的转录和表达由细胞的生化状态所决定,在一个基因的转录过程中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。当一个基因通过转录、翻译形成功能基因产物后,它将改变细胞的生化状态,从而直接或间接地影响其它基因的表达,甚至影响自身的表达。多个基因的表达不断变化,使得细胞的生化状态不断地变化。一个基因的表达受其它基因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《汉语阅读教程》课件-16教学课件:汉语阅读教程
- 2025年房屋买卖合同范本3
- 小儿中毒型痢疾的临床护理
- 彩光嫩肤的临床护理
- 儿童急性良性肌炎的临床护理
- 2025年二级建造师之二建建设工程施工管理通关试题库(有答案)
- 初中历史明朝的对外关系课件 2024-2025学年统编版七年级历史下册
- 浙江国企招聘2025杭州市临安区城市发展投资集团有限公司下属子公司招聘8人笔试参考题库附带答案详解
- 2025果园承包合同
- 沈阳9年级数学试卷及答案
- 【MOOC】天文探秘-南京大学 中国大学慕课MOOC答案
- 《老年人合理用药》课件
- 实验动物生物样本采集规范
- 《酸和碱化学性质》课件
- 大数据与会计函授专科毕业实习报告
- 6.3价值的创造和实现 说课课件高中政治统编版必修四哲学与文化
- 心脑血管疾病预防课件
- 基于51单片机数字温度计设计论文
- 铁路内燃机车司机(高级工)理论考试题库(浓缩600题)
- 小儿肺炎中医护理
- 2024年广东省中考数学试卷(原卷版)
评论
0/150
提交评论