数据挖掘与基因表达调控信息分析ppt课件_第1页
数据挖掘与基因表达调控信息分析ppt课件_第2页
数据挖掘与基因表达调控信息分析ppt课件_第3页
数据挖掘与基因表达调控信息分析ppt课件_第4页
数据挖掘与基因表达调控信息分析ppt课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章第九章 数据发掘与基因表达调控信息分析数据发掘与基因表达调控信息分析2主讲人:孙主讲人:孙 啸啸制造人制造人 :刘志华:刘志华东南大学东南大学 吴健雄实验室吴健雄实验室第四节第四节 基因表达数据的聚类分析基因表达数据的聚类分析基因表达数据主要来自于两个方面:基因表达数据主要来自于两个方面:一是基因芯片,这是最主要的表达数一是基因芯片,这是最主要的表达数据来源,利用基因芯片技术可以大规据来源,利用基因芯片技术可以大规模并行获取基因转录结果模并行获取基因转录结果mRNA的数的数据。据。表达系列分析表达系列分析SAGE和差别显示、蛋和差别显示、蛋白质芯片等是快速检测蛋白质及其含白质芯片等是快速

2、检测蛋白质及其含量的另一类技术。量的另一类技术。聚类分析是方式识别中一种非常有吸聚类分析是方式识别中一种非常有吸引力的方法,特别适用于方式分类数引力的方法,特别适用于方式分类数不知道的情况。不知道的情况。从机器学习的角度来看,有两种根本从机器学习的角度来看,有两种根本的聚类分析:的聚类分析:有教师聚类有教师聚类无教师聚类无教师聚类基因表达数据聚类分析普通包括以下基因表达数据聚类分析普通包括以下几个步骤:几个步骤:确定基因表达的数据确定基因表达的数据计算类似性矩阵,各个矩阵元计算类似性矩阵,各个矩阵元素代表两个基因的表达能否类似素代表两个基因的表达能否类似选择算法进展聚类分析选择算法进展聚类分析

3、显示分析结果。显示分析结果。 对数据进展聚类分析之前,必需将包含在基对数据进展聚类分析之前,必需将包含在基因表达矩阵中的数据进展类似程度分析,并因表达矩阵中的数据进展类似程度分析,并且对分析结果进展量化。且对分析结果进展量化。 通常情况下,类似往往被赋于一个较大的量通常情况下,类似往往被赋于一个较大的量化的值,而不类似那么由一个较小的量化的化的值,而不类似那么由一个较小的量化的值来表示。值来表示。在实践计算中,往往以间隔替代类似的概念,在实践计算中,往往以间隔替代类似的概念,类似性度量被转化为两个基因表达方式之间类似性度量被转化为两个基因表达方式之间的间隔。间隔越小,表达方式越相近,反之,的间

4、隔。间隔越小,表达方式越相近,反之,那么表达方式差别大。那么表达方式差别大。 几种常用的聚类方法 1简单聚类2层次式聚类3K平均聚类4自组织映射神经网络5. 模糊聚类分析方法6、聚类分析结果的树图表示1、简单聚类假设有n个基因表达数据向量分别为X1, X2, XN 令恣意一个基因的表达向量为第一个聚类的中心 依次处置其它基因 在处置第i个基因时,首先计算该基因的表达数据向量与现有各类中心的间隔 假设与第j类的间隔Dij最小,并且DijT,那么将基因i分配到第j类;否那么生成一个新类,该类的中心为第i个基因的表达向量。2、层次式聚类、层次式聚类 3、K平均聚类平均聚类 恣意选取恣意选取K个基因表

5、达向量作为初个基因表达向量作为初始聚类中心始聚类中心 Z1, Z2, Zk 反复迭代计算反复迭代计算 假设假设|X-Zj(l)| |X-Zi(l)|(i=1,2,K,ij),那么将,那么将X所所代表的基因归于第代表的基因归于第j类。按照上述类。按照上述方法处置一切的基因;方法处置一切的基因; 经过上述处置,聚类能够发生变化,经过上述处置,聚类能够发生变化,因此需求重新计算因此需求重新计算K个新聚类中心:个新聚类中心: 对于一切的聚类中心,假设对于一切的聚类中心,假设Zj(l+1)=Zj(l)(j=1,2,K),那么迭,那么迭代终了,得到最后的聚类结果;否代终了,得到最后的聚类结果;否那么继续进

6、展迭代计算。那么继续进展迭代计算。 )(1) 1(lfXjjjXNlZ4、自组织映射神经网络、自组织映射神经网络 图9.12 SOM聚类结果表示5、模糊聚类分析方法、模糊聚类分析方法 主要过程:主要过程:1建立模糊类似矩阵建立模糊类似矩阵2生成模糊等价矩阵生成模糊等价矩阵3构建动态聚类图构建动态聚类图6、聚类结果显示、聚类结果显示 图图9.15 基因表达方式聚类结果图示基因表达方式聚类结果图示分类分析方法分类分析方法 有监视学习有监视学习 疾病诊断、细胞类型疾病诊断、细胞类型识别识别样本分类:例样本分类:例 急性淋巴细胞白血病急性淋巴细胞白血病(ALL)急性髓性白血病急性髓性白血病(AML)例

7、:两类划分例:两类划分 问题:问题: 基因的选择?基因的选择? 分类的方法?分类的方法? 贝叶斯分类法贝叶斯分类法 支持向量机支持向量机SVM k最近邻法最近邻法 神经网络方法神经网络方法 决策树方法决策树方法 投票分类法多分类器投票分类法多分类器 7、主成分分析、主成分分析PCA 图图9.13 主元素对应特征值图示主元素对应特征值图示分析基因表达数据分析基因表达数据发现与疾病直接相关的基因发现与疾病直接相关的基因发现这些基因的活动规律发现这些基因的活动规律第五节第五节 基因调控网络分析基因调控网络分析一个基因网络由一组生物分子如基因、蛋一个基因网络由一组生物分子如基因、蛋白质以及它们之间的相

8、互作用构成,这些白质以及它们之间的相互作用构成,这些生物分子共同完成一些特定的细胞功能义务。生物分子共同完成一些特定的细胞功能义务。在实践分析过程中,往往以图这种数据构造在实践分析过程中,往往以图这种数据构造表示基因网络,图中的节点代表基因或者蛋表示基因网络,图中的节点代表基因或者蛋白质,而节点之间的连线代表基因、蛋白质白质,而节点之间的连线代表基因、蛋白质之间的相互作用。基因网络描画了特定细胞之间的相互作用。基因网络描画了特定细胞或组织中的功能途径,如代谢、基因调控,或组织中的功能途径,如代谢、基因调控,信号传导等。信号传导等。图图9.16 基因表达在化学催化中的作用基因表达在化学催化中的作

9、用ProB 谷氨酰激酶 反应 表达 催化 谷氨酸盐 谷氨酰磷酸脂 A TP ADP 产生 产生 底物 底物 ProB 谷 氨 酰 激 酶 反 应 表 达 催 化 谷 氨 酸 盐 谷 氨 酰 磷 酸 脂 ATP NADPH;H+ 产 生 ProA 谷 氨 酰 磷 酸 脂 还 原 酶 反 应 表 达 催 化 谷 氨 酰 半 醛 NADP 产 生 1-吡 咯 啉 -羧 基 NACPH 自 然 产 生 ProC 1-吡 咯 啉-5-羧 基 还 原 酶 反 应 表 达 催 化 脯 氨 酸 NADP 产 生 ADP H2O 抑 制 抑 制 图图9.17 代谢途径例如:脯氨酸的生物合成代谢途径例如:脯氨酸的

10、生物合成基因表达实践上是细胞、组织、器官基因表达实践上是细胞、组织、器官受遗传和环境影响的结果。受遗传和环境影响的结果。一个基因的转录和表达由细胞的生化一个基因的转录和表达由细胞的生化形状所决议,在一个基因的转录过程形状所决议,在一个基因的转录过程中,一组转录因子作用于该基因的启中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。转录因子本身又是其它基因的产物。当一个基因经过转录、翻译形胜利能当一个基因经过转录、翻译形胜利能基因产物后,它将改动细胞的生化形基因产物后,它将改动细胞的生化形状,从而直接或间接地影响其它基因

11、状,从而直接或间接地影响其它基因的表达,甚至影响本身的表达。多个的表达,甚至影响本身的表达。多个基因的表达不断变化,使得细胞的生基因的表达不断变化,使得细胞的生化形状不断地变化。化形状不断地变化。一个基因的表达受其它基因的影响,一个基因的表达受其它基因的影响,而这个基因又会影响其它基因的表达,而这个基因又会影响其它基因的表达,这种相互影响、相互制约关系构成了这种相互影响、相互制约关系构成了复杂的基因表达调控网络。复杂的基因表达调控网络。 基因表达数据之中隐含基因之间的相基因表达数据之中隐含基因之间的相互作用关系,因此可以经过分析基因互作用关系,因此可以经过分析基因表达数据,构建基因调控网络。表

12、达数据,构建基因调控网络。几种基因调控网络模型 1、布尔网络模型A B C A B C系统运转轨迹系统运转轨迹 循环循环 A B C 1 1 1 0 2 1 1 1 3 0 1 1 4 0 0 1 5 0 0 0 6 0 0 0前一个形状前一个形状 后一个形状后一个形状 作用规那么作用规那么(1) A激活激活B(2) B激活激活A和和C(3) C抑制抑制A2、线性组合模型 线性组合模型是一种延续网络模型,在这种模型中,一个基因的表达值是假设干个其它基因表达值的加权和。根本表示方式为:jjijitXwttX)()(3、加权矩阵模型 加权矩阵模型与线性组合模型类似,在该模型中,一个基因的表达值是其

13、它基因表达值的函数。 jjijituWtr)()(4、互信息关联网络 可以用间隔或相关系数作为基因表达方式之间的类似性度量,还可以用另外一种度量方式,即用熵和互信息描画基因与基因的关联。 一个基因表达方式的熵是该方式所含信息量的度量。设X是一个基因表达方式,用下式计算熵:niiixPxPXH12)(log)()(5、基因调控网络实例真核生物生理过程的调控网络GeneNet GeneNet展现了协调方式下基因的整体功能,良好的调控功能和对外界刺激的反响。该基因网具有以下根本功能:(a) 描画执行特定生物功能时所涉及到的整体基因交互作用(b) 描画基因的蛋白质编码(c) 描画基因对外界刺激的传感途径(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论