生物信息学讲义——基因芯片数据_第1页
生物信息学讲义——基因芯片数据_第2页
生物信息学讲义——基因芯片数据_第3页
生物信息学讲义——基因芯片数据_第4页
生物信息学讲义——基因芯片数据_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 基因芯片(基因芯片(DNA微阵列)是上世微阵列)是上世纪九十年代,随着计算机技术和基因组纪九十年代,随着计算机技术和基因组测序技术的发展而发展起来的一种新型测序技术的发展而发展起来的一种新型的生物技术,它能够平行、高通量地监的生物技术,它能够平行、高通量地监测成千上万基因转录本的表达水平,从测成千上万基因转录本的表达水平,从而为系统地监测细胞内而为系统地监测细胞内mRNA分子的表分子的表达状态进而推测细胞的功能状态提供了达状态进而推测细胞的功能状态提供了可能。可能。一、一、cDNA微阵列芯片微阵列芯片 寡核苷酸芯片类似于寡核苷酸芯片类似于cDNA芯片,但是芯片,但是在探针的设计上优于在探针的

2、设计上优于cDNA芯片,它的探针芯片,它的探针并不是来源于并不是来源于cDNA克隆,而是预先设计并克隆,而是预先设计并合成的代表每个基因特异片段的约合成的代表每个基因特异片段的约50mer左右长度的序列,然后将其点样到特定的左右长度的序列,然后将其点样到特定的基质上制备成芯片,从而克服了探针序列基质上制备成芯片,从而克服了探针序列太长导致的非特异性交叉杂交和由于探针太长导致的非特异性交叉杂交和由于探针杂交条件变化巨大导致的数据结果的不可杂交条件变化巨大导致的数据结果的不可靠。靠。 二、寡核苷酸芯片二、寡核苷酸芯片三、原位合成芯片三、原位合成芯片四、光纤微珠芯片四、光纤微珠芯片(Bead Arr

3、ay)五、基因表达仓库五、基因表达仓库 Gene Expression OmnibusGene Expression Omnibus,GEOGEO六、斯坦福微阵列数据库六、斯坦福微阵列数据库 The Stanford MicroarrayThe Stanford Microarray DatabaseDatabase,SMD SMD 七、其他常用基因表达数据库七、其他常用基因表达数据库 ArrayExpressArrayExpress、CGEDCGED一、基因芯片数据提取一、基因芯片数据提取(一一) cDNA微阵列芯片微阵列芯片)22/()11(BCHICHBCHICHRatio(二二) 原位

4、合成芯片原位合成芯片定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值 二、对数转换二、对数转换对芯片数据做对数化转换后,数据可近似正态分布 三、数据过滤三、数据过滤数据过滤的目的是去除表达水平是负值或很小的数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据。数据或者明显的噪声数据。n过闪耀现象过闪耀现象 n物理因素导致的信号污染物理因素导致的信号污染 n杂交效能低杂交效能低n点样问题点样问题n其他其他四、补缺失值四、补缺失值(一一)数据缺失类型数据缺失类型n非随机缺失非随机缺失 基因表达丰度过高或

5、过低基因表达丰度过高或过低n随机缺失随机缺失 与基因表达丰度无关,数据与基因表达丰度无关,数据 补缺主要针对随机缺失情况补缺主要针对随机缺失情况(二二)数据补缺方法数据补缺方法1. 简单补缺法简单补缺法nmissing values = 0 expressionnmissing values = 1 expression (arbitrary signal)nmissing values = row (gene) averagenmissing values = column (array) average2. k近邻法近邻法n选择与具有缺失值基因的选择与具有缺失值基因的k k个邻居基因个邻居

6、基因n用邻居基因的加权平均估用邻居基因的加权平均估计缺失值计缺失值参数参数: :n邻居个数邻居个数n距离函数距离函数3. 回归法回归法4. 其他方法其他方法五、数据标准化五、数据标准化(一一)为什么要进行数据标准化为什么要进行数据标准化存在不同来源的系统误差存在不同来源的系统误差1.1.染料物理特性差异染料物理特性差异( (热光敏感性,半衰期等热光敏感性,半衰期等) )2.2.染料的结合效率染料的结合效率3.3.点样针差异点样针差异4.4.数据收集过程中的扫描设施数据收集过程中的扫描设施5.5.不同芯片间的差异不同芯片间的差异6.6.实验条件差异实验条件差异(二二)运用哪些基因进行标准化处理运

7、用哪些基因进行标准化处理n芯片上大部分基因芯片上大部分基因( (假设芯片上大部分基因在不同假设芯片上大部分基因在不同条件下表达量相同条件下表达量相同) ) n不同条件间稳定表达的基因不同条件间稳定表达的基因( (如持家基因如持家基因) )n控制序列控制序列(spiked control)(spiked control) 在不同条件下表达水平相同的合成在不同条件下表达水平相同的合成DNADNA序列或外源序列或外源的的DNADNA序列。序列。1. 片内标化片内标化(within-slide normalization)(1) 全局标化全局标化(global normalization)(三三) c

8、DNA芯片数据标准化处理芯片数据标准化处理(2) 荧光强度依赖的标化荧光强度依赖的标化(intensity dependent normalization)(3) 点样针依赖的标化点样针依赖的标化(within-print-tip-group normalization)(4) 尺度调整尺度调整(scale adjustment)2. 片间标化片间标化(multiple-slide normalization)n线性标化法线性标化法(linear scaling methods)(linear scaling methods) 与芯片内标化的尺度调整与芯片内标化的尺度调整(scale adju

9、stment) (scale adjustment) 方法类似方法类似n非线性标化法非线性标化法(non-linear methods)(non-linear methods)n分位数标化法分位数标化法(quantile normalization)(quantile normalization) 两张芯片的表达数据的分位数标化至相同,即分两张芯片的表达数据的分位数标化至相同,即分布于对角线上布于对角线上3. 染色互换实验染色互换实验(dye-swap experiment ) 的标化的标化1. 提取定性信号提取定性信号(1)(1)对每个探针对计算对每个探针对计算R RR R = (= (PM

10、PM MM MM ) / () / (PMPM + + MM MM ) )(2)(2)比较比较R R与定义的阈值与定义的阈值Tau(Tau(小的正值,默小的正值,默认值为认值为0.015 ).0.015 ).(3) (3) 单侧的单侧的WilcoxonWilcoxons Signed Rank s Signed Rank testtest产生产生p p值,根据值,根据p p值定义定量信号值值定义定量信号值 Present call Present call Marginal call Marginal call Absent call Absent call (四四) 芯片数据标准化芯片数据标

11、准化2. 提取定量信号提取定量信号(1)分析步骤分析步骤(2)分析方法分析方法RG2log)/(log2GRM = log2R - log2GA = (log2R + log2G)/2一、倍数法一、倍数法cIxxf 实验条件下的表达值通常以2倍差异为阈值,判断基因是否差异表达二、二、t检验法检验法22212121/nsnsxxt运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性 三、方差分析三、方差分析2)(ijijxxSS总2)(xxnSSiii组间2)(ijiijxxSS组内组间组间组间vMSSS组内组内组内vMSSS组内组间MSMSF 方差分析可用于基因在两种或多种条件间的表

12、达量的比较,它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。四、四、SAM (significance analysis of microarrays)(一一) 多重假设检验问题多重假设检验问题(二二) 分析步骤分析步骤021ssxxdpdpEdPd1五、信息熵五、信息熵imiippHlog1基于物体的相似性将物体分成不同的组 样本基因基因表达谱(一一)层次聚类层次聚类(二二)k均值聚类均值聚类基本思想(三三)自组织映射聚类自组织映射聚类基本思想:在不断的学习过程中,输出层的神经元根据输入样本的特

13、点进行权重调整,最后拓朴结构发生了改变 (四四)双向聚类双向聚类双向聚类就是识别基因表达谱矩阵中同质的子矩阵,运用特定的基因子类识别样本子类。 21, 0, 0)(LLbxwxgT基因1基因2)(0ssmxxdikiikikikikiikdssmxx)(00)(ikikiikdssmxx)(ikikikddsigndkpiiikikssxxxlog2)()()(1202*lxC)(*)(min)(*xxkkl(一一)基本思想基本思想(二二)分析步骤:提取分类规则,进行分类预测分析步骤:提取分类规则,进行分类预测决策树分类算法output训练集决策树input(三三)衡量准则衡量准则ikiipp

14、NH12log)()()()(2211NHnnNHnnNHGainkjjpNGini121)()()()(2211NGininnNGininnNGiniGini(四四)决策树的修剪决策树的修剪(一一)构建训练集和检验集构建训练集和检验集(二二)分类效能分类效能pcpcccppppxaxaxayxaxaxayxaxaxay22112222121212121111pcpcccppppxaxaxayxaxaxayxaxaxay22112222121212121111新指标是原来基因的线性组合 (一一)扩大的基因表达谱矩阵扩大的基因表达谱矩阵(二二)时间点延迟的共表达方式时间点延迟的共表达方式injiijjiij

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论