生物信息学第二版基因表达数据分析_第1页
生物信息学第二版基因表达数据分析_第2页
生物信息学第二版基因表达数据分析_第3页
生物信息学第二版基因表达数据分析_第4页
生物信息学第二版基因表达数据分析_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1生物信息学第二版基因表达数据分析生物信息学第二版基因表达数据分析第一节第一节 引言引言 Introduction基因表达组学与基因组学相比较基因表达组学与基因组学相比较1.表达组信息是动态的;表达组信息是动态的;2.表达组学的数据,更多的是数值分析;表达组学的数据,更多的是数值分析;3.转录组学中除了模式识别外,系统建模也十分重要。转录组学中除了模式识别外,系统建模也十分重要。第二节第二节基因表达测定平台基因表达测定平台与数据库与数据库Microarray Platform and Databases 1.cDNA 芯片芯片 2.Affymetrix芯片芯片 3.下一代测序技术技术如:

2、下一代测序技术技术如:Roche-454, Illumina MiSeq,Ion Torrent PGM 一、基因表达测定平台介绍一、基因表达测定平台介绍二、二、MicroarrayMicroarray技术与技术与RNA-SeqRNA-Seq技术的比较技术的比较常用基因表达数据库常用基因表达数据库名称名称数据库内容数据库内容Gene Expression Omnibus (GEO)目前最常用的基因表达数据(目前最常用的基因表达数据(NCBI)Expression Atlas欧洲生物信息学中心的基因表达数据库欧洲生物信息学中心的基因表达数据库SMDStanford基因表达数据库基因表达数据库RN

3、A-Seq Atlas正常组织的基因表达谱数据正常组织的基因表达谱数据GEPdb基因型、表型和基因表达关系基因型、表型和基因表达关系GXD老鼠发育基因表达信息老鼠发育基因表达信息EMAGE老鼠胚胎的时空表达信息老鼠胚胎的时空表达信息AGEMAP老鼠老化的基因表达数据老鼠老化的基因表达数据数据库名称数据库名称数据库内容数据库内容GENT肿瘤组织与正常组织的表达数据肿瘤组织与正常组织的表达数据ParkDB帕金森病的基因表达数据库帕金森病的基因表达数据库cMAP小分子化合物对人细胞基因表达的影响小分子化合物对人细胞基因表达的影响Anticancer drug gene expression data

4、base抗癌化合物的基因表达数据抗癌化合物的基因表达数据CGED癌症基因表达数据库(包括临床信息)癌症基因表达数据库(包括临床信息)Preprocessing of Microarray Data and Analysis of Differentially Expression Gene )22/()11(BCHICHBCHICHRatio一、基因芯片数据预处理一、基因芯片数据预处理(一)基因芯片数据的提取(一)基因芯片数据的提取cDNA微阵列芯片荧光信号微阵列芯片荧光信号 定性信息提取:定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总

5、后的基因水平的荧定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值光信号强度值 原位合成芯片原位合成芯片对芯片数据做对数化转换后,数据可近似正态分布对芯片数据做对数化转换后,数据可近似正态分布 高表达基因的数据缺失高表达基因的数据缺失missing values = 0 expressionmissing values = 1 expression (arbitrary signal)missing values = row (gene)averagemissing values = column (array)average选择与具有缺失值基因的选择与具有缺失值基因的k个邻居基因个邻居

6、基因用邻居基因的加权平均估计缺失值用邻居基因的加权平均估计缺失值参数参数邻居个数邻居个数距离函数距离函数假设:假设: R=k*G方法方法:c=log2k:中值或均值:中值或均值全局标化全局标化(global normalization)为什么为什么方法方法: scatter-plot smoother lowess拟合拟合 c(A)为)为M 对对A 的拟合函数的拟合函数标化后的数据标化后的数据为什么为什么 一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。系统误差。method(3)片间标化()片间标化(multi

7、ple-slide normalization)(1) 提取定性信号提取定性信号(2)提取定量信号)提取定量信号1分析方法分析方法23456RG2log)/(log2GRM = log2R - log2GA = (log2R + log2G)/2789实验条件下的表达值实验条件下的表达值对照条件下的表达值对照条件下的表达值 通常以通常以2倍差异为阈值,判断基因是否差异表达倍差异为阈值,判断基因是否差异表达 运用运用t 检验法可以判断基因在两不同条件下的表检验法可以判断基因在两不同条件下的表达差异是否具有显著性达差异是否具有显著性 两种或多种条件间下基因表达量的比较,用方差分析。两种或多种条件间

8、下基因表达量的比较,用方差分析。它将基因在样本之间的总变异分解为组间变异和组内它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达是否存在,如果存在则表明基因在不同条件下的表达有差异。有差异。 GSE5281数据是利用数据是利用Affymetrix公司的寡核苷酸芯片公司的寡核苷酸芯片HG-U133 Plus 2.0 Array检测阿尔海茨默病病人和正常老年人大脑中六个不同区域的检测阿尔海茨默病病人和正常老年人大脑中六个不同区域的基因表达情况,本例仅选择其中一个区域

9、基因表达情况,本例仅选择其中一个区域内侧颞回(内侧颞回(middle temporal gyrus,MTG)的数据进行说明)的数据进行说明 。第一步:导入芯片数据第一步:导入芯片数据 使用使用“import data”下的下的“General Format Importer”导入基因芯片导入基因芯片数据,数据间用数据,数据间用Tab键分隔(或使用键分隔(或使用Excell文件),也可使用文件),也可使用“Data Import Wizard”进行导入进行导入 。导入芯片数据导入芯片数据 第二步:选择文件类型第二步:选择文件类型 每张芯片用单独的文件存储每张芯片用单独的文件存储,多个文件保存在一

10、个文件夹多个文件保存在一个文件夹 “Array are saved in separate files stored in one folder” 若多张芯片数据组织成一个矩阵形式若多张芯片数据组织成一个矩阵形式,存储在一个文件中存储在一个文件中“Array are saved in horizontally aligned file” 选择记忆芯片数据文件类型选择记忆芯片数据文件类型 第三步:选择芯片数据文件所存储的路径第三步:选择芯片数据文件所存储的路径 注意路径中不能包含中文注意路径中不能包含中文 第四步:选择基因芯片平台第四步:选择基因芯片平台 第五步:选择文件格式第五步:选择文件格式

11、 第六步:数据的过滤和标准化第六步:数据的过滤和标准化 第七步:基因注释第七步:基因注释 由于基因芯片检测的是探针的表达情况,而探针和基因之间往往不由于基因芯片检测的是探针的表达情况,而探针和基因之间往往不是一一对应,所以,在数据导入后软件会询问是否需要进行基因注是一一对应,所以,在数据导入后软件会询问是否需要进行基因注释,及是否需要将探针转换成相应的基因名释,及是否需要将探针转换成相应的基因名(gene symbol)(gene symbol)或或EntrezEntrez ID ID第八步:运行第八步:运行SAM SAM FDR=0.01, delta=0.68 选出选出2209个在阿尔海茨

12、默病病人和正常人脑组织中表达发生显著个在阿尔海茨默病病人和正常人脑组织中表达发生显著性改变的基因。性改变的基因。 SAMSAM的参数设定的参数设定第九步:第九步:SAM PlotSAM Plot SAM PlotSAM Plot Clustering Analysis and Classification 基于物体的相似性将物体分成不同的组基于物体的相似性将物体分成不同的组 样本样本基因基因三、距离(相似性)尺度函数三、距离(相似性)尺度函数几何距离几何距离 线性相关系数线性相关系数非线性相关系数非线性相关系数 互信息互信息 (一)层次聚类(一)层次聚类类间相似性度量方法类间相似性度量方法20

13、00年年Alizadeh等运用等运用基因芯片数据,基于层基因芯片数据,基于层次聚类算法证实了次聚类算法证实了DLBCL肿瘤病人在肿瘤病人在mRNA层面确实存在两层面确实存在两种亚型种亚型基本思想基本思想基本思想基本思想在不断的学习过在不断的学习过程中,输出层的程中,输出层的神经元根据输入神经元根据输入样本的特点进行样本的特点进行权重调整,最后权重调整,最后拓朴结构发生了拓朴结构发生了改变。改变。 双向聚类就是识别基因表达谱矩阵中同质的子矩阵,双向聚类就是识别基因表达谱矩阵中同质的子矩阵,运用特定的基因子类识别样本子类。运用特定的基因子类识别样本子类。 双向聚类识别同质的子结构双向聚类识别同质的

14、子结构(二)(二)k k 近邻分类法近邻分类法 基因基因1 1基因基因2 2 判断新样本类别判断新样本类别决策树应用于肿瘤基因表达谱的分类分析决策树应用于肿瘤基因表达谱的分类分析决策树分类算法决策树分类算法output训练集训练集决策树决策树input决策树的修剪决策树的修剪消除决策树的过适应问题消除决策树的过适应问题 消除训练集中的异常和噪声消除训练集中的异常和噪声2.分类效能分类效能灵敏度(灵敏度(sensitivity,recall)特异性(特异性(specificity)阳性预测率(阳性预测率(positive predictive value,precision)阴性预测率(阴性预测

15、率(negative predictive value)均衡正确率(均衡正确率(balanced accuracy)正确率(正确率(correct or accuracy)Software Tools for Gene Expression Profile Analysis一、一、R R程序示例程序示例R程序程序说明说明a = 49 ;sqrt(a)赋值可用赋值可用“=”,也可用,也可用“-”;R的语的语句可以写在一行,用句可以写在一行,用“;”分开分开seq(0, 5, length=6)seq 是是R的一个函数;具体可以输入命的一个函数;具体可以输入命令令“? seq”查找查找seq的具体

16、使用方法的具体使用方法plot(sin(seq(0, 2*pi, length=100)plot 是画图函数,是画图函数,a = The dog ate my homework 是一个字符串是一个字符串sub(dog,cat,a)sub的功能是将的功能是将a中的中的“dog”用用“cat”替替代,代, 结果为结果为The cat ate my homework“a = (1+1=3););aa 是一个逻辑变量,是一个逻辑变量, 结果为:结果为:FALSER R程序程序说明说明x - 1:6“:”在这里是在这里是from : to的意思的意思,结结果是果是1,2,3,4,5,6。dim(x)-c

17、(3,4); xdim函数是维数的意思,这里的功能是函数是维数的意思,这里的功能是将将x变为变为3X4维的基阵维的基阵a = c(7,5,1); a2C函数的功能是组合,这里将函数的功能是组合,这里将3个数组合个数组合赋值给赋值给a, a2是是5doe = list(name=john,age=28,married=F)doe是是list, 与向量的差别是可以由不同的与向量的差别是可以由不同的变量组合变量组合doe$name; doe$ageR语言中,特殊符号的作用语言中,特殊符号的作用BioConductorBioConductor 命令命令说明说明source(http:/biocondu

18、/biocLite.R);biocLite(c(affy, limma)首先在首先在R环境下安装环境下安装affy, limma两个程序包。两个程序包。 library(affy) library(limma)将两个软件包装载,前者用于将两个软件包装载,前者用于Affymetrix预处理;后者用于预处理;后者用于差异表达分析差异表达分析phenoData - read.AnnotatedDataFrame(system.file(extdata, pdata.txt, package=arrays)将实验数据的表型信息,读给将实验数据的表型信息,读给变量变量phenoData, 数据在安装数据在安装好的系统里好的系统里BioConductorBioConductor 命令命令说明说明celfiles - system.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论