生物信息学第二基因表达数据分析演示文稿_第1页
生物信息学第二基因表达数据分析演示文稿_第2页
生物信息学第二基因表达数据分析演示文稿_第3页
生物信息学第二基因表达数据分析演示文稿_第4页
生物信息学第二基因表达数据分析演示文稿_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学第二版基因表达数据分析演示文稿目前一页\总数一百一十一页\编于十九点第五章

基因表达数据分析苏州大学沈百荣首都医科大学李冬果生物信息学目前二页\总数一百一十一页\编于十九点第一节引言Introduction目前三页\总数一百一十一页\编于十九点基因表达组学与基因组学相比较表达组信息是动态的;表达组学的数据,更多的是数值分析;转录组学中除了模式识别外,系统建模也十分重要。目前四页\总数一百一十一页\编于十九点真核生物基因表达的基本方式目前五页\总数一百一十一页\编于十九点基因表达调控示意图目前六页\总数一百一十一页\编于十九点基因表达的时空性目前七页\总数一百一十一页\编于十九点基因表达测定方法RT-qPCR目前八页\总数一百一十一页\编于十九点近20年来三种不同高通量基因表达测定技术的应用趋势目前九页\总数一百一十一页\编于十九点高通量基因表达测定的应用实例1.测定组织特异性基因表达2.基因功能分类3.癌症的分类和预测4.临床治疗效果预测5.基因与小分子药物、疾病之间的关联6.干细胞的全能型、自我更新和细胞命运决定研究目前十页\总数一百一十一页\编于十九点7.动植物的发育研究8.环境对细胞基因表达的作用9.环境监测10.物种的繁育目前十一页\总数一百一十一页\编于十九点第二节基因表达测定平台与数据库MicroarrayPlatformandDatabases目前十二页\总数一百一十一页\编于十九点1.cDNA芯片2.Affymetrix芯片

3.下一代测序技术技术如:Roche-454,IlluminaMiSeq,IonTorrentPGM一、基因表达测定平台介绍目前十三页\总数一百一十一页\编于十九点二、Microarray技术与RNA-Seq技术的比较1.RNA-Seq技术对没有已知参考基因组信息的非模式生物,也可测定转录信息;2.RNA-Seq技术可以测定转录边界的精度达到一个碱基,RNA-Seq可以用来研究复杂的转录关系;3.RNA-Seq可以同时测定序列的变异;4.RNA-Seq背景信号很小,测定的动态范围很大。目前十四页\总数一百一十一页\编于十九点RNA-Seq在基因表达的定量上准确性很高;RNA-Seq在测定技术上和生物上重复性很高;RNA-Seq的测定需要很少的RNA样本。在应用上RNA-Seq技术对ISOFORM的测定和等位基因的区分比芯片技术有很好的优势。目前十五页\总数一百一十一页\编于十九点三、基因表达数据库常用基因表达数据库名称数据库内容GeneExpressionOmnibus(GEO)目前最常用的基因表达数据(NCBI)ExpressionAtlas欧洲生物信息学中心的基因表达数据库SMDStanford基因表达数据库RNA-SeqAtlas正常组织的基因表达谱数据GEPdb基因型、表型和基因表达关系GXD老鼠发育基因表达信息EMAGE老鼠胚胎的时空表达信息AGEMAP老鼠老化的基因表达数据目前十六页\总数一百一十一页\编于十九点疾病相关基因表达数据库数据库名称数据库内容GENT肿瘤组织与正常组织的表达数据ParkDB帕金森病的基因表达数据库cMAP小分子化合物对人细胞基因表达的影响Anticancerdruggeneexpressiondatabase抗癌化合物的基因表达数据CGED癌症基因表达数据库(包括临床信息)目前十七页\总数一百一十一页\编于十九点第三节

数据预处理与差异表达分析

PreprocessingofMicroarrayDataandAnalysisofDifferentiallyExpressionGene目前十八页\总数一百一十一页\编于十九点一、基因芯片数据预处理(一)基因芯片数据的提取cDNA微阵列芯片荧光信号目前十九页\总数一百一十一页\编于十九点定性信息提取:P/A/M(Present/Absent/Marginal)定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值原位合成芯片目前二十页\总数一百一十一页\编于十九点(二)数据对数化转换对芯片数据做对数化转换后,数据可近似正态分布目前二十一页\总数一百一十一页\编于十九点(三)数据过滤数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据。过闪耀现象物理因素导致的信号污染杂交效能低点样问题其他目前二十二页\总数一百一十一页\编于十九点(四)补缺失值1.数据缺失类型非随机缺失基因表达丰度过高或过低。随机缺失与基因表达丰度无关,数据补缺主要针对随机缺失情况。目前二十三页\总数一百一十一页\编于十九点高表达基因的数据缺失目前二十四页\总数一百一十一页\编于十九点2.数据补缺方法(1)简单补缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average目前二十五页\总数一百一十一页\编于十九点(2)k近邻法选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数邻居个数距离函数目前二十六页\总数一百一十一页\编于十九点目前二十七页\总数一百一十一页\编于十九点(3)回归法目前二十八页\总数一百一十一页\编于十九点(五)数据标准化1.为什么要进行数据标准化:存在不同来源的系统误差染料物理特性差异(热光敏感性,半衰期等)染料的结合效率点样针差异数据收集过程中的扫描设施不同芯片间的差异实验条件差异目前二十九页\总数一百一十一页\编于十九点2.运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如持家基因)控制序列(spikedcontrol)在不同条件下表达水平相同的合成DNA序列或外源的DNA序列。目前三十页\总数一百一十一页\编于十九点3.cDNA芯片数据标准化处理(1)片内标化(within-slidenormalization)方法全局标化、荧光强度依赖的标准化、点样针组内标准化。目前三十一页\总数一百一十一页\编于十九点假设:R=k*G方法:c=log2k:中值或均值全局标化(globalnormalization)目前三十二页\总数一百一十一页\编于十九点荧光强度依赖的标化(intensitydependentnormalization)为什么方法:scatter-plotsmootherlowess拟合

c(A)为M

对A的拟合函数标化后的数据目前三十三页\总数一百一十一页\编于十九点点样针依赖的标化(within-print-tip-groupnormalization)为什么一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。method目前三十四页\总数一百一十一页\编于十九点(2)染色互换实验(dye-swapexperiment)的标化实验组对照组芯片1cy5(R)cy3(G’)

芯片2cy3(G)cy5(R’)前提假设:c︽c’方法:目前三十五页\总数一百一十一页\编于十九点线性标化法(linearscalingmethods)与芯片内标化的尺度调整(scaleadjustment)方法类似。非线性标化法(non-linearmethods)分位数标化法(quantilenormalization)两张芯片的表达数据的分位数标化至相同,即分布于对角线上。(3)片间标化(multiple-slidenormalization)目前三十六页\总数一百一十一页\编于十九点4.芯片数据标准化对每个探针对计算RR=(PM–MM)/(PM+MM)比较R与定义的阈值Tau(小的正值,默认值为0.015)单侧的Wilcoxon’sSignedRanktest产生p值,根据p值定义定量信号值

PresentcallMarginalcallAbsentcall(1)

提取定性信号目前三十七页\总数一百一十一页\编于十九点目前三十八页\总数一百一十一页\编于十九点分析步骤获取探针水平数据→背景值效正→标准化处理→探针特异背景值效正→探针集信号的汇总(2)提取定量信号目前三十九页\总数一百一十一页\编于十九点1分析方法目前四十页\总数一百一十一页\编于十九点2目前四十一页\总数一百一十一页\编于十九点3目前四十二页\总数一百一十一页\编于十九点4目前四十三页\总数一百一十一页\编于十九点5目前四十四页\总数一百一十一页\编于十九点6目前四十五页\总数一百一十一页\编于十九点M=log2R-log2GA=(log2R+log2G)/27目前四十六页\总数一百一十一页\编于十九点8目前四十七页\总数一百一十一页\编于十九点9目前四十八页\总数一百一十一页\编于十九点前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios的方差也不同。目前四十九页\总数一百一十一页\编于十九点目前五十页\总数一百一十一页\编于十九点二、差异表达分析基本原理与方法(一)倍数法实验条件下的表达值对照条件下的表达值通常以2倍差异为阈值,判断基因是否差异表达目前五十一页\总数一百一十一页\编于十九点(二)t检验法

运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性

目前五十二页\总数一百一十一页\编于十九点(三)方差分析

目前五十三页\总数一百一十一页\编于十九点两种或多种条件间下基因表达量的比较,用方差分析。它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。目前五十四页\总数一百一十一页\编于十九点(四)SAM法(significanceanalysisofmicroarrays)1.多重假设检验问题Ⅰ型错误(假阳性)在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。Ⅱ型错误(假阴性)不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。目前五十五页\总数一百一十一页\编于十九点在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(falsediscoveryrate)值等。目前五十六页\总数一百一十一页\编于十九点2.分析步骤计算统计量扰动实验条件,计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量目前五十七页\总数一百一十一页\编于十九点确定差异表达基因阈值以最小的正值和最大的负值作为统计阈值,运用该阈值,统计在值中超过该阈值的假阳性基因个数,估计假阳性发现率FDR值。调整FDR值的大小得到差异表达基因。目前五十八页\总数一百一十一页\编于十九点目前五十九页\总数一百一十一页\编于十九点(五)信息熵运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。目前六十页\总数一百一十一页\编于十九点三、差异表达分析应用以一套阿尔海茨默病相关的基因表达谱数据(GSE5281)为例,详细介绍如何利用BRB-ArrayTools软件进行数据预处理,并对处理过的标准化的基因芯片数据利用SAM软件进行差异表达分析的过程。目前六十一页\总数一百一十一页\编于十九点GSE5281数据是利用Affymetrix公司的寡核苷酸芯片HG-U133Plus2.0Array检测阿尔海茨默病病人和正常老年人大脑中六个不同区域的基因表达情况,本例仅选择其中一个区域—内侧颞回(middletemporalgyrus,MTG)的数据进行说明。目前六十二页\总数一百一十一页\编于十九点第一步:导入芯片数据使用“importdata”下的“GeneralFormatImporter”导入基因芯片数据,数据间用Tab键分隔(或使用Excell文件),也可使用“DataImportWizard”进行导入。目前六十三页\总数一百一十一页\编于十九点导入芯片数据目前六十四页\总数一百一十一页\编于十九点第二步:选择文件类型每张芯片用单独的文件存储,多个文件保存在一个文件夹

“Arrayaresavedinseparatefilesstoredinonefolder”若多张芯片数据组织成一个矩阵形式,存储在一个文件中“Arrayaresavedinhorizontallyalignedfile”目前六十五页\总数一百一十一页\编于十九点选择记忆芯片数据文件类型目前六十六页\总数一百一十一页\编于十九点第三步:选择芯片数据文件所存储的路径注意路径中不能包含中文目前六十七页\总数一百一十一页\编于十九点第四步:选择基因芯片平台目前六十八页\总数一百一十一页\编于十九点第五步:选择文件格式目前六十九页\总数一百一十一页\编于十九点第六步:数据的过滤和标准化目前七十页\总数一百一十一页\编于十九点第七步:基因注释由于基因芯片检测的是探针的表达情况,而探针和基因之间往往不是一一对应,所以,在数据导入后软件会询问是否需要进行基因注释,及是否需要将探针转换成相应的基因名(genesymbol)或EntrezID目前七十一页\总数一百一十一页\编于十九点第八步:运行SAMFDR=0.01,delta=0.68选出2209个在阿尔海茨默病病人和正常人脑组织中表达发生显著性改变的基因。目前七十二页\总数一百一十一页\编于十九点SAM的参数设定目前七十三页\总数一百一十一页\编于十九点第九步:SAMPlot

目前七十四页\总数一百一十一页\编于十九点SAMPlot

目前七十五页\总数一百一十一页\编于十九点第四节

聚类分析与分类分析

ClusteringAnalysisandClassification目前七十六页\总数一百一十一页\编于十九点一、聚类目的基于物体的相似性将物体分成不同的组目前七十七页\总数一百一十一页\编于十九点二、基因表达谱数据的聚类对基因进行聚类识别功能相关的基因识别基因共表达模式对样本进行聚类质量控制检查样本是否按已知类别分组发现亚型目前七十八页\总数一百一十一页\编于十九点

样本基因目前七十九页\总数一百一十一页\编于十九点三、距离(相似性)尺度函数几何距离线性相关系数非线性相关系数互信息目前八十页\总数一百一十一页\编于十九点四、聚类算法层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。(一)层次聚类目前八十一页\总数一百一十一页\编于十九点目前八十二页\总数一百一十一页\编于十九点在对含非单独对象的类进行合并或分裂时,常用的类间度量方法。类间相似性度量方法目前八十三页\总数一百一十一页\编于十九点2000年Alizadeh等运用基因芯片数据,基于层次聚类算法证实了DLBCL肿瘤病人在mRNA层面确实存在两种亚型目前八十四页\总数一百一十一页\编于十九点(二)k均值聚类基本思想目前八十五页\总数一百一十一页\编于十九点(三)自组织映射聚类基本思想在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变。目前八十六页\总数一百一十一页\编于十九点(四)双向聚类双向聚类就是识别基因表达谱矩阵中同质的子矩阵,运用特定的基因子类识别样本子类。

目前八十七页\总数一百一十一页\编于十九点双向聚类识别同质的子结构目前八十八页\总数一百一十一页\编于十九点五、分类分析(一)线性判别分类器目前八十九页\总数一百一十一页\编于十九点(二)k近邻分类法目前九十页\总数一百一十一页\编于十九点(三)PAM方法

(predictionanalysisformicroarray)基本思想每类样本的质心向所有样本的质心进行收缩,即收缩每个基因的类均值,收缩的数量由值决定。当收缩过程发生时,某些基因在不同类中将会有相同的类均值,这些基因就不具有类间的区别效能。目前九十一页\总数一百一十一页\编于十九点基因1基因2目前九十二页\总数一百一十一页\编于十九点分析步骤计算统计量对公式经过变换得到目前九十三页\总数一百一十一页\编于十九点收缩各类的均值判断新样本类别目前九十四页\总数一百一十一页\编于十九点(四)决策树基本思想决策树又称多级分类器,它可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决。决策树的结构:一个树状的结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分,叶子节点表示一个分布。目前九十五页\总数一百一十一页\编于十九点决策树应用于肿瘤基因表达谱的分类分析目前九十六页\总数一百一十一页\编于十九点分析步骤:提取分类规则,进行分类预测在构造决策树的过程中最重要的一点是在每一个分割节点确定用哪个属性来分类(或分裂)这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理决策树分类算法output训练集决策树input目前九十七页\总数一百一十一页\编于十九点衡量准则信息增益——informationgain基尼指数——Giniindex目前九十八页\总数一百一十一页\编于十九点决策树的修剪消除决策树的过适应问题消除训练集中的异常和噪声目前九十九页\总数一百一十一页\编于十九点(五)分类效能评价1.构建训练集和检验集n倍交叉验证(n-foldcrossvalidation)Bagging(bootstrapaggregating)无放回随机抽样留一法交叉验证(leave-one-outcrossvalidation,LOOCV)目前一百页\总数一百一十一页\编于十九点2.分类效能灵敏度(sensitivity,recall)特异性(specificity)阳性预测率(positivepredictivevalue,precision)阴性预测率(negativepredictivevalue)均衡正确率(balancedaccuracy)正确率(correctoraccuracy)目前一百零一页\总数一百一十一页\编于十九点第五节

基因表达谱数据分析软件

SoftwareToolsforGeneExpressionProfileAnalysis目前一百零二页\总数一百一十一页\编于十九点一、R程序示例R程序说明a=49;sqrt(a)赋值可用“=”,也可用“-〉”;R的语句可以写在一行,用“;”分开seq(0,5,length=6)seq是R的一个函数;具体可以输入命令“?seq”查找seq的具体使用方法plot(sin(seq(0,2*pi,length=100)))plot是画图函数,a="Thedogatemyhomework"a是一个字符串sub("dog","cat",a)sub的功能是将a中的“dog”用“cat”替代,结果为"Thecatatemyhomework“a=(1+1==3);aa是一个逻辑变量,结果为:FALSE目前一百零三页\总数一百一十一页\编于十九点R程序说明x<-1:6“:”在这里是"from:to"的意思,结果是1,2,3,4,5,6。dim(x)<-c(3,4);xdim函数是维数的意思,这里的功能是将x变为3X4维的基阵a=c(7,5,1);a[2]C函数的功能是组合,这里将3个数组合赋值给a,a[2]是5doe=list(name="john",age=28,married=F)doe是list,与向量的差别是可以由不同的变量组合doe$name;doe$ageR语言中,特殊符号$的作用目前一百零四页\总数一百一十一页\编于十九点二、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论