《芯片原理与技术》课件基因芯片数据处理_第1页
《芯片原理与技术》课件基因芯片数据处理_第2页
《芯片原理与技术》课件基因芯片数据处理_第3页
《芯片原理与技术》课件基因芯片数据处理_第4页
《芯片原理与技术》课件基因芯片数据处理_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、张彦婷郑州大学生命科学学院基因芯片数据处理基因芯片(gene chip),又称DNA微阵列(DNA microarray),就是将大量已知DNA探针整齐、高密度地固定在一块类似邮票大小的固体(如玻璃片、硅片或尼龙布等)支持物上;用标记好的核酸样品进行杂交,进而通过检测杂交后标记信号的强弱来判断样品中与探针对应的靶序列是否存在,数量。基因芯片的基本原理: 碱基互补匹配。基因芯片基 因 芯 片 流 程样品制备芯片制备杂交杂交信号检测数据分析 芯片杂交 基因芯片图像的获取和处理 数据的预处理和归一化差异表达基因分析芯片数据的可靠性分析基因聚类和可视化分析 基因注释和功能分析 基因调控网络分析基 因

2、芯 片 流 程 杂交反应封闭:对芯片进行封闭以降低杂交背景杂交:将已标记的靶分子加样到芯片上,使其在特定温度下与互补序列退火洗涤:洗涤芯片除去未结合或微弱结合的杂交分子芯片杂交 芯片杂交 基因芯片图像的获取和处理 数据的预处理和归一化 芯片数据的可靠性分析 差异表达基因分析 基因聚类和可视化分析 基因注释和功能分析 基因调控网络分析基 因 芯 片 流 程 数据获取扫描信号点定位数据提取是指将与目标靶分子反应结合后的生物芯片上成千上万个点阵的生物反应结果阅读出来,转变成可供计算机处理的数据,包括三个步骤:基因芯片图像的获取和处理Cy3和Cy5Cy3激发波长532nmCy5激发波长635nm基因芯

3、片图像的获取和处理芯片扫描仪与荧光标记的目标DNA杂交后,必须用扫读装置将芯片测定结果转变成可供分析处理的图象数据。目前商品化的芯片扫描仪有2类:激光共聚焦芯片扫描仪和CCD芯片扫描仪。根据芯片扫描仪采用的光电耦合器件可分为2类:光电倍增管型和CCD型。根据激发光源的不同还可分为:激光型和非激光型。基因芯片图像的获取和处理激光共聚焦显微镜的原理, 是基于PMT(photomultiplier tube,光电倍增管)的检测系统;CCD(charge-coupled devices,电荷偶合装置)摄像原理检测光子。 前者检测灵敏度、分辨率均较高,但扫描时间长;后者扫描时间短,但灵敏度和分辨率不如前

4、者。基因芯片图像的获取和处理激光共聚焦芯片扫描仪以激光作为激发光源,以产生较高强度的发射荧光,可大大提高检测的灵敏度,一般采用2种或2种以上不同波长的激光器作为激发光源。用光电倍增管检测,有较高的灵敏度。Genetic microsystems 公司的GMS 418 Array Scanner. 价格820万美元。CCD采用高压汞灯作为激发光源,结构比较简单。Genemic Solutions 公司Gene Tac TM 1000等。价格比较便宜,在5万美元左右。CCD一次可成像很大面积的区域,而以PMT为基础的荧光扫描仪则是以单束固定波长的激光来扫描,因此或者需要激光头,或者需要目的芯片的机

5、械运动来使激光扫到整个面积,这样就需要耗费较多的时间来扫描;但是CCD有其缺点:目前性能最优越的CCD数字相机的成像面积只有1612mm(像素为10m),因此要达到整个芯片的面积2060mm的话,需要数个数码相机同时工作,或者也可以以降低分辨率为代价来获得扫描精度不是很高的图像。由于灵敏度和分辩率较低,比较适合临床诊断用。基因芯片图像的获取和处理LaserPMTDyeGlass SlideObjective LensDetector lensPinholeBeam-splitter光电倍增管/激光共聚焦扫描基因芯片图像的获取和处理激光共聚焦的光路原理基因芯片图像的获取和处理激光共聚焦的光探测器

6、检测荧光光子,并把微弱的荧光信号转变为模拟的电信号基因芯片图像的获取和处理CCD成像技术:主要用于中、高密度基因芯片的检测CCD扫描仪扫描仪的技术指标: 噪音与信噪比 灵敏度与动态检测范围 像素与分辨率基因芯片图像的获取和处理 同时扫描与分次扫描一次扫描得到一种荧光图像(单通道),扫描多次得到多个荧光图像,叫作分次扫描。得到的图像需要用软件对几种荧光图像进行重叠对准处理,有时还需要操作者手工重叠对准干预。一次扫描得到多个荧光图像(多通道)叫作同时扫描。图像重叠简单仅需用软件将多个图像叠加,不需要调准值。 同时扫描需要硬件的增加。基因芯片图像的获取和处理基因芯片图像的获取和处理 生物芯片扫描过程

7、中应注意的问题由于芯片扫描仪有极高的灵敏度和分辨率,在芯片制作、杂交和清洗过程中都应该在洁净的环境中进行芯片完成杂交和清洗后应尽可能立即扫描测定,防止荧光标记靶分子降解仪器放置在平稳坚固的平台上。基因芯片图像的获取和处理植根区域生长法(SRG) Fixed Circle划格或定位:图像内信号点的初步定位图象分割 (Segmentation):将点从背景中分离出来在分割过程中将像素强度从界定区域提取出来信号点定位基因芯片图像的获取和处理基因芯片图像的获取和处理数据提取将芯片图像中的各种数值量化,如信号值、背景值等每个像素的灰度值在0-65535之间 芯片杂交 基因芯片图像的获取和处理 数据的预处

8、理和归一化 芯片数据的可靠性分析 差异表达基因分析 基因聚类和可视化分析 基因注释和功能分析 基因调控网络分析基 因 芯 片 流 程Tiff图像文件是生物芯片实验数据的最初载体图像处理分析软件能读取Tiff图像文件,自动定位并识别芯片上每个点。定量各点的背景,信号强度。计算点的质量测定值,将图像转化为原始数据原始数据不能直接用于下游统计学分析和数据聚类分析需要经过预处理 数据预处理芯片的预处理和归一化原始数据的预处理可分为如下几个步骤 : 背景校正; 缺失值处理; 数据过滤和标记; 数据转换 归一化 芯片的预处理和归一化1. 背景校正 背景校正用于杂交点相对于前景信号强度的背景噪音进行调整 加

9、和性背景校正:通常,该点的相对信号强度即为其绝对表达值和相对背景值的差值芯片的预处理和归一化芯片背景芯片的预处理和归一化校正方法局部背景校正(local background correction)亚栅格背景校正(subgrid background correction)分组背景校正(group background correction)空白点背景校正(blank background correction)2. 缺失值处理 当点为空点或相对背景强度高于绝对信号强度时,该点的数据出现缺失 替代方案: 使用重复点数据填充利用基因间的相关性进行填充K最近邻法芯片的预处理和归一化3. 数据过滤和

10、标记数据标记是对不可信或不可靠的数据作标记有两种方法处理标记后的数据: -过滤且去除 -标记但不去除芯片的预处理和归一化4. 数据转换 图像分析软件提取的基本数据为像素的荧光强度值,而在后续的分析中通常使用荧光强度的对数值生物学上易于理解和解释使数据的分布满足对称性和近似正态分布、满足常用统计分析方法。使用的方便性芯片的预处理和归一化5. 归一化(normalization)处理由于样本差异、荧光标记效率和检出率的不平衡,需对cy3和cy5的原始提取信号进行均衡和修正才能进一步分析实验数据,Normalization正是基于此种目的。测量到的Cy3和Cy5的荧光强度受许多因素的影响,造成测量值

11、的变异: - 随机变异:无法控制 - 系统变异:归一化芯片的预处理和归一化微阵列中系统误差的几种图形呈现方式1. log2R与log2G散点图芯片的预处理和归一化2. MA散点图芯片的预处理和归一化3. 分组盒式图芯片的预处理和归一化 归一化的依据在特性相似的情况下。生物体内表达水平改变的基因只占全基因组非常小的一部分,来自于每个样本大约相等的被标记分子杂交覆盖了全基因组大部分基因的芯片,从而对每个样本,所有杂交点的杂交强度总合应该是相等的 - 芯片内的数据标准化 (within slide normalization) - 芯片间的数据标准化 (Cross slide normalizati

12、on) 芯片的预处理和归一化用于归一化的非差异表达基因的选择归一化的第一步是选择非差异表达基因或不变表达基因- 全部基因- 管家基因- 对照芯片的预处理和归一化芯片内的数据标准化(within slide normalization)芯片内的数据标准化,主要是去除每张芯片的系统误差,这种误差主要是由荧光染色差异,点样机器,或者杂交试验所产生的,通过标准化,使每个基因的表达点都具有独立性。芯片内数据标准化的常用方法是局部加权回归分析:Lowess (LocallyWeighted Linear Regression) normalization 。芯片的预处理和归一化标准化前后的散点图左图是未标

13、准化处理的散点图右图是经LOWESS处理的散点图任何芯片数据进行分析前,都必须进行数据的校正芯片的预处理和归一化Log GreenLog RedNormalizationA=(Log Green+Log Red)/2M=Log Red-Log GreenM vs. A Plot (45o rotation)(Log Green+Log Red)/2Log Red-Log GreenLoess FitNormalized (Log Green+Log Red)/2Normalized Log Red-Log GreenM vs. A after NormalizationNormalized L

14、og GreenNormalized Log RedNormalized Data在点的周围,考虑背景及两色染色差异,均一化后来消除这种差异 芯片间的数据标准化(Cross slide normalization)平均数、中位数标准化(mean or median normalization)尺度调整的标准化 ( Scale Normalization)分位数标准化 (Quantile Normalization) 芯片的预处理和归一化Between slides normalization芯片的预处理和归一化平均数、中位数标准化(mean or median normalization)由于

15、五种组织(seeding、tiller、root、panicle1、panicle2)是分别在五张芯片上作杂交试验的,所以第一步的标准化是将五张试验芯片的数据调整到同一水平,常用的方法是平均数、中位数标准化(mean or median normalization)。即:将五组实验的数据的log ratio 中位数或平均数调整为0。芯片的预处理和归一化Slide 2Cy3 Cy5Slide 1Cy3 Cy5medianQ3=75th percentileQ1=25th percentileminimummaximum上图中的一个箱式图表示基因在一种染色下的强度的分布情况。所以每两个channe

16、l对应一张芯片的数据。图中共有12个channel,分别对应6张芯片数据,且每一张芯片中包含的基因是相同的。上图是双色数据在标化前的分布情况。 芯片的预处理和归一化Log Mean Signal Centered at 0 芯片杂交 基因芯片图像的获取和处理 数据的预处理和均一化 差异表达基因分析 芯片数据的可靠性分析 基因聚类和可视化分析 基因注释和功能分析 基因调控网络分析基 因 芯 片 流 程基因表达谱芯片的主要目的之一:发现两个样本差异表达基因差异表达基因也可称为阳性基因:包括上调表达基因和下调表达基因差异表达基因的挑选非重复实验倍数法Z值法重复实验T检验P值差异表达基因分析 倍数法取

17、样本基因和参照基因的比(R/G ratio),作为每个样本基因的相对表达量(relative intensity)。选择相对表达量,可以在一定程度上减少芯片之间,荧光染色,扫描所产生的系统偏差Ratio=Ri/Gi 2 up regulation 0.5 down regulation差异表达基因分析基因表达模式mRNA Cy5/Cy3 = rtime / h150_Start of experimentup-regulationinductiondown-regulationrepression差异表达基因分析Log2( Red intensity / Green intensity)Rat

18、io= log2 (R/G) 时间T基因表达情况原始的比值数据Log2对数转换0基因的标准表达1.00.01相对标准表达无改变1.00.02两倍上调表达2.01.03两倍下调表达0.5-1.0差异表达基因分析差异表达基因分析cDNA 基因表达实例 Data on G genes for n samplesGenesmRNA samplesGene expression level of gene i in mRNA sample j=(normalized) Log( Red intensity / Green intensity)sample1sample2sample3sample4sample5 1 0.46 0.30 0.80 1.51 0.90.2-0.10 0.49 0.24 0.06 0.46.3 0.15 0.74 0.04 0.10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论