基因芯片数据_第1页
基因芯片数据_第2页
基因芯片数据_第3页
基因芯片数据_第4页
基因芯片数据_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章基因芯片数据分析MicroarrayDataAnalysis第一节芯片平台及数据库(GeneralMicroarrayPlatformandDatabase)一、cDNA微阵列芯片寡核苷酸芯片类似于cDNA芯片,但是在探针的设计上优于cDNA芯片,它的探针并不是来源于cDNA克隆,而是预先设计并合成的代表每个基因特异片段的约50mer左右长度的序列,然后将其点样到特定的基质上制备成芯片,从而克服了探针序列太长导致的非特异性交叉杂交和由于探针杂交条件变化巨大导致的数据结果的不可靠。二、寡核苷酸芯片

五、基因表达仓库GeneExpressionOmnibus,GEO六、斯坦福微阵列数据库TheStanfordMicroarrayDatabase,SMD第二节基因芯片数据预处理

(GeneralMicroarrayDataTypeandDatabase)一、基因芯片数据提取与过滤(一)

cDNA微阵列芯片(二)

Affymetrix公司的原位合成芯片定性信息提取:P/A/M(Present/Absent/Marginal)定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值数据过滤

数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据。过闪耀现象物理因素导致的信号污染杂交效能低点样问题其它二、数据补缺(一)数据缺失类型非随机缺失基因表达丰度过高或过低随机缺失与基因表达丰度无关,数据补缺主要针对随机缺失情况(二)数据补缺方法1、简单补缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average2、K近邻法选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数:邻居个数距离函数3、回归法三、数据标准化(一)为什么要进行数据标准化存在不同来源的系统误差染料物理特性差异(热和光敏感性,半衰期等)染料连接效能点样针差异数据收集过程中扫描设施不同芯片差异实验条件差异(二)运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如持家基因)控制序列(spikedcontrol)合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。1、片内标化(Within-slidenormalization)

(1)全局标化(Globalnormalization)(三)cDNA芯片数据标准化处理假设:R=k*G方法:C=log2k:中值或均值

(2)荧光强度依赖的标化(Intensitydependentnormalization)为什么方法:scatter-plotsmootherlowess拟合c(A)为MvsA的拟合函数标化后的数据

(3)点样针依赖的标化(Within-print-tip-groupnormalization)

为什么一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。method(4)尺度调整(Scaleadjustment)为什么调整不同栅格(grids)间的数据离散度方法:计算不同栅格的尺度因子

2、片间标化(Multiple-slidenormalization)线性标化法(Linearscalingmethods)与芯片内标化的尺度调整(Scaleadjustment)方法类似非线性标化法(non-linearmethods)分位数标化法(Quantilenormalization)两张芯片的表达数据的分位数标化至相同,即分布于对角线上。3、染色互换实验(dye-swapexperiment)的标化

实验组对照组芯片1cy5(R)cy3(G’)芯片2cy3(G)cy5(R’)前提假设:c︽c’方法:

1、提取定性信号(1)对每个探针对计算R

R=(PM-MM)/(PM+MM)(2)比较R与定义的阈值Tau(小的正值,默认值为0.015).(3)单侧的Wilcoxon’sSignedRanktest产生p值,根据p值定义定量信号值PresentcallMarginalcallAbsentcall(四)Affymetrix芯片数据标准化2、提具取定量降信号(1)各分析步若骤获取探矛针水平不数据背景值效辉正标准化吴处理探针特异劫背景值效音正探针集阀信号的榜汇总(2)养分析方贫法M=唱lo扒g2R-运log2GA=案(log2R+践lo欲g2G)/束2前面提及楚的标准化螺方法仅效久正了数据钱分布的中架心,在不统同的栅格童间log该-Rat面ios裹的方差也枪不同。第三节移差异培表达分合析(An绣aly竹sis积of响Di轮ffe用ren捡tia鸭lly派Ex滨pre感ssi羊on遗Gen膨e)一、倍数愁法实验条倾件下的斯表达值对照条那件下的付表达值通常以致2倍差高异为阈呢值,判遭断基因娱是否差练异表达二、统旁计学方唱法1、t检标验法运用t检茫验法可以前判断基因恨在两不同盯条件下的聪表达差异纷是否具有址显著性2、方私差分析方差分摆析可用冈于基因无在两种挤或多种计条件间辰的表达哄量的比弱较,它疏将基因袜在样本暂之间的振总变异傻分解为糊组间变担异和组构内变异叼两部分沸。通过宰方差分株析的假基设检验秆判断组斥间变异怪是否存标在,如柴果存在秒则表明亭基因在晴不同条酱件下的龙表达有粘差异。三、S瓶AM岂(S森ign顽ifi沙can呆ce看Ana糖lys篇is擦of余Mic筛roa阴rra鉴ys)(一)兵多重兰假设检沙验问题Ⅰ型错捞误(假肾阳性)渴即在假甘设检验厦作推断君结论时抓,拒绝故了实际砍上正确掠的检验腾假设,伞即将无讨差异表裂达的基眼因判断锤为差异辩表达。Ⅱ型错误色(假阴性独)即不拒丛绝实际上慈不正确的齿,即将有莫差异表达彩的基因判顺断为无差托异表达。在进行差禁异基因挑遮选时,整狡个差异基爸因筛选过占程需要做戒成千上万城次假设检共验,导致乒假阳性率咳的累积增败大。对于贤这种多重菠假设检验供带来的放妈大的假阳叙性率,需咽要进行纠鄙正。常用赞的纠正策裂略有Bo流nfer露roni萍效正,控紧制FDR悄(Fal四seD歪isco本very榴Rat闭e)值等。(二)柱分析丘步骤计算统计锡量扰动实验兼条件,计智算扰动后险的基因表刷达的相对棚差异统计涝量计算扰动鼓后的平均那相对差异讽统计量确定差异斤表达基因鼠阈值:以殖最小的正值和坐最大的负峡值作为统此计阈值,运用详该阈值,踏统计在值学中超过该阈晓值的假仗阳性基捉因个数遥,估计假阳性昆发现率F争DR值。通过调整聚FDR值菜的大小得蚕到差异表达基望因。四、信故息熵运用信孔息熵进泪行差异贷基因挑劳选时,症不需要窜用到样策本的类网别信息鸣,所以宰运用信荡息熵找宗到的差坟异基因饲是指在氧所有条衡件下表察达波动轻比较大丛的基因饲。第四节基因芯片溉数据的聚奸类分析(Cl球ust异er扶Ana技lys往is临of既Mic盾roa当rra剂yD允ata枯)(一)相劝似性测度几何距漂离线性相胀关系数非线性秒相关系战数互信息其它(二)层次聚类层次聚薄类算法秧将研究网对象按泥照它们斩的相似典性关系汪用树形蒸图进行陈呈现,厦进行层筛次聚类辆时不需楚要预先住设定类方别个数荣,树状花的聚类扒结构可环以展示遭嵌套式寒的类别偷关系。在对含钩非单独若对象的罪类进行竹合并或剖分裂时冈,常用医的类间贵度量方前法(三)硬k均值饮聚类基本思想(四)自畅组织映射食聚类基本思想蒙:在不断父的学习过签程中,输令出层的神流经元根据裳输入样本妹的特点进浮行权重调尼整,最后怎拓朴结构柴发生了改婶变第五节纹基因犯芯片数洗据的分而类分析(Cl念ass谱ifi迁cat袖ion华of乓Mi针cro习arr到ay绿Dat狠a)一、线性纵判别分类谎器二、k近江邻分类法基本思想三、决策卫树(一)绿基本思抵想决策树又躁称为多级腥分类器,臂利用决策纲树分类可杀以把一个挑复杂的多浅类别分类弱问题转化寨为若干个喊简单的分贿类问题来贿解决决策树匆的结构键:一个润树性的佛结构,肆内部节博点上选不用一个紫属性进母行分割抗,每个欢分叉都染是分割斤的一个蚂部分,村叶子节全点表示买一个分挺布(二)膛分析步宰骤:提稀取分类举规则,醉进行分怒类预测在构造跃决策树厌的过程多中最重题要的一苏点是在防每一个焦分裂节娇点确定振用那个舍属性来袍分类(菜或分裂扯)这就涉溪及到关片于使用侵什么准闯则来衡岗量使用蛇A属性贯比使用坦B属性膛更合理决策树分类算法output训练集决策树input(三)宴衡量准些则信息增吧益——怪Inf稿orm评ati仆on每gai促n基尼指数丘——Gi乞nii杯ndex第六节劝常用背的表达清谱分析欢软件(Ge惕ner服al壤Mic披roa漏rra挂yA抄nal欢ysi疗sS浪oft梦war脚e)Arra领yToo悄lsDCh御ip(右DNA势-Ch殃ip富Ana要lyz壤er)SAMR语言贞和Bi柏oCo桐ndu供cto低r:轮aff钟y、m壳arr立ay、侄lim秆maMatl肌ab:悉Bioi鲜nfor铲mati杯csT缓oolb护

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论