




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
判别基因芯片中的整体数据质量内容提要:第一节基因芯片数据质量第二节基因芯片弱信号处理第三节基因芯片数据归一化第五章生物芯片数据质量判别基因芯片中的整体数据质量生物学验证和解释芯片实验实验设计图像处理数据归一化生物问题假设检验差异基因分类分析数据分析聚类分析失败通过数据预处理质量控制判别基因芯片中的整体数据质量第一节基因芯片数据质量
一、芯片图形常见问题
二、芯片误差产生原因
三、如何减少芯片误差
四、芯片数据质量判断五、芯片平台实验数据的评估判别基因芯片中的整体数据质量一、芯片图像常见问题:(1)是否有杂质(2)信号点强度是否太高或太低(3)是否有刮擦痕迹(4)背景强度是否过高判别基因芯片中的整体数据质量图像和背景都很均一信号强度不均一判别基因芯片中的整体数据质量整体背景高局部背景高可能是杂交液或者芯片本身有问题,需要重新进行杂交。判别基因芯片中的整体数据质量擦痕判别基因芯片中的整体数据质量质量好的双通道cDNA芯片判别基因芯片中的整体数据质量有水渍,洗涤是存在问题判别基因芯片中的整体数据质量保存不当,受潮判别基因芯片中的整体数据质量红色荧光背景高判别基因芯片中的整体数据质量边缘效应:芯片边缘的信号明显比其它地方弱。判别基因芯片中的整体数据质量二、芯片误差来源分析基因芯片技术是一种半定量的分析手段,存在误差、且很难克服。在芯片实验中,要尽量降低误差,以提高数据分析的准确性。判别基因芯片中的整体数据质量芯片误差来源1)生物学差异:内在的、受到遗传和环境因素影响。2)实验过程误差:(1)芯片制备过程误差:克隆的准确性、PCR扩增及产物纯化过程、点样及点样后处理(2)样本检测过程误差:RNA抽提和标记过程、杂交过程(3)检测系统误差:硬件、软件判别基因芯片中的整体数据质量误差原因——克隆的准确性目前cDNA克隆的主要来源是商业化公司提供的克隆,其克隆准确性仅为65-85%克隆误差产生主要原因:1)含质粒的细菌培养及质粒抽提过程中存在污染2)克隆重排过程人为的错误判别基因芯片中的整体数据质量误差原因——PCR扩增及产物纯化过程
影响cDNA质量的原因:A.模板的质量:最好是纯化的质粒,不能有污染。B.PCR引物序列的特异性:特异性低的引物会导致非特异性扩增、多带、拖尾、甚至无扩增产物。纯化方法也会影响芯片质量A.沉淀法:离心力不足,会导致回收率不稳定。B.树脂纯化法:成本比较高,纯化得率低于沉淀法。判别基因芯片中的整体数据质量误差原因——点样及点样后处理点样仪精密度:影响芯片矩阵整齐度。点样针清洗不彻底:导致DNA探针间交叉污染。点样针磨损程度和针堵塞的情况:造成阳电点的大小和形状不同。点样后处理:包括水合、交联、洗脱未结合的探针、封闭等步骤,这个过程会影响到DNA固定在芯片上的效率。判别基因芯片中的整体数据质量误差原因——RNA抽提方法
RNA的质量直接影响标记效率和实验的成功率,可以说是导致芯片实验失败的最主要的原因。不同物种、不同组织类型由于细胞成分的不同导致RNA的纯度和得率有较大的差异,有些甚至需要特殊的实验流程,而芯片公司一般是SOP(标准化)作业。判别基因芯片中的整体数据质量误差原因——RNA的标记过程
标记反应的过程中不同的mRNA,其逆转录效率会有所差异,从而导致误差。标记过程中产生误差的主要因素有:(1)mRNA的固有性质与逆转录酶(2)逆转录引物(3)荧光染料(4)标记后产物纯化判别基因芯片中的整体数据质量误差原因——杂交过程杂交是个非常复杂的过程,受到1)杂交的时间和空间、2)玻片的表面物质的亲水性和疏水性、3)探针在玻片表面上的分布和构型、4)4)温度、5)杂交液配方和浓度等影响,如果考虑到6)探针和靶序列的长度、7)G+C含量、8)SNP等影响,情况会更复杂。判别基因芯片中的整体数据质量误差原因——硬件不同的扫描方式就会带来误差,即使使用同一类但由不同公司生产的扫描仪,由于硬件配置和光路设计的不同,也会带来一定的误差。
光漂白现象也会对芯片数据的质量带来一定的误差。判别基因芯片中的整体数据质量误差原因——软件不同软件的核心算法不同,因此同一原始图片经过不同软件处理后,数据会不同。同一软件,取信号点和背景的原理也有好几种,通过不同方法读取的数据,也有一定的偏差。软件质量会影响扫描图像定位的准确度和数据的精确性等重要参数,因此需要选择质量好的图像处理软件。判别基因芯片中的整体数据质量三、如何减少芯片误差实验设计1)重复:生物学重复、技术上重复2)直接比较:使用正反或环式标记法,平衡染料和样本的差异。实验过程的质控1)制备过程的原材料检测2)生产过程3)成品质控数据处理与矫正判别基因芯片中的整体数据质量减少误差——对基片进行检测目前,国内外没有统一的基片质检方案。好的基片背景低﹑DNA的固定能力强﹑平整度,质检主要考察这三个参数。此外,要检查是否有划痕和污点。每批基片抽出一定比例,用标记有荧光染料的DNA探针点样、固定、洗脱,通过比较洗脱前后的荧光信号变化,测定基片的固定率。基片表面的化学基团的稳定性较差,保存时间对其固定的效率影响很大。判别基因芯片中的整体数据质量减少误差——对探针进行检测对于cDNA芯片,所获得的cDNA克隆必须是经过严格测序的,而且克隆的保存也必须严格,以防止污染。在使用之前以及PCR之后,还应抽出5%的克隆进行再测序,以判断克隆的位置是否有错乱或污染。对于直接点样的寡核苷酸芯片,对供应商提供的寡核苷酸质量也有较高的要求,主要体现在纯度﹑序列的正确性﹑浓度等方面,一般需要HPLC纯化,并要求供应商提供质检结果。我们只能使用分光光度计测得其浓度和质量状况。根据测得浓度和体积计算出所给的探针总量。例如,,以防止产品中有太多单核苷酸或者太多引物合成不完全。
判别基因芯片中的整体数据质量减少误差——对PCR产物进行质检PCR的污染控制是一个很重要的环节,应严格遵守操作规程。质检PCR产物质量主要采用的方法是琼脂糖凝胶电泳,一个合格的产物,要求电泳条带是清晰的单带。条带的亮度代表了扩增的量,如果是多条带或拖尾(smear),则PCR产物的质量就达不到要求。有条件的还可以对纯化后的每个PCR产物用96孔的紫外分光光度计进行定量分析。判别基因芯片中的整体数据质量减少误差——对玻片上cDNA固定浓度检修检测1.荧光染料染色法:从各批次制备中抽取若干张芯片在配制染料(SYTO61)中浸泡5分钟(室温),依次用TE、H2O和无水乙醇洗涤。干燥后,用扫描仪对芯片进行扫描,扫描波长为535nm。2.使用标记的寡核苷酸杂交:使用标记的寡核苷酸与cDNA杂交可以反映cDNA探针的相对量。3.与组织的RNA杂交:这种方式完全与正式的实验相同,因此能最能真实反映芯片质量。
判别基因芯片中的整体数据质量四、芯片数据的质量判断芯片数据的质量:(1)整张芯片的质量(2)芯片上各个点的质量
评价芯片质量的方法:(1)信噪比:最简单的方法就是计算整个芯片的信噪比。信噪比太低表示整个芯片的背景太高,这张芯片的质量不是很好。(2)散点图判别基因芯片中的整体数据质量散点图散点图:用来表示在cDNA芯片中两个组织中基因表达量的比例信息。横坐标:表示实验组织(Cy5标记)的样点信号强度对数值。纵坐标:表示参照组织(Cy3标记)的样点信号强度对数值。45度的对角线:基因表达稳定不变的区域。B判别基因芯片中的整体数据质量散点图的作用-对芯片质量进行监控
自身校验实验:将一份样本平均分成两份进行自身校验实验,理论上所有点的位置都应在45度对角线上,但考虑到系统误差,散点的分布表现一定的区域,分布区域越小,系统越稳定,误差也越小。图片分析:两条红色平行线表示系统本身误差的阈值,红色平行线中间的点表示没有表达差异。红色平行线以外的区域则是偏离较大的点,在自身比较中代表假阳性。判别基因芯片中的整体数据质量M-A散点图判别基因芯片中的整体数据质量散点图与M-A散点图比较
散点图:显示起来非常直接,但由于在实验中没有差异表达的基因总是占绝大多数,所以散点图往往表现出很大的线性,以至于其他一些特性难以观察到。M-A散点图:1)增加了空间的延展性,显示了差异表达随强度的分布。2)更易观察到两种荧光强度之间的一些非线性的特征。判别基因芯片中的整体数据质量单个点的质量评估单个点质量的方法:(1)根据点的物理特性(2)评估点的强度:此点与同一张芯片或重复芯片上同样基因的点强度是否一致。重复点信号值:理论上是满足正态分布,利用所有的重复点求出它们所满足的正态分布,假如某个信号点的信号值显著偏离这个正态分布,那么这个信号点的数据质量可能不是很好。判别基因芯片中的整体数据质量如何处理质量低的信号:1)直接滤除质量低的信号点:这种处理有时候会过于武断,因为一些低质量点也会蕴含有用的信息。2)给高质量点以高的权重值,低质量点以低的权重值,然后进行分析。
判别基因芯片中的整体数据质量基于芯片图像处理信号点的质量信号点的大小和规则程度:一些信号点直径太小或者形状不规则,和圆相差太大,这些点通常认为质量不是很好;2.信噪比:只有信噪比比较高的信号点,数据的可信度才高;3.信号点周围的背景强度:某个信号点周围的背景远远大于其他信号点周围的背景,那么这个信号点很可能被污染了;4.信号点背景的均一程度:背景均一程度高的信号点,是质量高的点;5.信号的饱和程度:饱和像素过多的信号点,数据准确性令人怀疑。判别基因芯片中的整体数据质量五、芯片平台实验数据的评估
芯片平台实验数据的评估:通过芯片实验、数据提取获得的数据是否反映了实验的真实情况。要评价芯片数据的好坏,重复实验是必不可少的,目前不同实验室采用不同的方法利用重复实验的数据进行评价,可以大致地归纳为两大类:一是筛选到的差异表达基因的可靠性,二是统计分析系统的重复性。评估参考:自身比较实验:假阳性、假阴性相关系数变异系数(coefficientofvariation,CV)r1/r2值判别基因芯片中的整体数据质量自身比较实验自身比较实验(Self-comparisonexperiment,SCE):实验组和对照组的RNA来自同一份样本,在双色荧光标记系统中,两种荧光标记同一RNA,从理论上讲,所有基因的信号比值应该为1,在散点图上形成一条斜率为1的直线。此方法已成为评价芯片试验体系的一个重要的方式。判别基因芯片中的整体数据质量自身比较实验衡量筛选到的差异表达基因的可靠性判别基因芯片中的整体数据质量假阳性基因与假阳性率自身比较实验,理论上不存在差异表达基因,但实际上会检测到少量基因的实验组/对照组比值超过阈值,这些即为假阳性基因。阈值是人为设定的主观标准,以阈值为基础来判断假阳性存在很大的主观性。在特定的阈值下,假阳性率的大小可以反映出芯片系统的误差情况,假阳性率高,则芯片数据误差大。因此,假阳性率可以作为一个芯片平台的重要质量指标。假阳性率越低,芯片平台的可靠性越高。判别基因芯片中的整体数据质量假阳性产生的原因:1)由随机误差引起:杂质、背景等因素2)在双荧光系统中,Cy3和Cy5两种染料对不同基因的掺入效率略有不同,会引入一部分的假阳性,这部分差异并不是随机的,与基因序列或信号强度都有一定的关系。这些假阳性只能通过染料互换(DyeS)标记的重复实验加以去除。只是染料的差异不大,因此,在很多研究中往往忽略。
判别基因芯片中的整体数据质量假阴性产生原因1)系统误差:信号值的线性工作范围和背景的原因导致Cy3/Cy5的比值比实际的表达比值小2)表达差异倍数本身比较小,而人为的判定阈值为0.5-2.0;3)弱信号导致的无效基因;4)生物学样本的不纯,如病变组织中混有正常细胞导致Cy3/Cy5的比值比实际的表达比值小5)非特异性杂交导致的检测比值压缩,尤其是cDNA芯片回导致更强的非特异性杂交;6)基因芯片上一般并不覆盖所有的基因,样本中的一些阳性基因由于在芯片上没有对应的探针,从而不能探测出。基因芯片的数据一般不考虑假阴性问题,仅对阳性基因进行分析和进一步研究。判别基因芯片中的整体数据质量相关系数(correlationcoefficient)
r在-1到1之间。如果r为0表示完全不相关。r等于1时为完全正相关,等于-1时为完全负相关。相关系数用于衡量芯片的重复性有一定的参考价值。判别基因芯片中的整体数据质量cDNA芯片中使用相关系数衡量同一张芯片中的两种荧光信号的重复性:当Cy3和Cy5信号值之间的相关系数接近1,表明两种荧光信号的相关程度非常高,从而证明双色荧光系统可靠性高;在两次重复实验中,得到两组Cy5/Cy3比值,计算两组比值之间的相关系数,作为判断重复性的标准。理论上如果数据完全重复,则其比值的相关系数为1,但由于系统误差的存在,比值往往小于1,国际上没有公认的判断芯片数据重复性的标准,不同实验的R值相差很大,有人在特定实验中曾用比值的相关系数大于0.7作为判断重复实验成功的标准。判别基因芯片中的整体数据质量相关系数衡量重复性的局限性相关系数的大小不仅与芯片的重复性有关,还与两个比较样本之间的表达差异程度有关,即当实验组和对照组两个样本表达差异小、差异表达基因的数量非常少时,相关系数很低。如果样本的真实差异基因很少,意味着绝大部分的基因是非差异表达基因,用相关系数评估就不适当,容易错误地得出重复性不好的结论。判别基因芯片中的整体数据质量变异系数(coefficientofvariation,CV)
当芯片数据重复较多时,可以用比值的变异系数来判断数据的重复性,好处在于屏蔽了样本的量纲和均数大小的影响。计算每个基因比值的CV值,用所有基因的平均CV值衡量整张芯片实验的重复性。CV值越小,表示重复性越好。变异系数适合于衡量多组芯片的重复。变异系数的计算需要多组芯片的重复,涉及比较高昂的成本,所以这一指标主要用于芯片平台的测评。正式的实验一般重复做两、三次,就无法采用变异系数作为衡量实验重复性的依据。判别基因芯片中的整体数据质量r1/r2值
1)r1/r2值是指两次重复实验比值相除2)从理论上讲同一个点(基因)的两次重复实验Ratio1/Ratio2=1,也就是说log2(r1/r2)应该是0。但由于误差的存在,r1/r2值往往偏离1,偏离程度越大,表明该点的重复性越差。3)r1/r2值作为筛选重复实验中的有效点的标准。通常当r1/r2值落在0.5-2区间时,认为是有效重复,而落在该区间外的点被认为重复性不好,可以作为无效点被过滤。4)用有效点的百分率作为衡量整个芯片实验重复性的参数。落在有效区间内的点作为重复好的基因,这些有效点占总基因数的百分数即为有效点的百分率,百分率越高,重复越好。判别基因芯片中的整体数据质量r1/r2值不足当基因差异表达的倍数过大,使得两种荧光信号中有一个过强或过弱而落在线性工作范围之外,r1/r2值就会产生较大的误差,从而被过滤一些低丰度基因,由于信号弱导致比值的波动大。比如某一个基因在两次实验中的比值分别为100和30,r1/r2为3.33,那么把这个点作为无效点剔除就不妥当,因为这个基因的两次实验都显示了上调表达。
判别基因芯片中的整体数据质量第二节基因芯片弱信号处理判别基因芯片中的整体数据质量弱信号与噪声背景噪声有生物意义的弱信号分离开来非常重要
信号强度低判别基因芯片中的整体数据质量分离弱信号和噪音的方法1重复芯片实验:缺点——成本较高,而且会提高芯片数据的复杂性。2找到一个适当的阈值:低于该值的信号点认为是无意义点和不可靠点,应当滤除不进入后续数据分析;高于该值的信号点认为是一些真正的弱信号点和可靠点,应当进入后续的数据分析,挖掘出具有生物意义的信息。判别基因芯片中的整体数据质量阈值确定方法固定值法:设定一个固定阈值,小于这个阈值就是弱信号点。但每张芯片的特性并不一样,所以用一个通用的值来区分信号过于绝对化。信噪比法:计算单个信号的信噪比来确定这个信号是否是弱信号,但是弱信号点通常是信噪比较低的,所以用这种标准过于严格,很多有信息的弱信号点将会失去。判别基因芯片中的整体数据质量阈值确定方法背景平均值加两倍方差:计算整个片子背景平均值加两倍方差作为阈值,但本底的波动则会导致阈值的波动。阴性对照点平均信号值加两倍方差:阴性对照点平均信号值加两倍方差作为阈值。有效的阴性对照点是有限的,不足以形成正态分布;而且这种方法易于受到阴性对照点自身的影响;有时由于点样针受到污染,或者同源杂交使得阴性对照点的信号强度值很高,这些都会使得最后得到的阈值波动较大。判别基因芯片中的整体数据质量利用强度累积分布函数确定弱信号阈值
任何组织或细胞中都有一定比例的不表达基因,这些不表达基因和PCR或杂交过程中失败基因位于累积分布函数底部。分离弱信号和噪声的阈值:TD判别基因芯片中的整体数据质量对数据进行对数转换对数转换能够提供从生物学角度上易于解释和有意义的数据。对数变换减弱了方差和平均值,使得表达的变化独立于其产生的强度位置,在低强度值处的倍数改变与高强度值处发生的倍数改变具有可比性。对数转换后的数据的分布呈现出较好的对称性和正态性。一些常用的统计分析方法,如t检验、F检验、相关和回归等方法都要求数据满足正态分布或近似正态分布。如果使用以2为底的对数,后续的分析和数据的解释将非常方便。例如,要选择具有4倍以上变化的基因可以在比值直方图的log2(ratio)=2处截取。
判别基因芯片中的整体数据质量第三节
基因芯片数据归一化(normalization)判别基因芯片中的整体数据质量判别基因芯片中的整体数据质量判别基因芯片中的整体数据质量数据的归一化归一化:消除系统误差的影响,使得同一芯片上和不同芯片间基因表达水平的直接比较无法实现。芯片扫描的原始数据中,存在着各种偏差,在对芯片数据进行分析之前,必须进行数据的校正,才能使分析的结果真实地反映生物学功能。判别基因芯片中的整体数据质量双色荧光标记法所引起的系统变异(1)荧光物质的物理、化学属性。Cy3和cy5光量子范围不同,cy5有时具有比cy3更高的背景水平。(2)扫描仪的硬件设计可能对cy3和cy5具有不同的读取效率。(3)标记的方法。绝大多数cDNA微阵列都会引入基因或序列特异性偏倚。某些基因使用一种染料标记比使用另外一种染料标记具有更强的荧光信号,并且这并非随机现象,而是在重复实验中稳定出现。理论上,在自身对照实验中所有基因的cy3/cy5应为1。由双色荧光标记所产生的系统偏倚导致在cy3和cy5标记物具有相同的量时,它们的荧光强度并不相等。判别基因芯片中的整体数据质量系统误差的几种图形呈现方法散点图
判别基因芯片中的整体数据质量箱式图:可以在图形上对一组数据的均数、中位数、上、下四份位数和最大、最小值进行显示,直观地反映出数据的集中趋势和离散趋势。按照某个分类变量进行分组的直方图可以对不同组的数据分布情况进行直观的比较。判别基因芯片中的整体数据质量M-A图Xaxis:A–averageintensity
A=0.5*log(Cy3*Cy5)Yaxis:M–logratio
M=log(Cy3/Cy5)判别基因芯片中的整体数据质量分布密度图判别基因芯片中的整体数据质量空间点图:芯片上的每一个点的数据都可以在该平面图上显示出来
判别基因芯片中的整体数据质量数据的归一化步骤两个基本步骤:不变表达基因(非差异表达基因)的选取以及校准方法。不变表达基因:指表达水平在研究条件和对照条件下没有发生变化的基因。不变表达基因的选取对于成功的归一化和分析是非常重要的。校准方法:线性,非线性,稳健(降低奇异点的影响),其他算法判别基因芯片中的整体数据质量用于归一化的非差异表达基因选择归一化的第一步是选择非差异表达基因或不变表达基因。全部基因管家基因对照基因秩不变基因(rank-invariantgenes)判别基因芯片中的整体数据质量全部基因芯片上的绝大多数基因都是非差异表达的,仅有比例非常小的基因在两个mRNA样品中的表达有差异,因为根据生物学知识,若有很多基因的表达都发生了改变,这种改变对生物体来说将是致死的;上调和下调基因的表达水平具有对称性。这种方法被成功应用于染色体规模的微阵列,芯片上的基因数目很大,通常大于5000,在各实验条件下具有差异表达的基因数目不超过10%。但由于不同生物样品表达图谱通常具有较大的差异,因此使用全部基因或绝大多数基因(对表达水平两端的数据进行截尾)进行归一化将导致在准确性方面受到一定程度的限制。判别基因芯片中的整体数据质量管家基因管家基因:在各种条件下具有稳定表达的基因。在进行强度依存偏倚的归一化时,管家基因的荧光强度范围应该包含芯片上所有点的荧光强度的整个范围,这对管家基因来说存在一定的困难,因为管家基因通常是高表达基因,对应于高荧光强度的点,而在低的荧光强度下的管家基因较少。因此,当可以预先确定的管家基因的数量较少或管家基因的强度不能覆盖信号强度的整个范围时,使用管家基因进行非线性的归一化通常得不到较好的结果。判别基因芯片中的整体数据质量管家基因实际上,找出一组在各种实验条件下表达都不发生改变的管家基因是非常困难的,但找到一组在特定实验条件下的“临时”管家基因还是可行的。最近的研究表明管家基因的表达水平也会发生显著的改变,因此使用管家基因对微阵列表达数据进行归一化有可能得到错误的结果。判别基因芯片中的整体数据质量对照基因使用外源性对照方法:来源于合成的DNA序列或者与实验生物不同的其他生物的DNA,这些对照序列理论上应当具有相同的红、绿荧光强度,可以用于归一化。使用滴定系列方法:含有相同的基因或EST,但不同浓度的点被点样在芯片上。理论上,在强度的整个范围内这些点都具有相同的红、绿荧光强度值。判别基因芯片中的整体数据质量对照基因常用于滴定系列的DNA有两种:1)染色体DNA:在各种条件下都具有恒定的表达水平,因此可以用于滴定序列,但染色体DNA太复杂。2)特定设计的微阵列样本池(MSP,microarraysamplepool):它包含了微阵列上的所有基因,类似于没有中间插入序列的染色体DNA,从而为标记cDNA上的每个片断提供潜在的探针,因此在不同的生物学样品间具有较恒定的表达。判别基因芯片中的整体数据质量对照基因MSP作为归一化的对照基因满足两个条件:(1)在不同生物学样品间具有恒定的表达,具有最小的样本特异性偏倚(2)强度范围包含整个芯片上点的强度范围。由于MSP构建方面的挑战性,得到非常高强度的表达还存在一定的困难。实际应用中,通常在MSP中加入高表达基因来解决。判别基因芯片中的整体数据质量秩不变基因(rank-invariantgenes)
如果芯片上没有外部对照DNA,没有关于哪些基因为差异表达基因,哪些基因为非差异表达基因,及有多少基因的表达发生了显著性变化的先验知识,非差异表达基因的选择只能依靠数学的方法来实现。对一张芯片上所有点的整体荧光强度值按照从小到大的顺序进行排序,每个点的序次称为该点的秩。秩不变基因:在同一张芯片上红、绿强度的秩相同或非常接近的基因。判别基因芯片中的整体数据质量归一化方法Globalnormalization(Scaling)全局归一法(缩放法)Intensity-dependentnormalization局部加权归一化法QuantileNormalization分位数归一化法判别基因芯片中的整体数据质量Globalnormalization全局归一化单张芯片全局归一化:建立在一定的假定基础上:红-绿偏移在整个序列上是常数,即红、绿强度是通过常数因子相关联,R=k*G。全局归一化的目标就是估计此常数因子k,通过减去c对比值进行校正,使得非差异表达基因的强度比为1,即把对数比的中心移到0。一般计算方法取芯片上所有对数比数值的均数或中位数。多张芯片全局归一化:Xinorm=k*Xi
(k:校正因子)。一般计算方法取某一张芯片上所有对数比数值的均数或中位数。判别基因芯片中的整体数据质量单张芯片双通道校正效果BeforeAfter判别基因芯片中的整体数据质量单张芯片双通道校正效果判别基因芯片中的整体数据质量多张芯片校正效果判别基因芯片中的整体数据质量Intensity-dependentnormalization判别基因芯片中的整体数据质量比值与强度相关(或者说比值对于点的荧光强度存在系统依存性)而全局归一化方法不能解决此强度依存偏倚。局部加权线性回归和其它稳健的线性回归方法可以用于消除强度依存效应的作用。模型建立后,将被用于对数据进行校正:每个数据点的垂直坐标M值减去拟合的指数曲线所确定的值,使得染色的偏倚得以校正。判别基因芯片中的整体数据质量染色所造成的偏倚在MA图中常呈指数型分布,因此可以基于实验数据拟合指数函数的参数。由于微阵列通常包含大量的数据点,通常不对原始的所有数据拟合模型,而是采用更为简便的处理方法,在散点图中把水平X轴划分为若干强度区间,相当于把图形分割成对应X轴不同区间的若干竖条,计算每个区间内数据点的重心,对所有的重心数据点拟合形如y=a+b·exp(-cx)的指数曲线,目的是得到能够呈现数据中染色偏倚的指数曲线参数的最佳组合。判别基因芯片中的整体数据质量局部加权线性回归locallyweightedscatterplotsmooth,简写为LOWESS和LOESS。两种方法都使用局部加权线性回归对数据进行平滑。平滑过程是在局部进行的,每个平滑值是由给定点临近一定范围内所有的数据点决定的;平滑过程是通过加权实现的,给定数据点一定范围内的数据点是通过加权回归建立起来的,距离给定数据点不同距离的数据在建立局部回归方程时的权重不同。LOWESS和LOESS两种方法的区别在于回归中使用的模型的差异:LOWESS使用线性多项式,而LOESS使用二次多项式。判别基因芯片中的整体数据质量局部加权线性回归LOWESS方法最大的优点在于它不需要设定某种特定类型的函数用来建立模型(如指数归一化中的指数函数),仅需要设定多项式的次数和光滑因子就可以。另外,LOWESS方法在拟合时所使用的最小二乘回归具有稳定的理论基础。LOWESS方法的缺点包括:该方法并不生成一个能用数学公式表达的回归函数或模型,尤其是,建立在特定数据集基础上的染色偏倚模型并不能直接用于其它数据集的归一化,LOWESS需要对每个数据集建立模型,不同数据集基础上的模型可能会稍有差别。另外该方法计算复杂。LOWESS的一个更重要的不足是对于噪声和异常值的敏感性,因此在进行LOWESS方法前要把异常值从数据中去除或使用稳健局部加权线性回归。判别基因芯片中的整体数据质量分段归一化使用固定数目的有交叉的窗口代替LOWESS中的滑
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 60335-2-118:2025 RLV EN Household and similar electrical appliances - Safety - Part 2-118: Particular requirements for professional ice-cream makers
- 2025年养老服务与社会保障基础知识考试题目及答案
- 2025年心理健康教育与辅导考试试题及答案
- 2025年成人教育与培训职业资格考试试题及答案
- 2025年城市规划与设计专业考试题目及答案
- 2025年公共英语三级考试题及答案
- (三模)青岛市2025年高三年级第三次适应性检测语文试卷(含标准答案)
- 采购合同免责协议书范本
- 2025年煤及矿产品批发服务项目发展计划
- 2025年中、高档黑白超声诊断仪项目建议书
- 2024年河南省机关单位工勤技能人员培训考核高级工技师《职业道德》题库
- DBJ15 31-2016建筑地基基础设计规范(广东省标准)
- 压力容器制造质量保证手册+程序文件+表格-符合TSG 07-2019特种设备质量保证管理体系
- 山东省济南市历城区2023-2024学年七年级下学期期末语文试题(解析版)
- DL∕T 1864-2018 独立型微电网监控系统技术规范
- 2024年湖南省中考道德与法治试题卷(含答案解析)
- 极坐标法课件讲解
- 苏州2024年江苏苏州张家港市事业单位招聘笔试笔试历年典型考题及考点附答案解析
- 八年级语文下册(部编版) 第四单元 经典演讲-单元主题阅读训练(含解析)
- 2024新高考英语1卷试题及答案(含听力原文)
- (高清版)JTGT 3654-2022 公路装配式混凝土桥梁施工技术规范
评论
0/150
提交评论