




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因芯片技术Genechiptechnology第1页第9章基因芯片与系统生物学内容提要:第一节系统生物学与基因芯片第二节基因芯片数据MIAME规则第三节芯片试验设计标准和方法第2页第一节
系统生物学与基因芯片第3页系统生物学四个方面一是系统结构:包含基因,蛋白间关系;由此得到基因蛋白网络和生物通路(pathway),以及这些相互之间关系所牵涉到细胞内、外结构物理特征和机制。二是系统动力学:在不一样时间点不一样条件下系统行为。经过代谢分析,敏感性分析,动力学分析工具、识别不一样行为内在机制分析方法等来研究。三是系统控制方法。搞清楚控制细胞处于各种状态机制,然后模拟系统,能得到治疗疾病药靶。四是设计方法。基于一些设计标准和模拟方法,能够修正和结构含有所需特征系统,而无须盲目地重复试验。第4页系统生物学两个关键技术基础1.“组学”数据基础:从基因组学到功效基因组学
从大量测序数据到大量生命过程中结构与功效数据:基因组、转录组、蛋白组、结构基因组、代谢组、生理组、表型组、化学(药品)基因组…2.检测和试验技术基础:功效基因组检测技术平台:单分子测序、生物芯片等系统生物学研究技术和体系:细胞和动物模型(人类样品库)、药品材料库、生物信息和生物计算技术第5页图:有丝分裂第6页细胞周期图第7页心脏病细胞钙调路径第8页Genmapp对数据整理形象描述第9页第10页第11页第12页转录调控网络经过表示谱将基因聚类,识别每类基因可能存在共有转录调控因子结合区域,综合对应转录调控因子和各类基因,组成基因调控网络。第13页调控元件分析共表示在一定程度上意味共调控,从共调控序列上游序列能得到共有调控元件。同一个类别中基因在转录中可能受共同调控,而表示谱聚类分析是高通量识别共调控基因群最有效和最方便伎俩。经过分析同处于一个类中基因共有保守序列就能发觉调控区域和调控元件。
第14页基因芯片技术预测调控元件惯用策略
第15页工具聚类工具:Kmeans,SOM多序列比对工具:保守性、特异性LOGO显示:Weblogo第16页GeneOntology数据库中基因功效分类分析
GO研究目标:1)提供和维护基因本体论类别;2)把基因与本体论联络起来,从而进行更有效基因功效注释和信息提取;3)提供工具来便于对基因信息利用。第17页GeneOntology数据库中基因功效分类分析
GO提供三种本体论分类:1)分子功效(molecularfunction)、2)生物学过程(biologicalprocess)3)细胞组分(cellularcomponent)。第18页在每一个分类中,都提供一个描述相关信息分级结构。第19页/第20页使用AmiGO浏览GO例子第21页Pathway分析-KEGG数据库http://www.genome.jp/kegg/第22页KEGG结果TCAcycle(三羧酸循环)KEGG生物学通路第23页BioCarta/第24页BioCarta结果BioCarta数据库中AKT信号转导通路第25页基因芯片试验与功效分析
(GOpathwayanalysis)第一个方法是把发生差异表示基因和GOpathway联络起来,而且使用不一样颜色来表示其中差异表示基因,使其能够很轻易地被检测到。这是一个比较直观方法。比如:依据在某一GO分类中发生差异表示基因数量,来推理与此GO分类相关生物学功效是否发生了改变。第26页基因芯片试验与功效分析(GOpathwayanalysis)第27页基因芯片试验与功效分析
(GOpathwayanalysis)第二种方法是对基因芯片检测结果进行统计学分析,从而确定一系列发生差异表示基因是否多到能够代表一些生物学通路。通惯用富集度分析。
第28页第29页/home.jsp第30页GeneMAPPGenMAPP(GeneMicroArrayPathwayProfiler)是一个能够无偿使用计算机程序,用来显现和分析基因芯片表示谱试验结果,而且将分析结果与生物学通路和其它基因群联络起来。第31页GeneMAPP第32页顺向技术和反向技术勾勒网络有顺向技术和反向技术(reverse-engineering)。顺向技术:是指先依据生物化学知识,推导出一些关系,设计出简单网络,并经过试验来证实。反向技术:是指从已经有表示数据中,去推断其中蕴含网络。海量堆积芯片数据,正需要反向技术来挖掘其中生物意义。
第33页基因网络研究源起和发展基因调控网络:利用生物信息学方法和技术,经过数据采集、分析、建模、模拟和推断等伎俩研究复杂网络关系,在基因组层次上揭示相关作用机理。基因网络研究始于20世纪60年代,Rater描述了控制原核生物分子基因系统组织特点。另一项研究是Kaufman经过简单逻辑规则研究基因网络动力学。20世纪90年代试验数据增加加速了基因网络理论研究,到当前为止已发展了很多研究基因网络方法:如结构方程模型、随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程方法等。第34页第35页基因调控网络研究目标和内容
识别和推断基因网络结构、特征和调控关系认识复杂分子调控过程了解支配基因表示和功效基本规则揭示基因表示过程中信息传输规律整体框架下研究基因功效第36页芯片数据识别和推断网络当前研究最多是从基因表示谱推断和识别基因网络。从表示数据识别基因调控网络结构;经过随机扰动,分析个体基因对全局动态网络性能影响,得出网络特征;依据大规模数据进行基因网络分析,识别基因网络中调控关系,取得网络参数,推断网络特征;经过建立静态网络,推断网络中基因之间在稳态下相互作用机制;在表示谱基础上推断基因功效和生物网络线路逻辑;识别基因网络因果结构等等。第37页芯片数据识别和推断网络生物信息学经过对基因网络关系进行适当简化和定量化处理,依据试验取得数据和已知经验知识发掘关系信息,建立网络模型,经过模拟分析和试验测试挖掘各种关系研究网络特征,认识调控关系和相关机制。第38页权重矩阵网络权重矩阵网络:假如基因表示与时间无关,某个时刻基因表示只是受到这个时刻其它基因表示量影响。第39页线性结构方程组Y:endogenousvariablesX:exogenousvariables第40页布尔网络基因表示是一个连续过程,若将其离散化处理,那么就得到布尔网络。一个布尔网络含有N个节点(每个节点就是基因),当这些基因被抑制或者表示,节点分别表现出状态是0和1。布尔网络从初始状态开始,经过一系列状态转换,最终抵达最终稳定状态。从不一样初始状态出发,布尔网络会抵达不一样中止状态,而这些不一样中止状态对应于细胞相对稳定生化状态。第41页布尔网络它有一些和真正生物基因网络可比特征,比如,全局性,自组织性,冗余性等等。布尔网络在应用于调控网络学习时依然存在很多缺点:基因只有开和关两种状态;不能量化调控关系;要求全部基因状态必须同时改变。第42页常微分方程在常微分方程模型中,方程变量包含RNAs、蛋白质及其它生物小分子,基因调控关系能够用分子表示水平改变率函数来表示
第43页常微分方程常微分方程族方法在建模时存在不少问题:适合用于在大多数基因和它们调控关系相对比较清楚情况;要求基因状态同时发生改变;在模型中对变量之间关系过多简化,比如表示量函数通常是简单线性关系。第44页偏微分方程生物调控网络不但是单个细胞内部不一样分子之间相互作用结果,不一样细胞内部基因产物相互作用也会对分子表示量产生影响。在偏微分模型中变量不但是时间函数,还能够是细胞序列号等变量函数。第45页偏微分方程该模型最大优点是:比较符合生物网络特点。不过该模型要求非常准确分子绝对表示量,这一点是当前基因芯片试验所达不到。其次,对于比较大复杂网络,寻找参数和数据之间最优匹配计算代价非常高,难以用于实际数据分析。最终,因为在应用中通常需要对不一样细胞之间分子关系作较多简化,所以对于复杂生物网络并不能得到比较满意效果。第46页贝叶斯网络对于贝叶斯网络,调控网络学习问题就是在给定打分函数和搜索策略情况下,寻找和基因芯片数据拟合得最好简单网络。贝叶斯网络统计特征使得能够处理基因表示数据存在噪音和随机问题。同时它还能用于处理信息不完备系统。正是因为这些优点,贝叶斯网络方法在生物网络学习方面得到了广泛应用。动态贝叶斯网络和卡尔曼滤波、隐马尔科夫模型、概率布尔网络等随机模型相关系,而且动态贝叶斯网络证实了在利用基因表示数据学习调控网络方面优越性。第47页贝叶斯网络模型
(一)数据预处理。基因表示数据首先被离散成三种类型:-1,0,1。这一简化是基于一个基因表示水平是否显著地低于,或者是近似,或者是显著地高于某个参考水平。(二)学习贝叶斯网络算法。主要思想是首先利用一些简单统计量(如相关系数)对每个基因推导出少数几个可能父母集合。在随即寻找过程中,这个算法只是从这些可能父母集合中寻找每个基因可能调控基因,所以,这个算法能够从很小网络空间中寻找到局部(local)最正确结构。
第48页贝叶斯网络模型
(三)对网络统计显著性评定。对网络统计显著性评定普通能够用我们上面定义得分函数(BIC或AIC)来进行。(四)对于推导网络稳健性评定。这一步骤对学习贝叶斯网络是必不可少。第49页结构大规模网络第50页酵母转录网络
第51页结构大规模网络困难和不足数据量不足相关数据库建设和高质量软件开发是一项紧迫而艰巨任务数据噪声和系统鲁棒问题以及数据采集和分析可靠性和数据集可容性问题
第52页结构大规模网络困难和不足建模时碰到两难问题:求大造成模型粗糙——试图建立适合用于研究大规模基因网络模型造成模型过于粗糙,不能很好反应真实情况;求全造成计算复杂——试图建立高效、仿真模型,使参数集规模过大、计算复杂度剧增,结果模型复杂到难以处理程度。建模范围小——使模型反应网络范围狭小,从而使研究难以到达预期目标和效果。分析模拟结果生物学解释方面也存在一些问题。第53页第二节
基因芯片数据MIAME规则第54页芯片数据难以共享基因芯片发展年限太短,最近才日趋成熟;数据复杂,比如需要详细描述芯片制备方法、基因信息,所用试验条件、试验样品等;数据之间相互比较难度大,因为芯片结果不是基因绝对丰度,而是和对照样本相对比值,而所用对照样本没有统一标准;芯片生产平台、数据产生格式、处理软件,归一化方法都存在多样性等。另外当前一些文件上和已汇报芯片数据格式多样,信息不全,不能很好地评定芯片试验质量、重复性、可靠性等,也影响了芯片结果数据共享。必须有一个统一标准来规范基因芯片试验数据。第55页MGED第56页MIAME规则
MIAME(Minimuminformationaboutamicroarrayexperiment)标准:芯片试验最低程度信息。是针对基因芯片提出了一套指导方案。构建基因芯片数据库过程中,假如参考MIAME规则,那么整个基因芯片体系基本内容就不会被遗漏.制订MIAME规则一个主要目标就是能指导微阵列数据库和数据管理软件开发。第57页MIAME规则(1)每次试验统计信息足以解释试验而且应该足够详细,使得能比较类似试验和进行重复试验;(2)信息应该以一定方式结构化,使得能够有利于查询和数据分析和挖掘,比如结构化词汇表,包含用一些标准化名字注释生物样本和条件。第58页MIAMI主要内容微阵列描述 —阵列相关信息 —微阵列上每个点类型信息 —微阵列上每个点信息 —微阵列类型信息 —微阵列详细信息 —微阵列上对照点信息第59页MIAMI主要内容对基因表示试验描述 —基因表示试验设计;主要对整个试验项目进行简述 —样品信息,样品抽提,标识信息。 —杂交试验信息。 —杂交取得试验数据及后续数据分析信息。MIAME规则从三个层面来考量微阵列杂交试验取得数据:原始数据,图像分析结果和均一化及分析后结果数据。第60页第三节
芯片试验设计标准和方法第61页芯片试验设计依据试验目标、试验材料以及试验条件而选择适当芯片,设计最正确样品处理和搜集方法,并在此基础上制订出杂交方案。杂交方案:包含参考样品使用是否以及样品配对方式,是试验设计关键样品处理和搜集:重复样品使用以及样品数量确实定,是否合并样品芯片探针设计第62页芯片试验设计中存在问题缺乏统计学参加。不少试验设计中缺乏统计学家参加,仅由生物学家完成。不过相关试验设计研究通常是由统计学家完成,而且高效率设计往往比较复杂。经费原因。因为芯片技术高成本而对芯片试验有不切实际期望,希望一个试验能解答许多问题。追求多效性但往往低效。第63页基因芯片试验目标类型比较(ClassComparison):经过比较不一样品类型表示谱来找到差异表示基因。类型发觉(ClassDiscovery):经过基因表示谱研究来对生物样品进行分类。第64页类型比较样品间生物学差异已知,目标是经过比较不一样类型样本找出它们之间差异表示基因,研究造成样本差异内在机理,或者是利用差异基因建立预测模型用来对未知样本进行预测。比如,转基因动物与正常动物间比较、疾病组织与正常组织间比较、不一样生长状态下细胞株比较第65页类型比较时样本选择依据不一样检测目标选取不一样样本,能够是组织起源或者血液起源,也能够是培养细胞或者病人体外分泌物。组织样本比较宝贵。病人组织和培养细胞还是有一定差异。内源性基因用活检组织最好,当针对不一样诱导物诱导进行基因表示谱研究时用培养细胞。样品要准确第66页类型比较简单离散型差异比较:所需比较类型不多,或者即使样品组数较多,但并不需要在全部样品间两两比较,而是用一个参考样品测出其它样品相对差异表示。比如,一组疾病样本与一组正常样本间比较,或者要测试许多药品,但只关心药品和非药品之间差异,而不是药品彼此间差异。第67页类型比较连续型差异比较:试验样本与对照样本间仅有一个差异原因,但差异原因有很各种状态,近似于连续变量。比如,同一个药品不一样剂量下基因表示谱改变或者同一药品不一样时间下基因表示谱改变,细胞周期研究中不一样时间点基因表示谱改变。每一个点都是与对照比较,但各点彼此相关,惯用聚类分析或相关分析。第68页类型比较多因子试验:几个原因及它们之间相互作用造成表示谱差异。比如,研究两种生长因子对细胞生长影响,每一个因子与对照作比较,而比较两种因子共同处理下与一个因子单独处理能够得到需要两种因子共同刺激才能表示基因,这些基因就表示了相互作用。伴随变量数目及每个变量状态数目标增加,需要考虑相互作用大大增加了。第69页类型发觉样本间生物学差异是未知,试验目标是经过基因表示谱差异对样本进行归类往往经过聚类分析同时找到样本类型划分和差异基因比如,临床医学研究中对疾病亚型分类,基础研究中也能够研究细胞株分类及活体组织分类第70页样本配对方案怎样将样品配对怎样选择标识染料怎样将样品分配到芯片上共同参考、直接比较、环状、更复杂设计第71页共同参考方案全部芯片都只将一个染料用于试验样品,另一个染料被用于一个参考样品。使用参考样品目标是校正芯片点样量误差全部芯片表示量基于一样基准相对值,因而是可比。T1RefT2Tn-1Tn第72页参考样品选取所用试验样品等量混合 —优点:参考样品与试验样品相同,校正作用很好 —缺点:不一样试验不能比较一些与试验无关,但起源广泛切大部分基因都有表示RNA样本(各种细胞株或各种组织mRNA)混合 —缺点:参考样本与试验样本无关,参考样本中缺乏一些基因使校正功效丧失 —优点:参考样本稳定可靠,易于进行多试验比较第73页共同参考方案适合大规模比较、需要聚类分析或相关性分析试验,以及一些需要进行很多两两比较试验。优点:很好牢靠性(少数样品损失对整个试验影响较小,不需要染料交换),可扩展性。缺点:误差大些,所需芯片更多一些。第74页直接比较方案一个试验样品和一个对照样品分别标识两种染料,杂交到同一芯片。试验组和对照组基因表示差异值直接从两种染料比值中得到。第75页直接比较方案适合用于两个样本间差异表示基因寻找优点:节约芯片,测量精度高缺点:不适合聚类分析和相关分析,不适合在不一样品之间进行各种比较(样品之间没有经过同一对照校正,不含有直接可比性)第76页染料交换直接比较中,两种染料可能带来系统误差(有些基因用一个染料测出表示量比用另一个染料测出表示量高)标识mRNA是不一样基因对Cy5和Cy3有不一样标识效率,在杂交结果上表现出由染料造成差异。处理方法:染料交换(DyeSwapping)(二分之一芯片用Cy5标识对照组样品和Cy3标识试验组样品杂交,另二分之一芯片用Cy3标识对照组样品和Cy5标识试验组样品杂交)第77页环状设计及更复杂网状设计适合用于比较复杂尤其是有较多样品组别需要比较试验优点:同时利用直接和间接方法提升测量精度缺点:复杂,中间可能缺失在相隔较远节点间增加一些杂交,环状成网状TATBTCTATBTCTDTBTCTDTETA第78页样本配对模式选择试验目标,试验室生物学背景和每个试验室详细情况类型发觉试验需要经过聚类分析,普通采取间接比较模式简单离散型比较试验采取直接比较模式适当,能在花费较低情况下得到比较准确结果连续型比较试验常要用聚类分析和相关分析,多采取间接比较模式。第79页时间序列试验T2T3T4T1RefT2T3T4T1用了4张芯片,间接比较,测定误差大但适合用于各种比较用了3张芯片,起始时间作为对照直接比较,T1为通用参考,适合用于各个时间与起始时间比较T1T2T3T4用了3张芯片,直接按次序比较,适合用于相邻时间样品间比较T1T2T3T4用了4张芯片,T1为通用对照,在直接比较方案上增加一些配对以提升测定准确度第80页多因子试验多因子试验和复杂离散型比较试验多采取网状或环状,以提升效率并满足其多重比较特点。ABABCCAABBCAABB用了6张芯片,间接比较,测定误差大,但所需样品最少用了6张芯片,环状,综合精度最高,但A因子测量误差大用了6张芯片,网状,但AB作用测量误差大C是空白对照第81页探针设计普通由芯片制造商完成寡核苷酸和cDNA探针设计定制或查阅克隆信息普通都从公开数据库:EST(expressedsequencetags),Unigene,RefSeq(referencesequences)第82页控制系统设计空白点。控制芯片制备过程中污染阴性内参。对试验阴性结果说明阳性内参。对试验阳性结果说明定量内参或者管家基因。对试验结果量化修正外参。与研究物种基因没有同源性基因。校正样本间差异第83页样品重复重复样本使用能够提升数据可靠性一个目标是经过重复样品平均值得到更准确测量结果另一个目标是计算样品群体方差,用统计学方法判断两组样品之间差异是否有显著性。这对类型比较试验很主要,因为只有经过统计学显著性才能判断得到差异基因是否是真。第84页样品重复生物上差异 —个体差异 —同一个体样本也有差异技术上差异:样本准备 —抽提,标识和杂交 —芯片,仪器和试剂第85页样品重复第86页技术上重复RNA制备重复、染料标识重复和杂交重复统称为技术重复杂交步骤误差最大,首先考虑杂交重复技术重复能够检测试验系统误差范围以确保试验系统没有问题,但不能进行试验显著性分析。第87页降低技术上差异试验流程流程标准化样本质控降低试验处理上差异尽可能降低人员差异(Technician-to-technicianvariability)试验仪器校正(Calibrationofinstrumentation)控制试剂差异(Controlreagentvariability)第88页生物重复用彼此独立生物学样本重复重复样本选择因试验目标不一样而有所不一样研究某种疾病与正常比较,每个病人就是一个重复但对这种疾病进行分型时,病人之间差异可能就是病差异,生物学重复应该初从同一病人体内取得不一样品。第89页生物重复性别(Sex-relatedexpressionpatterns)取样时间(Whattimeofdaywerethesamplesisolated?)组织(Eachcelltypehasdifferentexpressionpatterns)饮食(Eatinghabitsormediatypeswillaffectexpressionlevels)第90页生物重复生物样本差异对结果影响要远大于技术上差异减轻生物差异影响:在试验设计中将全部引发差异原因都考虑在内增加生物样本重复次数技术重复只是检测伎俩上重复,不一定需要。生物重复既检测不一样本上差异又检测伎俩上差异,必须。第91页需要多少次重复?尽可能多(Statisticssays:Themorereplicates,thebetteryourestimateofexpression)5次(Experienceshows:Formostcommonexperimentsyougetareasonablelistofdifferentiallyexpressedgeneswith5replicates)3次(Onetoconvinceyourself,onetoconvinceyourboss,onejustincase...)第92页需要多少次重复?αsignificancelevel(probabilityofdetectingFP)1-βpowertodetectdifferences(probabilityofdetectingTP)σstandarddeviationofthelog-ratiosδdetectabledifferencebetweenclassmeanlog-ratioszpercentileofstandardnormaldistributionnrequirednumberofarrays(referencedesign)第93页需要多少次重复?在各种生物学材料中,样本间误差值由低到高依次为培养细胞、动物组织、人体正常组织、人体肿瘤组织差异基因最多、差异值最大往往是一些肿瘤比较试验及生长因子处理试验,差异最小往往是生理状态比较试验。样本取样误差大,基因差异小情况下适当增加重复样品数量实际设计中极少能用上这公式,因为上述参数随试验系统不一样有很大差异,而实现试验设计者不知道这些数据第94页需要多少次重复?依据样本质量试验设计分析方法能给经费第95页选什么芯片好?什么样芯片最适合自己不一样芯片数据有没有可比性芯片平台标准芯片数据可靠性第96页MAQC:TheMicroArrayQualityControlProject
(芯片质控联盟)
MAQCConsortium,NatureBiotechnology,Vol.24,FDA组织来评定各种芯片数据可信度(“Anunprecedented,community-wideeffect,spearheadedbyFDAscientists,thatseekstoexperimentallyaddressthekeyissuessurroundingthereliabilityofDNAmicroarraydata.”)137researchers51academic,governmentandcommercial
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科技自立自强的路径与策略创新
- 海洋能大规模应用路径与行动计划
- 低空经济崛起与投资机遇解析
- 第4节 植物在自然界中的作用2024-2025学年新教材七年级下册生物同步教学设计(人教版2024)
- 品牌理念的落地实施计划
- 建设科学考核机制提升公平性计划
- 小语种证书考试复习提纲试题及答案
- 前台文员如何提升专业知识计划
- 急诊科对外联络机制建设计划
- 优化公司资金管理的策略计划
- 2025年江苏省徐州市铜山区中考一模道德与法治试题(原卷版+解析版)
- 制造业自检自控流程优化计划
- 《人工智能的进展》课件
- 风湿免疫病患者结核病诊治及预防实践指南(2025版)解读课件
- 大建安-大连市建筑工程安全档案编制指南
- 上海2024-2025学年五年级数学第二学期期末联考模拟试题含答案
- GB/T 45421-2025城市公共设施非物流用智能储物柜服务规范
- 北京市丰台区2025届高三一模试卷语文试题(含答案)
- 安徽省合肥市高三下学期第二次教学质量检测数学试卷(含答案)
- 2025年河南工业贸易职业学院单招职业倾向性测试题库往年题考
- PE特种设备焊工理论复习题库(带解析)
评论
0/150
提交评论