基因芯片数据处理流程与分析介绍_第1页
基因芯片数据处理流程与分析介绍_第2页
基因芯片数据处理流程与分析介绍_第3页
基因芯片数据处理流程与分析介绍_第4页
基因芯片数据处理流程与分析介绍_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因芯片数据处理流程与分析介绍关键词:基因芯片数据处理当人类基因体定序计划的重要里程碑完成之后,生命科学正式迈入了一个后基因体时代,基因芯片(microarray)的出现让研究人员得以宏观的视野来探讨分子机转。不过分析是相当复杂的学问,正因为基因芯片成千上万的信息使得分析数据量庞大,更需要应用到生物统计与生物信息相关软件的协助。要取得一完整的数据结果,除了前端的实验设计与操作的无暇外,如何以精确的分析取得可信数据,运筹帷幄于方寸之间,更是画龙点睛的关键。基因芯片的应用基因芯片可以同时针对生物体内数以千计的基因进行表现量分析,对于科学研究者而言,不论是细胞的生命周期、生化调控路径、蛋白质交互作用关系等等研究,或是药物研发中对于药物作用目标基因的筛选,到临床的疾病诊断预测,都为基因芯片可以发挥功用的范畴。基因表现图谱抓取了时间点当下所有的动态基因表现情形,将所有的探针所代表的基因与荧光强度转换成基本数据(rawdata)后,仿如尚未解密前的达文西密码,隐藏的奥秘由丝丝的线索串联绵延,有待专家抽丝剥茧,如剥洋葱般从外而内层层解析出数千数万数据下的隐晦含义。要获得有意义的分析结果,恐怕不能如泼墨画般洒脱随兴所致。从rawdata取得后,需要一连贯的分析流程(图一),经过许多统计方法,才能条清理明的将rawdata整理出一初步的分析数据,当处理到取得实验组除以对照组的对数值后(log2ratio),大约完成初步的统计工作,可进展到下一步的进阶分析阶段。Rosettaprofileerrormodelcalculation"CombinetecJinicafrepeat"BasicstatisticplotandPearsonconelationcoefficient°Pairwiseratiocalculationprob串#图一、整体分析流程。基本上rawdata取得后,将经过从最上到下的一连串分析流程。(1)Rosetta软件会透过统计的model,给予不同的权重来评估数据的可信度,譬如一些实验操作的误差或是样品制备与处理上的瑕疵等,可已经过Rosettaerrormodel的修正而提高数据的可信值;(2)移除重复出现的探针数据;(3)移除flagged数据,并以中位数对荧光强度的数据进行标准化(Normalized)的校正;(4)Pearsoncorrelationcoefficient(得到R值)目的在比较技术性重复下的相似性,R值越高表示两芯片结果越近似。当Rosettaprofileerrormodelcalculation"CombinetecJinicafrepeat"BasicstatisticplotandPearsonconelationcoefficient°Pairwiseratiocalculationprob串#找寻差异表现基因实验组与对照组比较后的数据,最重要的就是要找出显著的差异表现基因,因为这些正是条件改变后而受到调控的目标基因,透过差异表现基因的加以分析,背后所隐藏的生物意义才能如拨云见日般的被发掘出来。一般根据以下两种条件来筛选出差异表现基因:(i)荧光表现强度差异达2倍变化(foldchange增加2倍或减少2倍)的基因。而我们通常会取对数(log2)来做foldchange数值的转换,所以看的是log2沱1或m-1的差异表现基因;(ii)显著值低于0.05(p值<0.05)的基因。当这两种条件都符合的情况下所交集出来的基因群,才是显著性高且稳定的差异表现基因。进阶分析案例以目前华联生技的最新服务报告里,将主动提供下列几种进阶分析服务于报告中供您使用参考。首先,为确认control组与treatment组各自芯片实验间的质量一致性,先以主成分分析(PrincipleComponentAnalysis,PCA)将芯片数万点的信息简化成几个低维度的分析数据,以归纳出彼此的群落分布,藉以比对各自的近似关系。从结果可以看到control组与treatment组经过主成分分析后,显示出两组各自间的结果是相近似的(图二),代表这次实验的设计与芯片结果是可信的,值得往下做进阶分析。CeN(5£.59fe图二、主成分分析control组与treatment组间的芯片结果。用主成分1(Comp.1)和2(Comp.2)便可以将两组间的数据归纳出显著的各自群落。代表两组各自的结果相近似。接着以HierarchicalClustering(丛聚法)搭配Pearsoncorrelation找出各基因彼此间的近似关系。如此将control组与treatment组的差异表现基因做分群,划分出treatment组经过处理后,对照control组而呈现下调(Down-regulated)或者上调(Up-regulated)基因群(图三)。

图三、丛聚法分析将差异表现基因做分群。以treatment组(T-1、T-2、T-3、「4)对应control组(C-1、C-2、C-3、C-4)后的分析下,基因表现呈现下调(Down-regulated)与上调(Up-regulated)的分类结果。进阶分析服务方面,提供GeneOntology(GO,基因功能分类)和Pathwaysanalysis(W息传递路径分析)的进阶分析。于GO的分析,在于将差异表现基因群做功能上的分类,可依功能分类推敲出所处的情况在何种状态,譬如:细胞增生、受损、凋亡或发炎等等。而讯息传递路径分析则从基因上下游的牵连性来探讨受调控后的影响关系。使用的是GeneSetEnrichmentAnalysis(GSEA)工具,将差异表现基因导入后,再选择所需要的分析服务,可获取所需的相关信息(图四)。「一LJcuratedyenesetsfromonhne1pathway*pub^icdtionsmPubMecJ,andknowted^eofdomainexperts*图四、GSEA提供的进阶分析服务°c2-为pathwayanalysis的分析数据库,c5-为GO分析数据库。挑选出差异表现基因后,透过GSEA分析工具,可依需求选择所要的进阶分析。讯息传递路径的进阶分析,帮助研究者探讨调控基因间的上下游关系,除可厘清其脉络以了解完整的影响关系;此外,借着交互间的讯息传递网络,像剥洋葱般从外而内的解开网络关联路径,才有机会往内更深入找出最重要的上游调控基因,找到这些最关键的基因,才有机会发现药物影响或受外在环境刺激下影响主要的目标基因。借着目标基因的找寻,有助于新药的开发或者新生物标记基因(biomarker)的找寻。所提供的服务报告里,会提供最显着的几个讯息传递路径及所有参与其中的差异表现基因,以Excel文件将相关信息做整合,让客户能简单明了的撷取所需信息加以应用。此外也可以从GSEA所分析的结果,利用其他的图表数据库,如:KEGG(图五)、BioCarta、Signalinggateway、GenMAPP(请见参考文献)等等,画出图像化的链接图表。

图五、讯息传递路径分析。利用GSEA的分析,可利用KEGG数据库,制作出讯息传递路径相连关系的图表。而GO的进阶分析,在于从功能的分门别类里找出整体趋势的走向,如:细胞面临压力的刺激下,一些相关的功能群组会被调控以因应环境的变化,抵抗压力的迫害;当压力过大,细胞调适不过来,细胞即启动”我投降,不玩了!”的自动凋亡机制(apoptosis),此时可发现apoptosis相关的功能群组特别显著;若压力的程度再大一些,大到如土石流般无力招架,则细胞可能就因而坏死(necrosis),导致细胞碎裂,于是细胞内的物质外露,如细胞介素(cytokine)等等,造成其他邻近细胞受到影响,便引起发炎反应,于是从GO类别可以看到细胞坏死或发炎相关的功能群组被大量调控显著增加。提供的报告里会列出最显著的几个GO分类以及有影响作用的基因,并提供链接,将以上信息整合到Excel文件,让研究者可以进一步探索里面的信息(图六)。

qen&s^name&削ALTR^iSOUCTiONLiekTOC\o"1-5"\h\zBlOPOLYMtfiHETASOLICPROCESSLMCELLULAR淡MROHOLKULE1,'ET^OLICPROCESSH薄CELLULARPROTEKMETABOLICPROCESS也PROTflll^ETABOUCPROCESSLtfltTRANSPORTBEST^flUSHMEiaOFLOCALIZATIQIILick!jUCLtOB.ASENUCLEOSIDEHU€l£OTWEWDHIICLE^ACtinkRE&JUmWIOFMETABOLICPROCESS也REGULillCHiOFCELLULAR典HBOLICPROCESS奥61OS>1!TKETICPROCESSLiMAJlATOMtCALSTRUCTUREDEVELCPWEIHLtOkPOSITIVEREGULATiailGFBIOLOGICALPROCESSLiakUUIT1CELLUWRORGA山钏网DEVflOPMEICLinJIIEGEVERE剧LAHO【IOFBIOLOGICALPROCESSM花RtGULATiOUOFCELLULARPROCESS也CELLCELLSlGhALHlG国aEGULATI:atiOFGEIfEEX^RESSOJLakSYSTEMDEVELOPMEIHLtckPOSITIVEREGULABOtlOFCELLULEPROCESS也UEUROLOGECflLSYS^UPROCESS也CELLULARB!OS¥»THf?lCPROCESSWkREGULATiai;OFHUCLEOBASE加CLEDSIDEIJUCLEOTIDE二CELLPftOLlFERATSONGO伽08283工#qenesr1637物H321118#qenesr1637物H3211181232796872g79978747Q10177191Q5i67764S405€73863689379321613研七除了上述的两种进阶分析在服务报告会主动提供。我们还提供其他的进阶分析方法,依研究者的兴趣与需求自行选择。由于基因的功能最多是由蛋白质来完成,因此探讨蛋白质的生理功能即是一门重要的课题。从一开始的酵母菌双杂交系统(Yeasttwohybridsystem)、荧光共振能量转移(Fluorescenceresonanceenergytransfer,FRET)、以及共同免疫沉淀法(co-immunoprecipitationassay,Co-IP),就是探讨蛋白质-蛋白质或蛋白质-DNA交互作用关系的研究策略。现在透过microarray与数据库(如IncAct,见文献参考)的发展,便可以利用数据库来探讨蛋白质间之交互作用关连性(protein-proteininteraction,PPI),并进一步整合出其联络网(PPInetworks),可从蛋白质的角度探讨出有别于基因表达层面的生物意义(图七)。

mis/m瑚pru”篇El磨WI1JHmis/m瑚pru”篇El磨WI1JH//(^即t,HJ9.以"工脸-r0HMmil嗯叫承严w%a结论华联还提供研究者更多的服务的内容,期望能以高质量的服务规格满足您各式各样的需求与标准。此外,华联的网站设计也做了更新,以更贴切用户使用上的便利。此外也不定期发布有关技术开发与产品发表的讯息,通过网站就就可以知晓,期

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论