生物信息学计算表观遗传学专家讲座_第1页
生物信息学计算表观遗传学专家讲座_第2页
生物信息学计算表观遗传学专家讲座_第3页
生物信息学计算表观遗传学专家讲座_第4页
生物信息学计算表观遗传学专家讲座_第5页
已阅读5页,还剩139页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章

计算表观遗传学哈尔滨医科大学张岩生物信息学生物信息学计算表观遗传学专家讲座第1页长颈鹿起源生物信息学计算表观遗传学专家讲座第2页生物信息学计算表观遗传学专家讲座第3页生物信息学计算表观遗传学专家讲座第4页第一节引言Section1Introduction生物信息学计算表观遗传学专家讲座第5页一、表观遗传学(epigenetics)表观遗传学是研究不包括DNA序列改变情况下,DNA甲基化谱、染色质结构状态和基因表示谱在细胞代间传递遗传现象一门科学。生物信息学计算表观遗传学专家讲座第6页遗传现象:生物界普遍存在现象生物信息学计算表观遗传学专家讲座第7页表观遗传现象:生物界普遍存在另一现象生物信息学计算表观遗传学专家讲座第8页二、计算表观遗传学应用及开发生物信息学方法(统计分析,模式识别等)处理生物医学相关表观遗传学问题。生物信息学计算表观遗传学专家讲座第9页生物信息学构架了基因组学与表观基因组学桥梁计算表观遗传学生物信息学计算表观遗传学专家讲座第10页表观遗传学领域全球发表论文生物信息学计算表观遗传学专家讲座第11页计算表观遗传学发展生物信息学计算表观遗传学专家讲座第12页生物信息学计算表观遗传学专家讲座第13页三、计算表观遗传学研究方向预测角度研究表观遗传现象。应用生物信息学工具建立遗传与表观遗传调控网络。表观遗传数据库。建立在表观遗传机制基础功效基因组及比较基因组研究。生物信息学计算表观遗传学专家讲座第14页四、计算表观遗传学研究内容(一)数据层面分子水平表观遗传修饰生物信息学计算表观遗传学专家讲座第15页(二)数据分类生物信息学计算表观遗传学专家讲座第16页(三)算法层面开发新方法和工具处理及分析表观遗传数据挖掘表观遗传现象生物信息学计算表观遗传学专家讲座第17页惯用算法统计学方法回归分析相关分析及判别分析聚类分析主成份分析因子分析模式识别方法支持向量机决议树贝叶斯网络最小二乘法最近邻算法生物信息学计算表观遗传学专家讲座第18页生物信息学计算表观遗传学专家讲座第19页(四)功效层面目标有效利用当前已经有高通量表观基因组数据生物信息学计算表观遗传学专家讲座第20页单核苷酸多态、DNA甲基化与基因表示之间关系,挖掘调控基因表示关键因子。生物信息学计算表观遗传学专家讲座第21页举例:利用DNA甲基化数据预测新癌症相关基因Prioritizingcancer-relatedgeneswithaberrant

methylationbasedonaweightedprotein-proteininteractionnetwork.生物信息学计算表观遗传学专家讲座第22页人类蛋白质互作网络生物信息学计算表观遗传学专家讲座第23页

癌症相关子网生物信息学计算表观遗传学专家讲座第24页肿瘤神经退行性疾病心血管疾病精神性疾病代谢性疾病(一)计算表观遗传学与疾病五、计算表观遗传学应用生物信息学计算表观遗传学专家讲座第25页内源性逆转录表示肿瘤抑制基因表示染色质结构异常

肿瘤表观遗传特征生物信息学计算表观遗传学专家讲座第26页精神性疾病DNA甲基化特征生物信息学计算表观遗传学专家讲座第27页(二)计算表观遗传学与发育发育中DNA甲基化特征生物信息学计算表观遗传学专家讲座第28页早期胚胎DNA甲基化特征生物信息学计算表观遗传学专家讲座第29页(三)计算表观遗传学与进化DNA甲基化进化分析生物信息学计算表观遗传学专家讲座第30页DNA甲基化进化分析生物信息学计算表观遗传学专家讲座第31页DNA甲基化进化分析生物信息学计算表观遗传学专家讲座第32页DNA甲基化和组蛋白修饰有潜在临床用途附加诊疗工具预后因子治疗反应预测用于普遍临床实践抑癌基因高甲基化和DNA高甲基化谱可用于癌症病人预后指示器特定基因高甲基化可对治疗反应进行预测生物信息学计算表观遗传学专家讲座第33页第二节基因组DNA甲基化Section2Genome-wideDNAMethylation生物信息学计算表观遗传学专家讲座第34页一、CpG岛DNA甲基化调控基因表示(一)DNA甲基化与CpG岛DNA甲基化是一个发生在DNA序列上化学修饰,能够在转录及细胞分裂前后被稳定地遗传。DNA甲基化是主要表观遗传代码。

生物信息学计算表观遗传学专家讲座第35页DNA甲基化发生机制生物信息学计算表观遗传学专家讲座第36页(二)DNA甲基化对转录调控1.DNA甲基化妨碍转录因子结合2.DNA甲基化识别染色质标识3.DNA甲基化募集其它蛋白引发染色质缄默4.DNA甲基化影响核小体定位生物信息学计算表观遗传学专家讲座第37页CpG岛甲基化和转录关系生物信息学计算表观遗传学专家讲座第38页(三)DNA甲基化意义CpG二核苷酸甲基化与重复元件缄默CpG二核苷酸甲基化与染色体选择性缄默DNA甲基化与基因组织特异表示生物信息学计算表观遗传学专家讲座第39页二、基因组CpG岛识别方法(一)CpG岛识别准则Gardiner-Garden和Frommer长度最短200bpGC含量最少50%CpGO/E最小0.6许多开启子缺乏严格定义CpG岛,不过有组织特异甲基化模式和转录活性有亲密联络。1.最初CpG岛定义生物信息学计算表观遗传学专家讲座第40页2.改进CpG岛定义Takai和Jones增加最短长度、CpGO/E值GC含量分别到500bp,0.65%和55%对预测精度影响。经过使阈值愈加严格,Alu重复元件得到最大程度排除,但此时却排除了原来数量10%CpG岛,这表明一些真正CpG岛可能也被排除。生物信息学计算表观遗传学专家讲座第41页常见CpG岛预测算法预测方法长度(bp)GC含量(%)CpGO/E重复元件屏蔽备注ENSEMBL≥400≥50%≥0.6否严格参数限制NCBI宽松≥200≥50%≥0.6否总CpG岛数目307193NCBI严格≥500≥50%≥0.6否总CpG岛数目24163UCSC>200≥50%>0.6是总CpG岛数目28226生物信息学计算表观遗传学专家讲座第42页常见CpG岛预测算法预测方法长度(bp)GC含量(%)CpGO/E重复元件屏蔽备注EMBOSS指定指定指定否参数可调CpGProD>500>50%>0.6是总CpG岛数目76793CpGcluster无限制无限制无限制否总CpG岛数目197727CpG_MI≥50无限制无限制否总CpG岛数目40926生物信息学计算表观遗传学专家讲座第43页差异取决于以下原因(1)任意阈值应用;(2)没有考虑到CpG岛异质性;(3)基于DNA序列预测方法忽略了DNA甲基化状态。生物信息学计算表观遗传学专家讲座第44页举例:窗口法Analyzeawindow.生物信息学计算表观遗传学专家讲座第45页DoesitmeetCpGislandcriteria?Ifnot,slidetotherightonenucleotideAndanalyzeagain.生物信息学计算表观遗传学专家讲座第46页Andagain.Untilitmeetsthecriteria生物信息学计算表观遗传学专家讲座第47页Thenjumpaheadandcheckthewindowadjacenttotheislandonthe3’side.生物信息学计算表观遗传学专家讲座第48页Repeatasneeded,untilthenewwindowdoesnotmeettheCpGislandcriteria生物信息学计算表观遗传学专家讲座第49页Thenslidethewindowbacktowardtheisland.生物信息学计算表观遗传学专家讲座第50页KeepslidinguntilthewindowmeetsCpGislandcriteria.生物信息学计算表观遗传学专家讲座第51页生物信息学计算表观遗传学专家讲座第52页Ifitdoesn’tmeetthecriteria,trytrimmingabasepairoffeachendandanalyzingagain.削减生物信息学计算表观遗传学专家讲座第53页削减生物信息学计算表观遗传学专家讲座第54页削减OnceitmeetsCpGislandcriteria,moveontothenextadjacentwindowandanalyzethat.生物信息学计算表观遗传学专家讲座第55页(二)试验方法寻找CpG岛Illingworth等人最近开发了一项CXXC亲和纯化技术(CAP,CXXCaffinitypurification)以富集非甲基化CpG富集DNA片段(CpG岛)。该技术使用了半胱氨酸富集对非甲基化CpG位点有高亲和性CXXC3结构域。CXXC结构域对只包含甲基化CpG位点或缺乏CpG位点DNA片段几乎没有亲和性。生物信息学计算表观遗传学专家讲座第56页从小鼠Mbd1中得到重组CXXC结构域对非甲基化CpG位点有高结合特异性,并被用于从全基因组DNA中提取CpG岛。他们从人类血液中提取了超出17000个CpG岛。生物信息学计算表观遗传学专家讲座第57页试验方法确定基因组范围CpG岛图谱生物信息学计算表观遗传学专家讲座第58页(三)CpG岛定位有利于发觉新基因CpG岛是主要调控元件,可用于新基因发觉。CpG岛通常是不被甲基化,作为管家基因主要标志之一。生物信息学计算表观遗传学专家讲座第59页UCSC数据库截图展示了三个CpG岛生物信息学计算表观遗传学专家讲座第60页三、试验检测技术测定DNA甲基化状态(一)DNA甲基化检测方法当前惯用DNA甲基化检测方法是将待检序列中甲基化胞嘧啶转化为其它碱基组成改变。最新检测方法还用到了基因微阵列(microarray)。

1.限制性内切酶法2.亲和纯化3.重亚硫酸钠法生物信息学计算表观遗传学专家讲座第61页1.限制性内切酶法使用甲基化敏感酶检测DNA甲基化生物信息学计算表观遗传学专家讲座第62页2.亲和纯化生物信息学计算表观遗传学专家讲座第63页3.重亚硫酸钠法生物信息学计算表观遗传学专家讲座第64页(二)基因组范围高通量DNA甲基化检测方法生物信息学计算表观遗传学专家讲座第65页高通量测序是最新发展起来但却是最有前途全基因组DNA甲基化分析方法。高通量测序技术出现,使得产生大量序列信息时间和成本均要低于桑格法。当前,两种高通量测序平台最为流行:一个是454生命科学企业开发焦磷酸测序方法,另外一个是Illumina前身Solexa开发基于荧光核苷酸系统。生物信息学计算表观遗传学专家讲座第66页技术应用优势局限Illumina磁珠阵列甲基化多态性发觉和分析定量,多达96个样品同时快速分析需要设计引物文库,同时只能分析1536个位点Affymetrix芯片全基因组甲基化测定探针密度大,支持物种多,可定制,价格合理短寡核苷酸噪声大,单通道杂交,定制芯片昂贵NimbleGen微阵列全基因组甲基化测定长寡核苷酸探针产生更纯净数据,双通道杂交,定制芯片不昂贵,价格合理较Affymetrix芯片探针密度小DNA甲基化大规模分析可用平台一览表生物信息学计算表观遗传学专家讲座第67页技术应用优势局限Agilent微阵列大规模甲基化测定长寡核苷酸探针产生更纯净数据,双通道杂交较Affymetrix和NimbleGen芯片探针密度小得多Solexa测序全基因组甲基化测定,分析印记位点定量化,无需杂交,并行基因型信息下一代技术,需要购置昂贵仪器或服务DNA甲基化大规模分析可用平台一览表生物信息学计算表观遗传学专家讲座第68页四、异常DNA甲基化特征识别(一)癌症基因组整体低甲基化

(二)癌基因印记丢失

(三)基因超甲基化是癌症标志生物信息学计算表观遗传学专家讲座第69页生物信息学计算表观遗传学专家讲座第70页不一样癌症之间存在差异生物信息学计算表观遗传学专家讲座第71页MeInfoText和PubMeth数据库汇总了癌症特异异常甲基化信息。使用生物信息学方法有利于深入扩充已知异常甲基化基因列表信息。生物信息学计算表观遗传学专家讲座第72页生物信息学计算表观遗传学专家讲座第73页生物信息学计算表观遗传学专家讲座第74页第三节组蛋白修饰表观基因组Section3

EpigenomeofHistoneModifications生物信息学计算表观遗传学专家讲座第75页一、组蛋白密码是主要表观遗传标识之一(一)核小体与组蛋白修饰1.核小体与组蛋白

生物信息学计算表观遗传学专家讲座第76页组蛋白修饰位点生物信息学计算表观遗传学专家讲座第77页2.组蛋白修饰与转录关于组蛋白修饰在转录中作用,已经有许多模型如电中性模型、组蛋白密码以及信号通路模型被提出来。不一样组蛋白修饰类型作用不尽相同。生物信息学计算表观遗传学专家讲座第78页组蛋白乙酰化主要促使基因表示和DNA复制,使组蛋白乙酰化定位基因得到动态调控。组蛋白去乙酰化则使基因缄默。组蛋白磷酸化能够改变组蛋白电荷,对基因转录、DNA修复和染色质凝聚等过程起调控作用。组蛋白泛素化能够降解组蛋白泛素标识,开启基因表示。生物信息学计算表观遗传学专家讲座第79页3.组蛋白修饰命名法一个组蛋白修饰准确表示由三部分组成:组蛋白名称+组蛋白尾巴上位点+修饰类型和个数。比如基因转录起始位点富集普遍存在H3K4me3修饰,它是组蛋白H3上,详细位置为第四个位置即赖氨酸(lysine,K),该位置存在三个甲基基团。生物信息学计算表观遗传学专家讲座第80页又如H3K9me,则表示组蛋白H3上第九位置上甲基化修饰,但并没有指定甲基集团数目,则泛指组蛋白甲基化修饰,这些含糊记法已被广泛地使用。生物信息学计算表观遗传学专家讲座第81页(二)激活性和抑制性组蛋白修饰依据对基因起到激活还是抑制作用,组蛋白修饰能够大致分为两类:激活性组蛋白修饰和抑制性组蛋白修饰。激活性组蛋白修饰中最常见是H3K4me。抑制性组蛋白修饰中最常见是H3K27me。生物信息学计算表观遗传学专家讲座第82页生物信息学计算表观遗传学专家讲座第83页(三)组蛋白密码1.动态而又稳定组蛋白密码组蛋白氨基酸残基能够接收许各种化学修饰,包含甲基化和乙酰化等修饰。质谱分析检测到组蛋白H2A有13个能够接收修饰位点,H2B、H3和H4则分别有12个,21个和14个能够接收修饰位点。每个氨基酸残基位点能够发生最少一个化学修饰。生物信息学计算表观遗传学专家讲座第84页2.细胞分化过程中组蛋白密码组蛋白修饰调控在许多生理过程中起到主要作用,这其中就包含细胞分化。研究发觉组蛋白乙酰化对维持细胞未分化和多能状态十分主要。使用组蛋白去乙酰酶抑制剂有利于维持干细胞多能性(pluripotency)。生物信息学计算表观遗传学专家讲座第85页相反,用去乙酰酶抑制剂刺激人类成熟细胞或癌症细胞会诱导分化进行。所以,表观遗传调控对于细胞成熟至关主要。到底是什么类型组蛋白修饰或组蛋白修饰组合控制分化呢?如前所述,组蛋白乙酰化有利于保持细胞多能性。生物信息学计算表观遗传学专家讲座第86页细胞分化过程中组蛋白修饰改变生物信息学计算表观遗传学专家讲座第87页(一)测定组蛋白修饰高通量技术二、组蛋白修饰高通量测定及分析技术检测技术ChIP-chipChIP-SAGEChIP-Seq定量性受杂交效率影响定量定量分辨率影响原因染色质长度及探针密度酶切效率染色质长度,测序深度全基因组范围试验花销多多少试验对于测定区域不足局限于预设基因组区域受酶切位点限制可覆盖大部分基因组区域生物信息学计算表观遗传学专家讲座第88页ChIP–chip来自Genome-wideapproachestostudyingchromatinmodifications生物信息学计算表观遗传学专家讲座第89页ChIP–SAGEChIP–Seq生物信息学计算表观遗传学专家讲座第90页(二)分析基因组范围组蛋白修饰数据1.高通量组蛋白修饰分析工具TilingArrayTileMap基于模型瓦式芯片分析算法(model-basedanalysisoftiling–arrayalgorithm,MAT)。

ChIP-SeqCisGenomeMACS生物信息学计算表观遗传学专家讲座第91页2.组蛋白修饰峰值探测与其它基于ChIP高通量技术一致是,从ChIP-Seq标签数据判别出可靠组蛋白修饰谱,等价于寻找一段基因组区域内统计学显著组蛋白修饰标签峰。一个最直接想法是,对于一段长度一定基因组区域来说,包含R个序列标签能够从统计学水平支持这段区域被组蛋白修饰所定位。生物信息学计算表观遗传学专家讲座第92页普通原理结构背景分布:泊松分布例:人类基因组gsize=3.0E9*0.8=2.4E9窗宽w基因组期望标签数(CD4+T细胞H3K9me3)求使<0.01生物信息学计算表观遗传学专家讲座第93页当R=3时,p=0.0021,满足要求。所以,以w为窗宽,将基因组打坏,以d为步长,移动窗口,找出满足大于3个标签窗口,合并后即为组蛋白修饰H3K9me3定位区域。生物信息学计算表观遗传学专家讲座第94页生物信息学计算表观遗传学专家讲座第95页三、组蛋白修饰与其它表观遗传修饰协同调控(一)DNA甲基化和组蛋白修饰相互作用(二)经过贝叶斯网络重构表观遗传修饰协同调控基因表示网络生物信息学计算表观遗传学专家讲座第96页四、组蛋白修饰异常与人类疾病(一)异常组蛋白修饰模式与癌症(二)组蛋白修饰与其它疾病(三)食品营养与组蛋白修饰生物信息学计算表观遗传学专家讲座第97页第四节基因组印记Section4

GenomicImprinting生物信息学计算表观遗传学专家讲座第98页一、基因组印记是表观遗传现象基因组印记是在母本和父本之间产生功效性区分并在哺乳动物发育与生长中起主要作用一个表观遗传学机制。生物信息学计算表观遗传学专家讲座第99页二、基于生物信息学方法识别新印记基因当前试验测得印记基因主要方法是利用DNA甲基化和基因表示分析基因印记情况,只关注染色体一小段区域。因为基因单等位表示可能只发生在特定亚型、组织或发育阶段,所以试验确定印记基因面临很多问题。主要预测印记基因方法是用机器学习方法基于基因序列特征预测全基因组印记基因。生物信息学计算表观遗传学专家讲座第100页惯用模式识别方法支持向量机(SVM)径向基神经网络(RBF)隐马尔可夫模型Logistic回归主成份分析和二次判别分析生物信息学计算表观遗传学专家讲座第101页DNA序列特征CpG岛和GC含量重复序列长散在核元件(LINEs)短散在核元件(SINEs)简单重复序列DNAelements低复杂度重复序列长末端重复序列(LTRs)生物信息学计算表观遗传学专家讲座第102页基于主成份分析和二次判别预测模型生物信息学计算表观遗传学专家讲座第103页三、印记基因表观遗传异常与人类疾病印记基因对哺乳动物发育是至关主要,哺乳动物基因印记抑制基因表示,印记基因异常表示会造成各种人类疾病。研究发觉许多印记基因对胚胎和胎儿出生后生长发育有主要调整作用,对行为和大脑功效也有很大影响,印记基因异常一样可诱发癌症。生物信息学计算表观遗传学专家讲座第104页第五节表观遗传学数据库及软件Section5

DatabasesandSoftwaresinEpigenetics生物信息学计算表观遗传学专家讲座第105页一、表观遗传学惯用数据库1.人类表观基因组计划数据库2.表观基因组图谱3.人类DNA甲基化与癌症数据库生物信息学计算表观遗传学专家讲座第106页EpigenomeProjectRivera,C.M.,andRen,B.().Mappinghumanepigenomes.Cell155,39-55.生物信息学计算表观遗传学专家讲座第107页EpigenomeDataResources生物信息学计算表观遗传学专家讲座第108页EpigenomeBrowser生物信息学计算表观遗传学专家讲座第109页RahulKarnik1andAlexanderMeissner().Browsing(Epi)genomes:AGuidetoDataResourcesandEpigenomeBrowsersforStemCellResearchers.CellStemCell13,14-21.生物信息学计算表观遗传学专家讲座第110页LocalEpigenomeBrowser生物信息学计算表观遗传学专家讲座第111页UCSCGenomeBrowser当地化/blog/static/685526701484917623/生物信息学计算表观遗传学专家讲座第112页生物信息学计算表观遗传学专家讲座第113页生物信息学计算表观遗传学专家讲座第114页生物信息学计算表观遗传学专家讲座第115页生物信息学计算表观遗传学专家讲座第116页二、表观遗传学惯用软件1.差异甲基化区域筛选软件(QDMR)2.表观基因组图谱3.人类DNA甲基化与癌症数据库生物信息学计算表观遗传学专家讲座第117页IdentificationofDifferentiallyMethylatedRegions(DMRs)CaseandControl生物信息学计算表观遗传学专家讲座第118页MultipleCases生物信息学计算表观遗传学专家讲座第119页CaseandControl生物信息学计算表观遗传学专家讲座第120页MultipleCasesEntropy生物信息学计算表观遗传学专家讲座第121页差异甲基化区域识别QDMR导入甲基化数据定量甲基化差异筛选差异甲基化区域定量差异甲基化区域特异性导出分析结果使用流程生物信息学计算表观遗传学专家讲座第122页导入甲基化数据生物信息学计算表观遗传学专家讲座第123页目前QDMR只接收txt文件浏览当地甲基化数据文件例子甲基化数据数据中最大甲基化值物种信息区域列信息样本开始列甲基化数据预览生物信息学计算表观遗传学专家讲座第124页定量甲基化差异熵表示甲基化差异大小,熵越小表示各样本间甲基化差异越大经过点击上面某一行,来查看对应区域在各样本中甲基化值生物信息学计算表观遗传学专家讲座第125页识别差异甲基化区域依据生物学研究要求选择适当筛选差异甲基化区域阈值生物信息学计算表观遗传学专家讲座第126页软件自动筛选差异甲基化区域和非差异甲基化区域生物信息学计算表观遗传学专家讲座第127页差异甲基化区域生物信息学计算表观遗传学专家讲座第128页非差异甲基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论