8年制生物信息学ppt课件 第13章_第1页
8年制生物信息学ppt课件 第13章_第2页
8年制生物信息学ppt课件 第13章_第3页
8年制生物信息学ppt课件 第13章_第4页
8年制生物信息学ppt课件 第13章_第5页
已阅读5页,还剩112页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十三章计算表观遗传学

哈尔滨医科大学张岩ComputationalEpigenetics第一节引言一、表观遗传学与计算表观遗传学二、计算表观遗传学的研究内容三、计算表观遗传学的方法和工具四、计算表观遗传学的进展第二节基因组的DNA甲基化一、CpG岛的DNA甲基化调控基因的表达(一)DNA甲基化与CpG岛(二)甲基化对转录的调控(三)DNA甲基化的意义(一)DNA甲基化与CpG岛DNA甲基化是一种发生在DNA序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。DNA甲基化是重要的表观遗传代码。DNA甲基化在哺乳动物中,大约60%~90%的CpG二核苷酸是甲基化的。CpG中的p代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核苷的磷酸基团。在哺乳动物细胞中,DNA甲基化主要发生在CpG二核苷酸中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做5-甲基-胞嘧啶,如图所示。CpG岛与DNA甲基化的关系CpG二核苷酸倾向于聚集成簇,这样的区域称作CpG岛(CpGislands)。CpG岛的特点是GC的含量及CpG的含量非常高。CpG岛主要分布在基因的5’非编码区、启动子和第一外显子区域,大约60%的基因的启动子含有CpG岛。这些区域的CpG二核苷酸的富集表明它们处于非甲基化状态(至少在生殖细胞中),因此避免甲基化CpG带来高的突变率。(二)甲基化对转录的调控DNA甲基化影响转录的机制1.DNA甲基化阻碍转录因子的结合2.DNA甲基化识别染色质标记3.DNA甲基化募集其他蛋白引起染色质沉默4.DNA甲基化影响核小体定位(三)DNA甲基化的意义CpG二核苷酸的甲基化与重复元件沉默CpG二核苷酸的甲基化与染色体的选择性沉默DNA甲基化与基因的组织特异表达二、通过实验和计算方法识别CpG岛

(一)CpG岛的定义及预测

(二)实验方法寻找CpG岛

(三)CpG岛的定位有助于发现新基因(一)CpG岛的定义及预测

Gardiner-Garden和Frommer长度最短200bpGC含量至少50%CpGO/E最小0.6许多启动子缺乏严格定义的CpG岛,但是有组织特异的甲基化模式,和转录活性有密切联系。1.最初的CpG岛定义2.改进的CpG岛定义Takai和Jones增加最短长度、CpGO/E值GC含量分别到500bp,0.65%和55%对预测精度的影响。通过使阈值更加严格,Alu

重复元件得到最大程度的排除,但此时却排除了原来数量10%的CpG岛,这表明一些真正的CpG岛可能也被排除。常见的CpG岛预测算法预测方法长度(bp)GC含量(%)CpGO/E重复元件屏蔽备注ENSEMBL≥400≥50%≥0.6否严格的参数限制NCBI宽松≥200≥50%≥0.6否总CpG岛数目307193NCBI严格≥500≥50%≥0.6否总CpG岛数目24163UCSC>200≥50%>0.6是总CpG岛数目28226EMBOSS指定指定指定否参数可调CpGProD>500>50%>0.6是总CpG岛数目76793CpGcluster无限制无限制无限制否总CpG岛数目197727CpG_MI≥50无限制无限制否总CpG岛数目40926差异取决于以下因素:(1)任意阈值的应用;(2)没有考虑到CpG岛的异质性;(3)基于DNA序列的预测方法忽略了DNA甲基化状态。3.排除重复元件对CpG岛预测算法的干扰重复元件(例如“年轻”的Alu元件)的碱基组成和CpG岛十分类似,显著地增加了鉴别CpG岛的假阳性率。大多数的多拷贝序列可以通过Repbase数据库中已知的重复类型得以剔除。在Takai和Jones的基础上应用重复元件筛选后剔除1890个非CpG岛,从而得到更加保守的CpG岛数目的估计即27000个。4.基于窗口滑动法的CpG岛预测算法首先准备通过实验方法得到的候选CpG岛集合或全基因组序列,然后设定窗口宽度的大小。接着考察窗口内的序列片段是否满足CpG岛定义中的长度、GC含量和CpGO/E值中的一个或几个阈值。一旦发现窗中的序列片段满足了CpG岛的定义,该片段就被选为候选CpG岛,同时扫描窗右移1bp。如果扫描窗中的序列片段不满足CpG岛的定义,扫描窗右移一个窗口的长度。如果扫描得到的CpG岛区域有重叠,则将重叠部分合并。这种依赖于长度、GC含量和CpGO/E值的一个或全部阈值的CpG岛识别算法有显而易见的缺陷:(1)由于这三个阈值的使用使得参数空间变得很大;(2)预测的CpG岛的长度和数目取决于窗口的长度和步长的预设值,存在主观任意性;(3)CpG岛的起始点一般不是CpG二核苷酸;(4)预测和筛选过程依赖于相同的参数;(5)方法经常需要针对特定物种进行调整。(6)运行时间长。窗口法Analyzeawindow.DoesitmeetCpGislandcriteria?Ifnot,slidetotherightonenucleotideAndanalyzeagain.Andagain.Untilitmeetsthecriteria

Thenjumpaheadandcheckthewindowadjacenttotheislandonthe3’side.Repeatasneeded,untilthenewwindowdoesnotmeettheCpGislandcriteriaThenslidethewindowbacktowardtheisland.KeepslidinguntilthewindowmeetsCpGislandcriteria.Ifitdoesn’tmeetthecriteria,trytrimmingabasepairoffeachendandanalyzingagain.削减OnceitmeetsCpGislandcriteria,moveontothenextadjacentwindowandanalyzethat.

5.基于相邻CpG二核苷酸距离的

CpG岛预测算法CpGcluster是一种独特的方法,它并不依赖于任何CpG岛的阈值,并且由于只涉及算术运算,计算速度提高很多。工作原理是计算基因组范围的相邻CpG二核苷酸之间的距离。该算法利用几何分布估计出该距离的理论分布,从而计算出CpG二核苷酸进行汇聚的统计学阈值(40bp)。最终,该算法得到197727个CpG岛。这个算法得到的CpG岛的特点是短而多,但其中包含大量的重复元件。(1)假设有如下一条序列:TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC(2)CpGcluster首先找到所有的CpG双核苷酸的位置(粗体):TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC(3)然后得到CpG双核苷酸的位置的列表:4;18;26;34;38;52;57(4)通过公式计算相邻二核苷酸之间的算术距离:13,7,7,3,13,4;(5)考虑到假设:CpG是伯努利实验的结果,这里设成功为CpG,失败为non-CpG。伯努利实验的概率p可以通过大量的序列算出。令序列的长度为L,N为CpG的数目,则。(伯努利实验,例如投掷硬币N次,最后一次正面朝上的概率,满足几何分布)。所以临近的CpG双核苷酸的距离满足几何分布,距离d等于失败的次数。(6)绘制长度(d)分布和几何分布的直方分布图(下页图)。从中,我们可以发现观测值分布和理论分布差别很大。短距离出现的概率较大。中位数值恰好可以作为CpG二核苷酸富集的阈值。(7)为了计算之前步骤找到的CpG簇是CpG岛的概率,需要给出统计学p值,该p值可由负二项分布给出(伯努利实验,例如投掷硬币N次,r次正面朝上的概率,满足负二项分布)。通过描述CpGcluster的算法原理,我们知道:存在比随机出现CpG二核苷酸之间距离距离更短的CpG簇,通过合并重合的簇,最终得到的簇就被认为是CpG岛。人类基因组1号染色体的邻接CpG二核苷酸之间距离的概率密度函数观察值的分布以空心圆圈表示,而理论分布即几何分布则用实线表示。中位数值恰好和理论值吻合。距离小于中位数值的两个CpG二核苷酸则被纳入CpG岛的一部分。X轴为距离d,Y轴为概率p。Median为中位数,Mean为均值,带圈实线代表观测值的连线,实线代表几何分布的概率密度曲线。(来自于CpGcluster:adistance-basedalgorithmforCpG-islanddetection)算法表格展示的是LRRMT1的

上游序列的预测结果6.结合功能基因组数据的CpG定位方法大多数的预测算法和序列选择技术鉴别的CpG岛数目在24000到27000之间。尽管这些方法之间的差别不大,但是许多鉴别出来的CpG岛在不同的预测结果中并不一致。这种不一致的现象可以通过结合包括DNA甲基化状态和染色质修饰在内的不同类型的信息到预测方法中来而得以解决。在CpG岛预测算法中融合表观遗传信息和基因组属性可能有利于探测方法去除一些看起来有些任意的阈值。例如,Bock等人使用了DNA结构,组蛋白修饰,DNA甲基化,转录因子结合谱,重复元件,进化保守,DNA序列模式等信息定位人类基因组CpG岛,是目前较好的CpG岛定位方法。但该方法很难扩展到非人类的物种中,因为注释数据在其他物种并不全面,甚至十分缺乏。(二)实验方法寻找CpG岛为了克服算法带来的问题,Illingworth等人最近开发了一项CXXC亲和纯化技术(CAP,CXXCaffinitypurification)以富集非甲基化的CpG富集的DNA片段(CpG岛)。该技术使用了半胱氨酸富集的对非甲基化的CpG位点有高亲和性的CXXC3结构域。CXXC结构域对只包含甲基化的CpG位点或缺乏CpG位点的DNA片段几乎没有亲和性。从小鼠Mbd1中得到的重组的CXXC结构域对非甲基化的CpG位点有高的结合特异性,并被用于从全基因组DNA中提取CpG岛。他们从人类血液中提取了超过17000个CpG岛。实验方法确定的基因组范围CpG岛图谱(三)CpG岛的定位有助于发现新基因CpG岛是重要的调控元件,是基因起始的标志,可用于新基因的发现。同时,CpG岛通常是不被甲基化的,作为管家基因的重要标志之一。三、实验检测技术测定DNA甲基化状态(一)DNA甲基化的检测方法(二)基因组范围的DNA甲基化检测方法(三)基于高通量测序的DNA甲基化检测方法(四)高通量检测技术的选择策略(一)DNA甲基化的检测方法目前常用的DNA甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其他碱基组成的变化。最新的检测方法还用到了基因微阵列(microarray)。1.限制性内切酶法2.重亚硫酸钠法3.亲和纯化1.限制性内切酶法2.重亚硫酸钠法重亚硫酸钠(sodiumbisulfite)法3.亲和纯化(二)基因组范围的DNA甲基化检测方法高通量测序是最新发展起来的但却是最有前途的全基因组DNA甲基化分析方法。高通量测序技术的出现,使得产生大量序列信息的时间和成本均要低于桑格法。目前,两种高通量的测序平台最为流行:一种是454生命科学公司开发的焦磷酸测序方法,另外一种是Illumina前身的Solexa开发的基于荧光核苷酸的系统。(三)高通量检测技术的选择策略技术应用优势局限Illumina磁珠阵列甲基化多态性发现和分析定量,多达96个样品的同时快速分析需要设计引物文库,同时只能分析1536个位点Affymetrix芯片全基因组甲基化测定探针密度大,支持物种多,可定制,价格合理短寡核苷酸噪声大,单通道杂交,定制芯片昂贵NimbleGen微阵列全基因组甲基化测定长寡核苷酸探针产生更纯净的数据,双通道杂交,定制芯片不昂贵,价格合理较Affymetrix芯片的探针密度小Agilent微阵列大规模甲基化测定长寡核苷酸探针产生更纯净的数据,双通道杂交较Affymetrix和NimbleGen芯片的探针密度小得多Solexa测序全基因组甲基化测定,分析印记位点定量化,无需杂交,并行的基因型信息下一代技术,需要购买昂贵的仪器或服务DNA甲基化大规模分析可用平台一览表四、计算方法预测DNA甲基化(一)从DNA序列预测胞嘧啶甲基化1.CpG位点甲基化预测预测的原理如下:基于n个样本{xi,yi},i=1,…,n

(其中xi为d维特征构成的向量,yi取自{-1,1}而代表类别,-1作为甲基化标记,1作为非甲基化标记)作为训练数据,SVM利用下面的判别函数进行训练和检验:。其中和b为待估参数,使得判别函数更好地拟合训练数据。当进一步增加窗宽时,SVM的性能并没有显著地提高。由于单个CpG位点的甲基化状态一般不是一成不变的,因此Methylator几乎没有实用价值,不能满足组织特异分析的要求。实际上,目前尚缺乏有效的CpG位点的预测工具。2.基于序列的CpG岛甲基化判别MethCGI先进行了一些预处理,来去除由于实验误差产生的错误数据。主要就是甲基化和非甲基化区域的边界精确定位问题,由于DNA的缺失或者后期测序的问题,数据中甲基化和非甲基化片段的边界比较模糊,所以在初始边界附近定位限制性内切酶的识别位点。灰色直线代表DNA序列,黑色竖条代表CpG位点,双斜线的位置表示实验数据中的初始边界位点,而箭头指向的位置就是最靠近初始边界的酶切位点。在线预测工具MethCGIMethCGI的输出界面如图所示,第一列是序列名称,第二列是CGIF的起始位置,第三列则是CGIF的终止位置,第四列是预测的甲基化状态,第五列是一个表示甲基化倾向性的值methylation_score),即100个分类器结果的平均值(预测结果:容易甲基化用-1表示,不易甲基化用+1表示)。需要指出的是,MethCGI预测结果实际上是对应一个个CpG岛片段给出的。3.使用基因组特征有助于识别CpG甲基化为了鉴别序列相关的DNA属性和CpG岛甲基化之间的关系,Bock等人汇集了1184个和序列直接或间接相关的DNA属性,对人淋巴细胞的第21号染色体的甲基化状态已知的132个CpG岛构建判别模型。(二)借助其他表观遗传修饰谱

预测CpG岛甲基化结合其他表观遗传学信息可以提高CpG岛预测精度。最近的一项研究使用SVM并整合全基因组范围的ChIP-Seq数据进行CpG岛甲基化预测。此外,结合序列特征,重复元件及转录因子结合位点等信息进一步增强了SVM的分类性能。还发现添加了组蛋白甲基化修饰之后,该预测模型得到了更高分类正确率,同时还发现了四种显著影响CpG岛甲基化的组蛋白修饰(H3K4me1、H3K4me2、H3K4me3以及H3K9me1)。算法间比较(一)基因组整体低甲基化重复元件所在基因组区域在正常基因组中是甲基化的,这会保证基因组的稳定性,防止转座和基因断裂的发生。在癌症基因组中会发生全局性的基因组去甲基化,这一现象被成为次甲基化(hypomethylation)。次甲基化可以进一步导致癌症基因组的遗传性变异,这通常是肿瘤发生的特征。在CpG岛超甲基化的同时,癌症基因组经历了全局性的次甲基化。相比正常基因组,大约20%~60%的5-甲基-胞嘧啶的甲基基团脱落。癌症发展过程中经常伴随基因转录区域的整体性甲基化缺失以及重复元件DNA的去甲基化。五、异常DNA甲基化参与了疾病的发生(二)印记丢失DNA甲基化还为生殖细胞特异基因和组织特异基因的表达提供表观遗传控制。基因组印记需要父本和母本等位中的一份发生超甲基化而建立单等位表达的模式。类似地,在正常情况下女性基因组中的一条X染色体发生异染色质化。在DNA甲基化的调控作用中,印记丢失(lossofimprinting)是许多癌症基因活化的一种机制。(三)基因超甲基化是癌症的标志超甲基化被认为是所有人类癌症的一般标志,它几乎影响所有细胞通路。许多癌症超甲基化基因本身就是肿瘤抑制基因。例如许多具有抗增殖作用的基因的转录被癌症细胞系的CpG岛超甲基化所抑制。使用表观基因组技术有助于鉴别出癌症异常甲基化基因,使用生物信息学技术可以进一步分析受累的通路。在不同的肿瘤类型中,CpG岛超甲基化基因通常是不同的。每一种肿瘤亚型可能被一些超甲基化基因或表观遗传学标记所区分,这通常是癌症诊断十分重要的标志。MeInfoText和PubMeth数据库汇总了癌症特异的异常甲基化信息。使用生物信息学方法有助于进一步扩充已知的异常甲基化基因列表的信息。第三节组蛋白修饰的表观基因组一、组蛋白密码是重要表观遗传标记之一(一)核小体与组蛋白修饰1.核小体与组蛋白组成染色质的基本单位是核小体(nucleosome)。每个核小体均由5种组蛋白共同构成。组蛋白是指所有真核生物的细胞核中,与DNA结合的碱性蛋白质的总称。人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》组蛋白修饰位点2.组蛋白修饰与转录关于组蛋白修饰在转录中的作用,已经有许多模型如电中性模型、组蛋白密码以及信号通路模型被提出来。不同的组蛋白修饰类型的作用不尽相同。组蛋白乙酰化主要促使基因表达和DNA复制,使组蛋白乙酰化定位的基因得到动态的调控。组蛋白去乙酰化则使基因沉默。组蛋白的磷酸化可以改变组蛋白的电荷,对基因转录、DNA修复和染色质凝聚等过程起调控作用。组蛋白的泛素化可以降解组蛋白的泛素标记,启动基因表达。3.组蛋白修饰的命名法一个组蛋白修饰的精确表示由三部分组成:组蛋白名称+组蛋白尾巴上的位点+修饰类型和个数。例如基因转录起始位点富集普遍存在H3K4me3修饰,它是组蛋白H3上,具体的位置为第四个位置即赖氨酸(Lysine,K),该位置存在三个甲基基团。又如H3K9ac,代表组蛋白H3上第九个位置即赖氨酸上发生的乙酰化修饰。再如H3K9me,则表示组蛋白H3上的第九位置上的甲基化修饰,但并没有指定甲基集团的数目,则泛指组蛋白甲基化修饰,这些模糊记法已被广泛地使用。(二)激活性和抑制性的组蛋白修饰根据对基因起到激活还是抑制作用,组蛋白修饰可以大致分为两类:激活性的组蛋白修饰和抑制性的组蛋白修饰。激活性的组蛋白修饰中最常见的是H3K4me。抑制性的组蛋白修饰中最常见的是H3K27me。(三)组蛋白密码1.动态而又稳定的组蛋白密码组蛋白的氨基酸残基可以接受许多种化学修饰,包括甲基化和乙酰化等修饰。质谱分析检测到组蛋白H2A有13个可以接受修饰的位点,H2B、H3和H4则分别有12个,21个和14个可以接受修饰的位点。每个氨基酸残基位点可以发生至少一种化学修饰。

2.细胞分化过程中的组蛋白密码组蛋白修饰的调控在许多生理过程中起到重要作用,这其中就包括细胞分化。研究发现组蛋白乙酰化对维持细胞的未分化和多能状态十分重要。使用组蛋白去乙酰酶抑制剂有助于维持干细胞的多能性(pluripotency)。相反,用去乙酰酶抑制剂刺激人类成熟细胞或癌症细胞会诱导分化的进行。因此,表观遗传调控对于细胞成熟至关重要。到底是什么类型组蛋白修饰或组蛋白修饰组合控制分化呢?如前所述,组蛋白乙酰化有助于保持细胞的多能性。细胞分化过程中的组蛋白修饰变化二、测序技术提供了基因组范围组蛋白修饰的分析方法(一)测定组蛋白修饰的高通量技术(二)分析基因组范围的组蛋白修饰数据(一)测定组蛋白修饰的高通量技术检测技术ChIP-chipChIP-SAGEChIP-Seq定量性受杂交效率影响定量定量分辨率的影响因素染色质长度及探针密度酶切效率染色质长度,测序深度全基因组范围实验花销多多少实验对于测定区域的局限性局限于预设的基因组区域受酶切位点的限制可覆盖大部分基因组区域ChIP–chipChIP–SAGE来自Genome-wideapproachestostudyingchromatinmodificationsChIP–SeqChIP–SeqChIP–Seq(二)分析基因组范围的组蛋白修饰数据1.高通量组蛋白修饰分析工具TilingArrayTileMap基于模型的瓦式芯片分析算法(Model-basedanalysisofTiling–arrayalgorithm,MAT)。ChIP-SeqCisGenomeMACS2.组蛋白修饰峰值探测与其他基于ChIP的高通量技术一致的是,从ChIP-Seq标签数据鉴别出可靠的组蛋白修饰谱,等价于寻找一段基因组区域内的统计学显著的组蛋白修饰标签的峰。一个最直接的想法是,对于一段长度一定的基因组区域来说,包含R个序列标签可以从统计学水平支持这段区域被组蛋白修饰所定位。一般原理构造背景分布:泊松分布例:人类基因组gsize=3.0E9*0.8=2.4E9窗宽w基因组期望的标签数(CD4+T细胞H3K9me3)求使<0.01当R=3时,p=0.0021,满足要求。所以,以w为窗宽,将基因组打碎,以d为步长,移动窗口,找出满足大于3个标签的窗口,合并后即为组蛋白修饰H3K9me3定位区域。三、组蛋白修饰与其他表观遗传修饰存在协同调控关系(一)DNA甲基化和组蛋白修饰的相互作用(二)通过贝叶斯网络重构DNA甲基化和组蛋白修饰协同调控基因表达网络四、组蛋白修饰异常与人类疾病(一)组蛋白修饰模式的改变被直接和癌症的发展相联系(二)组蛋白修饰与其他疾病(三)食品营养与癌症表观遗传学第四节染色质的重塑一、染色质重塑和核小体(一)核小体是所有染色质的亚基(二)核小体有共同的结构二、核小体定位研究(一)核小体相位检测(二)核小体定位的计算方法研究一、染色质重塑和核小体组构形式:致密的染色质中,大多数DNA序列在结构和功能上是没有活性的,只有少数DNA序列是活性序列。染色质的一般结构是怎样的?功能DNA序列和非功能DNA序列之间有什么区别?遗传物质的总包装比很大,这说明DNA不可能直接包装在染色质的最终结构中,而一定存在着一种“组构形式”。这种组构形式就是核小体。在分裂间期细胞核里的常染色质和异染色质,以及有丝分裂的染色体中,核小体都是其固有成分。核小体的构造形成了DNA的一级组构,其包装比约为6。核小体的成份和结构已经研究得很清楚了。染色质重塑诱导染色质结构改变的一般过程重塑包括多种变化,一般指染色质特定区域对核酶稳定性的变化重塑因子调节机制假设:一个转录因子独立地与核小体DNA结合,然后再结合一个重塑因子,导致附近核小体结构发生稳定性的变化,导致其他转录因子的结合,这是一个串联反应的过程

由重塑因子首先独立地与核小体结合,不改变其结构,但使其松动并发生滑动,这将导致转录因子的结合,从而使新形成的无核小体区域稳定核小体定位是染色质重塑的重要过程

核小体组成组蛋白含量双螺旋DNA在圆柱形八聚体表面盘绕两圈的示意图染色质结构的基本单元核小体二、核小体定位研究核小体定位可能通过两种方式实现内部途径:每个核小体都贮存在特殊的DNA序列上

外部途径:第一个核小体在特殊的偏好位点组装。一个引起核小体定位的优先起始位点会形成排斥核小体结合的区域,排斥区域将提供允许邻近的核小体定位的界线核小体和DNA的相互关系处于动态变化中

核小体在DNA双螺旋上的位置常常被DNA结合或DNA弯曲状态等“屏障物”所限定,使核小体常出现在含有启动子或调控元件的区域附近核小体定位在不同研究中被毋庸置疑地确定是关键

(一)核小体相位检测微球菌核酸酶-southern印迹法利用核小体结构对DNA的保护作用,使用微球菌核酸酶(micrococcalnuclease,Mnase)消化基因组DNA,然后用southern印迹法进行分析。(二)核小体定位的计算方法研究1.支持向量机方法2.概率模型方法3.整合参考图谱方法4.其他方法5.软件支持向量机方法Pham等人利用支持向量机(SVM)的方法对酵母中核小体的定位进行了预测,根据分类正确率选择了所有的4-mer和5-mer核苷酸组合作为特征,得到86%的准确率。缺陷是使用了500bp的周围序列来统计特征,由于一个核小体占据的DNA序列仅为147bp,而连接区的DNA序列为8-114bp,这样一段500bp的局部序列会跨越2个核小体,以此预测核小体定位就显得牵强。HeatherE.Peckham等人也使用支持向量机方法准确预测了实验确定的核小体位置在酵母的具有较好特征的启动子区域,分析表明只有一个子集的核小体有可能被定位通过内在的序列信号。概率模型方法Segal等人对酵母全基因组的核小体定位进行了标记,在此基础上通过建立概率模型能够对酵母活体内50%的核小体定位进行预测。结果表明基因组编码了一个内在的核小体组织,该组织能解释大约50%的活体内的核小体定位。最后的模型还借鉴了热动力学模型的思想,考虑了位阻效应,对预测模型进行修正,这一工作再将证明核小体定位跟序列是密切相关的。Segal等人预测核小体定位方法流程图

概率模型方法步骤:步骤一:提取体内稳定绑定的单核小体的DNA序列并测序步骤二:数据收集步骤三:构建核小体-DNA互作的概率模型步骤四:预测核小体全基因组定位的热力学模型步骤五:模型评价整合参考图谱方法

CizhongJiang等人针对核小体对于控制基因表达有着位置特异的功能性,当涉及到跨数据集的单个核小体(或无核小体区)的功能时,需要一个系统的全基因组范围的核小体绝对和相对的定位参考图谱来尽量减少潜在的不确定性。整合参考图谱:编制了六个来自不同实验室和探测平台的高分辨率的基因组范围的酵母核小体定位图谱。构建一个核小体检索系统,允许用户在一个给定区域或是一系列基因中提取核小体位置。CizhongJiang等人构建核小体定位分配的流程图整合参考图谱方法步骤:步骤一:核小体数据集收集及数据预处理步骤二:测得的核小体位置“参考集合”的确定步骤三:将参考核小体分配到TSS相关的一个编号位置步骤四:参考核小体的占有率水平步骤五:连接子和NFRs的确定和分类步骤六:参考核小体的模糊度步骤七:TSS周围核小体的分布步骤八:将新测得的核小体位置分配到核小体参考位置步骤九:参考核小体的检索系统4.其他方法RECON方法:这是最早的一个预测核小体定位的工具。该方法将位点向两侧各延长80bp作为该点的局部序列样本,将该序列样本保持核苷酸比例不变随机打乱,然后将原序列样本和随机产生的序列进行分块,得到各块内部的双核苷酸的分布情况,从而得么一个最优分块。得到最优分块以后,则可对目标序列分块并计算一个势函数得到待测位点处于核小体内的可能性。Peckham等人提出了一个基于判别的计算模型,它只侧重于使用核小体占据或空缺产生的最强信号的序列作为训练集。ShobhitGupta等人选择使用判别性方法因为目前对染色质生物学的理解表明实际上有些基因组序列确保了核小体定位,以及有些避免核小体定位。

Ioshikhes等人研究了酵母中核小体定位的序列特征。考虑到影响核小体定位的DNA序列信息相对比较微弱以至于很可能被随机噪声湮没的问题,他们将被相似机理调控的基因归为一类进行分析以抑制噪声的影响。5.软件CisGenome软件:一种用于分析全基因组染色质免疫沉淀数据(ChIP)的软件系统。它的设计满足了ChIP数据分析的所有基本需求,包括可视化,数据标准化,峰值探测,错误发现率计算,基因-峰值关联性和序列及模体分析。MACS:是一个短读数测序方法如基因组分析(Illumina/Solexa)的基于模型的ChIP-Seq分析方法,它能用于分析短读数测序工具如Solexa基因组分析器产生的数据。新一代的平行测序技术使得测序后的染色质免疫共沉淀(ChIP-Seq)成为一个研究基因组范围的蛋白质-DNA互作的流行机制,对分析算法造成了新的挑战。

SISSRs软件:一个用于处理ChIP-Seq实验产生的短读数结合位点的精确验证的新算法。SISSRs的灵敏度和精确度促进了ChIP-Seq数据的具有启迪作用的见解的进一步的分析,这可指导利用ChIP-Seq实验绘制真实细胞状态下的蛋白质-DNA互作图谱。鉴于该算法的特征,可以将此算法应用于短读数峰值的探测。软件软件名称测序物种参考文献网址NucleosomeMapsoftheSaccharomycesGenome酵母CizhongJiangBFranklinPugh2009.10/NPS(NucleosomePositioningfromSequencing)人类YongZhangetal.2008.11/NPS/软件方法测序平台测序物种参考文献DNA测序RocheG320酵母S288C衍生物BY4741MavrichTNetal.2008DNA测序RocheG320酵母S288C衍生物BY4741YairFieldetal.2008.11DNA测序Solexa人类CD4+T细胞DustinE.Schonesetal2008.3.DNA测序SOLiD秀丽蝇杆线虫AntonValouevetal2008Parzenwindow-based方法IILuminaSolexa1G酵母S288CSushmaShivaswamyetal.2008.3tiling阵列探针拟合Affymetrix1.0酵母S288CWhitehouseetal.2007.11HMMAffymetrixcustom酵母S288C衍生物BY4741WilliamLeeetal.2007.10概率模型酵母EranSegaletal.2006.8HMMtiling阵列酵母Yuanetal.2005.6预测方法第五节基因组印记一、基因组印记是非孟德尔遗传的表观遗传现象

基本概念介绍两种印记基因调控模式隔离子模型非编码RNA介导模型印迹控制区DNA甲基化和组蛋白修饰的相互作用二、机器学习是挖掘印记基因的有效方法主要模式识别方法及预测特征基于主成分分析和二次判别的预测模型三、基因组的印记与表观遗传疾病有密切关系一、基因组印记是非孟德尔遗传的表观遗传现象基因组印记是在母本和父本之间产生功能性区别并在哺乳动物发育与生长中起重要作用的一种表观遗传学机制。隔离子模型非编码RNA介导模型组蛋白修饰分布差异印记位点的组蛋白修饰谱迄今实验鉴定人的印迹基因发展缓慢,目前人类基因组中预测的印记基因共有205个,其中通过实验验证具有印记表达的有53个;小鼠中预测的印记基因共有90个,其中72个经实验验证具有印记表达。()。基因组印记作为一种单等位基因表达的表观遗传现象。很多假设用于解释为什么基因组印记在哺乳动物中进化,但很少能解释是如何产生的。宿主防御假说认为印记是从细胞内现存的机制沉默插入到基因组中的外源DNA元件发展而来的。然而,由于缺少现存所有分类大规模的基因组资源,哺乳动物基因组的改变伴随印记基因的进化很难定义。预计印记基因占人类基因组的1%,并且至今只发现了一部分。因此,从预测的角度识别印记基因是一种可行的方法。二、机器学习是挖掘印记基因的有效方法

目前实验测得印记基因的主要方法是利用DNA甲基化和基因表达分析基因的印记情况,只关注染色体的一小段区域。由于基因的单等位表达可能只发生在特定亚型、组织或发育阶段,所以实验确定印记基因面临很多问题。自从单等位基因和双等位基因不同的重复序列和DNA序列特性的被广泛关注,人们开始利用机器学习的方法预测小鼠和人类基因的印记情况。现在国内外主要预测印记基因的方法是用机器学习方法基于基因的序列特征预测全基因组印记基因。常用的模式识别方法支持向量机(SVM)径向基神经网络(RBF)隐马尔科夫模型Logistic回归主成分分析和二次判别分析DNA序列特征

CpG岛和GC含量

重复序列长散在核元件(LINEs)短散在核元件(SINEs)简单重复序列DNAelements低复杂度重复序列长末端重复序列(LTRs)基于主成分分析和二次判别的预测模型1.计算训练基因编码区的基因组特征NEWCPGREPORT程序分析CpG二核苷酸的序列,计算CpG岛总数。

http://mobyle.pasteur.fr/cgibin/portal.py?form=newcpgreportRepeatMasker程序分析重复元件,收集重复元件,得到长末端重复序列和简单重复序列的个数。

/cgi-bin/WEBRepeatMasker2.标准化数据集应用模式识别方法之前,由于各个变量单位是不同的,为了能够将变量参与评价计算,需要对其进行规范化处理,通过函数变换将其数值映射到某个数值区间。用此方法,可以在同一水平比较所有变量。

常用标准化方法:(1)线性函数转换,表达式如下:

y=(x-minvalue)/(maxvalue-minvalue)

说明:x、y分别为转换前、后的值,maxvalue、minvalue分别为样本的最大值和最小值。(2)对数函数转换,表达式如下:y=lg(x)

说明:以10为底的对数函数转换。(3)反余切函数转换,表达式如下:y=atan(x)*2/π

3.特征选择主成分分析(PCA)和二次判别分析(QDA)分析标准化的序列特征数据。主成分分析是一种多元统计方法。主要思想是降低数据集(代表大量相关变量)的维度,同时保留尽可能多的变量。当数据量过大时,可以利用PCA搜索数据质量和数量上的差别。二次判别分析(QDA)主要用于预测序列特征集中的成员。预测变量与二次判别相结合可以最好的预测预测组成员,使每一个基因基于它的序列特征可区分为印记基因和非印记基因。4.构建模型首先,采用主成分分析技术。获得最好的分类是使用下列特征:GC含量,[bp]%CpG岛,[bp]%简单重复序列和[bp]%长末端重复序列。这表明,分类编码区研究中其他变量是不显著的。主成分分析结果表明,第一主成分(PC1)的贡献率为49.6%。考虑到第一主成分(PC1)和第二主成分(PC2),累计贡献率达到72%。PC1和PC2可以通过下列方程组表示,这实际上构成了PCA模式识别模型。

(1)PC1=0.535[GC%]+0.511[CGI[bp]%]+0.521[LTR[bp]%]+0.426[SR[bp]%](2)PC2=-0.425[GC%]-0.467[CGI[bp]%]+0.313[LTR[bp]%]+0.71[SR[bp]%]然后,用二次判别分析(QDA)建立一个新的模型。QDA也和主成分分析(PCA)密切相关,都在寻找最佳解释数据的最好组合变量。QDA明确试图寻找模型数据集之间的差异(监督模式识别)。而PCA没有考虑到任何类之间差异(非监督模式识别)。5.模型评估根据软件的功能,利用内部和外部的验证方法对分类进行评估。QDA模型,采用内部验证方法称为交叉验证。此方法使用训练集检验模型。这一过程将训练集分为几部分,一部分保留来验证结果,其余的用来建立模型。最后,用所有的训练集建立和验证模型。PCA模型,我们使用外部验证检验集的方法。检验集的个数必须足够大(至少为训练集大小的25%),独立于训练集。检验集的印迹情况是已知的,所以可用于评估模型。评估印迹基因的预测方法可能存在问题,原因是基因数量少,主要集中在小的基因组区域,以及难以实验验证。三、基因组的印记与表观遗传疾病有密切关系印记基因对哺乳动物的发育是至关重要的,哺乳动物的基因印记抑制基因表达,印记基因的异常表达会导致多种人类疾病。研究发现许多印记基因对胚胎和胎儿出生后的生长发育有重要的调节作用,对行为和大脑的功能也有很大的影响,印记基因的异常同样可诱发癌症。与基因组印记相关的疾病常常是由于印记丢失导致两个等位基因同时表达,或突变导致有活性的等位基因失活所致。调控基因簇的印记中心发生突变将导致一系列基因不表达,引发复杂综合征。基因组印记的本质为DNA修饰和蛋白修饰,所以和印记相关的蛋白发生突变也将导致表观遗传疾病。印记基因的异常表达引发伴有复杂突变和表型缺陷的多种疾病。如Prader-Willi综合征(PWS)、Angelman综合征(AS)、Beckwit

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论