下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人类基因组中的CpG岛上的所有甲基化区段的测定摘要:CpG岛的甲基化在各种生物过程中发挥了重要作用。为了探讨人类基因组中CpG岛 上所有区段的甲基化,我们运用一个模型测定CpG岛上甲基化区段。从这个模型进行其他 现有的方法。我们在整个人类基因组运用该模型并且测定CpG岛上所有甲基化的区段的。 基于轮廓的甲基化,我们发现大约31%的CpG岛倾向于甲基化而且,位于启动区CpG岛很 少甲基化。在染色体G带和R带之间CpG岛的甲基化水平没有显著不同。在抵制甲基化的 启动子CpG岛上,RNA聚合酶II的含量有显著提高,这表明有这样的启动子CpG岛的基 因倾向于更加活跃。关键词:DNA甲基化区段;CpG岛
2、;测定模型;特征选择在哺乳动物中,DNA甲基化是一个主要的表观遗传修饰。在各种各样的生物现象包括 胚胎发育、基因组印记和X-chromosome失活中都需要它。在哺乳动物中,DNA甲基化受限 于残留在CpG二核苷酸中的胞嘧啶。虽然在人类基因组中大多数CpG二核苷酸是被甲基化 的,但是CpG岛(CGIs)在正常的体细胞组织中是完全抗甲基化的。根据Gardiner-Garden序 列的标准,一个CGI是一个G和C含量高的区域,以及观察与预期的CpG的比率:G+C含 量超过50%,观察与预期的CpG的比率超过0.6并且长度高于200bp。近年来,有越来越多的证据表明一些CGIs在正常组织中事实上是甲
3、基化。作为启动子 CGIs异常的甲基化与癌症的发生和发展是密切相关的,这非常有益于识别正常的组织中 CGIs甲基化的状态。然而,由于当前生物检测技术的大量精力需求、高成本和报道限制, 因此在人类基因组中所有CGIs的甲基化依然没有前景。在这次研究中,我们构建了一个计算模型,采用支持向量机预测了 CGIs甲基化现状。DNA序列特征和组蛋白修饰标志都明显差异地用于区分抗甲基化CGIs (U-CGIs)和甲基化 倾向CGIs (M-CGIs),该模型的表现比我们以前的工具和其他现有的方法更好。将该模型应 用于人类基因组所有CGIs,我们得到一个预期的人类基因组中CGIs甲基化景观,并发现大 约31%
4、的CGIs是有甲基化倾向的,这与Yamada et al.的有关大约三分之一的CGIs进行DNA 甲基化的研究是一致的。所有的染色体中的CGIs中,虽然只有大约6%的启动子CGIs很容 易被甲基化,但是位于性染色体中的CGIs超过三分之二的都有甲基化倾向。我们也发现有 更多的CGIs坐落在R带,但是CGIs在R带和G带之间甲基化的倾向无显著性差异。另外, 我们调查了在启动子CGIs上的RNA聚合酶II占用区域,并且发现这个占用区域明显高于 抗甲基化的启动子CGIs,说明基因的启动子CGIs抗甲基化更加活跃。1、材料和方法1.1、DNA甲基化数据为构建模型收集的数据来自于人类胞嘧啶计划(HEP)
5、。它发现了用硫酸氢盐DNA测 序方法发现了来自12个组织,跨越6、20、22号染色体的大约190万胞嘧啶甲基化的强度。 这个显示甲基化强度范围从0到100。基于CD4 T细胞的数据,我们绘制了人类基因组中已 经发现的胞嘧啶图谱,并且专注于CGIs(Gardiner-Garden序列标准),他们的CpGs超过10% 是有甲基化强度的。一个CGI甲基化强度是指包含在CGI内检测到的CpG二核苷酸的强度。 将甲基化强度大于50的CGIs视为甲基化倾向的CGIs (M-CGIs),而那些低于10的为抗甲 基化CGIs (U-CGIs)。这个标准下,156 U-CGIs和100 M-CGIs是可得到的。
6、为了验证这个,从罗林斯等的工作中得到DNA甲基化的数据。他们用甲基化敏感的限制 性酶的方法发现了在人脑体内的DNA甲基化。我们根据Gardiner-Garden对CGI的定义,提取 U-CGIs 192 和 M-CGIs 301。1.2、 预测基于来源于HEP的CGI数据,我们通过选定预测模型的构建与支持向量机(SVM)的方法 来熟知其特点。我们使用的DNA序列特征和组蛋白标记作为候选特征修改列表。在DNA 序列的特性中,主要有三种类型的特征,其中有重要作用的CGI甲基化状态预测:(1)CGI特点: 长度,G + C含量和观察与预计中央比;(2)来自于RepeatMasker的AluY重复元素
7、的计数; 来自于MATCH的从TRANSFAC 11.2开始的非多余的214脊椎动物的转录因子结合位 点(TFBSs)的分布。据报道,DNA甲基化和组蛋白修饰组成了复杂的结构调整染色质调节网 络和基因功能,并且一定的组蛋白标记可以保护防止CGIs甲基化。因此,38号由王等人在CD4 T细胞中发现的组蛋白修改标志也在候选特征列表。组蛋白的修饰标记代表CGI区域 中的修饰标记的数量。在这些246个特点中,分享测试被应用于选择那些在U -和M-CGIs (P 0.05)之间明显不同分布的功能SVM应用于我们的模型结构。在这二叉分类问题中(+1对 U-CGIs和-1对M-CGIs), SVM将获得一个
8、将预测的错误减小到最小和使训练数据上的 分离边缘最大化的决定。在LibSVM包装中被证实的线性SVM被应用于优化的实施。LOOCV被用于评价不同模型错误率。在每个模型中,提取于特定长度的CGI侧面区域的特征被探讨。特征选择过程基于在每一轮的交叉验证中的训练数据是为了避免信息的泄漏。支 持向量机的性能进行了评价与四个指标:专用性(p)、灵敏度高、精度(ACC)和相关系数(CC)。 我们计算专用性(p)、灵敏度高、精度(ACC)和相关系数(CC)如下:IN+FPSE=I?.IP+FNTP + FN+TN+FPTPxTN FFxFNg WTN 一CC =7(TP + FN)x(rP-FFP)x(TN
9、 + FP)x(TN + EST)TN, TP, FN 和 FP 分别代表 true-negative, true-positive, false-negative and false-positiveo1.3其他数据整个基因组的CGI数据从UCSC基因组下载浏览器。(http:. /golden-Path/hg18/database/)从克隆中筛选CGIs之后,尚未完成或者不能被放置在某一的染 色体的确定特定区域,我们得到了 27639 CGIso管家基因信息来自于艾森柏格。基于来自 40多个人体的正常组织研究,苏等人得到的芯片表达数据,他们使用独立的高性能的测试表 达的基因定义管家基因。发
10、起人被定义为该区域位于1000bp和200 bp下游的上游出发地点 (TSSs转录)。TSS信息也得到UCSC基因组的浏览器。如果一个CGI和任何启动子重叠,CGI 叫做启动子CGI。如果一个CGI和任何一个已知基因区域重叠,则这个CGI被认为定位在在 内部基因区域。否则,则是 FAN ShiCai等在 Chinese Sci Bull August (2010) Vol.55 No.22 2355 定义的基因内区域。除此之外,当我们调查分布在R和G带的染色体时,可以从UCSC基 因组的浏览器中提取R和G带信息。这个RNA聚合酶II绑定纹是来自Barski等通过ChIP-Seq 技术得到的基因
11、组数据。结合度代表在这个有趣的区域中的标签数。结果与讨论2.1模式演示来自CD4 T细胞的U-CGIs与156 100 M-CGIs,我们用我们的模型预测CGI的甲基化状 态。LOOCV被用于评价模型的误差率。在每一轮的交叉验证中,分布在二进制培训资料里, 特征差异显著(P 0.05)被用于该模型中。尝试通过不同的特征提取CGI侧面区域的长度(从 100 bp到700bp,每步100 bp),我们有100多种模式的分类结果(图1)o当CGI侧面区域的长度是400 bp(ACC 0.94 , CC 0.81),可以看到最好的LOOCV模式演示。因此,从400 bp侧面区域的基于特征的模型,是我们
12、指定的模型。在这种模式下,76个特 征在分享测试中被筛选出来(P 0.05):32分之38的组蛋白标记,3个CGI特征和41分之 214的TFBSs. 32个组蛋白标记价值最低,表现出组蛋白标记在CGI甲基化的预测中起到的 关键作用。为了检验该模型的精确度,我们预测CGIs(375 CGIs)的甲基化状态,这些位于启动子区 域,并发现2.93%的CGIs更易于甲基化。如果抗甲基化状况需要在基因表达的前提下进行是 真的,也就是说,所有的管家基因的启动子CGIs应该会抗甲基化,那么我们预测的抗甲基化假 阴性率在启动子CGIs区域可能在3%左右。我们也将这个模型在一个独立的数据里与我们以前的工具、校
13、勘作了比较。这些数据 是由人类的大脑,包括301 U-CGIs和192 M-CGIs。对三种模型的性能都列在表1。你可以看 到,我们的更新方法能得到最好的性能。与试验结果进行了对比分析,这个更新方法揭示了在 评估CGIs的甲基化水平中组蛋白修饰标记的重要性。与先前工具的结果相比,这个更新方 法揭示了系统特征筛选过程在模型构建中的重要性。2.2CpG岛中的甲基化区域利用最新的模型与最好的表现,我们预计CGI全基因组的甲基化区域。有27639 CGIs 来自UCSC基因组浏览器。之后,不能被精确定位的CGIs被过滤。在这些CGIs中,30.77% 易于被甲基化。这是符合Yamada et al等的
14、观察大约有三分之一的CGIs进行DNA甲基化。当考虑到的各染色体上CGIs的甲基化轮廓,我们发现三号染色体上的CGIs甲基化水 平最低(13.37%)当Y染色体上的CGIs甲基化水平是最高的(87.85%).各染色体上CGIs的 和易于甲基化的比例分配在表2中显示。我们也发现超过66%的定位于性染色体的CGIs易 于甲基化。符合多数性染色体上的基因受到抑制。接下来我们调查了 CGIs的甲基化轮廓定 位在与基因相关的不同区域。启动子、内部基因中CGIs易于甲基化的比例在表2中显示。 人们可以看出,约有45%的CGIs位于启动子区域,然而,其中只有6.19%有甲基化倾向,这 表明了启动子CGIs很
15、少的甲基化。2.3不同染色体条带中CpG岛的甲基化倾向类染色体可分为两种不同的领域,被称为基因组G带和R带。R带具有富含基因的染色 质和在S阶段一半的早期复制的特征,当G带具有缺乏基因的异染色质和在S阶段第二个一 半时复制的特征。因此,评估易于甲基化的CGIs在不同波段的染色体中的分布是十分有趣的 图3所示的是Chr20的剖面图(剖面上显示它与其他的染色体的分布是非常相似的,如图S1, )。你能看到CGI甲基化强度(冲曲线)在R带(白色区域)通常高于G带 (灰色和黑色的区域)。同时,我们也发现有更多的CGIs分布在R带(固体曲线)上。我们估算 出易于甲基化的CGIs在R带和G带的第23对染色体
16、上(图4)。你可以看到,CGIs易于甲基 化的比率上在两带之间没有显著的差异(p = 0.4252)。因此,在之前的报告中,高浓度的 DNA甲基化水平倾向于更多地分布在R带(28)上,这仅因为它富含高密度的GC。2. 4 绑定在不同的甲基化的CpG岛上的RNA聚合酶II的简介为了研究启动子CGIs的甲基化不同状态的转录活动,我们利用绑定在高分辨率的结合 强度很高的RNA聚合酶II,由Barski李玮提供。图5显示了框缝中紧密结合的M -和U - CGIs。你可以看到,聚合酶II在抗甲基化启动子CGIs中含量显著增高(p = 8.46X10 32), 说明抗甲基化的启动子CGIs趋于更加活跃。在
17、许多抗甲基化启动子CGIs上的低含量德聚合 酶II意味着抗甲基化状态在基因的表达中比较随意。如果在一些易于甲基化的CGIs上含有 较高的RNA聚合酶II,则表明这些基因可能用于具体过程的诱导。分布在U-和M-CGIs中的76个显著的差异特征中,超过一半的TFBSs序列,显示出序列 特征的重要性,而这并不影响甲基化的CGIs的地位。另外,一些模型(如$SP1和$KROX_Q6), 相应的转录因子已经被报道出来,并且用来保护CGIs防止DNA甲基化,大大地丰富了其中的 U-CGIs含量。而且,大多数的组蛋白标记是显著的分布异常,这个和以前研究组蛋白修饰和 DNA甲基化的密切互动结果相一致。值得注意的是,CGI甲基化图谱是基于对预测模型CD4细胞的整个基因组的研究得到 的。这就提出了一个问题:预测图谱是否可以适用于其他的组织,例如,在不同的组织中CGI 甲基化剖面的不同到什么程度。其实,不同组织的DNA甲基化的组织特异性已渐渐成为热门 话题。最近我们发现了 CGIs的甲基化程度在不同的体细胞组织中非常相似,而甲基化程度在 精子中却是截然不同的。其他研究人员也发现,在特异组织中甲基化CGIs含量比较少,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【+高中语文+】《+虞美人》课件+统编版高中语文必修上册
- 山东省德州市武城县三校联考2024-2025学年九年级上学期第二次月考数学试题
- 江苏省常州市昕弘实验学校2024-2025学年部编版九年级历史上学期素养评价试卷(无答案)
- 广东省佛山市南海区九江镇儒林实验学校2024-2025学年七年级上学期12月学程调查英语试题(无答案)
- 黑龙江省哈尔滨市第三中学2024-2025学年高三上学期期中考试数学试卷(含答案)
- 医学教材 肠道传染病培训学习资料
- 经典室内设计课件
- 上津镇中心小学班级自主管理班会2015.10
- 3.6 用电路做积分
- 内科典型教学病例(云南医药健康职业学院)知到智慧树答案
- 2024年医疗器械培训计划
- 环氧地坪漆工程投标方案(技术标)
- 长沙民政职业技术学院单招《语文》考试参考题库(含答案)
- 医疗资源配置公平制度逐步完善1
- 思政课教案(通用10篇)
- 大学《思想道德与法治》期末考试复习题库(含答案)
- 兼职导购员招聘培训与管理课件
- 铭记历史爱我中华课件
- 2024年山东财金投资集团有限公司招聘笔试参考题库含答案解析
- 部编版小学四年级上册语文期末试卷含答案(共4套)
- 《需求管理》课件
评论
0/150
提交评论