通过母系血浆的高通量平行DNA基因组测序来进行胎儿染色体非整倍性的无创产前诊断_第1页
通过母系血浆的高通量平行DNA基因组测序来进行胎儿染色体非整倍性的无创产前诊断_第2页
通过母系血浆的高通量平行DNA基因组测序来进行胎儿染色体非整倍性的无创产前诊断_第3页
通过母系血浆的高通量平行DNA基因组测序来进行胎儿染色体非整倍性的无创产前诊断_第4页
通过母系血浆的高通量平行DNA基因组测序来进行胎儿染色体非整倍性的无创产前诊断_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、通过母系血浆的高通量平行DNA基因组测序来进行胎儿染色体非整倍性的无创产前诊断前言染色体非整倍性是很多配偶选择做产前检查的主要原因。现在决定性诊断的方法主要靠破坏性的过程,比如绒毛膜取样和羊膜穿刺术,然而这些方法都有流产的风险。虽然胎儿的DNA可以在母亲的血浆中找到,但是作为其中非常微小的部分,总是伴随着大量母系DNA背景。因此胎儿基因组内的非整倍性染色体数量上的不同对于母亲血浆中全部的染色体序列表达就非常的微小。即使用非常精确的单分子计数方法比如数码PCR,为了达到必要的分析精度仍必须分析大量的DNA分子,即需要大量的母系血浆。这样我们就证明了使用独立位点的方法比定位于某一基因位点的方法将极

2、大的提高从相同一定容量的血浆中可供分析的非整倍性染色体目标分子的数量。因此我们为了达到产前胎儿二十一三体综合症的无创检测,应使用高通量平行基因组测序来量化母系DNA序列。我们检测了28个怀孕六个月内母亲的血浆样本并正确辨别出了其中14个二十一三体综合征胎儿和14个整倍性胎儿,高通量平行血浆DNA测序展示了一个为所有孕妇进行无创产前胎儿染色体非整倍性诊断的新途径。正文检测胎儿非整倍性是许多孕期妇女做产前诊断的主要原因。传统的产前检测方法包括绒毛膜取样和羊膜穿刺术,这些具有破坏性的取样方法有可能导致流产,因此许多人都在研究无创取样方法,其中超声波扫描和母亲血清的生物化学标记被证明是有效的筛选方法,

3、然而他们发现的是负现象而不是染色体异常的病理学特征。这些方法也存在很大的局限性,比如妊娠期适用性和同时需要联合多个标记,甚至需要通过不同的时间节点来达到一个临床上有用的灵敏度和特异性。为了从母亲血样中直接检测胎儿的染色体和基因组异常,早期的工作聚焦于如何将稀少的胎儿有核细胞从母亲血浆中分离出来。1997年发现的母亲血浆中无细胞胎儿核酸开创了新的可能,然而胎儿DNA仅仅占母亲血浆DNA的很小部分。绝大多数都是孕妇自己的DNA,这点造成了巨大的挑战。最近,生物学家发明了大量的方法。一个策略以母亲血浆中胎儿特异性的核酸作为目标,比如说胎盘的mRNA和DNA分子创造了一个胎盘特异性DNA甲基化信号。胎

4、儿的染色体剂量然后用目标分子中SNPs的等位基因比率分析来评估,这种策略叫做RNA-SNP等位基因比率法和表观遗传等位基因比率法。这种基于等位基因比率的方法只能用在被分析的SNPs位点上是杂合的胎儿中,所以为了提高这种方法的覆盖率需要多样的标记。为了创造一种从母系血浆中检测胎儿染色体非整倍性的单独多态性的方法,我们团队最近提出了使用数码PCR来进行相关染色体剂量(RCD)测量的原则。数码RCD是用来数母系血浆中可能的非整倍性染色体的一个特殊位点的总数量,比如说二十一三体综合症中的二十号染色体,并且将其与参考染色体比较。因此我们检测到由三条二十一号染色体带来的基因位点与对照基因的微小增加时,我们

5、就可以诊断出二十一三体综合症,二十一号染色体序列成比例的增加预期就很小,因为胎儿DNA在母亲血浆DNA中仅占很小一部分。为了可信的检测出这个微小的增加,需要高精度地分析和计数大量确定数量的二十一号染色体和由数码PCR试验定位的位点的对照染色体序列。因此当部分富集的循环胎儿DNA非常低,比如说在早期怀孕时,就需要大量的母亲血浆。另一种方法是进行多个遗传位点的多样化分析,然而多路复用的数码PCR法的优化十分具有挑战性。如果使用荧光标记,我们就能很快地分辨出不同位点的各种标记。为了克服以上的限制,我们打算用一种独立于任何特定基因位点的方法来计量母系血浆中二十一号染色体序列的数量。当使用独立位点的方法

6、时,非整倍性染色体的每一个DNA片段都会对这条染色体的数量的计量产生影响。因此对任何固定容量的母系血浆中可计量的序列都比特定位点基因试验中作为模版的DNA分子多,所以过量或较低的非整倍性染色体的表达更容易被精确地检测出。我们之前提议高通量平行基因测序(MPGS)平台会是无创产前胎儿染色体非整倍性诊断DNA序列的一种方法。在这份研究中我们证明Solexa测序技术(Illumina)可以实现这个目标。结果过程框架。母系血浆中的无创胎儿染色体非整倍性检测使用MPGS的过程框架按图示表达在图一中,在这份研究中我们使用了Solexa的合成测序方法。因为母系血浆中地DNA分子在自然条件下就已经变成碎片了,

7、所以我们无需再将其碎片化。每个血浆DNA碎片的一个同源衍生拷贝的末端都进行了测序且用Illumina Genome Analyzer标准前测序生物信息学分析方法进行处理,后者使用了高效、大范围核苷酸数据库软件分析(ELAND)。这个测试的目的在于简单辨别测序血浆DNA碎片的染色体来源,但我们并不需要知道他们基因特异性位点的相关细节。每一个人类染色体上任何特定染色体的序列数量之后会被计数和制表。在这份研究中我们只数了没有错误配对并且只能和对照人类基因组作一个位点映射的序列,比如说那些在人类基因组中视为特殊的那些序列。我们根据ELAND序列测试软件(Illumina)的输出数据把这些序列称作U0-

8、1-0-0。然后我们用某一染色体的U0-1-0-0数除以所有样本中的U0-1-0-0总数,通过该比例得出的值叫做%chrN。为了确定我们测试的母系血浆样本属于二十一三体综合症,我们需要计算一个叫做Z-score的值,这个Z-score是根据参照组数据平均值的标准偏差得出的。因此对于二十一三体综合症胎儿来说,我们就会看到其Z-score要高于整倍体胎儿。为了使无创产前胎儿非整倍性体染色体检测的过程高效,必须符合几个假设。首先,MPGS需要足够灵敏来捕捉和产生在母系DNA的背景下所有胎儿DNA的小片段的序列读数。其次,捕捉来做测序的血浆DNA碎片必须是在母系血浆中有类似染色体间的分布的具有代表性的

9、样本。再次,对每条染色体上DNA测序的能力不应有巨大偏见。当这些假设成立时,%chrN就能反映出母系血浆中母亲和胎儿的基因表达。更甚的是,如果在母系血浆中,母亲和胎儿的基因是平等表达的,每条染色体上成比例的血浆DNA序列的贡献会产生人类基因组里每条染色体相对大小的关联。如果%chrN值可以通过测序和点一个够大的血浆DNA库来使其变得足够精确,我们假设可以辨别出大量映射到非整倍体染色体序列表达上的不同。我们准备分别测试这些假设。在母系血浆中检测胎儿DNA。如果MPGS可以可以给母系血浆中胎儿DNA测序,那么我们就应该可以检测出血浆中有y染色体的DNA,如果孕妇怀的是男性胚胎,从四个怀着整倍体胎儿

10、的孕妇获得的血浆样本(三男一女)用Illumina的beta hIP-Seq-protocol进行处理,这个功能包括副本文件中所描述的化学凝胶电泳尺寸分流法步骤之前或之后的适配器绑定的DNA片段的放大。这四个样本的临床信息和测序的数据详见S1表格。从每个样本获得的总的序列数约为9*106。每例中总的U0-1-0-0计数范围为1.8*1062.0*106。映射到每个染色体的U0-1-0-0计数的比例见图S1。对于这三个怀男性胎儿的孕妇,比如3009、3034和3143完全的和部分的映射到y染色体的计数分别为636(0.032%)、858(0.048%)和1054(0.056%)。然而没想到177

11、(0.009%)的序列同样映射到了y染色体,包括一个女性胎儿。对sry基因的实时PCR对着之后的血浆样本产生了否定的结果。我们然后考虑凝胶电泳时可能有男性序列污染的出现。血浆DNA的测序方案。我们创造了一个新的方案来为MPGS准备血浆DNA样本,不需要凝胶电泳和二次放大步骤,这个新的和原来的方案作了对比,并且分别表示为方案A和方案B。为了将低DNA通量在测序结果中造成的偏差降到最低,三个血浆样本每个都抽取了100ng的DNA。每个血浆样本的一半(50ng)都用两个方案作了处理,并且进行了同样的测序。被测试的血浆样本包括一个怀着女性胚胎的孕妇,一个怀着男性胚胎的孕妇,和一个两个男性个体的血浆混合

12、体。最后一个样本需要做混合那样才能获取100ng的DNA。这三个样本分别叫作样本1、2、3。每个样本和每个方案的临床细节和测序结果显示在表格S2中。总体的U0-1-0-0结果分布在2.0*1062.2*106。全部和部分的使用新方案的样本1、2、3的映射到y染色体的U0-1-0-0结果是184(0.009%),1444(0.066%)和3523(0.175%)。相应的,原来的方案的数值为218(0.011%),1615(0.077%)和3468(0.169%)。因此污染主要是由凝胶净化产生,而二次放大步骤得不到证实。我们接下来探索了是否存在一个生物信息学的解释,我们使用Basic Local

13、Alignment Search Tool(BLAST),来分析这三个样本的每一个样本和每一种方案的映射到y染色体的每一个U0-1-0-0序列。我们用BLAST评估了只能匹配到y染色体的DNA序列的所占比例。通过BLAST得出的特异性匹配到y染色体的序列的比例,分别用新的和旧的方案进行了对比(表格S3)。怀着女性胎儿的孕妇的血浆样本,只有30%的通过ELAND映射到y染色体的序列被BLAST确证只映射到y染色体。这和样本2、3形成了鲜明的对比,他们有超过90%被ELAND映射到y染色体的序列可以被BLAST确证。尽管如此,怀有男性胎儿孕妇的血浆样本中检测出的y染色体序列可以证明母系血浆中的胎儿

14、DNA可以用MPGS进行测序。为了确认ELAND软件得出的U0-1-0-0序列有着比较小的映射错误,我们进行了一个涵盖三个血浆DNA样本的在每一个染色体上的利用新方案进行的基于120个随机选择的U0-1-0-0序列的BLAST分析,正如表格S4所示。在选取的测试的序列中大于99%的利用ELAND来映射到常染色体的U0-1-0-0序列被BLAST确认只匹配到相应的染色体。样本一中所有的120个ELAND映射的x染色体序列都被BLAST确认了,它仅包含女性DNA。样本二和三中超过97%ELAND映射的x染色体序列被B LAST所确认,它们包含男性DNA。这些数据表明ELAND所映射的U0-1-0-

15、0序列除去y染色体外还是基本上非常准确的。母系血浆DNA序列在人类染色体中的分布。样本一、二、三分别计算了每一个染色体的U0-1-0-0数量占所有序列的U0-1-0-0的比例的贡献。为了调查是否母系血浆DNA序列在人类基因组重平均分布,我们比较了血浆DNA数据和每条染色体的期望的基因贡献。我们主要的目的是分析占支配地位的DNA背景为女性的母系血浆DNA。因此我们计算了一下基因的相对表达,比如说每条染色体的大小,基于一位女性参考者的单倍体人类基因组的每条染色体的核苷酸构成,每条染色体的相对大小和测序的血浆DNA样本的U0-1-0-0序列的染色体贡献的比例被绘在一起。正如图表2中所示,使用新方案进

16、行的血浆DNA的标本,比如说样本1A、2A和3A,和每个人类染色体预想中的基因表达比相关的用原来方案进行的标本,比如说样本1B、2B和3B都更加相似。我们进行了线性回归分析来比较,从新旧两种方案中获得的每个染色体的百分之U0-1-0-0和在人类基因组中每个染色体的预期的基因表达。正如图表S2所示,样本1A、2A和3A中获得的斜率大于0.95,而样本1B、2B和3B分别为0.755,0.795和0.859。样本1A、2A和3A的R2大于0.980,但是样本1B、2B和3B分别为0.803,0.840和0.910。这些数据客观上证实了只有一个PCR放大步骤的和疏忽了凝胶电泳过程的DNA处理方案会产

17、生一个大量的序列的简况,比原来的方案更好的符合每条人类染色体的基因构成。更重要的是这些数据表明母系血浆的DNA分子的在人类基因组中的总体分布是相当平均的。母系血浆样本(1A和2A)的DNA分子的染色体分布和成年男性血浆(样本3A)是相似的。这些观察结果表明母系血浆中的母亲和胎儿的DNA序列不太可能在它们的基因分布上有显著的不同。否则如果母亲DNA和胎儿的DNA在基因分布上有着本质上的不同,我们可以预见总体的基因表达会和非怀孕的人类血浆DNA样本有差异。从母系血浆中检测出胎儿二十一三体综合症。我们进一步测试是否胎儿的染色体非整倍性会导致非整倍性染色体的匹配序列的百分比贡献中的数量上的扰动。血浆样

18、本采自六月之内的十四个怀着整倍体胎儿的孕妇和十四个怀着二十一三体综合症胎儿的孕妇。胎儿的染色体状态由完全的人类染色体核型分析来确认。二十八个孕妇的血浆DNA(平均怀孕周数为14.1周)用新的方案来处理并且进行了测序,每个样本的临床细节和测序结果展示在表格S5中。二十八个样本间隔六周分两批进行处理并且流动地在四组细胞中进行测序。每个样本产生的平均序列数为10.8*106。平均的U0-1-0-0数为2.5*106。每条染色体的U0-1-0-0序列的百分比贡献和人类基因组的每条染色体的基因表达的百分比标绘在一起,见图S3。二十一号染色体和x号染色体的数据展示在图表3A里。和二十一号染色体相匹配的U0

19、-1-0-0序列的百分比在二十一三体综合症中比整倍体样本稍高,女性胎儿与男性胎儿相比%chrX更高而%chrY更低。为了客观的计量二十一三体综合症胚胎的二十一号染色体序列的过量表达的程度,我们使用十个整倍体男性胚胎的数据作为一个参考群体来数每条染色体的%U0-1-0-0平均值和SD值。参考群体被限制为整倍体男性胚胎,这样的话%chrX在女性胚胎中将会观察到一个预期的增长。使用这些参考值,我们数了这二十八个样本除了Y染色体外的每一条染色体的z值,结果显示在图表S4中。二十一号染色体和X染色体的z值展示在图表3B中。所有的二十一三体综合症的样本在二十一号染色体上都有一个大于3的z值(在5.03-2

20、5.11之间),比如与建立在整倍体男性胚胎参考组相比其标准偏差为3。女性胚胎的样本在X染色体上有z值大于1.67。所有二十八个样本中的其他染色体z值都在+-3之间。染色体表达的百分比的计量的重现性。在测试的二十八个母系血浆样本中,我们预计在二十一三体综合症和整倍体胚胎的%chr21表达上和女性及男性胚胎的%chrX表达上有差异。然而非常有趣我们观察到%chr21表达只有一个非常微笑的绝对差异,这个之后引起了巨大的z值差,但是%chrX表达上的巨大的差异随后反而引起了样本中z值上的微笑的差异(图表3)。男性和女性胚胎中的X染色体的绝对差异本来预想要比二十一三体综合症和整倍体胚胎的21号染色体的数

21、据要大得多。因为一个女性要比男性在X染色体的剂量上要多2倍,但是二十一三体综合症比整倍性个体在21号染色体的剂量上只高了1.5倍。此外,X染色体要比21号染色体更大并且在男性胚胎中贡献了一个均值达到9.5*104的U0-1-0-0数值,而所有样本中21号染色体贡献的均值只有3.2*104。因为z值反映了参考数据库均值的作为SDs数量表达的计量上的更多的区别,我们假定,SD在%chr21的衡量中非常小,但是在%chrX的衡量中非常大。既然数据库的SD事实上反映了其计量方法的精确性,我们使用了十个整倍性男性胚胎的数据来数,每个染色体的表达的计量百分比的变化系数(CV=SD*100%/平均值)。正如

22、表格S6所示,二十一号染色体在所有的染色体里CV第三低(0.54),%chrX的CV=3.1%。因为X染色体的U0-1-0-0序列的绝对计量数比二十一号染色体高三倍,序列的数量不能够解释精度上的变化。我们因此探索了%U0-1-0-0计数的CV值和每条染色体的GC容量之间的关系(图表S5)。人类染色体可以根据GC容量的不同水平被分成五组。组一染色体水平最低,组五染色体水平最高。非常有趣地,五组染色体的CVs统计学差异显著(P<0.001,ANOVA)。BonferroniT测试确定了第五组的CV值统计学上比其他四组更高(P<0.05)。第四组和第一组的CV值统计学上比第二组和第三组更

23、高(P<0.05)。讨论我们已经证明了MPGS可被用来作为无创产前诊断的一种诊断工具。我们也展示了二十一三体综合症胎儿与整倍体胎儿的母系血浆中的二十一号染色体DNA序列的数量上的差异可以被清楚地检测出来。男性胚胎和女性胚胎在母系血浆中X染色体和Y染色体两种DNA序列数量上的差异也能够被清楚地观测到。MPGS的区分染色体上的基因分布的微小的数量上的扰动的能力在于对非常大量的分子的分析,这点能够使数量上计量的不精确性最小化。因为没有定位到某一特定的基因位点,所有的血浆DNA碎片一起提供了一个空前的每个分析样本的分子的数量。这种方法和现今的方法有显著的不同,现今的方法一般来说都是只计量能作为位

24、点特异性PCR测试模版的DNA分子,比如说Y染色体上的SRY。基因位点特异性的DNA模板只代表了母系血浆中一个极小部分的DNA碎片。事实上,MPGS是血浆DNA分子的相对基因表达的计量的如此强大的工具,只有人类基因组中数量和代表性碎片一致的那一部分需要测序。比如说每个血浆样本产生约一千万个36核苷酸的读取框,这只相当于人类基因组的十分之一。此外,在这份研究中只有占每个血浆DNA样本测序阅读框20%的U0-1-0-0序列,被用来产生关于染色体分布情况的定量信息。因此,这和之前描述的一些为定量核苷酸信息并且依靠高覆盖的测序技术的依赖测序的方法相当不同,比如说决定在转入组分析中RNA种类的相对丰度。

25、相反,我们现在的方法只简单的测序了人类基因组的随机的代表性的片段,大部分DNA片段最多只测序了一次。相关的染色体大小随后靠数染色体匹配的序列的相对数量来推导出。所数出的每一个DNA片段的核苷酸序列都是不同的。事实上,每次我们得到的一个样本的DNA序列池都不同。尽管测序存在随机性,但是%chr21序列的定量估计如此的精确和坚定,二十一三体综合症孕妇的二十一号染色体的z值和对照组的整倍体样本的平均值有显著差异。在这份研究中二十一三体综合症孕妇的怀孕时间(14.1周)和整倍体组的平均值(15.4周)有的比。所有整倍体组的样本都是在任何目前怀孕过程中的侵入性过程之前收集的。十一个二十一三体综合症孕妇的

26、血样是在侵入性的产前诊断过程造成的妊娠终止前马上采集的,平均天数是六天(范围在2至22天)。我们目前的研究表明在羊膜穿刺几天后采集的样本的胎儿DNA中没有任何实质的区别。尽管如此,从三个二十一三体综合症孕妇所采集的血样(样本17、19和25,表格S5),是在绒毛膜取样之前的三周里采集的。因为二十一号染色体带来的z值的增加已经可见(图表3B)。理论上,任意染色体上的一定量扰动的存在的决定因素都能够更精确的达到,例如,考虑胎儿DNA的浓度能够预估染色体扰动的预期程度。胎儿DNA的浓度通过胎儿表观遗传标记或者父系遗传的多态标记会很容易的测量出来。在我们的研究中,每个样本中的胎儿DNA浓度不需要源自决

27、定每个样本疾病情况的临界值。首先,根据表格S6,二十一号染色体是表达百分比能被我们目前的非常低精确度的方案所计量的染色体的一个。第二,当与单核数码RCD这样的方法作比较时,这个方法需要与胎儿DNA浓度相关的疾病临界值,更多的二十一号染色体的序列是靠测序来计量的。对于数码RCD,我们报告了对于一个胎儿DNA浓度达到25%的样本来说,为了达到97%的正确的分类率我们需要做7680个数码PCRs。我们现在的数据同样显示20%的相当于1536个二十一号染色体分子,7680孔实验的分析的数码PCRs的总数量,会包括只有二十一号染色体的基因目标,因此是有益的。因此,通过测序方法分析的二十一号染色体分子的数

28、量(平均值为3.2*104)是数码RCD方法的20倍。因此,这种测量会比现在的数码PCR分析的范围明显更精确。然而考虑到胎儿DNA的浓度,对一些其他染色体或其他批次的的染色体表达的百分比的计量可以做得更精确并因此能够使错误的诊断最小化。事实上,决定母系血浆DNA的基因表达的MPGS的准确度和精确度都能够通过一系列的交测序分析策略得到改善。例如,出现在已知拷贝多态性区域的序列可以被调整使整倍性怀孕参考范围更紧密。比如说,在某些情况下与参考基因有1-2处错误配对的序列而不是U0-1-0-0,可能就会在测试样本和参照的人类基因组中表现出多态的不同,也可能被用来提高可用测序的数量。我们同时也展现了血浆

29、DNA序列的贡献比率的测量的再现性在染色体中和染色体GC容量的不同可以部分解释这种多样性。因此,每一个样本需要做的测序的数量可以改变,来确保每一个其他染色体的定量扰动的发现的计量可以被是做的足够准确。事实上,我们预测,如果计算充足的血浆DNA片段,MPGS就能够精确的检测出包含在小于全染色体的区域的数量上的失常。我们找到一个当与其他染色体作比较时,Y染色体的ELAND匹配的精确性的不符之处。这有可能归因于已知的许多Y染色体中重复序列的存在。即便反复掩盖,许多留下的Y染色体序列依旧暴露在低拷贝数重复序列之下,后者提高了精确匹配如是序列的困难。尽管如此,对于怀着女婴的孕妇来说,仍然可以发现一小部分匹配到Y染色体。对于男性DNA来说这些血浆样本是阴性的这点我们已经通过业界广泛使用的SRY实时PCR实验论证了。MPGS方法比实时PCR方法更灵敏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论