基因组结构变异检测的基本方法与前沿技术,医学遗传学论文_第1页
基因组结构变异检测的基本方法与前沿技术,医学遗传学论文_第2页
基因组结构变异检测的基本方法与前沿技术,医学遗传学论文_第3页
免费预览已结束,剩余33页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因组结构变异检测的基本方法与前沿技术,医学遗传学论文摘要:本研究介绍了基因组构造变异检测的生物信息学基本方式方法和前沿技术。对基于第二代测序技术的四种检测方式方法(读对方式方法,读深方式方法,分裂片段方式方法和序列拼接方式方法)的原理和特点进行了具体解读,分析了第二代测序技术应用在检测构造变异上的特点与发展趋势。最后介绍了三代测序、Linked-reads和光学物理图谱等新技术在基因组构造变异检测中的应用,阐述了融合新技术的构造变异检测方式方法的特点与优势。本文关键词语:构造变异;测序片段;第二代测序技术;长片段测序技术;光学物理图谱技术;Abstract:Thebasicmethodsandfrontiertechnologiesofgenomestructuralvariationsdetectionwereintroducedinthispaper.Theprinciplesandfeaturesofthe4detectionmethods(Read-pairmethod,Read-depthmethod,SpiltreadmethodandSequenceAssemblymethod)basedonnextgenerationsequencingtechnologywereelaboratedandthecharacteristicsanddevelopmenttrendofthenextgenerationsequencingtechnologyondetectingstructuralvariationswereanalyzed.Finally,somenewtechnologiesandtheirapplicationsindetectinggenomestructuralvariationswereintroduced,includingthethirdgenerationsequencing,linked-readsandopticsphysicalmaps.Thefeaturesandadvantagesofthedetectionmethodsmixedwithnewtechnologieswerediscussed.Keyword:Structuralvariations;Sequencingreads;Nextgenerationsequencing;Longreadssequencing;Opticsphysicalmaps;从基因的概念被提出伊始,对人类本身基因信息的探究一直是生命科学的热门问题之一,人类基因组计划(humangenomeproject,HGP)于2001年第一次完成了人类24条染色体的序列测定后,人们发现个体之间基因的类似程度到达99.9%,存在着大约0.1%的片段上的差异,我们称之为基因组的多态性或基因组变异,正是这些差异导致了人与人之间截然不同的各类性状差异。根据发生变异的碱基数量,基因组变异又能够分为单核苷酸变异(singlenucleotidevariations,SNV)与构造变异(structuralvariation,SV)。SNV是指发生在基因组水平上的单个核苷酸的变异;SV最初提出是指长度在1000bp以上的基因的大片段的变异(Feuketal.,2006),随着对SV认识的不断发展,现SV一般指长度在50bp以上DNA片段变异(Alkanetal.,2018)。在构造变异中,根据长度能够分为长度在3MB下面的亚显微水平的构造变异和长度在3MB以上的显微水平的构造变异;根据类型能够分为十多种不同的构造变异,几种常见的类型为缺失(Deletion)、重复(Duplication)、插入(Insertion)、倒位(Inversion)、易位(Translocation)等(图1),华而不实缺失、重复、插入等改变基因组碱基对数量的构造变异以及互相组合衍生出的复杂的构造变异又能够称为拷贝数变异(copynumbervariation,CNV)(Cooperetal.,2007)。构造变异的影响能够归纳为两大方面(Hurlesetal.,2008)。首先,在基因表示出方面,构造变异会通太多种方式影响基因的转录与翻译。当基因发生重复、插入和缺失等变异时,会导致基因剂量的改变;当编码区域发生构造变异时,会改变基因的转录翻译;当非编码区域发生构造变异时,会通过位置效应影响基因表示出调控元件的调控作用;当发生加强子或抑制子的删除变异时,会影响基因的转录水平。其次,在疾病方面,构造变异会导致性状的非正常表示出,进而引发各类遗传性疾病。除了已经为人们熟知的部分显微水平的构造变异引发的疾病,例如21号染色体3体引发的唐氏综合征,5号染色体短臂上的缺失引发的猫叫综合征等等;也有越来越多关于亚显微构造的构造变异引发的疾病的报道,例如视蛋白基因的基因重组可能会引发红绿色盲疾病(Lupski,2021);17q21.31部位的缺失变异会引发学习障碍(Koolenetal.,2006);16p11.2部位的缺失变异会引发孤单症(W-eissetal.,2008)。最初,基因组中大量存在的SNV被以为是影响遗传和表型的主要因素,但后来发现基因组中普遍存在大量的SV片段,同样在人类疾病、复杂性状和进化的研究中具有重要意义(Check,2005),因而吸引了大量研究。一方面,研究集中于人类基因组构造变异的检测。从2008年开场,中、英、美各国共同发起的国际千人基因组计划(The1000GenomesProject),对基因组的构造变异作了当时最全面最完善的分析。在2020年和2021年,国际千人基因组计划分别发布了1092个样本(GenomesProjectetal.,2020)和2504个样本(Sudmantetal.,2021)的测序数据以及具体的构造变异检测结果。之后陆续有关于构造变异检测成果的报道,到2021年10月,韩国国立首尔大学医学院针对一名韩国人的基因组(AK1)进行了相关分析(Seoetal.,2021),发布了迄今为止最为具体的人类基因组构造变异检测结果。另一方面,人们关注于构造变异与相关疾病的关联分析,已经有多种本身免疫性疾病(Yangetal.,2007;Wangetal.,2020)、病毒感染(Gonzalezetal.,2005)、肥胖(Falchietal.,2020)、骨质疏松(Yangetal.,2008)等被证明与构造变异相关,尤其在癌症与构造变异的关联性研究中,更是发现构造变异是导致食道癌(Chengetal.,2021)、儿童神经母细胞瘤(Pughetal.,2020)、小细胞肺癌(Georgeetal.,2021)等最主要的因素。图1构造变异的几种常见类型Figure1Severalcommontypesofstructuralvariations其实早在上世纪五十年代,对于构造变异的研究便已经开场,但受限于技术手段,过去人们往往只能通过显微镜观察到显微水平的构造变异。上世纪七十年代,人们用遗传学方式方法对构造变异进行了更深切进入的研究(SperlingandWiesner,1972)。21世纪以来,一方面随着微阵列(Microarrays)、细菌人工染色体(bacteriaartificialchromosome,BAC)、单分子分析(Single-moleculeanalysis)等实验技术的发展,人们开场使用阵列比拟基因组杂交(arraycomparativegenomichybridization,aCGH)、SNP微阵列(SNPmicroarrays)以及荧光原位杂交(fluorescentinsituhybridization,FISH)等方式方法来检测构造变异(Iafrateetal.,2004)。另一方面,随着聚合酶链式反响(polymerasechainreaction,PCR)、DNA测序以及基因组序列比拟分析等技术的发展,人们开场通过基于测序数据的计算机处理方式方法检测构造变异,尤其随着新一代测序技术(nextgenerationsequencing,NGS)的发展和普及,基于测序数据的分析方式方法开场被大量使用。最近几年来,为了弥补NGS技术检测构造变异的各种缺乏,人们开场通过单分子实时测序(single-moleculerealtimesequencing,SMRT)、纳米孔(Nanopore)等第三代测序技术(thirdgenerationsequencing,TGS)进行SV检测。本研究主要就基于测序技术发展起来的一系列检测构造变异的方式方法和技术进行介绍和讨论。1、基因组构造变异检测基本方式方法每段DNA的测序序列的原始数据称之为测序片段(Reads),基于测序技术的构造变异检测方式方法大部分通过reads与参考基因组的比对进行检测。主要检测方式方法分为四种(Medvedevetal.,2018;Alkanetal.,2018;Millsetal.,2018),分别是读对方式方法(Read-pairMethod)、读深方式方法(Read-depthmethod)、分裂片段方式方法(Split-readmethod)以及序列拼接方式方法(Sequenceassemblymethod)。1.1、读对方式方法将同一段DNA分别从两端测得不同方向的序列信息称之为双端测序(Paired-endreads)。读对方式方法通过双端测序,获得DNA片段两端成对reads的分布的信息,再寻找比对到参考基因组上后分布和方向与参考基因组不一致的Reads,以此为特征判定构造变异的类型(Alkanetal.,2018)。读对方式方法以PEM算法(Korbeletal.,2007)、BreakDancer算法(Chenetal.,2018)、HYDRA算法(Quinlanetal.,2018)等为代表。以PEM算法为例,首先对样本DNA进行双端测序(图2A),能够获得DNA片段两端成对reads的距离和方向等信息。之后将测得的成对的reads比对到参考基因组上,分析其在参考基因组上的距离和方向信息,根据比对前后距离和方向信息的不一致性(图2B),来判定能否存在SV。发生缺失变异的片段两端的reads在比对到参考基因组上时,其距离会增大,而发生插入变异的片段则会出现距离减少的情况,发生倒位变异的片段会出现方向上的变化。读对方式方法是基于高通量测序数据检测构造变异的方式方法中使用最广泛的,最早通过乳腺癌细胞系MCF-7产生的BAC序列验证该方式方法的可行性(Voliketal.,2003)。理论上读对方式方法能够检测各种类型的构造变异,但是在处理基因组重复区域的比对时会遭到很大干扰。同时由于DNA片段长度的限制,读对方式方法无法检测大片段的构造变异。1.2、读深方式方法读深方式方法首先假设在参考基因组上测序深度(Readdepth)是随机分布的(通常服从泊松分布或者修正泊松分布)。将通过高通量测序获得的样本基因组的reads比对参考基因组上,分析其测序深度,通过测序深度在某些区域的差异变化来发现重复变异和缺失变异:重复区域的测序深度会出现明显增加,缺失区域的测序深度会出现明显减少(Alkanetal.,2018)。读深方式方法以EWT算法(Yoonetal.,2018)、CNV-nator算法(Abyzovetal.,2018)等为代表。以EWT算法为例,首先在参考基因组上每100bp取互不重叠的窗,计算每个窗中比对到参考基因组上的reads的起始位点的个数(图3A),再乘以与基因组中GC含量相关的比例系数,作为每个窗的序列深度。依次计算每个窗中的测序深度,DNA片段上所有窗的测序深度总体应当近似服从泊松分布,但假如出现缺失变异、重复变异等拷贝数变异,则必然会引起连续的窗中的序列深度发生明显的增加或降低的情况(图3B)。图2PEM算法检测SV的流程与特征Figure2TheworkflowandfeaturesofPEMalgorithmforSVdetection注:A:双端测序经过,将基因组DNA剪切成长度为3kb左右的DNA片段,在片段两端用生物素标记后环化,再将环化片段随机剪切,挑选出具有生物素标记的片段,然后对挑选出的片段进行测序,进而分析获得DNA片段两端成对reads的距离和方向信息;B:不同构造变异检测时的不同特征,假设本来DNA片段长度为3kb,两端序列在比对到参考基因组上后,若距离变为了2kb,则DNA片段中可能出现了插入变异;若距离变成了5kb,则可能出现了缺失变异;若一端的序列出现方向上的变化,则可能出现倒位变异Note:A:Thefigureofprogressofpaired-endsequencing.ThegenomeDNAwasshearedtoyieldDNAfragmentsof3kb,andthenthefragmentswerelabeledbybiotinatbothendsandcircularized.Andthecircularizedfragmentswererandomlyshearedandthebiotinylatedfragmentswerescreened,thentheselectedfragmentsweresequenced,andthedistanceanddirectioninformationofthepair-endreadsoftheDNAfragmentswereobtained;B:Thefigureofvariousfeatureswhendetectingdifferentkindsofstructuralvariations;SupposethatthelengthoftheoriginalDNAfragmentsis3kb.Ifthelengthbecomes2kbaftertheirpaired-endreadsaremappedtothereferencegenome,theremightbeinsertionsintheDNAfragment;ifthelengthbecomes5kb,theremightbedeletions;ifoneofthereadsdirectionchanges,theremightbeinversions读深方式方法是通过reads比对的统计信息检测构造变异的方式方法,其最早被用来解释在癌症细胞中发生的基因重组的现象(Campbelletal.,2008)。读深方式方法在检测基因组重复、缺失构造变异时的效果非常显着,且能够用来预测基因的拷贝数,但其无法检测其他类型的构造变异,无法区分串联重复和散在重复,而且读深方式方法无法获得断点的相关信息,只能判定片段中能否存在构造变异,而不能判定出构造变异的准确位置。图3EWT算法检测SV的原理Figure3TheprincipleofEWTalgorithmforSVdetection注:A:EWT算法计算测序深度经过;方框的长度为100bp,以此作为一个窗,计算窗内reads的起始位点(标记区域内)个数,作为这个窗的测序深度的计算标准;B:模拟的缺失变异样本基因组的测序深度分布情况;在样本157224~157238kb的长度为14kb的DNA片段上共构建了140个窗,这些窗的测序深度的分布在正常情况下近似服从期望为70的泊松分布;在157227~157229kb的区域内,序列深度出现了连续且明显的降低则能够判定在这一区域内出现了缺失变异Note:A:Theprogressofcalculatingread-depthinEWTalgorithm;Thelengthoftheboxis100bp,itiscalledawindow,thenumberofstartpoints(themarkedregion)ofthereadsinthiswindowisthestandardoftheread-depth;B:Thedistributionofread-depthsofsimulatedsamplegenomewithdeletions;Fromthepoint15722kbtothepoint157238kb,theDNAfragmentslengthis14kb;Webuilt140windows,thedistributionofthewindowsoughttoobeythepoissondistributionwhoseexpectationis70;Intheregionbetween157227kband157229kb,theread-depthdecreasedobviouslyandcontinuously;Itcanbejudgedthatheremightbedeletionsinthisregion1.3、分裂片段方式方法样本基因组测序获得的reads通常要比对到参考基因组上,由于发生构造变异,在某些reads的某个位置的左右两侧,碱基对的坐标和方向与参考基因组不一致,这个位置被称为断点(Breakpoint)。分裂片段方式方法通过寻找构造变异样本中含有断点的reads上准确的断点位置信息来检测构造变异(Alkanetal.,2018)(图4A)。分裂片段方式方法将样本基因的各个reads比对到参考基因组上,寻找无法比对的reads,分别在无法比对的reads的特定碱基位置设置断点,按断点分裂成两小段reads,再通过观察两个小段reads比对到参考基因组中的情况,进而判定构造变异情况。分裂片段方式方法以Pindel算法(Yeetal.,2018)、AGE算法(AbyzovandGerstein,2018)等为代表。以Pindel算法为例,首先通过SSAHA2软件将所的reads比对到参考基因组上,寻找华而不实一端能比对到基因组上而另一端无法比对的reads,再从能够比对的一端开场使用形式增长(Patterngrowth)算法搜索最大-最小子串,来寻找断点的精到准确位置,再将reads按断点分裂成两段,将片段分别比对到基因组上,来判定构造变异的详细信息(图4B)。分裂片段方式方法基于对reads的分段来检测构造变异的断点,能够检测单碱基分辨率的缺失变异和插入变异,对有明确的断点特征的构造变异具有很好的检测效果,当reads的长度大于插入片段的长度时,分裂片段方式方法的拓展还能够用来检测移动元素插入(mobile-elementinsertions,MEI)(Millsetal.,2018)。但仍有大量的构造变异不存在断点特征,无法通过分裂片段方式方法检测,且其在具有大量重复片段的区域检测效果不佳。分裂片段方式方法最早是基于Sanger测序法开发的(Millsetal.,2006),测序片段越长,检测效果越好,二代测序数据读长短的特点会严重影响分裂片段方式方法检测的效果。1.4、序列拼接方式方法序列拼接方式方法通过对样本基因组的reads片段进行从头拼接(Denovoassembly),重新组装后解码样本基因组的序列,再将其与参考基因组序列进行比对,进而能够清楚地判定能否存在构造变异以及构造变异类型(Alkanetal.,2018)。序列拼接的方式方法以ABySS算法(Simpsonetal.,2018)、Velvet算法(ZerbinoandBirney,2008)和SOA-Pdenovo算法(Lietal.,2018)等为代表。以ABySS算法为例,首先根据目的k值,通过测序片段产生所有可能的长度为k的子串,移除子串数据集读取误差,再通过deBruijn图算法构建初始的重叠群(Contigs),之后使用配对信息来消除Contigs的重叠模糊性,拓展Contigs的范围,进而获得最后的拼接结果(图5A)。用拼接获得的完好的样本基因组片段与参考基因组片段进行比对时,在未发生构造变异的区域比对完全一致,在发生构造变异的区域比对则会出现差异(图5B)。相对于前三种方式方法,序列拼接方式方法采用了截然不同的非reads比对的思路。从理论上来讲,假如能够拼接样本基因组的全部序列,则能够检测出所有的SV与SNV,但以测序长度为100bp的Illumina测序仪为代表的第二代测序技术普遍读长偏短,使得拼接难度大大提升,同时假如基因组上出现大量重复片段时,会引发拼接算法的崩溃性错误(Chaissonetal.,2021)。怎样提高测序片段长度并改良序列拼接的算法是序列拼接方式方法亟待解决的问题。图4使用分裂片段方式方法检测SV原理Figure4TheprincipleofSplit-readmethodforSVdetection注:A:构造变异的断点示意,样本基因组标记区域内为缺失变异区域,在构造变异区域之外的reads能够正确比对到参考基因组上,构造变异区域的reads无法正确比对到参考基因组上,在构造变异区域的起始和终止位置的reads,其标记之外的部分是能够正确比对的,标记处的位置即为reads的断点;B:不同构造变异检测时的不同特征,发生插入变异的DNA片段,插入片段前后的reads在断点处各有一部分能够比对到参考基因组上的相邻位置;发生缺失变异的DNA片段,缺失部分的reads按断点能够分别比对到参考基因组前后不同位置Note:A:ThefigureofthebreakpointofSV,theregioninsidethemarkedareaisdeletionregion,theReadsoutofthemarkcanbemappedtothereferencegenomecorrectly,andtheReadsinthevariationregionscannotbemappedtothereferencegenome;Inthestartandendregions,thepartoutofthemarkcanbecorrectlymapped,andthemarkpositionsarethebreakpointsoftheReads;B;Thefigureofvariousfeatureswhendetectingdifferentkindsofstructuralvariants.IntheDNAfragmentswithinsertions,theReadsbeforeandaftertheinsertionregioncanbepartlymappedtotheadjacentpositionsofthereferencegenome;intheDNAfragmentswithdeletions,thereadscanbepartlymappedtodispersedpositionsinreferencegenome1.5、当下构造变异检测方式方法的特点以及发展趋势当前的测序技术以第二代测序技术为主,第二代测序技术又称为新一代测序技术,NGS技术的代表是Illumina公司的测序仪,其每次产生的reads长度在100bp左右,重要特点是技术成熟、通量高、测序成本低、测序速度快,是当前基因组测序的主要手段。借助NGS技术,能够通过单次测序实验发现不同类型的构造变异,而且得益于NGS技术的高准确度,能够准确检测出基因组的拷贝数变化,且具备了发现完好基因组变异的潜力。同时由于NGS技术高通量的特点,提高了构造变异检测效率并降低了其成本。但是,NGS技术存在读长短的缺陷,会制约读对和分段方式方法的检测效率,且对序列拼接方式方法带来极大困难。使用NGS数据检测构造变异的灵敏度不高,且大多局限于短片段的缺失变异和插入变异,无法检测大片段的复杂构造变异。图5序列拼接方式方法检测SV原理Figure5TheprincipleofSequenceassemblymethodforSVdetection注:A:为序列拼接经过,通过大量互相重叠的reads进行拼接,能够获得长度较长的Contigs,再对Contigs进行拼接,能够获得长片段Scaffold;B部分为含有缺失变异的Scaffold与参考基因组比对示意图,非缺失部分的序列都能够正常比对到基因组上,缺失部分则无法正常比对,由此能够非常直观地得到变异区域的详细信息Note:A:Thefigureoftheprogressofsequenceassembly,ThelongContigscanbeachievedbyassemblinglargenumberofoverlappingreads,andtheScaffoldcanbeachievedbyassemblingcontigs;B:ThefigureoftheresulttheScaffoldwithdeletionsmappedtothereferencegenome;Thenormalpartcanbemappedtothereferencegenomecorrectly,butthedeletionpartcannotbemappedcorrectly;Accordingtothis,thespecificinformationofthevariantpartscanbeobtaineddirectly在国际千人基因组计划于2020年发布1092个个体的构造变异检测结果中,所有样本的数据均通过低覆盖度NGS获得,包括6x覆盖度的全基因组测序(whole-genomesequencing,WGS)和全外显子组测序(whole-exomesequencing,WES),运用BreakDancer、CNVnator、Delly、Pindel、GenomeSTRiP(Handsakeretal.,2018)等构造变异检测算法,检测了14000多个大片段的缺失变异以及小片段的串联重复序列;而在2021年发布的构造变异检测结果中,除了使用了低覆盖度的全基因组测序,还参加了单分子实时测序、SNP微阵列等各种技术相结合的测序手段,使用同样的算法,共检测了68000多个构造变异,包括了缺失、重复、倒置、插入等不同类型的构造变异,华而不实有48000多个构造变异是从未发现的,而且近一半的构造变异没有明显的断点特征。比照来看,由于测序技术的区别,固然采用一样的算法,但两次检测构造变异的结果存在宏大差异。仅仅采用低覆盖度的二代测序数据只能检测出相对少量的SV,且大多只局限于缺失变异。同时,不同的构造变异被检测出的程度也不尽一样,据估计,68%的倒位变异和35%的重复变异尚未被检测出;相反,80%的缺失变异已经被检测。所以,仅仅采用低覆盖度的二代测序产生的数据来检测构造变异已经逐步无法知足检测的需求。对于怎样提高构造变异的检测水平,能够从3个方面入手(HuddlestonandEichler,2021)。(1)提高测序深度,改良测序形式:NGS的测序深度至少要到达30x,而不是简单的6覆盖度,这样才能够提高检测构造变异的灵敏度。同时最好以家庭为单位来进行测序,以了解表型特征的传递以及变异频率等信息;(2)提高测序长度,完善序列拼接算法:使用单分子实时测序(Singlemoleculereal-timesequencing)等长片段测序方式方法提高Reads长度,随着读长增加,序列拼接算法的效果会出现显着提高,序列拼接的难度也会显着降低,实现基因组的完全解码成为可能;(3)综合使用检测算法,采用读深方式方法、读对方式方法、分裂片段方式方法和序列拼接方式方法相结合的构造变异检测方式方法,例如CNVer算法(Medvedevetal.,2018)、GenomeSTRiP算法等弥补单一方式方法的缺乏。2、构造变异检测前沿技术和新方式方法2.1、基因组分析新技术最近几年来,在基因组分析上出现了很多新技术,这些技术都围绕着获取长片段的基因组测序序列的进行,主要分为三类:(1)直接获取长片段的新测序技术,即第三代测序技术;(2)对NGS获得的短片段进行处理获取长片段的技术,即连Link-reads技术;(3)构建基因组物理图谱辅助序列拼接的技术,即光学图谱技术。第三代测序技术以PacificBioSciences公司的单分子实时测序(singlemoleculereal-time,SMRT)技术(RhoadsandAu,2021)为代表。SMRT技术通过荧光信号获取序列信息,其优点是读长超长,平均读取长度能够到达16kb左右,在基因组组装和构造变异检测方面能够起突破性的作用。然而三代测序技术相较于二代测序技术错误率高,准确率在85%左右,固然能够通太多次重复测序使测序准确率到达95%以上,但成本也会成倍增加;测序通量低,单次测序的通量是MB级别,与NGS的通量差距宏大,因而测序成本高,无法大规模应用。Linked-reads技术(Kitzman,2021)以10XGenomics公司的GemCode平台为代表。GemCode平台对基因组上同一区域内的DNA片段标记以一样的特殊碱基序列,在通过Illumina平台测序后,连接一样特殊碱基序列标记的DNA片段,产生一种新的数据类型:连接片段(Linked-reads),进而能够以相对较低的成本来获得长度到达10kb以上的测序片段,进而能更好地进行基因组组装并提高构造变异检测灵敏度。Gemcode的缺点在于其对样本质量要求高,需要制备大小不同的文库,且其测序基础是基于Illumina测序的,所以无法改善高GC或低GC含量时测序覆盖效果较差的情况(Rossetal.,2020)。光学图谱技术又被称为新一代图谱(next-generationalmapping,NGM)技术,以BioNano公司的Irys平台为代表。Irys平台通过酶切技术和荧光标记成像技术构建基因组的物理图谱,描绘DNA上能够辨别的标记的位置(包括限制性内切酶的酶切位点,基因等)和互相之间的距离,构建基因组的宏观框架,按照框架能够使测序信息准确地回归到染色体上,进而提高序列拼接的长度和准确度,解决在高度重复区域的基因组组装和构造变异检测问题。在基因组分析方面,光学图谱技术只是一项辅助技术,但其能够很好地复原DNA分子的真实信息,辅助序列重新组装,并且能够与第二、第三代测序技术完美兼容,具有重要的应用价值。2.2、融合长片段测序和物理图谱的构造变异检测方式方法随着上述新技术的出现,基因组测序的片段长度大大提高,弥补了序列拼接方式方法的缺陷,其检测效果获得了突破性地提高,能够检测大片段和复杂的构造变异。从最新的关于构造变异的相关报道来看,以NGS短片段数据结合长片段测序数据,辅助以基因组物理图谱技术,使用序列拼接方式方法检测构造变异的流程大概分为两个部分(图6):(1)对长测序片段进行序列拼接,构成长度在MB级别的Contigs,NGS短片段补充细节,将Bionano基因组图谱与Contigs相结合,构建大片段的Scaffolds,与参考基因组比对,检测构造变异;(2)以长片段数据为框架,对NGS短片段数据进行序列拼接,将拼接获得的Contigs与参考基因组比对,检测构造变异。基于以上方式方法,在构造变异的检测上有了新的突破。2021年6月,PacificBiosciences(PacBio)公司给出了SMRT测序组装人类基因组的成果(Pendletonetal.,2021),选用的样本是NA12878。其主要使用SMRT测序数据结合Bionano物理图谱技术,构建样本基因组Scaffolds,再使用NGS测序数据填补缺口,使用序列拼接方式方法等进行构造变异检测。使用SMRT测序数据拼接获得的Contigs的N50长度能够到达900kb以上,Scaffold的N50长度高达30MB,相对于NGS测序数据拼接的长度有了显着提高。在检测构造变异方面,除了检测出了各种小片段的构造变异,以及类型为插入、缺失以及片段重复的90多个长度在6kb以上的长片段SV,更是通过基因组图谱检测出了长度在100~400kb之间的8个大片段缺失变异与11个大片段插入变异。2021年12月,10Genomics公司给出了Linkedreads测序组装人类基因组的结果(Mostovoyetal.,2021),选用的样本同样是NA12878。其首先对NGS数据使用SOAPdenovo算法进行拼接,再结合10Genomics的Gemcode平台产生的连接读取数据,构成大片段的scaffold,最后再与Bionano物理图谱相结合,产生最后的序列拼接结果,与参考基因组进行比对,检测构造变异。最终综合各种方式方法拼接的scaffold的N50长度同样能够到达与SMRT技术一样的30MB以上。在检测构造变异方面,该实验同样检测出了各种小片段的插入、删除变异,同时还给出了200个大片段的重复变异的详细分布情况。2021年韩国国立首尔大学医学院给出的AK1基因组的相关分析中,综合PacBio长读长测序,Illumina短读长测序,10Genomics连接片段,BioNanoGenomics光学图谱以及细菌人工染色体(BAC)等方式方法,对AK1基因组进行从头组装和基因组分析,在亚洲人的基因组构造变异检测方面获得了大量进展。其首先使用Illumina短读长测序数据,结合10G的Gemcode与BAC产生的数据,进行序列拼接,检测构造变异;再使用PacBio长读长测序数据进行序列拼接,结合Bionano物理图谱技术,构建Scaffold,检测长片段构造变异。通过PacBio测序数据拼接获得的Contigs的N50长度能够到达17.7MB,而最终综合拼接获得的Scaffold的N50长度到达了44.8MB。在检测构造变异方面共鉴定到了18210个大片段的构造变异,包含7358个缺失,10077个插入,71个倒置和704个复杂变异,华而不实47%的缺失变异与76%的插入变异等都是未曾报道过的。图6融合NGS,长片段测序与物理图谱的构造变异检测方式方法流程Figure6TheworkflowofSVdetectioncombinedNGS,longreadssequencingandphysicalmaps3、总结与考虑随着测序技术的迅猛发展以及基因组分析技术的不断进步,人们对人类基因组的构造变异逐步有了具体与系统的认识。基于测序技术的读深、读对、分裂片段、序列拼接方式方法为构造变异的检测提供了高效准确的方式方法,开拓了实验与计算机数据处理相结合检测构造变异的新形式,即便各项技术不断进步,仍然在围绕着这些方式方法展开。随着新技术的发展,测序片段的长度不断增加,检测构造变异的准确度和灵敏度也在不断提高,而从最新的一些报道来看,无一例外的都选择了序列拼接方式方法主导的检测方式方法。一方面,固然四种基本方式方法在基于短片段的构造变异检测上都有各自不可替代的优势,但序列拼接方式方法通过解码基因组序列,能够愈加直观、直接地检测所有类型的构造变异,并能够精准判定出不同长度、不同类型的构造变异的详细位置。随着测序片段长度到达10kb甚至更长后,序列拼接方式方法的准确性大大提高,准确拼接长片段的技术难度也随之降低。另一方面,随着序列拼接方式方法逐步成为构造变异的主流检测方式方法,对序列拼接方式方法相关算法的研究也在不断深切进入,更多高效高准确率的算法在不断提出,序列拼接方式方法在不断彰显其蓬勃的生命力。作者奉献杨金晶负责论文的整体框架设计,文献资料总结以及文稿写作,李成负责文献资料补充和综述文稿的修改,孙啸是论文的指导者及负责人,指导论文架构设计,论文写作与修改。全体作者都阅读并同意最终的文本。以下为参考文献[]AbyzovA.,andGersteinM.,2018,AGE:definingbreakpointsofgenomicstructuralvariantsatsingle-nucleotideresolution,throughoptimalalignmentswithgapexcision,Bioinformatics,27(5):595-603[]AbyzovA.,UrbanA.E.,SnyderM.,andGersteinM.,2018,CN-Vnator:anapproachtodiscover,genotype,andcharacterizetypicalandatypicalCNVsfromfamilyandpopulationgenomesequencing,GenomeResearch,21(6):974-984[]AlkanC.,CoeB.P.,andEichlerE.E.,2018,Genomestructuralvariationdiscoveryandgenotyping,NatureReviewsGenetics,12(5):363-376[]CampbellP.J.,StephensP.J.,PleasanceE.D.,OMearaS.,LiH.,SantariusT.,StebbingsL.A.,LeroyC.,EdkinsS.,HardyC.,TeagueJ.W.,MenziesA.,GoodheadI.,TurnerD.J.,CleeC.M.,QuailM.A.,CoxA.,BrownC.,DurbinR.,HurlesM.E.,EdwardsP.A.W.,BignellG.R.,StrattonM.R.,andFutrealP.A.,2008,Identificationofsomaticallyacquiredrearrangementsincancerusinggenome-widemassivelyparallelpairedendsequencing,NatureGenetics,40(6):722-729[]ChaissonM.J.,WilsonR.K.,andEichlerE.E.,2021,Geneticvariationandthedenovoassemblyofhumangenomes,NatureReviewsGenetics,16(11):627-640[]CheckE.,2005,Humangenome:patchworkpeople,Nature,437(7062):1084-1086[]ChenK.,WallisJ.W.,McLellanM.D.,LarsonD.E.,KalickiJ.M.,PohlC.S.,McGrathS.D.,WendlM.C.,ZhangQ.,LockeD.P.,ShiX.,FultonR.S.,LeyT.J.,WilsonR.K.,DingL.,andMardisE.R.,2018,Breakdancer:analgorithmforhigh-resolutionmappingofgenomicstructuralvariation,NatureMethods,6(9):677-681[]ChengC.,ZhouY.,LiH.,XiongT.,LiS.,BiY.,KongP.,WangF.,CuiH.,LiY.,FangX.,YanT.,LiY.,WangJ.,YangB.,ZhangL.,JiaZ.,SongB.,HuX.,YangJ.,QiuH.,ZhangG.,LiuJ.,XuE.,ShiR.,ZhangY.,LiuH.,HeC.,ZhaoZ.,QianY.,RongR.,HanZ.,ZhangY.,LuoW.,Wang,J.,PengS.,YangX.,LiX.,LiL.,FangH.,LiuX.,MaL.,ChenY.,GuoS.,ChenX.,XiY.,LiG.,LiangJ.,YangX.,GuoJ.,JiaJ.,LiQ.,ChengX.,ZhanQ.,andCuiY.,2021,Whole-genomesequencingrevealsdiversemodelsofstructuralvariationsinesophagealsquamouscellcarcinoma,AmericanJournalofHumanGenetics,98(2):256-274[]CooperG.M.,NickersonD.A.,andEichlerE.E.,2007,Mutationalandselectiveeffectsoncopy-numbervariantsinthehumangenome,NatureGenetics,39(7S):22-29[]FalchiM.,El-SayedMoustafaJ.S.,TakousisP.,PesceF.,BonnefondA.,Andersson-AssarssonJ.C.,SudmantP.H.,DorajooR.,Al-ShafaiM.N.,BottoloL.,OzdemirE.,SoH.C.,DaviesR.W.,PatriceA.,DentR.,ManginoM.,HysiP.G.,DechaumeA.,HuyvaertM.,SkinnerJ.,PigeyreM.,CaiazzoR.,RaverdyV.,VaillantE.,FieldS.,BalkauB.,MarreM.,Visvikis-SiestS.,WeillJ.,Poulain-GodefroyO.,JacobsonP.,SjostromL.,HammondC.J.,DeloukasP.,ShamP.C.,McPhersonR.,LeeJ.,TaiE.S.,SladekR.,CarlssonL.M.,WalleyA.,EichlerE.E.,PattouF.,SpectorT.D.,andFroguelP.,2020,Lowcopynumberofthesalivaryamylasegenepredisposestoobesity,NatureGenetics,46(5):492-497[]FeukL.,CarsonA.R.,andSchererS.W.,2006,Structuralvariationinthehumangenome,NatureReviews,Genetics,7(2):85-97[]GenomesProjectC.,AbecasisG.R.,AutonA.,BrooksL.D.,DePristoM.A.,DurbinR.M.,HandsakerR.E.,KangH.M.,MarthG.T.,andMcVeanG.A.,2020,Anintegratedmapofgeneticvariationfrom1092humangenomes,Nature,491(7422):56-65[]GeorgeJ.,LimJ.S.,JangS.J.,CunY.,OzreticL.,KongG.,LeendersF.,LuX.,Fernandez-CuestaL.,BoscoG.,MullerC.,DahmenI.,JahchanN.S.,ParkK.S.,YangD.,KarnezisA.N.,VakaD.,TorresA.,WangM.S.,KorbelJ.O.,MenonR.,ChunS.M.,KimD.,WilkersonM.,HayesN.,EngelmannD.,PutzerB.,BosM.,MichelsS.,VlasicI.,SeidelD.,PintherB.,SchaubP.,BeckerC.,AltmullerJ.,YokotaJ.,KohnoT.,I-wakawaR.,TsutaK.,NoguchiM.,MuleyT.,HoffmannH.,SchnabelP.A.,PetersenI.,ChenY.,SoltermannA.,TischlerV.,ChoiC.M.,KimY.H.,MassionP.P.,ZouY.,JovanovicD.,KonticM.,WrightG.M.,RussellP.A.,SolomonB.,KochI.,LindnerM.,MuscarellaL.A.,laTorreA.,FieldJ.K.,JakopovicM.,KnezevicJ.,Castanos-VelezE.,RozL.,PastorinoU.,BrustugunO.T.,Lund-IversenM.,ThunnissenE.,KohlerJ.,SchulerM.,BotlingJ.,SandelinM.,Sanchez-CespedesM.,SalvesenH.B.,AchterV.,LangU.,BogusM.,SchneiderP.M.,ZanderT.,AnsenS.,HallekM.,WolfJ.,VingronM.,YatabeY.,TravisW.D.,NurnbergP.,ReinhardtC.,PernerS.,HeukampL.,ButtnerR.,HaasS.A.,BrambillaE.,PeiferM.,SageJ.,andThomasR.K.,2021,Comprehensivegenomicprofilesofsmallcelllungcancer,Nature,524(7563):47-53[]GonzalezE.,KulkarniH.,BolivarH.,ManganoA.,SanchezR.,CatanoG.,NibbsR.J.,FreedmaB.I.,QuinonesM.P.,BamshadM.J.,MurthyK.K.,RovinB.H.,BradleyW.,ClarkR.A.,AndersonS.A.,OConnellR.J.,AganB.K.,AhujaS.S.,BolognaR.,SenL.,DolanM.J.,andAhujaS.K.,2005,TheinfluenceofCCL3L1gene-containingsegmentalduplicationsonHIV-1/AIDSsusceptibility,Science,307(5714):1434-1440[]HandsakerR.E.,KornJ.M.,NemeshJ.,andMcCarrollS.A.,2018,Discoveryandgenotypingofgenomestructuralpolymorphismbysequencingonapopulationscale,NatureGenetics,43(3):269-276[]HuddlestonJ.,andEichlerE.E.,2021,Anincompleteunderstandingofhumangeneticvariation,Genetics,202(4):1251-1254[]HurlesM.E.,DermitzakisE.T.,andTyler-SmithC.,2008,Thefunctionalimpactofstructuralvariationinhumans,TrendsinGeneticsTig,24(5):238-245[]IafrateA.J.,FeukL.,RiveraM.N.,ListewnikM.L.,DonahoeP.K.,QiY.,SchererS.W.,andLeeC.,2004,Detectionoflargescalevariationinthehumangenome,NatureGenetics,36(9):949-951[]KitzmanJ.O.,2021,Haplotypesdropbydrop,NatureBiotechnology,34(3):296-298[]KoolenD.A.,VissersL.E.,PfundtR.,deLeeuwN.,KnightS.J.,ReganR.,KooyR.F.,ReyniersE.,RomanoC.,FicheraM.,SchinzelA.,BaumerA.,AnderlidB.M.,SchoumansJ.,KnoersN.V.,vanKesselA.G.,SistermansE.A.,VeltmanJ.A.,BrunnerH.G.,anddeVriesB.B.,2006,Anewchromosome17q21.31microdeletionsyndromeassociatedwithacommoninversionpolymorphism,NatureGenetics,38(9):999-1001[]KorbelJ.O.,UrbanA.E.,AffourtitJ.P.,GodwinB.,GrubertF.,SimonsJ.F.,KimP.M.,PalejevD.,CarrieroN.J.,DuL.,TaillonB.E.,ChenZ.,TanzerA.,SaundersA.C.,ChiJ.,YangF.,CarterN.P.,HurlesM.E.,WeissmanS.M.,HarkinsT.T.,GersteinM.B.,EgholmM.,andSnyderM.,2007,Paired-endmappingrevealsextensivestructuralvariationinthehumangenome,Science,318(5849):420-426[]LiR.,ZhuH.,RuanJ.,QianW.,FangX.,ShiZ.,LiY.,LiS.,ShanG.,KristiansenK.,LiS.,YangH.,WangJ.,andWangJ.,2018,Denovoassemblyofhumangenomeswithmassivelyparallelshortreadsequencing,GenomeResearch,20(2):265-272[]LupskiJ.R.,2021,Structuralvariationmutagenesisofthehumangenome:Impactondiseaseandevolution,EnvironmentalandMolecularMutagenesis,56(5):419-436[]MostovoyY.,Levy-SakinM.,LamJ.,LamE.T.,HastieA.R.,MarksP.,LeeJ.,ChuC.,LinC.,DzakulaZ.,CaoH.,SchlebuschS.A.,GiordaK.,Schnall-LevinM.,WallJ.D.,andKwokP.Y.,2021,Ahybridapproachfordenovohumangenomesequenceassemblyandphasing,NatureMethods,13(7):587-590[]MedvedevP.,FiumeM.,DzambaM.,SmithT.,andBrudnoM.,2018,Detectingcopynumbervariationwithmatedshortreads,GenomeResearch,20(11):1613-1622[]MedvedevP.,StanciuM.,andBrudnoM.,2018,Computationalmethodsfordiscoveringstructuralvariationwithnext-generationsequencing,NatureMethods,6(11Suppl):S13-S20[]MillsR.E.,LuttigC.T.,LarkinsC.E.,BeauchampA.,TsuiC.,PittardW.S.,andDevineS.E.,2006,Aninitialmapofinsertionanddeletion(INDEL)variationinthehumangenome,GenomeResearch,16(9):1182-1190[]MillsR.E.,WalterK.,StewartC.,HandsakerR.E.,ChenK.,AlkanC.,AbyzovA.,YoonS.C.,YeK.,CheethamR.K.,ChinwallaA.,ConradD.F.,FuY.,GrubertF.,HajirasoulihaI.,HormozdiariF.,IakouchevaL.M.,IqbalZ.,KangS.,KiddJ.M.,KonkelM.K.,KornJ.,KhuranaE.,KuralD.,LamH.Y.,LengJ.,LiR.,LiY.,LinC.Y.,LuoR.,MuX.J.,NemeshJ.,PeckhamH.E.,RauschT.,ScallyA.,ShiX.,StrombergM.P.,StutzA.M.,UrbanA.E.,WalkerJ.A.,WuJ.,ZhangY.,ZhangZ.D.,BatzerM.A.,DingL.,MarthG.T.,McVeanG.,SebatJ.,SnyderM.,WangJ.,YeK.,EichlerE.E.,GersteinM.B.,HurlesM.E.,LeeC.,McCarrollS.A.,KorbelJ.O.,andGenomesP.,2018,Mappingcopynumbervariationbypopulation-scalegenomesequencing,Nature,470(7332):59-65[]PendletonM.,SebraR.,PangA.W.,UmmatA.,FranzenO.,RauschT.,StutzA.M.,StedmanW.,AnantharamanT.,HastieA.,DaiH.,FritzM.H.,CaoH.,CohainA.,DeikusG.,DurrettR.E.,BlanchardS.C.,AltmanR.,ChinC.S.,GuoY.,PaxinosE.E.,KorbelJ.O.,DarnellR.B.,McCombieW.R.,KwokP.Y.,MasonC.E.,SchadtE.E.,andBashirA.,2021,Assemblyanddiploidarchitectureofanindividualhumangenomeviasingle-moleculetechnologies,NatureMethods,12(8):780-786[]PughT.J.,MorozovaO.,AttiyehE.F.,AsgharzadehS.,WeiJ.S.,AuclairD.,CarterS.L.,CibulskisK.,HannaM.,KiezunA.,KimJ.,LawrenceM.S.,LichensteinL.,McKennaA.,PedamalluC.S.,RamosA.H.,SheflerE.,SivachenkoA.,SougnezC.,StewartC.,AllyA.,BirolI.,ChiuR.,CorbettR.D.,HirstM.,JackmanS.D.,KamohB.,KhodabakshiA.H.,KrzywinskiM.,LoA.,MooreR.A.,MungallK.L.,QianJ.,TamA.,ThiessenN.,ZhaoY.,ColeK.A.,DiamondM.,DiskinS.J.,MosseY.P.,WoodA.C.,JiL.,SpostoR.,BadgettT.,LondonW.B.,MoyerY.,Gastier-FosterJ.M.,SmithM.A.,GuidryAuvilJ.M.,GerhardD.S.,HogartyM.D.,JonesS.J.,LanderE.S.,GabrielS.B.,GetzG.,SeegerR.C.,KhanJ.,MarraM.A.,MeyersonM.,andMarisJ.M.,2020,Thegeneticlandscapeofhigh-riskneuroblastoma,NatureGenetics,45(3):279-284[]QuinlanA.R.,ClarkR.A.,SokolovaS.,LeibowitzM.L.,ZhangY.,HurlesM.E.,MellJ.C.,andHallI.M.,2018,Genome-widemappingandassemblyofstructuralvariantbreakpointsinthemousegenome,GenomeResearch,20(5):623-635[]RhoadsA.,andAuK.F.,2021,PacBiosequencinganditsapplications,Genomics,ProteomicsandBioinformatics,13(5):278-289[]RossM.G.,RussC.,CostelloM.,HollingerA.,LennonN.J.,HegartyR.,NusbaumC.,andJaffeD.B.,2020,Characterizingandmeasuringbiasinsequencedata,GenomeBiology,14(5):R51[]SeoJ.S.,RhieA.,KimJ.,LeeS.,SohnM.H.,KimC.U.,HastieA.,Cao

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论