版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章大规模基因组测序的原理与方法1、基因组学是要揭示下述四种整合体系的相互关系:〔1〕基因组作为信息载体〔碱基对、重复序列的整体守恒与局部不平衡的关系〕〔2〕基因组作为遗传物质的整合体(基因作为功能和结构单位与遗传学机制的关系)〔3〕基因组作为生物化学分子的整合体(基因产物作为功能分子与分子、细胞机制的关系〕〔4〕物种进化的整合体(物种在地理与大气环境中的自然选择〕2、为什么说基因组学是一门大科学?〔1〕“界门纲目科属种〞,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。〔2〕基因组作为信息载体,它所储存的信息是最根本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。〔3〕基因组学研究包括对基因产物〔转录子组和蛋白质组〕的系统生物学研究。〔4〕基因多态性的规模化研究就是基因组多态性的研究。〔5〕基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。〔6〕基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。〔7〕基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。〔8〕基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。〔9〕基因组的信息含量高。基因组学的研究又在于基因组间的比较。〔10〕基因组学的复杂性必然导致多学科的引进和介入〔各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等〕。〔11〕基因组学研究的手段和技术已经走在生命科学研究的最前沿。〔12〕基因组信息来自于高效率和规模化所产生的实验数据。〔13〕人类基因组方案证明了基因组研究的迫切性和可行性。3、大规模基因组测序的几个支撑技术是什么?〔1〕Sanger双脱氧末端终止法双脱氧终止法,即sanger测序法,是根据DNA在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列DNA片段,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见的DNA碱基序列。通俗点说,就是通过电泳的方法将一系列DNA片段从小到大排列起来,由于每条片段末尾都含有荧光标记的碱基,通过放射性自显影,即可读出这些碱基的种类,这些碱基的排列顺序,就是待测DNA的序列。〔2〕PCR技术聚合酶链式反响〔PCR〕是体外酶促合成特异DNA片段的一种方法,由高温变性、低温退火〔复性〕及适温延伸等几步反响组成一个周期,循环进行,使目的DNA得以迅速扩增,具有特异性强、灵敏度高、操作简便、省时等特点。它不仅可用于基因别离、克隆和核酸序列分析等根底研究,还可用于疾病的诊断或任何有DNA,RNA的地方.聚合酶链式反响〔PolymeraseChainReaction,简称PCR〕又称无细胞分子克隆或特异性DNA序列体外引物定向酶促扩增技术。〔3〕DNA自动测序仪的开展DNA序列测定分手工测序和自动测序,手工测序包括sanger双脱氧链终止法和maxam-gilbert化学降解法。自动化测序实际上已成为当今dna序列分析的主流。美国peabi公司已生产出373型、377型、310型、3700和3100型等dna测序仪,其中310型是临床检测实验室中使用最多的一种型号。本实验介绍的是abiprism310型dna测序仪的测序原理和操作规程。〔4〕生物信息学分析软件硬件设备4、大规模基因组测序的两种策略是什么?二者有何区别?〔1〕逐步克隆法〔ClonebyClone〕〔2〕全基因组霰弹法〔WholeGenomeShot-gun〕〔3〕二者的比较:项目策略全基因组霰弹法逐步克隆法遗传背景不需要需要〔需构建精确的物理图谱〕速度快慢费用低高计算机性能高〔以全基因组为单位进行拼接〕低〔以BAC为单位进行拼接〕适用范围工作框架图精细图代表测序物种果蝇、水稻人、线虫5、人类基因组方案所构建的四张图是什么?〔1〕遗传图谱:又称为连锁图谱〔linkagemap〕,指基因或DNA标志在染色体上的相对位置与遗传距离。〔2〕物理图谱:以定位的DNA标记序列如STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。〔3〕转录图谱:利用EST〔expressedsequencetags表达序列标签〕作为标记所构建的分子遗传图谱。〔4〕序列图谱:通过基因组测序得到的,以A、T、G、C为标记单位的基因组DNA序列。6、STS的定义,原理、要满足的条件及其来源。〔1〕序列标记位点(STS)是一段短的DNA序列,通常长度在100到500bp,易于识别,仅存在于待研究的染色体或基因组中。作一套STS图谱需要收集来自单条染色体或一个完整基因组的重叠的DNA片段。在图1中,从单条染色体中制备一组DNA片段,使染色体上每一点平均有5条片段对应。收集作图必需的数据时,须排列每一STS,了解哪些片段包含有哪些STS。这可以通过杂交分析来完成,但通常使用PCR方法,因为PCR更快捷,更易于自动化,两个STS共存于同—个片段的机率依赖于它们在基因组中的相近程度。如果它们相当接近、它们存在于同一片段的时机就相当大;而如果它们位置相对分开,有时它们会在同一片段上,有时那么不会(图1)。因此,这些资料可用来计算两个标记间的距离,其方式与计算连锁分析中计算图距的方式相同;在连锁分析中,两个标记间的图距是根据它们的交换频率来计算的。STS作图与其相比、不同之处仅在于两个标记间的图距是根据别离频率来计算的。〔2〕这些片段覆盖染色体的全长,染色体上每一点平均有五条片段相对应,染色体图谱上两个接近的标记共同存在于一条片段的可能性就高,相隔较远的标记位于同一条片段中的可能性就较小。〔3〕一个DNA序列要成为STS,须满足两个前提。首先它的序列必须是己知的,以便于用PCR方法检测STS在不同DNA片段中存在与否。第二个要求是STS必须在待研究的染色体上有唯一的定位,或当DNA片段群覆盖全基因组时,STS在整个基因组中具有唯一的定位位点。如果STS序列具有多个定位点,那么作图数据将会模糊不清。因此需要确保STS不包含重复DNA的序列。〔4〕上述两个前提易于满足,因此可以通过多种途径获得STS,最常见的来源是:①表达序列标记:表达序列际记(expressedscquencetag,E5T)是通过互补DNA(cDNA)克隆分析获得的短序列。制备互补DNA是将mRNA转化成双链DNA.由于细胞中mRNA来自于编码蛋白的基因,故此cDNA代表了mRNA来源的细胞中表达的基因序列。EST被看做获得重要基因序列的快捷途径。即使其序列不完整,也仍然有价值。如果EST来自于单一序列DNA,不是基因家族中的某一成员,它也可以被用作STS。而所谓基因家族是指一组具有相同或相近序列的基因。②遗传标记序列:如微卫星标记。③随机基因组序列可以通过对克隆的基因组DNA的随机小片段进行测序或在数据库中搜寻贮存序列获得。7、逐步克隆法包括哪几个步骤?〔1〕物理图谱的构建——序列标签位点作图①确定各STS序列及其在基因组中的位置;②大插入片段基因组文库的构建;〔BAC文库的构建P25〕③以特定STS为标记筛选并定位克隆;④含有STS的克隆在基因组中的排序。经过这几个步骤,以定位的DNA标记序列〔STS〕作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱便构建完成了。此时我们仍然不知道具体的序列信息。只知道STS的序列和位置,以及STS间的距离。〔2〕大片段克隆的筛选〔P36;STS-PCR反响池方案P27〕该步骤包括BAC克隆的筛选和延伸克隆的筛选。前者可使相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位与基因组上。后者主要是补充基因组中未被BAC文库覆盖的克隆序列,常用方法有指纹图谱法和末端序列步行法。经过这一步,我们得到了覆盖整个基因组全序列的克隆,以备测序。〔3〕霰弹法测序与“工作框架图〞的构建用霰弹法对筛选到的BAC克隆进行测序,得到大量随机片段。组装这些片段,可能会出现如下问题:低碱基质量区、单链区、序列缺口、未组装区。通过重测序等手段对这些区域进行补充,即所说的Finishing,便可得到高质量的全序列。〔4〕序列的全组装与“完成图〞构建对测序后的BAC克隆序列进行拼接,完成该基因组的序列图谱。8、全基因组霰弹法的测序流程?全基因组霰弹法测序的整个流程如下列图所示〔1〕从头组装流程:SolexaPart&454Part〔P31〕〔2〕ReadsProcess流程:Solexaand454〔P31-32〕〔3〕Hybridassembly和基于EST的组装〔4〕粗测序reads的预处理P32①意义和目的;②流程;③图像分析和碱基读出;④质量控制〔5〕数据评价P33①Read质量分布;②文库插入大小;③MappingRate;④二聚体评价〔6〕用Kmer估计基因组大小〔7〕基因组混合拼接验证及结构变异检测流程〔8〕重复序列注释流程〔9〕基因结构及功能注释技术路线〔GeneOntologyandKEGG〕9、Kmer介绍〔1〕
定义:就是一个长度为K的DNA序列,K通常取17。〔2〕
用途:纠正测序错误,估计基因组大小、杂合率、重复序列的含量。〔3〕
K-mer分布图,同样数据量的情况下,峰位决定基因组大小,峰位越靠左,基因组越大。峰值表示大局部K-mer都出现在这个深度。〔4〕
峰位上下的影响因素:a、错误率,错误率越高,起始峰位越高,主峰相对越低;b、重复序列,重复序列越多,主峰下降越慢。〔5〕
杂合率越高,那么杂合峰越高,杂合峰出现在主峰的一半处,按照杂合峰大小估计基因组大小,基因组大小等于二倍杂合峰。〔6〕
假设一条reads长45bp,K=17,那么每个Reads产生的K-mer数=45-17+1
假设测序深度为10×,那么K-mer实际覆盖深度=10*〔45-17+1〕/45
〔7〕
基因组大小:假设在主峰顶端对应的K-mer次数为15,实际测序量为100G,那么基因组大小=100*〔45-17+1〕/45/15〔8〕
不能直接根据杂合峰和主峰的高度估计基因组的杂合率大小,只能通过模拟数据,再用实际数据与模拟数据进行比较,找出最接近的一个,来推测基因组的杂合率大小。〔9〕
测序深度越低,杂合峰与主峰越接近y轴,随着测序深度的增加,会将杂合峰和主峰展开,容易看出杂合峰与主峰的关系。〔10〕纯下降的K-mer图,原因可以能是数据量不够;假设开始下降后来有峰的K-mer图,前面下降的地方可能是测序错误。〔11〕当数据量超过K-mer最高值〔255M〕时,那么无峰。第二章新一代测序技术一、第一代测序技术简介※Sanger测序法〔双脱氧核糖核苷酸末端终止法〕的原理?Sanger法是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见的DNA碱基序列。
Sanger法测序的原理就是,每个反响含有所有四种脱氧核苷酸三磷酸(dNTP)使之扩增,并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)使之终止。由于ddNTP缺乏延伸所需要的3‘-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,终止点由反响中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反响得到一组长几个至千以上个,相差一个碱基一系列片断。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳别离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。二、第二代测序技术1.概述DNA测序〔DNAsequencing〕作为一种重要的实验技术,在生物学研究中有着广泛的应用。早在DNA双螺旋结构〔WatsonandCrick,1953)被发现后不久就有人报道过DNA测序技术,但是当时的操作流程复杂,没能形成规模。随后在1977年Sanger创造了具有里程碑意义的末端终止测序法,同年A.M.Maxam和W.Gilbert创造了化学降解法。Sanger法因为既简便又快速,并经过后续的不断改进,成为了迄今为止DNA测序的主流。然而随着科学的开展,传统的Sanger测序已经不能完全满足研究的需要,对模式生物进行基因组重测序以及对一些非模式生物的基因组测序,都需要费用更低、通量更高、速度更快的测序技术,第二代测序技术〔Next-generationsequencing)应运而生。第二代测序技术的核心思想是边合成边测序〔SequencingbySynthesis),即通过捕捉新合成的末端的标记来确定DNA的序列,现有的技术平台主要包括Roche/454FLX、Illumina/SolexaGenomeAnalyzer和AppliedBiosystemsSOLIDsystem。这三个技术平台各有优点,454FLX的测序片段比较长,高质量的读长〔read〕能到达400bp;Solexa测序性价比最高,不仅机器的售价比其他两种低,而且运行本钱也低,在数据量相同的情况下,本钱只有454测序的1/10;SOLID测序的准确度高,原始碱基数据的准确度大于99.94%,而在15X覆盖率时的准确度可以到达99.999%,是目前第二代测序技术中准确度最高的。虽然第二代测序技术的工作一般都由专业的商业公司来完成,但是了解测序原理、操作流程等会对后续的数据分析有很重要的作用,下文将以Illumina/SolexaGenomeAnalyzer测序为例,简述第二代测序技术的根本原理、操作流程等方面。2.根本原理Illumina/SolexaGenomeAnalyzer测序的根本原理是边合成边测序。在Sanger等测序方法的根底上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。3.操作流程〔1〕测序文库的构建〔LibraryConstruction〕首先准备基因组DNA〔虽然测序公司要求样品量要到达200ng,但是GnomeAnalyzer系统所需的样品量可低至100ng,能应用在很多样品有限的实验中〕,然后将DNA随机片段化成几百碱基或更短的小片段,并在两头加上特定的接头〔Adaptor〕。如果是转录组测序,那么文库的构建要相对麻烦些,RNA片段化之后需反转成cDNA,然后加上接头,或者先将RNA反转成cDNA,然后再片段化并加上接头。片段的大小〔Insertsize〕对于后面的数据分析有影响,可根据需要来选择。对于基因组测序来说,通常会选择几种不同的insertsize,以便在组装〔Assembly〕的时候获得更多的信息。〔2〕锚定桥接〔SurfaceAttachmentandBridgeAmplification〕Solexa测序的反响在叫做flowcell的玻璃管中进行,flowcell又被细分成8个Lane,每个Lane的内外表有无数的被固定的单链接头。上述步骤得到的带接头的DNA片段变性成单链后与测序通道上的接头引物结合形成桥状结构,以供后续的预扩增使用。〔3〕预扩增〔DenaturationandCompleteAmplification〕添加未标记的dNTP和普通Taq酶进行固相桥式PCR扩增,单链桥型待测片段被扩增成为双链桥型片段。通过变性,释放出互补的单链,锚定到附近的固相外表。通过不断循环,将会在Flowcell的固相外表上获得上百万条成簇分布的双链待测片段。〔4〕单碱基延伸测序〔SingleBaseExtensionandSequencing〕在测序的flowcell中参加四种荧光标记的dNTP、DNA聚合酶以及接头引物进行扩增,在每一个测序簇延伸互补链时,每参加一个被荧光标记的dNTP就能释放出相对应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为测序峰,从而获得待测片段的序列信息。从荧光信号获取待测片段的序列信息的过程叫做BaseCalling,Illumina公司BaseCalling所用的软件是Illumina’sGenomeAnalyzerSequencingControlSoftwareandPipelineAnalysisSoftware。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。随着读长的增加,错误率也会随之上升。〔5〕数据分析〔DataAnalyzing〕这一步严格来讲不能算作测序操作流程的一局部,但是只有通过这一步前面的工作才显得有意义。测序得到的原始数据是长度只有几十个碱基的序列,要通过生物信息学工具将这些短的序列组装成长的Contigs甚至是整个基因组的框架,或者把这些序列比对到已有的基因组或者相近物种基因组序列上,并进一步分析得到有生物学意义的结果。4、二代测序技术总结〔1〕需荧光或者化学放光物质;〔2〕需聚合酶或者连接酶;〔3〕较昂贵的试剂耗材和光学系统;〔4〕强大的图像分析计算能力。三、454技术平台简介〔焦磷酸测序法〕1、化学原理焦磷酸测序是由DNA聚合酶、三磷酸腺苷硫酸化酶〔ATPsulfurylase〕、荧光素酶〔luciferase〕和双磷酸酶〔apyrase〕4种酶催化同一反响体系的酶级联化学发光反响,反响底物5’-磷酰硫酸〔APS〕和荧光素。反响体系还包括待测序DNA单链和测序引物。在每一轮测序反响中,参加1种dNTP,假设该dNTP与模板配对,聚合酶就可以将其掺入到引物链中并释放等摩尔数的焦磷酸基团〔PPi〕。硫酸化酶催化APS和PPi形成ATP,后者驱动荧光素酶介导的荧光素向氧化荧光素的转化,发出与ATP量成正比的可见光信号,并由Pyrogram软件转化为一个峰值,其高度与反响中掺入的核苷酸数目成正比。根据参加dNTP类型和荧光信号强度就可以实时记录模板DNA的核苷酸序列。2、测序技术流程〔1〕文库构建①基因组DNA片段化〔fragmentation〕及评估;②DNA片段末端平齐化〔endpolishing〕:为接头的添加反响做准备;③接头连接:添加接头A和B。④文库固定化:DNA片段通过接头连接到微珠上。⑤补充反响〔Fall-inReaction〕:修补连接到微珠上的DNA片段的链缺口。⑥DNA双链别离,DNA片段以单链形式结合在微珠上。※P39末端配对文库制备两张图详细介绍了文库构建步骤。〔2〕文库模板扩增EmulsionPCR:ahighefficientwayofPCRamplificationofrandomDNAlibrariesinaptamerselection.在得到仅有AB衔接子单链的DNA模板后,此DNA模板可与过量DNA不做珠子退火结合,并被吸附到一种用于PCR反响的有水混合物小滴上,此混合物包含了PCR反响所必需的各种试剂,在适宜条件进行扩增,最后可对结合的大量DNA链的珠子进行富集。〔3〕测序反响〔4〕成像:信号强度图谱。〔5〕测序数据的处理3、454测序技术优缺点四、Illumina测序技术平台〔聚合酶合成测序〕1、技术原理及流程〔1〕文库制备将基因组DNA打成几百个碱基〔或更短〕的小片段,在片段的两个末端加上接头(adapter)。〔2〕产生DNA簇利用专利的芯片,其外表连接有一层单链引物,DNA片段变成单链后通过与芯片外表的引物碱基互补被一端“固定〞在芯片上。另外一端〔5’或3’〕随机和附近的另外一个引物互补,也被“固定〞住,形成“桥(bridge)“。反复30轮扩增,每个单分子得到了1000倍扩增,成为单克隆DNA簇。DNA簇产生之后,扩增子被线性化,测序引物随后杂交在目标区域一侧的通用序列上。〔3〕测序GenomeAnalyzer系统应用了边合成边测序〔SequencingBySynthesis〕的原理。参加改造过的DNA聚合酶和带有4种荧光标记的dNTP。这些核苷酸是“可逆终止子〞,因为3’羟基末端带有可化学切割的局部,它只容许每个循环掺入单个碱基。此时,用激光扫描反响板外表,读取每条模板序列第一轮反响所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复3'端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA片段的序列。目前的配对末端读长可到达2×50bp,更长的读长也能实现,但错误率会增高。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。〔4〕数据分析自动读取碱基,数据被转移到自动分析通道进行二次分析。2、Solexa测序技术的优缺点P423、Illumina技术应用4、Illumina测序相关数据处理软件五、SOLiD测序〔SequencingbyOligonucleotideLigationandDetection〕1、SOLiD工作流程〔1〕文库制备SOLiD系统能支持两种测序模板:片段文库(fragmentlibrary)或配对末端文库(mate-pairedlibrary)。使用哪一种文库取决于你的应用及需要的信息。片段文库就是将基因组DNA打断,两头加上接头,制成文库。如果你想要做转录组测序、RNA定量、miRNA探索、重测序、3’,5’-RACE、甲基化分析、ChIP测序等,就可以用它。如果你的应用是全基因组测序、SNP分析、结构重排/拷贝数,那么需要用配对末端文库。配对末端文库是将基因组DNA打断后,与中间接头连接,再环化,然后用EcoP15酶切,使中间接头两端各有27bp的碱基,再加上两端的接头,形成文库。〔2〕乳液PCR/微珠富集在微反响器中参加测序模板、PCR反响元件、微珠和引物,进行乳液PCR〔EmulsionPCR〕。PCR完成之后,变性模板,富集带有延伸模板的微珠,去除多余的微珠。微珠上的模板经过3’修饰,可以与玻片共价结合。看到这里,是不是有一种似曾相识的感觉呢?那就对了,此步骤与454的GSFLX根本相同。不过SOLiD系统的微珠要小得多,只有1um。乳液PCR最大的特点是可以形成数目庞大的独立反响空间以进行DNA扩增。其关键技术是“注水到油〞,根本过程是在PCR反响前,将包含PCR所有反响成分的水溶液注入到高速旋转的矿物油外表,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR反响空间。理想状态下,每个小水滴只含一个DNA模板和一个P1磁珠,由于水相中的P2引物和磁珠外表的P1引物所介导的PCR反响,这个DNA模板的拷贝数量呈指数级增加,PCR反响结束后,P1磁珠外表就固定有拷贝数目巨大的同来源DNA模板扩增产物。〔3〕微珠沉积3’修饰的微珠沉积在一块玻片上。在微珠上样的过程中,沉积小室将每张玻片分成1个、4个或8个测序区域。SOLiD系统最大的优点就是每张玻片能容纳更高密度的微珠,在同一系统中轻松实现更高的通量。〔4〕连接测序这一步可就是SOLiD的独门秘笈了。它的独特之处在于没有采用惯常的聚合酶,而用了连接酶。SOLiD连接反响的底物是8碱基单链荧光探针混合物。连接反响中,这些探针按照碱基互补规那么与单链DNA模板链配对。探针的5’末端分别标记了CY5、TexasRed、CY3、6-FAM这4种颜色的荧光染料。探针3’端1~5位为随机碱基,可以是ATCG四种碱基中的任何一种碱基,其中第1、2位构成的碱基对是表征探针染料类型的编码区,下列图的双碱基编码矩阵规定了该编码区16种碱基对和4种探针颜色的对应关系,而3~5位的“n〞表示随机碱基,6~8位的“z〞指的是可以和任何碱基配对的特殊碱基。单向SOLiD测序包括五轮测序反响,每轮测序反响含有屡次连接反响。第一轮测序的第一次连接反响由连接引物“n〞介导,由于每个磁珠只含有均质单链DNA模板,所以这次连接反响掺入一种8碱基荧光探针,SOLiD测序仪记录下探针第1、2位编码区颜色信息,随后的化学处理断裂探针3’端第5、6位碱基间的化学键,并除去6~8位碱基及5’末端荧光基团,暴露探针第5位碱基5’磷酸,为下一次连接反响作准备。因为第一次连接反响使合成链多了5个碱基,所以第二次连接反响得到模板上第6、7位碱基序列的颜色信息,而第三次连接反响得到的是第11、12位碱基序列的颜色信息……几个循环之后,引物重置,开始第二轮的测序。由于第二轮连接引物n-1比第一轮错开一位,所以第二轮得到以0,1位起始的假设干碱基对的颜色信息。五轮测序反响反响后,按照第0、1位,第1、2位...…的顺序把对应于模板序列的颜色信息连起来,就得到由“0,1,2,3…〞组成的SOLiD原始颜色序列。〔5〕数据分析SOLiD测序完成后,获得了由颜色编码组成的SOLiD原始序列。理论上来说,按照“双碱基编码矩阵〞,只要知道所测DNA序列中任何一个位置的碱基类型,就可以将SOLiD原始颜色序列“解码〞成碱基序列。但由于双碱基编码规那么中双碱基与颜色信息的简并特性〔一种颜色对应4种碱基对〕,前面碱基的颜色编码直接影响紧跟其后碱基的解码,所以一个错误颜色编码就会引起“连锁解码错误〞,改变错误颜色编码之后的所有碱基。和其它所有测序仪一样,测序错误在所难免,关键是对测序错误的评价和后续处理。由于SOLiD系统采用了双碱基编码技术,在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。这样,双保险确保了SOLiD系统原始碱基数据的准确度大于99.94%,而在15X覆盖率时的准确度可以到达99.999%,是目前新一代基因分析技术中准确度最高的。为防止“连锁解码错误〞的发生,SOLiD数据分析软件不直接将SOLiD原始颜色序列解码成碱基序列,而是依靠reference序列进行后续数据分析。SOLiD序列分析软件首先根据“双碱基编码矩阵〞把reference碱基序列转换成颜色编码序列,然后与SOLiD原始颜色序列进行比较,来获得SOLiD原始颜色序列在reference的位置,及两者的匹配性信息。Reference转换而成的颜色编码序列和SOLiD原始序列的不完全匹配主要有两种情况:“单颜色不匹配〞和“两连续颜色不匹配〞。由于每个碱基都被独立地检测两次,且SNP位点将改变连续的两个颜色编码,所以一般情况下SOLiD将单颜色不匹配处理成测序错误,这样一来,SOLiD分析软件就完成了该测序错误的自动校正;而连续两颜色不匹配也可能是连续的两次测序错误,SOLiD分析软件将综合考虑该位置颜色序列的一致性及质量值来判断该位点是否为SNP。2、SOLiD优势和劣势3、SOLiD测序法的应用〔1〕测序和重测序〔2〕全基因表达图谱分析芯片大概是目前应用最广泛的从全局角度分析基因表达整体模式的方法。然而,基于杂交技术的微阵列技术只限用于序列,无法检测新的mRNA;而且杂交技术灵敏度有限,难以检测低丰度的目标〔需要更多的样品量〕,难以检测重复序列;也无法捕捉到目的基因表达水平的微小变化而这恰恰是研究在刺激下或环境变化时的生物反响所必需的。与芯片技术相比,基于测序的高灵敏SOLiD技术可对单个细胞和癌症样品中存在的痕量RNA进行整体的全基因组表达图谱分析,每次运行能定位高达2亿4千万个标签〔mRNA的相对表达水平可通过系统产生的序列标签数目来计算〕,可检测低至每个细胞中10-40pg的总RNA,即使mRNA表达水平很低,SOLiD系统也能够无偏向性地分析样品中存在的和未知mRNA,从而定量特定mRNA的差异表达模式。起始样品比微阵列技术要少得多,尤其适用于来源极为有限的生物样品分析,如癌症干细胞分析其基因和非编码RNA的表达图谱有助于有助于加速开掘潜在的生物标志物,从而更准确区分不同的疾病类型以及识别疾病易感性,帮助于研究人员更好地了解病变细胞的特性。〔3〕更多RNA研究除了单细胞基因表达图谱分析,SOLiD系统在RNA方面的其他应用还包括利用SOLiDSmallRNAExpressionKit来发现和筛选小分子RNA,实现在无需预先知道序列信息的情况下高通量发现新的RNA分子。这个方案有望显著地提高研究人员鉴别小分子RNA的能力,将过去不可能完成的实验变为可能。目前已发现的microRNAs还非常有限,SOLiD可在不知道目标分子DNA序列的情况下进行检测和定量小的RNA分子,可将样品制备工作从常规方法的四天缩短为仅需一天,是分析在生物样品中表达的和未知miRNA及其它小分子RNAs的有效工具。利用SOLiDWholeTranscriptomeKit还可以探索和鉴定全转录本。SOLiD无可比较的高通量和测序数据的高精确性使得可以用短序列读长即可测序整个转录组。了解转录组对有助于解开导致复杂疾病的分子通路的秘密。这一系列应用补充使研究人员能在单个超高通量平台上开展综合的RNA研究。〔4〕SNP分析尽管绝大多数的人类遗传信息在所有人中都相同,但是研究人员通常更感兴趣的是研究个体之间微小的遗传差异。这种差异包括单碱基变异,以及被称为结构变异的各种较大片段DNA序列变异。结构变异包括DNA片段的插入、缺失、倒位和易位,结构变异的DNA片段范围可从几个碱基对到数百万个碱基对,可能对基因产生重要影响,并导致人类疾病的发生。SOLiD流程获得的严密的片段范围,使研究人员可以鉴别出很宽范围内的插入和缺失片段,结构重排也能很容易鉴别出来。这个平台的超高通量使研究人员可轻而易举地获得高度基因组覆盖率的数据,精确鉴定个体基因组中存在的数百万个单碱基多态性SNP,揭示大量此前未知、具有潜在医学价值的遗传变异,从而促进我们对正常/疾病状态下DNA结构变异的了解,以及在更高的分辨率下对结构变异进行深入分析,解释个体之间的易感性差异和对疾病治疗应答的差异,最终实现个性化医疗。〔5〕甲基化分析甲基化是自然发生的DNA化学修饰的一种。抑癌基因的失活与DNA序列特定区域的甲基化有关。而去甲基化那么可能导致基因组不稳定和表达模式变化。DNA甲基化区域可能作为基因在癌症过程中的标记。研究人员一直致力研究从正常到癌变过程中甲基化模式如何变化的,原癌基因异常甲基化模式在癌变过程中扮演怎样的角色。SOLiD系统运行通量非常惊人,很快就可以做多个样本全基因组甲基化模式检测,使得研究人员可以鉴别基因组中对应元件的甲基化状态,从而帮助研究人员检测甲基化模式是否可以作为癌症的生物标识,以及更好了解甲基化在癌变过程中扮演的角色。六、RNA文库构建策略比较1、SOLiDmiRNA文库构建2、SOLiDRNA-seq文库构建策略3、SolexasmallRNA文库测序策略4、SolexaTranscriptome文库构建策略七、第三代测序技术展望1、非光学显微镜成像2、纳米孔技术3、半导体技术第三章基因转录组的测定及分析一、大规模表达序列标签〔EST〕测定及分析1、什么是EST?ESTs〔ExpressedSequencetags〕是从已建好的cDNA库中随机取出一个克隆,从5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。2、EST的应用?〔1〕基因识别包括:①在同一物种中搜寻基因家族的新成员;②在不同物种间搜寻功能相同的基因;③基因的不同剪切模式的搜寻。〔2〕基因图谱的绘制〔3〕基因预测〔4〕SNPs的发现〔5〕利用ESTs大规模分析基因表达水平:①癌症基因组解析方案CGAP;②基因表达系列分析SAGE;③DNA微阵列或基因芯片的研究。3、几种大规模分析基因表达水平的方法?〔1〕EST技术流程P2-4〔2〕基因表达系列分析〔SAGE〕技术流程与分析流程P2-5,6,7.〔3〕基因芯片或微阵列技术流程P2-8几种大规模分析基因表达水平的方法的比较:4、ESTs数据的缺乏有哪些?P3-15、EST序列测定及分析的技术路线?〔1〕cDNA文库的构建:种类、常见问题及其原因。P3-4,5,6.〔2〕测序方向的选择:取决于实验目的。〔3〕测序及对测序结果的前处理:①去除低质量序列;②屏蔽赝象序列;③去除镶嵌克隆;④去除长度小于100bp的序列。〔4〕文库质量检验、序列质量检验。〔5〕ESTs的聚类和拼接:①聚类的目的和作用;②不严格的和严格的聚类,有参照的和无参照的聚类;③常用的拼接软件。④拼接:即Cluster的连接。利用cDNA克隆的信息和5’,3’端Reads的信息,不同的Cluster可以连接在一起。常用的拼接工具有UniGene,TIGRGeneIndex和STACK。〔6〕基因注释及功能分类:①基因注释流程;②基因功能分类〔手工分类、计算机批量处理、基因产物直系同源簇的分析〔简称COG,如EST的代谢途径分析KEGG〕〕。〔7〕后续分析:比较基因组学分析、基因表达谱分析、新基因研究、基因可变剪切分析、实验验证〔MicroArray,GeneChip,RT-PCR,NorthernBlotting〕。二、利用新一代测序仪进行转录组学的研究1、转录组测序〔RNAseq〕〔1〕测序对象:转录组测序一般是对用多聚胸腺嘧啶〔oligo-dT〕进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRNA进行高通量测序。〔2〕优势:相对于传统的芯片杂交平台,转录组测序无需预先针对序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。〔3〕转录组测序与基因表达谱的区别:转录组测序技术是把mRNA,smallRNA,andNONcodingRNA等用高通量测序技术把它们的序列测出来。全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本。反映出它们的表达水平。基因表达谱指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。2、转录组的定义和组成P73、RNA-seq的生物学重复和标准P74、RNA-seq的流程?〔1〕RNA-seq测序文库制备对于mRNA-seq实验,从总RNA到最终的cDNA文库制备完成主要包括以下步骤。首先,用Poly(T)寡聚核苷酸从总RNA中抽取全部带Poly(A)尾的RNA,其中的主要局部就是编码基因所转录的mRNA。将所得RNA随机打断成片段,再用随机引物和逆转录酶从RNA片段合成cDNA片段。然后,对cDNA片段进行末端修复并连接测序接头〔adapter〕,得到将用于测序的cDNA。在以上过程,将RNA随机片段化和采用随机引物进行反转录,都是为了使所得cDNA片段较均匀地取自各个转录本。为提高测序效率,一般还需要用电泳切胶法获取长度范围在200bp〔±25bp〕的cDNA片段,再通过RCR扩增,得到最终的cDNA文库。在上述文库制备过程中,如果不是只抽取带Poly(A)尾的RNA,而是使用全部的RNA,那么RNA-seq测得的就是细胞中的全部转录本;如果把带Poly(A)尾的RNA过滤掉,也可以得到非编码的RNA转录本;如果从总RNA中只提取长度为21~23个碱基左右的RNA,那么得到全部的miRNA〔microRNA〕转录本,相应的方法也称作miRNA-seq。样品制备最终得到的是双链cDNA文库。在后续测序中,测得的每个读段〔read〕随机地来自双链cDNA的某一条链,从读段序列本身无法得知它是与RNA方向相同还是倒转互补,在后续的读段定位时需要两个方向都考虑。在新基因识别等应用中,转录本的方向对基因注释尤为重要,需要在文库制备和测序中保存RNA的方向信息。最近有文献报道了保存方向信息的RNA-seq样品制备方法。〔2〕测序平台数据输出将RNA-seq测序文库参加流动槽〔flowcell〕中的各通道〔lane〕,在桥式PCR扩增后,就可以进行测序了。测序过程中,计算机软件同步地对荧光图像数据进行处理,通过分析荧光信号来确定被测碱基,并给出质量评分。按照图像上的位置坐标,计算机程序将同一位置测得的碱基根据测序顺序连成读段〔read〕。由于荧光图像文件所占有的磁盘空间很大,通常GAIIx平台一次实验能就产生上太字节〔TB〕的图像文件,所以一般情况下不予保存原始的荧光图像数据,而是只保存程序读出的读段数据及对应的质量分值,这就是多数实验室委托测序中心进行RNA-seq测序后得到的最原始的数据。〔3〕RNA-seq数据的根本处理①读段定位:获得RNA-seq的原始数据后,首先需要将所有测序读段通过序列映射〔mapping〕定位到参考基因组上,这是所有后续处理和分析的根底。在读段定位之前,有时还需要根据测序数据情况对其做某些根本的预处理。例如,过滤掉测序质量较差的读段,对miRNA测序读段数据去除接头序列等。②基因表达水平估计:RNA测序数据是对提取出的RNA转录本中随机进行的短片段测序,如果一个转录本的丰度高,那么测序后定位到其对应的基因组区域的读段也就多,可以通过对定位到基因外显子区的读段计数来估计基因表达水平。很显然,读段计数除了与基因真实表达水平成正比,还与基因长度成正比,同时也与测序深度即测序实验中得到的总读段数正相关。造成读段分布出现偏好的原因可能有多个方面:在制备cDNA文库时,反转录所采用的随机引物对RNA序列具有一定的偏好性,使得cDNA片段不能够完全均匀地取自各转录本;在PCR扩增中,扩增效率与序列的GC含量等特征相关,可导致GC含量高的cDNA片段在文库中拷贝数增加超过其他片段;舍弃多定位的读段也可能导致读段的非均匀分布;等等。如果能对读段分布的不均匀性进行建模并加以校正,可以提高RNA-seq推断基因表达量的准确度。③选择性剪接事件识别和剪接异构体表达水平推断:在真核生物中,选择性剪接现象普遍存在。基因转录形成的mRNA前体〔pre-mRNA〕在剪接过程中因去掉不同的内含子区域或保存不同的外显子区域,可形成不同的剪接异构体。根据RNA-seq原理,只要测序深度足够深,就能检测到所有转录本的全部序列,包括来自剪接接合区的序列。利用考虑到接合区的读段定位方法,就有可能系统地研究某一组织或某一条件下的基因选择性剪接事件。④新基因的检测:在对RNA-seq数据的分析中,人们发现往往不是所有读段都能定位到已有注释的基因区,说明除了转录噪声或测序错误等的影响外,可能还存在尚未被注释的基因。这里,我们把这种尚未注释的基因称为新基因,包括新的蛋白质编码基因和非编码RNA基因。能检测新基因,尤其是低表达基因是RNA-seq技术优于基因芯片的特点之一,因为它不需要利用基因注释来设计检测探针。⑤读段的可视化及注释5、非编码RNA注释的步骤?P106、RNA-seq技术同基因芯片技术的比较7、RNA-seq的优势8、RNA-seq的挑战9、RNA-seq的应用P21三、rad9功能研究1、RNA-seq数据的注释2、基因表达谱的分析3、内含子区域表达的分析4、基因间区域表达的分析5、基因可变剪切的分析6、反义转录本的分析7、差异表达基因的分析附:Illumina测序原理Illumina测序技术应用独特工艺生成高密度、海量平行测序反响,可对每个流动槽中成百至上千万的模板进行单端或对读温暖序。全自动的Illumina
DNA簇,每个簇含有单个模板分子的500-1000克隆拷贝。通过仪器在流动槽外表对生成的高密度序列模板进行测序。采用专有的荧光标记的可逆终止子核苷酸,可对样本边合成边测序。对读测序时,完成首次读取后,DNA簇进行原位改进,再生成对读所用模板。然后应用第二个测序引物对同一DNA簇测序,生成第二次数据为什么要研究表观遗传学?答:表观遗传学主要通过DNA的甲基化、组蛋白修饰、染色质重塑和非编码RNA调控等方式控制基因表达。表观遗传学是近几年兴起的而且开展迅速的一个研究遗传的分支学科,其研究和应用不仅对基因表达、调控、遗传有重要作用,而且在肿瘤、免疫等许多疾病的发生和防治以及干细胞定向分化研究、基因芯片中亦具有十分重要的意义。表观遗传学补充了“中心法那么〞忽略的两个问题,即哪些因素决定了基因的正常转录和翻译以及核酸并不是存储遗传信息的唯一载体;在分子水平上,表观遗传学解释了DNA序列所不能解释的诸多奇怪的现象。如:同一等位基因可因亲源性别不同而产生不同的基因印记疾病,疾病严重程度也可因亲源性别而异。表观遗传学信息还可直接与药物、饮食、生活习惯和环境因素等联系起来,营养状态能够通过改变表观遗传以导致癌症发生,尤其是维生素和必需氨基酸。此外,表观遗传学信息的改变,对包括人体在内的哺乳动物基因组有广泛而重要的效应,如转录抑制、基因组印记、细胞凋亡、染色体灭活等。DNA甲基化模式的改变,尤其是某些抑癌基因局部甲基化水平的异常增加,在肿瘤的发生和开展过程中起到了不容无视的作用。研究发现,肿瘤细胞DNA存在广泛的低甲基化和局部区域的高甲基化共存现象,以及总的甲基化能力增高,这3个特征各以不同的机制共同参与甲基化在肿瘤发生、开展中的作用。如胃癌、结肠癌、乳腺癌、肺癌、胰腺癌等众多恶性肿瘤都不同程度地存在一个或多个肿瘤抑制基因CpG岛甲基化。而表观遗传学改变在本质上的可逆性,又为肿瘤的防治提供了新的策略。所以,随着表观遗传学研究的深入,肯定会对人类生长发育、肿瘤发生以及遗传病的发病机制及其防治做出新的奉献,也必将在其他领域中展示其不可估量的作用和广阔的前景。〔2〕表观遗传学涉及到哪些方面?答:表观遗传学的研究内容主要包括:DNA甲基化、组蛋白的末端修饰和变异体、DNAaseⅠ高敏感位点、非编码RNA、转录因子及其辅助因子、顺式调控元件和基因组印记等。〔3〕什么因素会影响基因表达水平?答:基因选择性转录表达的调控(DNA甲基化,基因印记,组蛋白共价修饰,染色质重塑)基因转录后的调控(基因组中非编码RNA,微小RNA〔miRNA〕,反义RNA、内含子、核糖开关等)1.转录水平的调控:包括DNA转录成RNA时的是否转录及转录频率的调控,DNA的序列决定了DNA的空间构型,DNA的空间构型决定了转录因子是否可以顺利的结合到DNA的调控序列上,比方结合到TATA等序列上。2.翻译水平的调控:翻译水平的调控又可以分成翻译前的调控和翻译后的调控。a、翻译前的调控主要是RNA编辑修饰。b、翻译后调控主要是蛋白的修饰,蛋白修饰后可以成为有功能的蛋白或者有隐藏功能的蛋白。在真核和原核细胞中,从基因表到达蛋白质合成,其间有许多地方受到调控,这些调控点主要可以分成两个局部:转录调控(transcriptioncontrol)和转录后调控(posttranscriptioncontrol)。转录调控是指以DNA为模板合成RNA的调控,所有的细胞都具有大量序列特异的DNA结合蛋白,这些蛋白能准确地识别并结合到特异的DNA序列,在转录水平上起着开关的作用。转录后调控是指在RNA转录后对基因表达的调控,转录后调控主要包括:①RNA加工调控,它仅在真核细胞中发生,由它控制初级转录物如何及何时进行剪接形成可用的mRNA,例如,在不同类型的细胞中从同一基因产生的转录物可以通过选择内含子来产生不同的mRNA;②翻译调控,通过翻译调控确立哪些mRNA翻译成蛋白质及什么时候翻译,例如通过特异的mRNA结合蛋白可以抑制翻译,或者通过位于mRNA末端的特异核苷酸序列加速核糖体的结合,从而促进翻译;③mRNA降解调控,这可影响到某些mRNA种类的稳定性;④蛋白质活性调控,可选择性地使某些特异的蛋白分子激活、失活、修改、或区域化,从而影响到蛋白质怎样或何时起作用,例如,某些蛋白质只在某个特殊的发育阶段的某些细胞中起作用,而这些蛋白质对其它的细胞有很大的影响,因而在这些细胞中必须将其失活或激活后立即将其定位到特殊的细胞结构中,否那么就会引起不正常的发育。〔4〕有哪些研究方法?它们各有什么特点?meDNAanalysisDNaseImappingMNasemappingAlternativeSplicing&Non-codingRNA染色质免疫共沉淀技术〔ChIP〕真核生物的基因组DNA以染色质的形式存在。因此,研究蛋白质与DNA在染色质环境下的相互作用是说明真核生物基因表达机制的根本途径。染色质免疫沉淀技术〔chromatinimmunoprecipitationassay,CHIP〕是目前唯一研究体内DNA与蛋白质相互作用的方法。它的根本原理是在活细胞状态下固定蛋白质-DNA复合物,并将其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方法沉淀此复合体,特异性地富集目的蛋白结合的DNA片段,通过对目的片断的纯化与检测,从而获得蛋白质与DNA相互作用的信息。CHIP不仅可以检测体内反式因子与DNA的动态作用,还可以用来研究组蛋白的各种共价修饰与基因表达的关系。而且,CHIP与其他方法的结合,扩大了其应用范围:CHIP与基因芯片相结合建立的CHIP-on-chip方法已广泛用于特定反式因子靶基因的高通量筛选;CHIP与体内足迹法相结合,用于寻找反式因子的体内结合位点;RNA-CHIP用于研究RNA在基因表达调控中的作用。由此可见,随着CHIP的进一步完善,它必将会在基因表达调控研究中发挥越来越重要的作用染色体构象捕捉技术〔3C〕,首先将标本用甲醛处理,使染色体交互的局部紧密的连接在一起,然后用特殊的方法是交联的两段序列形成环状,最后用定量PCR或者芯片检测某两段序列发生交联的频率。甲基化特异性PCR(MSP)原理:MSP是一种简单、特异、敏感的检测单基因甲基化的方式。其根本原理是用亚硫酸氢钠处理基因组DNA,未甲基化的胞嘧啶变成尿嘧啶,而甲基化的胞嘧啶不变,然后用3对特异性引物对所测基因的同一核苷酸序列进行扩增。扩增产物用DNA琼脂糖凝胶电泳,凝胶扫描观察分析结果。凝胶迁移或电泳迁移率实验〔EMSA-electrophoreticmobilityshiftassay〕是一种研究DNA结合蛋白和其相关的DNA结合序列相互作用的技术,可用于定性和定量分析。这一技术最初用于研究DNA结合蛋白,目前已用于研究RNA结合蛋白和特定的RNA序列的相互作用。通常将纯化的蛋白和细胞粗提液和32P同位素标记的DNA或RNA探针一同保温,在非变性的聚丙烯凝胶电泳上,别离复合物和非结合的探针。DNA-复合物或RNA-复合物比非结合的探针移动得慢。同位素标记的探针依研究的结合蛋白的不同,可是双链或者是单链。当检测如转录调控因子一类的DNA结合蛋白,可用纯化蛋白,局部纯化蛋白,或核细胞抽提液。在检测RNA结合蛋白时,依据目的RNA结合蛋白的位置,可用纯化或局部纯化的蛋白,也可用核或胞质细胞抽提液。竞争实验中采用含蛋白结合序列的DNA或RNA片段和寡核苷酸片段〔特异〕,和其它非相关的片段〔非特异〕,来确定DNA或RNA结合蛋白的特异性。在竞争的特异和非特异片段的存在下,依据复合物的特点和强度来确定特异结合。荧光原位杂交(FISH):,以荧光标记取代同位素标记而形成的一种新的原位杂交方法,探针首先与某种介导分子(reportermolecule)结合,杂交后再通过免疫细胞化学过程连接上荧光染料.FISH的根本原理是将DNA(或RNA)探针用特殊的核苷酸分子标记,然后将探针直接杂交到染色体或DNA纤维切片上,再用与荧光素分子偶联的单克隆抗体与探针分子特异性结合来检测DNA序列在染色体或DNA纤维切片上的定性、定位、相对定量分析.FISH具有平安、快速、灵敏度高、探针能长期保存、能同时显示多种颜色等优点,不但能显示中期分裂相,还能显示于间期核.同时在荧光原位杂交根底上又开展了多彩色荧光原位杂交技术和染色质纤维荧光原位杂交技术.肖景发:简述药物基因组学的定义以及生物信息学在药物发现过程中的主要应用。答:药物基因学〔1〕:是研究遗传因素对药物效应的影响,确定药物作用的靶点,即从表型至基因型的药物反响的个体多样性的研究。它将基因的多态性与药物效应个体多样性紧密联系在一起。通过它的研究,将更科学地评价各种药物的疗效和毒性,同时也对不同患者根据DNA多态性的差异选择高效和低毒的药物加以治疗。药物基因学〔2〕:综合药理学和遗传学、研究个体基因遗传因素如何影响机体对药物反响的交叉学科。主要研究基因结构多态性与不同药物反响之间关系,解释由于个体之间差异所表现出药物的不同治疗效果,趋向于用药个性化。用药个性化将产生最大的效果和平安性。生物信息学在药物发现过程中的主要应用:答:主要表达在以下几个方面:靶点确实定;生物信息学可以帮助人们在药物开发过程中更早、更快地找到更佳的药物作用靶点减少研发时间和所需临床试验的数量〔如抗生素类药物理想的作用靶点应具有为病原体所特有、在病原体中高度保守在人体中不存在等特点〕生物信息学技术就可以通过将病原体基因或基因序列与人类基因及其基因序列进行比较分析筛选出该类药物理想的作用靶点。靶点的选择;通过生物信息学的帮助能更好地在靶点发现的早期阶段进行位点的筛选和确定。除此之外它还在以下三个方面有助于对靶点的选择:对靶点的定性如蛋白质家族的分类和亚类;对靶点的功能等特性的理解如靶点在更大的生化或细胞环境中的生物学行为;对靶点的利用及其对有关内容的研究〔如预测针对靶点的药物在病人体内的摄取或重复摄取解毒及其以此基因为根底的变异〕;表达序列标签;表达序列标签来自随机选取的克隆的末端序列,简单地说,一个EST就是对应于某一种mRNA的一个cDNA克隆的一段序列,一般长度大于15Ob的EST在同源查找和基因作图中的作用较大。基因组序列;生物信息学在作图和序列数据处理方面为破译人类基因组的全部10万个左右基因提供了主要的支持。基因多态性;作为基因组的标志之一SNPs与疾病和药效的变化有很大关系。在人类基因组中估计有300到1000万个SNPs。对于如此巨大的数目的SNP只有将生物信息学手段和计算机自动识别方法相结合并充分利用DNA信息数据库才能简便有效价廉地开掘出具有应用价值的SNPs。6.基因表达;基因表达的组织定位是靶点确立中十分重要的一个方面。基因组研究的启动提供了大量的可作为研究目标的药物潜在作用靶点,而了解基因在何时何处表达对认识基因的功能将有十分重要的意义。生物信息学对这个问题的首要奉献就是能对源于不同文库的ESTs进行计数,这有利于发现那些只限于在某些特定的组织中大量表达的基因。综上所述,生物信息学在基因研究和药物开发中发挥着越来越重要的作用。而生物信息学面临的挑战是建立更大规模的能够综合多来源知识和信息、包含多种不同的混杂数据库的数据库系统,以便将生物学、化学、临床等不同领域的数据资料联系在一起并建立通用的智能型工具。目前生物信息学在融合不同的数据库管理系统图表和数据模型等方面所遇到的困难也反映了药物开发本身在融合所涉及领域的各种信息和观点方面所面临的潜在的挑战。〔补充〕药物基因组学在个体化给药中的应用及意义药物基因组学从基因水平给出了遗传因素(基因变异)与药物效应之间的关系,基因的变异与药物效应的差异具有相关性。患者对某些药物的反响率与其基因亚型之间关系现已揭示,虽然药物基因组学并不能改善药物的效应,但这种关系能辅助临床人员在预测某一特定药物时,患者属何种反响人群,使医生为患者选择疗效最正确的药物和确定最正确剂量成为可能。通过对病人的基因检测,再开出“基因适宜〞的药方即“基因处方〞。这种最恰当的药方,可使病人得到最正确的治疗效果,从而到达真正“用药个体化〞的目的。目前,已有将药物基因组学知识应用于高血压、哮喘、高血脂、内分泌、肿瘤等药物治疗中的成功病例。药物基因组学应用到临床合理用药中,弥补了只根据血药浓度进行个体化给药的缺乏,为以前无法解释的药效学现象找到了答案,为临床个体化给药开辟了一个新的途径。简述动态规划算法及应用答:动态规划是一种算法设计方法,它通过组合子问题的解而解决整个问题,但它防止了相同问题的重复计算,动态规划通常应用于最优化问题,能用动态规划算法求解的问题通常有两个很鲜明的特征:最优子结构和子问题重叠;所谓的最优子结构问题是指原问题的最优解包含了其子问题的最优解。问题的最优子结构性质提供了该问题可用动态规划算法求解的重要线索。运用动态规划算法的最大难点在于子问题的分解,也即是递推式的获得,一旦得到了该问题的递推式,问题就相当于已经解决了,因为根据递推式来写程序实现是一件很容易的事情。动态规划算法的设计通常分为如下步骤:1.将问题分解成一些规模更小的子问题,根据子问题与原问题的关系描述最优解的结构2.根据该关系递归定义最优解的值,并运用反证法证明该方案的正确性。3.按自底向上的方式计算最优解的值,在计算过程中,保存已解决的子问题的答案。每个子问题只计算一次,而在后面需要的时候只要简单查一下,从而防止大量的重复计算,最终得到多项式时间的算法4.由计算出的结果构造一个最优解典型应用:a.序列比对,包括DNA和蛋白质序列的比对,全局优化比对算法Needleman-Wunsch算法和局部比对算法Smith-Waterman算法等均是基于此方法。b.RNA二级结构的预测,此算法的依据是使一段RNA序列形成的A-U,G-C配对数最大。c.最长公共子序列。microRNA的基因组学研究技术与应用microRNA〔miRNA)是一类广泛存在于生物体中的非编码、小分子、单链RNA,大约含有18-25nt,能够结合在靶基因3’UTR区,通过降解mRNA、影响mRNA的稳定性或抑制蛋白合成,在转录后水平上调控靶基因的表达.miRNA的作用机制1.miRNA翻译起始抑制机制目前主要有3种观点:miRNA可能通过抑制全能性核糖体的组装而阻断翻译起始。miRNA抑制要求靶mRNAm7G帽子的存在,认为miRISC可能抑制翻译起始复合物的形成miRNA还可能通过阻止polyA结合蛋白polyAbindingprotein(PABP),与mRNA结合影响翻译起始.2.miRNA翻译起始后抑制•miRNA可能引起新生多肽链的翻译同步降解。•在翻译延伸过程中,miRNA引发大量的核糖体脱落及高频次的翻译提前终止。3.miRNA介导mRNA降解–Ago蛋白定位于细胞中降解mRNA的RNA颗粒(RNAgranules),如P小体(processingbodies)中,这些RNA颗粒中包含常规的mRNA降解酶,如脱腺嘌呤酶、脱帽酶、核酸外切酶等,提示这些mRNA降解酶可能参与miRNA介导的mRNA的降解.4.RNA颗粒扣押、降解或储存靶mRNA?•胞浆的RNA颗粒,如P小体和SG(StressGranules)颗粒,在转录后水平的基因表达调控中具有重要的作用,它们是细胞储存处于翻译抑制状态mRNA的场所。5.miRNA正调控和去抑制•在静态细胞中(G0期),miRNA活化翻译和上调基因表达,而在其他细胞循环/增殖期那么继续发挥抑制作用。•在一些条件下,miR-10a也正调控基因表达。–结合在5’UTR。•miRNA的抑制作用是可逆的。•mRNA逃避抑制。–3’UTR保守性缩短MiRNA在肿瘤治疗中的作用–miRNA相关的肿瘤发生通常是由于某些特定的miRNA低表达或者不表达,或者某些特定的miRNA高表达。•MiRNA在抗病毒治疗中的应用潜力–miRNA与靶mRNA序列不完全互补时也可通过抑制蛋白翻译起到基因沉默的作用,所以当病毒出现变异时也可以干扰病毒的复制。MiRNA在抗病毒治疗中的应用潜力–miRNA与靶mRNA序列不完全互补时也可通过抑制蛋白翻译起到基因沉默的作用,所以当病毒出现变异时也可以干扰病毒的复制。为什么要研究表观遗传学?答:表观遗传学主要通过DNA的甲基化、组蛋白修饰、染色质重塑和非编码RNA调控等方式控制基因表达。表观遗传学是近几年兴起的而且开展迅速的一个研究遗传的分支学科,其研究和应用不仅对基因表达、调控、遗传有重要作用,而且在肿瘤、免疫等许多疾病的发生和防治以及干细胞定向分化研究、基因芯片中亦具有十分重要的意义。表观遗传学补充了“中心法那么〞忽略的两个问题,即哪些因素决定了基因的正常转录和翻译以及核酸并不是存储遗传信息的唯一载体;在分子水平上,表观遗传学解释了DNA序列所不能解释的诸多奇怪的现象。如:同一等位基因可因亲源性别不同而产生不同的基因印记疾病,疾病严重程度也可因亲源性别而异。表观遗传学信息还可直接与药物、饮食、生活习惯和环境因素等联系起来,营养状态能够通过改变表观遗传以导致癌症发生,尤其是维生素和必需氨基酸。此外,表观遗传学信息的改变,对包括人体在内的哺乳动物基因组有广泛而重要的效应,如转录抑制、基因组印记、细胞凋亡、染色体灭活等。DNA甲基化模式的改变,尤其是某些抑癌基因局部甲基化水平的异常增加,在肿瘤的发生和开展过程中起到了不容无视的作用。研究发现,肿瘤细胞DNA存在广泛的低甲基化和局部区域的高甲基化共存现象,以及总的甲基化能力增高,这3个特征各以不同的机制共同参与甲基化在肿瘤发生、开展中的作用。如胃癌、结肠癌、乳腺癌、肺癌、胰腺癌等众多恶性肿瘤都不同程度地存在一个或多个肿瘤抑制基因CpG岛甲基化。而表观遗传学改变在本质上的可逆性,又为肿瘤的防治提供了新的策略。所以,随着表观遗传学研究的深入,肯定会对人类生长发育、肿瘤发生以及遗传病的发病机制及其防治做出新的奉献,也必将在其他领域中展示其不可估量的作用和广阔的前景。〔2〕表观遗传学涉及到哪些方面?答:表观遗传学的研究内容主要包括:DNA甲基化、组蛋白的末端修饰和变异体、DNAaseⅠ高敏感位点、非编码RNA、转录因子及其辅助因子、顺式调控元件和基因组印记等。〔3〕什么因素会影响基因表达水平?答:基因选择性转录表达的调控(DNA甲基化,基因印记,组蛋白共价修饰,染色质重塑)基因转录后的调控(基因组中非编码RNA,微小RNA〔miRNA〕,反义RNA、内含子、核糖开关等)1.转录水平的调控:包括DNA转录成RNA时的是否转录及转录频率的调控,DNA的序列决定了DNA的空间构型,DNA的空间构型决定了转录因子是否可以顺利的结合到DNA的调控序列上,比方结合到TATA等序列上。2.翻译水平的调控:翻译水平的调控又可以分成翻译前的调控和翻译后的调控。a、翻译前的调控主要是RNA编辑修饰。b、翻译后调控主要是蛋白的修饰,蛋白修饰后可以成为有功能的蛋白或者有隐藏功能的蛋白。在真核和原核细胞中,从基因表到达蛋白质合成,其间有许多地方受到调控,这些调控点主要可以分成两个局部:转录调控(transcriptioncontrol)和转录后调控(posttranscriptioncontrol)。转录调控是指以DNA为模板合成RNA的调控,所有的细胞都具有大量序列特异的DNA结合蛋白,这些蛋白能准确地识别并结合到特异的DNA序列,在转录水平上起着开关的作用。转录后调控是指在RNA转录后对基因表达的调控,转录后调控主要包括:①RNA加工调控,它仅在真核细胞中发生,由它控制初级转录物如何及何时进行剪接形成可用的mRNA,例如,在不同类型的细胞中从同一基因产生的转录物可以通过选择内含子来产生不同的mRNA;②翻译调控,通过翻译调控确立哪些mRNA翻译成蛋白质及什么时候翻译,例如通过特异的mRNA结合蛋白可以抑制翻译,或者通过位于mRNA末端的特异核苷酸序列加速核糖体的结合,从而促进翻译;③mRNA降解调控,这可影响到某些mRNA种类的稳定性;④蛋白质活性调控,可选择性地使某些特异的蛋白分子激活、失活、修改、或区域化,从而影响到蛋白质怎样或何时起作用,例如,某些蛋白质只在某个特殊的发育阶段的某些细胞中起作用,而这些蛋白质对其它的细胞有很大的影响,因而在这些细胞中必须将其失活或激活后立即将其定位到特殊的细胞结构中,否那么就会引起不正常的发育。〔4〕有哪些研究方法?它们各有什么特点?meDNAanalysisDNaseImappingMNasemappingAlternativeSplicing&Non-codingRNA染色质免疫共沉淀技术〔ChIP〕真核生物的基因组DNA以染色质的形式存在。因此,研究蛋白质与DNA在染色质环境下的相互作用是说明真核生物基因表达机制的根本途径。染色质免疫沉淀技术〔chromatinimmunoprecipitationassay,CHIP〕是目前唯一研究体内DNA与蛋白质相互作用的方法。它的根本原理是在活细胞状态下固定蛋白质-DNA复合物,并将其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方法沉淀此复合体,特异性地富集目的蛋白结合的DNA片段,通过对目的片断的纯化与检测,从而获得蛋白质与DNA相互作用的信息。CHIP不仅可以检测体内反式因子与DNA的动态作用,还可以用来研究组蛋白的各种共价修饰与基因表达的关系。而且,CHIP与其他方法的结合,扩大了其应用范围:CHIP与基因芯片相结合建立的CHIP-on-chip方法已广泛用于特定反式因子靶基因的高通量筛选;CHIP与体内足迹法相结合,用于寻找反式因子的体内结合位点;RNA-CHIP用于研究RNA在基因表达调控中的作用。由此可见,随着CHIP的进一步完善,它必将会在基因表达调控研究中发挥越来越重要的作用染色体构象捕捉技术〔3C〕,首先将标本用甲醛处理,使染色体交互的局部紧密的连接在一起,然后用特殊的方法是交联的两段序列形成环状,最后用定量PCR或者芯片检测某两段序列发生交联的频率。甲基化特异性PCR(MSP)原理:MSP是一种简单、特异、敏感的检测单基因甲基化的方式。其根本原理是用亚硫酸氢钠处理基因组DNA,未甲基化的胞嘧啶变成尿嘧啶,而甲基化的胞嘧啶不变,然后用3对特异性引物对所测基因的同一核苷酸序列进行扩增。扩增产物用DNA琼脂糖凝胶电泳,凝胶扫描观察分析结果。凝胶迁移或电泳迁移率实验〔EMSA-electrophoreticmobilityshiftassay〕是一种研究DNA结合蛋白和其相关的DNA结合序列相互作用的技术,可用于定性和定量分析。这一技术最初用于研究DNA结合蛋白,目前已用于研究RNA结合蛋白和特定的RNA序列的相互作用。通常将纯化的蛋白和细胞粗提液和32P同位素标记的DNA或RNA探针一同保温,在非变性的聚丙烯凝胶电泳上,别离复合物和非结合的探针。DNA-复合物或RNA-复合物比非结合的探针移动得慢。同位素标记的探针依研究的结合蛋白的不同,可是双链或者是单链。当检测如转录调控因子一类的DNA结合蛋白,可用纯化蛋白,局部纯化蛋白,或核细胞抽提液。在检测RNA结合蛋白时,依据目的RNA结合蛋白的位置,可用纯化或局部纯化的蛋白,也可用核或胞质细胞抽提液。竞争实验中采用含蛋白结合序列的DNA或RNA片段和寡核苷酸片段〔特异〕,和其它非相关的片段〔非特异〕,来确定DNA或RNA结合蛋白的特异性。在竞争的特异和非特异片段的存在下,依据复合物的特点和强度来确定特异结合。荧光原位杂交(FISH):,以荧光标记取代同位素标记而形成的一种新的原位杂交方法,探针首先与某种介导分子(reportermolecule)结合,杂交后再通过免疫细胞化学过程连接上荧光染料.FISH的根本原理是将DNA(或RNA)探针用特殊的核苷酸分子标记,然后将探针直接杂交到染色体或DNA纤维切片上,再用与荧光素分子偶联的单克隆抗体与探针分子特异性结合来检测DNA序列在染色体或DNA纤维切片上的定性、定位、相对定量分析.FISH具有平安、快速、灵敏度高、探针能长期保存、能同时显示多种颜色等优点,不但能显示中期分裂相,还能显示于间期核.同时在荧光原位杂交根底上又开展了多彩色荧光原位杂交技术和染色质纤维荧光原位杂交技术.肖景发:简述药物基因组学的定义以及生物信息学在药物发现过程中的主要应用。答:药物基因学〔1〕:是研究遗传因素对药物效应的影响,确定药物作用的靶点,即从表型至基因型的药物反响的个体多样性的研究。它将基因的多态性与药物效应个体多样性紧密联系在一起。通过它的研究,将更科学地评价各种药物的疗效和毒性,同时也对不同患者根据DNA多态性的差异选择高效和低毒的药物加以治疗。药物基因学〔2〕:综合药理学和遗传学、研究个体基因遗传因素如何影响机体对药物反响的交叉学科。主要研究基因结构多态性与不同药物反响之间关系,解释由于个体之间差异所表现出药物的不同治疗效果,趋向于用药个性化。用药个性化将产生最大的效果和平安性。生物信息学在药物发现过程中的主要应用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度金融IT系统集成与维护合同
- 2024年商标许可使用合同 规定许可范围与使用期限
- 2024厂区绿化养护合同
- 2024年度氨水行业绿色发展与环保合作协议
- 2024年品牌授权与连锁加盟合同
- 2024年城市轨道交通安全监控系统建设合同
- 2024年度房地产买卖与租赁合同
- 2024年度委托加工合同标的原料提供与加工质量
- 2024胡柚买卖合同范文
- 2024年学校操场草坪购买及安装合同
- 知识点解析《方向向量与直线的参数方程》
- 老年社区获得性肺炎的几个热点问题专家讲座
- 建筑消防工程施工操作规程
- GB/T 42461-2023信息安全技术网络安全服务成本度量指南
- (完整word版)扣字词汇124
- 2023届广东省广州市高三一模语文现代文阅读小说《给我一枝枪》讲评课件
- 中职世界历史全一册教案
- 毛栗煤矿 矿业权价款计算结果的报告
- Q-CR 783.1-2021 铁路通信网络安全技术要求 第1部分:总体技术要求
- GB/T 27548-2011移动式升降工作平台安全规则、检查、维护和操作
- GB/T 15007-2017耐蚀合金牌号
评论
0/150
提交评论