核酸序列分析_第1页
核酸序列分析_第2页
核酸序列分析_第3页
核酸序列分析_第4页
核酸序列分析_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于核酸序列分析第1页,讲稿共80页,2023年5月2日,星期三一、分子质量、碱基组成、碱基分布二、序列变换三、限制性酶切分析第一节核酸序列的基本分析(DNAMAN软件的应用)第2页,讲稿共80页,2023年5月2日,星期三一、核酸测序中载体序列的识别与去除1、利用NCBI的数据库许多数据库中收集了常用的测序载体序列。如果用户面对的是大批量序列的分析任务,则需要将这些载体数据库下载后进行分析。使用Blast程序对此类数据库进行相似性分析即可得知目的序列中是否含有载体序列。(/VecScreen/VecScreen.html)。如果是,那么在对测序数据进行进一步分析之前必须将载体序列去除。(Example)第二节核酸序列高级分析(数据库及软件的使用)第3页,讲稿共80页,2023年5月2日,星期三2、利用SequencherTM软件美国基因编码公司(GeneCodesCorp.)所开发的SequencherTM软件在识别载体序列方面具有很强的功能。SequencherTM软件被多个公司用于测序数据的分析和管理。该公司同时提供该软件的演示版,可通过访问其网址获得(/home.html)。第4页,讲稿共80页,2023年5月2日,星期三第5页,讲稿共80页,2023年5月2日,星期三第6页,讲稿共80页,2023年5月2日,星期三第7页,讲稿共80页,2023年5月2日,星期三第8页,讲稿共80页,2023年5月2日,星期三第9页,讲稿共80页,2023年5月2日,星期三3、其他人工序列的分析与去除

测序克隆中往往也含有来自于宿主菌核酸序列的污染,或者目的克隆的确来自于该宿主菌。这两种情况均可通过BlastN软件直接对GenBank或EMBL数据库进行相似性分析进行判断。显然任何与大肠杆菌和酿酒酵母的序列具有高度一致性的序列必须慎重对待。一些生物如大肠杆菌含有可移动的遗传物质如插入序列。在进行克隆构建以便测序的过程中,这些序列有时会插入到所构建的克隆,导致目的序列测序的干扰。BlastN程序可以很方便地鉴定此类结果。如果是这样的话,此类序列则值得怀疑。第10页,讲稿共80页,2023年5月2日,星期三二、核酸序列的电子延伸1、简介随着人类基因组计划的深入进行,很多实验室采用cDNA文库大规模测序的策略获得了大量表达序列标签(expressedsequencetag,EST)和较长的cDNA序列。然而在大多数情况下,人们只能获得EST序列或较长的cDNA序列。全长cDNA序列的获得一直是制约新基因发现的瓶颈。第11页,讲稿共80页,2023年5月2日,星期三同时,很多实验室采用差异显示PCR(differentdisplayPCR,DD-PCR)、代表性差异分析(representationaldifferenceanalysis,RDA)等技术发现了大量具有潜在应用价值的新基因片段,也同时面临着全长cDNA序列难以获得的问题。在实验方面,或者通过筛选cDNA文库,或者通过RACE实验等去获得新基因的全长cDNA序列,均需要投入较大的精力。第12页,讲稿共80页,2023年5月2日,星期三而在另一方面,公共数据库如GenBank/EMBL已经拥有了大量的表达序列标签(/dbEST)。这些EST序列在很多时候和研究者所感兴趣的基因序列相重叠,可能代表了同一条cDNA序列。因而,从生物信息学的原理出发,基于公共数据库中的EST序列或者较长cDNA序列对新获得的EST序列进行电子延伸,就成为很多研究者关注的焦点。第13页,讲稿共80页,2023年5月2日,星期三这一方案实际上来自于最初的克隆测序过程。例如,在对一个长为1.5kb的序列进行测序过程中,如果每次测序只能获得500bp的有效序列,则至少需进行4次测序,而且所有测序结果的末端必须相互重叠,以便根据末端重叠序列将该4次测序所获得的序列片段进行组装,才能获得全长序列。1500kb500kb500kb500kb500kb第14页,讲稿共80页,2023年5月2日,星期三2、基本过程(1)将待分析的核酸序列(称为种子序列)采用Blast软件搜索GenBank的EST数据库,选择与种子序列具有较高同源性的EST序列(一般要求在重叠40个碱基范围内有95%以上有同源性)(称为匹配序列)(2)将匹配序列和种子序列装配产生新生序列,此过程称为片段重叠群分析(contiganalysis)(3)然后再以此新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。第15页,讲稿共80页,2023年5月2日,星期三3、利用UniGene数据库进行电子延伸利用blastn程序,选择数据库“EST”进行序列同源性检索。选择同源性比分最高的一条EST序列,点击右边的UniGene超链接,将参与形成UniGeneCluster的所有核酸序列下载到本地,利用SequencherTM软件或者其他的序列装配软件进行组装,形成较长的新生序列。第16页,讲稿共80页,2023年5月2日,星期三第17页,讲稿共80页,2023年5月2日,星期三第18页,讲稿共80页,2023年5月2日,星期三第19页,讲稿共80页,2023年5月2日,星期三第20页,讲稿共80页,2023年5月2日,星期三第21页,讲稿共80页,2023年5月2日,星期三4、存在的不足无法直接通过此种方法获得多种剪切形式之间的差异,真正的cDNA序列还需通过对延伸后的序列设计全长引物,经过反转录PCR(RT-PCR)即可证实是否对原序列的有效延伸。第22页,讲稿共80页,2023年5月2日,星期三三、基因的电子表达谱分析GenBank/EMBL等数据库在其EST数据库中积累了大量序列的基因表达信息。电子表达谱分析原理是:将待分析序列与EST数据库进行序列对库检索,获得与待分析核酸序列具有高同源性的EST序列的UniGene编号后,就可通过参与形成UniGeneCluster的序列的组织/细胞来源来间接地反映分析序列在何种组织中表达体现在字段cDNASources中。第23页,讲稿共80页,2023年5月2日,星期三四、核酸序列的电子基因定位分析对核酸序列进行电子基因定位(即基因的染色体定位),通过所定位区带的相邻基因簇,间接地提示该基因的功能,是核酸序列分析的一个重要方面。进行电子基因定位策略是:利用基因组序列定位A、将待分析序列进行对基因组数据库的同源性检索B、得到确定基因组序列后点击“GenomeView”观察其基因组结构C、点击用红色标记所指示的染色体列表中选择所对应的染色体及区域。第24页,讲稿共80页,2023年5月2日,星期三五、cDNA对应的基因组序列分析EST和cDNA的基因组序列查询对于了解该基因组结构包括extron/intron结构、转录调控区域以及何种转录因子对该基因的表达进行调控等均十分重要。同时,如果对所获得cDNA不能完全确定的情况下,也可参考基因组的序列进行校正。在人类基因组计划推动下,NCBI、EMBL、和SangerCentre均提供了基因组序列的同源性分析途径。第25页,讲稿共80页,2023年5月2日,星期三1、通过从NCBI查询全部基因组数据库进行序列的分析联网至/genome/seq/HsBlast.html可直接对已经公布的基因组序列进行查询。2、通过从Sanger中心查询全部基因组数据库进行序列的分析http://www.sanger.ac.uk/cgi-bin/blast/submitblast/hgp第26页,讲稿共80页,2023年5月2日,星期三六、基于核酸序列对齐分析的功能预测对库比较、多序列以及序列之间的两两比较、同源性比较及结果的显著性评价、分子进化树的绘制。第27页,讲稿共80页,2023年5月2日,星期三七、可读框架分析原理——Kozak序列:AUG上游的第三个核苷酸,常常是嘌呤,且多数是A;紧跟在AUG后面的核苷酸,常常也是嘌呤,但多数情况下是G。AUG附近的核苷酸序列中以ANNAUGN和GNNAUGPu(T/G)的利用率最高,而没有起始功能AUG附近的核苷酸序列则无此保守性。/gorf/gorf.html第28页,讲稿共80页,2023年5月2日,星期三第29页,讲稿共80页,2023年5月2日,星期三第30页,讲稿共80页,2023年5月2日,星期三第31页,讲稿共80页,2023年5月2日,星期三第32页,讲稿共80页,2023年5月2日,星期三八、基因组序列中的编码区/内含子结构分析真核基因外显子-内含子连接区外显子-内含子连接区就是指外显子和内含子的交界,又称边界序列。重要特征:

(1)内含子的两端序列之间没有广泛的同源性,不能互补。不能通过形成发卡式二级结构。(2)外显子-内含子连接区序列很短,但高度保守。第33页,讲稿共80页,2023年5月2日,星期三GT-AG法则:几乎在所有高等真核生物基因中每个内含子5´端起始的两个碱基都是GT,3´端最后两个碱基总是AG。目前最好并最流行的软件是GRAIL(GeneRecognitionAnalysisInternetLink)套装软件/Grail-1.3/。第34页,讲稿共80页,2023年5月2日,星期三第35页,讲稿共80页,2023年5月2日,星期三第36页,讲稿共80页,2023年5月2日,星期三第37页,讲稿共80页,2023年5月2日,星期三也可以利用GeneFinder软件(/urllists/genefind.htm)进行基因组序列的内含子/外显子分析。第38页,讲稿共80页,2023年5月2日,星期三第39页,讲稿共80页,2023年5月2日,星期三九、基因启动子、增强子、转录因子结合位点分析1、通过EBI匿名FTP获得数据库2、联网至/seq_tools/promoter.html可对基因组序列进行启动子分析。第40页,讲稿共80页,2023年5月2日,星期三十、重复序列分析1、RepBase

真核生物DNA中重复序列数据库,由GeneticInformationResearchInstitute,GIRI维护,其网址为:/server/RepBase/。2、著名的RepeatMasker程序即基于此进行工作(/RM/RepeatMasker.html)。第41页,讲稿共80页,2023年5月2日,星期三第三节PCR引物设计第42页,讲稿共80页,2023年5月2日,星期三一、基本过程PCR是在试管内有DNA模版、引物和四种脱氧核糖核苷酸存在条件下,由DNA聚合酶催化的DNA合成反应。基本反应过程分为三步:1、变性变性是指通过加热使DNA双链间的氢键断裂,形成两条单链的过程。加热到92~95℃可使一切复杂的DNA都达到变性的目的。2、退火退火是指在温度降低的过程中,DNA的复性过程,即变性后的两条单链在碱基互补基础上形成氢键,结合成双链。第43页,讲稿共80页,2023年5月2日,星期三3、延伸

从引物的3´一端开始,沿DNA模版,由DNA聚合酶催化的DNA新链的合成反应。上述三步反应构成一个循环。在下一个循环中,前一循环的产物再变性为两条单链作为模版,这样往复循环,即可使靶序列大大扩增。第44页,讲稿共80页,2023年5月2日,星期三二、PCR的引物1、引物长度以15~30个碱基为宜。过短会影响到扩增的特异性。若扩增产物≤500碱基,引物长度为16~18碱基即可。若扩增4~5kb的大片段,引物最好不要少于24个碱基。2、引物二聚体及二级结构

尽量避免在引物分子之间或引物分子内部有过多的互补碱基。如果很难完全避免引物分子内二级结构,也要尽可能地避免在引物3´一端出现二级结构。3´一端有二级结构的引物不能有效引发延伸。第45页,讲稿共80页,2023年5月2日,星期三3、碱基分布的均衡性

避免嘌呤或嘧啶的堆积,避免连续出现4个以上的同一碱基。各种碱基最好分布均匀。4、引物在模版上结合位点的唯一性

保证扩增产物的特异性。第46页,讲稿共80页,2023年5月2日,星期三5、碱基配对的严格性一般要求引物与模版间的碱基能完全配对特殊实验目的,部分碱基不配对是许可的。但要求引物3´一端必须与模版配对。如:①在5´一端引入酶切位点。②点突变。③设计简并引物。第47页,讲稿共80页,2023年5月2日,星期三6、引物的Tm值(解链温度)

在允许范围内,选择较高的温度,可大大减少引物和模版之间非特异性结合,从而提高PCR的特异性。引物容易复性到模版上的温度是Tm值减去15~25℃,但为了提高PCR的特异性,在实际应用中常常将退火温度设定为Tm值减去5~15℃。在实验之初,宁可选用较低的退火温度,首先得到有PCR合成产物之后再逐步提高退火温度,以提高反应的特异性。两条引物的Tm尽可能相等或接近,最好相差不超过3℃。第48页,讲稿共80页,2023年5月2日,星期三7、引物的内部稳定性

引物的5´端互补序列应该是相对稳定结构,而3´端应在碱基配对的情况下尽可能为低稳定结构。

3´端应该选用A、T少选用G、C,这种引物有更高的引发效率,且能有效地避免假引发。第49页,讲稿共80页,2023年5月2日,星期三二、引物设计软件的引物设计功能主要体现在:1、引物分析评价功能,以“Oligo6”最优秀。2、引物的自动搜索功能。以“PrimerPremier”为最强且方便使用在自动搜索的基础上还要辅以人工分析。引物设计软件以“Premier”进行自动搜索,“Oligo”进行分析评价,如此可快速设计出成功率很高的引物。第50页,讲稿共80页,2023年5月2日,星期三引物设计限制性内切酶位点分析DNA基元(motif)查找同源性分析第51页,讲稿共80页,2023年5月2日,星期三设计简并引物简并引物:根据一段氨基酸序列反推到DNA来设计引物,由于遗传密码的简并性,会遇到部分碱基的不确定性。设计的引物实际上是多个序列的混和物。第52页,讲稿共80页,2023年5月2日,星期三软件共给出八种生物亚结构的不同遗传密码规则:纤毛虫大核(CiliateMacronuclear)无脊椎动物线粒体(InvertebrateMitochondrion)支原体(Mycoplasma)植物线粒体(PlantMitochondrion)原生动物线粒体(ProtozoanMitochondrion)一般标准(Standard)脊椎动物线粒体(VertebrateMitochondrion)酵母线粒体(YeastMitochondrion)第53页,讲稿共80页,2023年5月2日,星期三第54页,讲稿共80页,2023年5月2日,星期三第55页,讲稿共80页,2023年5月2日,星期三第56页,讲稿共80页,2023年5月2日,星期三第57页,讲稿共80页,2023年5月2日,星期三第58页,讲稿共80页,2023年5月2日,星期三第59页,讲稿共80页,2023年5月2日,星期三PCR模板及产物位置所选的上下游引物的一些性质四种重要指标的分析引物的最佳退火温度对引物进行修饰编辑第60页,讲稿共80页,2023年5月2日,星期三

此外还要注意:不同的引物3’端末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基A。第61页,讲稿共80页,2023年5月2日,星期三△G值是指DNA双链形成所需的自由能,反映了双链结构内部碱基对的相对稳定性。应当选用3’端△G值较低(绝对值不超过9),而5’端和中间的△G值相对较高的引物。引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带。邻近6至7个碱基组成的亚单位在一个指定数据库文件中的出现频率。该频率高则可增加错误引发的可能性。选取引物时,宜选用3’端Frq值相对较低的片段。第62页,讲稿共80页,2023年5月2日,星期三选好上下游引物后检查:1、引物二聚体尤其是3’端二聚体形成的可能性。2、发夹结构(hairpin);与二聚体相同,发夹结构的能值越低越好。一般来说,这两项结构的能值以不超过4.5为好3、GC含量以45-55%为宜。4、如果模板不是基因组DNA,而是特定模板序列,最好还进行Falseprimingsite的检测。第63页,讲稿共80页,2023年5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论