第四章核酸序列分析_第1页
第四章核酸序列分析_第2页
第四章核酸序列分析_第3页
第四章核酸序列分析_第4页
第四章核酸序列分析_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章核酸(hésuān)序列分析对实验室中获得的一条新的核酸序列进行生物信息学分析(fēnxī)是实验深入研究前的标准操作。常规分析(掌握三种软件)序列比对分析基因结构识别1精品PPT常规分析___以水稻瘤矮病毒RGDV基因组S8片段编码区序列为例,使用(shǐyòng)BioEdit软件进行分析核酸序列组分分析(BioEdit、DNAMAN、Dnastar)分析核酸序列的分子质量、碱基组成、碱基分布等。序列变换(BioEdit、DNAMAN、Dnastar)根据分析需要,对核酸序列进行(jìnxíng)各种变换,如寻找序列的互补序列、反向序列、反向互补序列等。限制性内切酶分析(BioEdit、DNAMAN、Dnastar)确定核酸序列的酶切位点。2精品PPT步骤一:下载水稻瘤矮病毒(bìngdú)RGDV基因组S8片段编码区序列3精品PPT文本编辑器UltraEdit4精品PPT步骤二:安装打开(dǎkāi)BioEdit软件5精品PPT步骤(bùzhòu)三:载入序列(“File”“Open”)6精品PPT步骤四:序列(xùliè)分析互补(hùbǔ)反向互补核酸组成分析限制性酶切分析7精品PPT核酸(hésuān)序列组分分析步骤五:结果解读8精品PPT序列变换步骤(bùzhòu)五:结果解读(互补序列)9精品PPT限制性内切酶分析(fēnxī)10精品PPT11精品PPT限制性酶切分析(fēnxī)步骤五:参数设置12精品PPT限制性酶切分析(fēnxī)步骤六:结果解读13精品PPT限制性内切酶在线分析(fēnxī)工具14精品PPTDnastar序列(xùliè)格式转换限制性内切酶分析序列(xùliè)拼接下载(xiàzǎi)网址:/15精品PPT

16精品PPT

17精品PPT

18精品PPT

19精品PPT

20精品PPT

21精品PPT

22精品PPT

结果(jiēguǒ)23精品PPT

24精品PPT

25精品PPT

26精品PPT

27精品PPT

28精品PPT

显示(xiǎnshì)出所有的酶切位点29精品PPT

只需要切1次的位点,则要选择(xuǎnzé)切的频率30精品PPT

在最低和最高都选择(xuǎnzé)“1”31精品PPT

切1次的酶切位点32精品PPT序列(xùliè)比对定义:序列比对是比较两个或两个以上符号序列的相似性或不相似性。理论基础:如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段(piànduàn)的缺失、以及序列重组等遗传变异过程分别演化而来。意义:从核酸、氨基酸的层次分析序列的相似性,推测其结构功能及进化上的联系,是基因识别、分子进化、生命起源研究的基础33精品PPT序列(xùliè)比对的方式数据库搜索比对(BLAST)将查询序列与整个数据库中所有序列进行比对,来获得数据库中与其最相似序列的已有数据,作为查询序列的参考信息。序列两两比对(BLAST2sequences)通过比较两个序列之间的相似区域和保守性位点,寻找两者可能的分子进化关系。多序列比对(ClustalX)将多个(duōɡè)序列同时进行比较,寻找它们之间共同的保守区域、位点和profile。34精品PPT

序列相似性:指两个序列之间相同碱基或氨基酸残基顺序所占比例的高低。在蛋白质序列比对中,有时也指两个序列之间具有相似特性(侧链基团的大小、电荷性、亲疏水性等)的残基所占的比例。序列一致性:指两个序列相同位置上出现同样的碱基或氨基酸残基的比例。同源性:用来描述蛋白质或核酸(hésuān)来自同一祖先。相似性(similarity)、一致性(identity)和同源性(homology)

35精品PPTidentity=8/45=17.8%similarity=(8+9)/45=37.8%相似的碱基:小分子(fēnzǐ)、疏水性、带芳香基的氨基酸:A,V,F,P,M,I,L,W;

酸性氨基酸:D,E;

碱性氨基酸:R,H,K;

带羟基、胺基、碱性氨基酸:S,T,Y,H,C,N,G,Q.图中:“|”表示(biǎoshì)相同的残基,“+”表示(biǎoshì)相似残基。36精品PPT相似性vs同源性序列比对(sequencealignment)的结果显示序列的相似性,而不是同源性。同源性可以根据序列相似性来推断。当相似程度高于50%时,可以推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者(huòzhě)根本无法确定其是否具有同源性。相似性可以量化,如50%similarity;而同源性是定性的概念,如果来自同一祖先就是同源,否则为不同源.%homology×。37精品PPT直系(zhíxì)同源(orthology)VS旁系同源(paralogy)直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:(1)在进化上起源于一个始祖基因并垂直传递(verticaldescent)的同源基因;(2)分布于两种或两种以上物种的基因组;(3)功能高度保守(bǎoshǒu)乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4)结构相似;(5)组织特异性与亚细胞分布相似

旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。38精品PPT直系与旁系的共性是同源,都源于各自(gèzì)的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能,其功能相似也许只是机械式的相关(mechanisticallyrelated),或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种具有相似的功能。39精品PPT局部(júbù)比对vs整体比对

序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。局部相似性比全局相似性更具有生物学意义。两条DNA长序列,可能只在很小的区域内(密码区)存在关系。不同家族的蛋白质往往具有功能和结构(jiégòu)上的相同的一些区域(motif)。40精品PPT影响(yǐngxiǎng)相似性分数的因素WORDSIZE的设定是否(shìfǒu)允许空位且空位罚分策略相似性分数矩阵(PAM和BLOSUM)41精品PPT点阵图评估两条序列相似度最简单的方法之一是利用点阵图。

第一条被比较(bǐjiào)的序列排列在点阵图空间的横轴,第二条序列则排列在纵轴。点阵空间中两条序列中的残基相同时,在对应的位点上画上圆点,两条序列间连续相同的区域在图中会形成由圆点组成的上斜线。42精品PPT具有(jùyǒu)连续相似区域的两条DNA序列的简单点阵图对人类与黑猩猩的β球蛋白基因序列(xùliè)进行比较的完整点阵图43精品PPT滑动窗口技术使用滑动窗口代替一次一个位点的比较是解决噪音问题的有效方法。假设窗口大小(dàxiǎo)为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。44精品PPT(a)对人类(rénlèi)(Homosapiens)与黑猩猩(Pongopygmaeus)的β球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。(a)(b)45精品PPT简单(jiǎndān)比对比对就是两条序列字符间简单的两两匹配。比对可以反映出两条或多条同源序列间的进化关系.最简单的情况下即不考虑(kǎolǜ)空位,当两条序列对比时,要做的仅是为较短的序列选择比对的起始点。46精品PPT考虑这样的两条核苷酸序列:AATCTATA和AAGATA仅有三种(sānzhǒnɡ)比对方式不考虑空位的简单比对,它的打分函数(hánshù)是有对比奖励和罚分的和来决定上例中三个比对从左至右分别是4、1、3匹配得分:1失配得分:047精品PPT空位(kōnɡwèi)两条或多条序列比对时,如果考虑到插入与删除事件(shìjiàn)发生地可能性,那么候选的比对数量就会大大增加,也就导致了比对的复杂性。等等……上节中两条核苷酸序列,在不考虑空位时仅有三种比对,而较短的那条加入了两个空位后,便产生了28种不同的比对,例如:48精品PPT简单(jiǎndān)空位罚分对含有空位的比对打分时,空位罚分就必须包含到打分函数(hánshù)中,空位比对的简单打分公式如下:例如:假设匹配得分为1,失配得分为0,空位罚分为-1三种空位比对的得分从左至右分别是1、3、349精品PPT起始(qǐshǐ)罚分与长度罚分使用简单空位罚分对两条序列进行比对时,经常(jīngcháng)能找到若干同格式最优的比对。进一步区分这些比对的方法是找出哪些比对包含较多的不连续空位,哪些包含较少长度较长的空位片段。50精品PPT插入(chārù)/删除事件假设两条序列长度分别是12和9假设这两条序列是真正的同源序列,那么它们之间长度的差异可以解释为(1)较长的序列有核苷酸的插入,或者(2)较短的序列发生了核苷酸的删除,或者(3)两者都发生了。在不知道(zhīdào)原始父辈序列的情况下,无法判断导致空位的原因是由于一条序列的插入事件还是另一条的删除事件,通常把这类事件称为插入/删除事件。51精品PPT多联核苷酸的插入删除事件相对于单个核苷酸来说会较经常发生。统计(tǒngjì)结果表明,两条序列长度上的差异更可能是单个三联核苷酸的插入删除事件导致的,而多个不连续核苷酸插入删除事件的可能性比较小。空位罚分由序列中产生的新空位串引起的起始罚分和根据缺少的字符数而定的长度罚分。预设长度罚分小于起始罚分,以此建立的打分函数便能奖励空位连在一起的比对。52精品PPT假设起始罚分为-2,长度(chángdù)罚分为-1,匹配得分为+1,失配得分为0,则对于这三个比对,从左至右比对的得分(défēn)分别是-1,+1,+2在后两种比对在使用简单空位罚分时,最后得分都是+3,现在却得到了不同的分数。这三个比对,从左至右比对的得分分别是-1,+1,+2在后两种比对在使用简单空位罚分时,最后得分都是+3,现在却得到了不同的分数。53精品PPT大

大极少插入或缺失:适用于非常相关蛋白质间的联配;

大小少量大块插入:用于整个功能域可能插入的情况

起始罚分长度罚分说明小大大量小块插入:适用于亲缘关系较远的蛋白质同源性分析大的起始罚分配(fēnpèi)以很小的长度罚分被普遍证实是最佳的设定思路。54精品PPT打分(dǎfēn)矩阵正如空位罚分可以奖励与进化相关的比对,失配罚分也可以用来进一步区分相似比对。统计结果表明,两条同源的序列比对时,某些替换比其他替换常见的多。例:两条蛋白质序列,其中一条在某一个位置上是丙氨酸,如果该位点被替换成另一个较小的且疏水的氨基酸,比如缬氨酸,则对蛋白质的影响很小,如果被替换成较大且带电的残基,比如赖氨酸,那么对蛋白质的影响可能就会非常大。直观的讲,比较保守的替换比随机(suíjī)替换更可能维持蛋白质的功能,更不容易被淘汰,因此在打分上更倾向于缬氨酸而不是赖氨酸。55精品PPT打分(dǎfēn)矩阵(ScoringMatrix)核酸打分矩阵设DNA序列(xùliè)所用的字母表为={A,C,G,T}a.单位矩阵b.BLAST矩阵c.转换-颠换矩阵(transition,transversion)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)单位矩阵转换-颠换矩阵BLAST矩阵分别利用三种矩阵计算序列1:GCGCCTC和序列2:GCGGGTC在不考虑空位的情况下比对的得分56精品PPT构建方式:收集序列一致性达到99%的序列进行计算,得到PAM1矩阵.如要产生PAMn矩阵,则把PAM1矩阵自乘n次.缺点:一旦PAM1矩阵有小的误差(wùchā),自乘n此以后得到的PAMn矩阵误差(wùchā)有可能非常大.PAM矩阵(jǔzhèn)构建方式:根据BLOCKS数据库中的序列数据计算得到.BLOSUMn矩阵由BLOCKS数据库中一致性为n%的序列计算得到.优点:不会出现误差放大,被广泛使用.BLOSUM矩阵57精品PPT针对不同(bùtónɡ)的进化距离采用PAM矩阵序列(xùliè)相似度=40%50%60% |||打分矩阵=PAM120PAM80PAM60PAM250→14%-27%

58精品PPTPAM-n中,n越小,表示氨基酸相似的可能性越大;相似的序列之间比较(bǐjiào)应该选用n值小的矩阵,不太相似的序列之间比较(bǐjiào)应该选用n值大的矩阵.PAM-250用于约20%相同序列之间的比较(bǐjiào)。BLOSUM-n中,n越小,表示氨基酸相似的可能性越小;相似的序列之间比较(bǐjiào)应该选用n值大的矩阵,不太相似的序列之间比较(bǐjiào)应该选用n值小的矩阵。BLOSUM-62用来比较(bǐjiào)62%相似度的序列,BLOSUM-80用来比较(bǐjiào)80%左右相似度的序列。59精品PPTPAM100==>Blosum90PAM120==>Blosum80PAM160==>Blosum60PAM200==>Blosum52PAM250==>Blosum45Blosum矩阵(jǔzhèn)更适合用于局部比对Blosum62矩阵(jǔzhèn)适合于大多数的蛋白质序列比对60精品PPT突变(tūbiàn)数据相似性分数矩阵PAM250主对角线上分数值(shùzí)是指两个相同残基之间的相似性分数值(shùzí),有些残基的分值较高,如色氨酸W为17、半胱氨酸C为12,说明它们比较保守,不易突变;有的残基的分值较低,如丝氨酸S、丙氨酸A、门冬酰氨N三种氨基酸均为2,这些氨基酸则比较容易突变。不同氨基酸之间的分数值(shùzí)越高,它们之间的相似性越高,进化过程中容易发生互相突变,如苯丙氨酸F和酪氨酸Y,它们之间的相似性分数值(shùzí)是7。而相似性分数值(shùzí)为负数的氨基酸之间的相似性则较低,如甘氨酸和色氨酸之间为-7,它们在进化过程中不易发生互相突变61精品PPT模块(mókuài)替换矩阵BLOSUM6262精品PPT数据库搜索(sōusuǒ)尽管(jǐnguǎn)序列比对是比较两条已知序列的极为重要的工具,然而序列比对的更为常见的用途是用来搜索大量序列的数据库,以找到与特定序列相似的那些序列。在数据库搜索过程中,由于被搜索序列很长,而且数量巨大,用简单而直接的方法将数据库中的每条序列与查询序列进行比对并返回得分最高的序列难以奏效。作为替代方法,各种索引方法与启发方式被用来加快搜索的过程,虽然不能保证与查询序列比对的最好的,但是能返回大部分与查询序列比对较好的,而且这些方法的效率很高。63精品PPT数据库搜索(sōusuǒ)的比对得分与统计显著性搜索结果的比对得分为(fēnwéi)S,E值表示比对结果的统计学显著性,指的是用于随机找出的一条或多条序列,比对得分大于等于S的可能性。数据库搜索引擎一般都为每个搜索结果提供E得分E的值比较低说明该结果与查询序列具有进化上的关系。64精品PPTBLASTBLAST是目前常用的数据库搜索程序,它是BasicLocalAlignmentSearchTool的缩写,意为“基本局部相似性比对搜索工具”。为了有效地搜索大型数据库,BLASTP首先将查询序列打碎成一个个单词,查询序中所有可能(kěnéng)的单词是通过查询序列上滑动与单词等长的窗口来得到的。除了BLASTP,还有BLASTN和BLASTX等等…65精品PPTBLASTP搜索算法概述(ɡàishù)66精品PPTBLAST程序检测(jiǎncè)序列和数据库类型67精品PPT68精品PPT69精品PPT70精品PPT71精品PPT72精品PPT73精品PPT74精品PPT75精品PPT76精品PPT77精品PPT78精品PPT79精品PPT80精品PPT多序列(xùliè)比对定义:将两条以上可能有系统进化关系的序列进行比对的方法。复杂性:O(m1m2m3…mn),其中m1为第一条序列的长度,m2为第二条序列的长度,mn是最后一条序列的长度。n个序列进行比对时的算法复杂性则为这n个序列长度的乘积。显然,随着序列数量的增加,多序列比对的算法复杂性呈指数增长。意义:通过多个序列的相似性,可以了解它们在进化上亲缘(qīnyuán)关系的远近,推断分子起源和进化规律等。研究多个序列中的保守区域,可以猜测这些区域对结构和功能的重要性,从而进行分子设计。81精品PPT多序列(xùliè)比对工具CLUSTALW免费共享软件,基于动态规划算法对DNA或蛋白质序列作全局(quánjú)比对的多序列联配工具,结果生成具有生物学意义的多序列联配排列、并构建出表征比对序列间亲缘关系的系统树。下载:ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalW/ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalX/在线分析:/software/ClustalW.htmlhttp://www.ebi.ac.uk/clustalw/82精品PPTCLUSTALW算法执行(zhíxíng)的步骤Step1.简单的两序列比对和距离矩阵对所有序列做两序列比较,并对关系密切序列加权,两序列比对的得分用来构建距离矩阵;假如有n个序列,将要做n(n-1)/2次两序列比对(pairwisealignment)。Step2.用邻接法(Neighbor-Joining)计算系统树基于两序列比对得到的距离矩阵,用邻接法计算系统树。Step3.累进排列,依据系统树进行排列从关系最紧密的两个(liǎnɡɡè)序列开始,以系统树示出的关系为指导,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论