




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
回顾——数据库搜索互联网上存放大量免费的生物学数据库,并有基本的数据分析工具。NCBI包含生物大分子序列的各种最基本数据库。Entrez是NCBI的检索系统,提供关键词检索功能,可检索该网站所有的子数据库。参考序列数据库(RefSeq)包括核酸和蛋白质序列,是高质量的非冗余的数据库。GenBank数据格式(GBFF)包含序列大量的相关信息。1
/90回顾——双序列比对双序列比对有三种情况:匹配(得分为正),不匹配(蛋白质有保守性问题),空位(罚分)。空位罚分一般采用仿射罚分。双序列比对可以帮助我们发现两条序列一致性位点的百分比,或者保守性位点(蛋白质)的百分比。动态规划法比对两条序列可以获得数学上的最佳值(受打分矩阵影响)。可以进行全局(长度接近)和局部的比对。相似性是查找确认同源序列的最基本步骤。同源序列一般具有统计显著的相似性。2
/90课堂练习应用动态规划法算法,打分系统是否对双序列比对结果有影响?为什么?双序列比对的动态规划算法的时间复杂度?用点阵法确认一条rna序列是否具有发夹状结构。点阵法为什么要进行去噪处理,用什么方法?3
/90BLOSUM62模块氨基酸替换矩阵5
/90BLOSUM90PAM30低趋异度小鼠和大鼠RBPBLOSUM45PAM240高趋异度小鼠和细菌的lipocalinBLOSUM80PAM120BLOSUM62PAM180相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大,采用BLOSUM矩阵时,后面的数字越小。6
/90序列相似性搜索BLAST7一、BLAST简介与意义BLAST(BasicLocalAlignmentSearchTool)allowsrapidsequencecomparisonofaquerysequenceagainstadatabase.TheBLASTalgorithmisfast,accurate,andweb-accessible.9
/90网站上的简单说明TheBasicLocalAlignmentSearchTool(BLAST)findsregionsoflocalsimilaritybetweensequences.Theprogramcomparesnucleotideorproteinsequencestosequencedatabasesandcalculatesthestatisticalsignificanceofmatches.BLASTcanbeusedtoinferfunctionalandevolutionaryrelationshipsbetweensequencesaswellashelpidentifymembersofgenefamilies.(作业:翻译)10
/90BLAST的应用确定直系同源序列或旁系同源序列。如当一个新的细菌基因组被测序后,几千种蛋白质被确定,其中有多少蛋白质是同源的?从这里面预测出的基因中有多少是在GenBank中找不到显著性同源物的?确定哪些蛋白质和基因在特定的物种中出现。植物中是否也存在象RBP这样的脂质运载蛋白?鱼类中是否有反转录酶基因(如HIV-1pol基因)?确定一个DNA或者蛋白质序列身份。如通过芯片实验得到一个感兴趣的基因,那么就可以通过将这个DNA序列在一个蛋白质数据库中进行搜索,来寻找哪些蛋白质与该DNA编码的蛋白质具有相关性。11
/90数据库搜索相似序列的算法数据库搜索相似序列的基础是序列的相似性比对,就是将查询序列与数据库里面的序列逐一的两两比对分析。由于现在数据库信息量很大,这样简单重复的分析非常耗时。所以开发了一些近似的算法以提高速度,目前使用最广泛的序列对数据库相似性搜索的应用程序是FASTA和BLAST。BLAST算法跟之前讲的动态规划法算法有所不同,处理速度更快。13
/90BLAST14
/90二、BLAST算法“ThecentralideaoftheBLASTalgorithmistoconfineattentiontosegmentpairsthatcontainawordpairoflengthwwithascoreofatleastT.” Altschuletal.(1990)15
/90BLOSUM62模块氨基酸替换矩阵17
/90GTW6,5,11 22 GSW6,1,1118ATW0,5,11 16NTW0,5,11 16GTY6,5,2 13GNM 10DAW 10(T=11)Fig.4.13page101第一步GTW18
/90第二步扫描数据库,得到与编译列表匹配的记录,称为序列片段对(segmentpair)。它是两条给定序列中的一对子序列,它们的长度相等,且形成无空位的完全匹配。由于在序列片段对查找过程中不考虑空位字符,即不考虑插入和删除操作,所以运行速度非常快。KENFDKARFSGTWYAMAKKDPEG50RBP(query)MKGLDIQKVAGTWYSLAMAASD.44lactoglobulin(hit)19
/90搜索量T值21
/90最初是不考虑空位插入,但在生物的进化过程中碱基的插入或缺失突变是普遍存在的,因此比对结果通常会出现一些无空位但不连续的区域,若将有些高分分值片段对通过一些相似性较低且有空位的片段连接起来,就能组成一些更长的或许更有实际生物学意义的比对。基于上述思路,改进的BLAST算法允许空位出现,在多个HSP中,找一个最好的得分最高的片段对(maximalsegmentpair,MSP),以此为基础运行动态规划法将这一片段向序列的两端延伸,最终产生一个记分较高的最佳比对结果,且可能有空位插入。22
/90BLAST算法小结wordpairs——segmentpair——high-scoringpair,HSP——maximalsegmentpair,MSP——动态规划法。23
/90BLAST中一般用一个E值(Expectationvalue)来表示比对的显著性。E值【P值】表示如果数据库是随机序列,那么得到同样(得分)或者更好比对结果的序列的频率【概率】。这个值越小越好,说明越有生物学意义。25
/90E值与p值的关系26
/90进入BLAST界面
29
/90help30
/90选择BLAST程序程序 输入
数据库
blastn DNA 1 DNA
blastp protein 1 protein
blastx DNA 6 protein
tblastn protein 6 DNA
tblastx DNA 36 DNA31
/90文献
32
/90三、BLAST一般使用方法(1)得到并输入查询序列(2)选择BLAST程序(3)选择搜索的数据库(4)选项选择Thenclick“BLAST”33
/90输入序列可以输入序列的ACCN号,gi号或者FASTA格式的序列34
/90输入说明点红圈的“more”可以更多的说明35
/90输入格式说明1)FASTA格式“>”开始的单行加分行的序列字符串,中间不允许空行。>gi|129295|sp|P01013|OVAX_CHICKGENEXPROTEIN(OVALBUMIN-RELATED)QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS36
/9037
/902)BareSequenceQIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHPFLFLIKHNPTNTIVYFGRYWSP没有开始的带“>”的单行,只有序列数据,中间不允许空行。38
/902)BareSequence也可以是GBFF格式中的序列数据,即可以带数字和空格,但序列中间也不允许空行。1qikdllvssstdldttlvlvnaiyfkgmwktafnaedtrempfhvtkqeskpvqmmcmnn61sfnvatlpaekmkilelpfasgdlsmlvllpdevsdleriektinfekltewtnpntmek121rrvkvylpqmkieekynltsvlmalgmtdlfipsanltgissaeslkisqavhgafmels181edgiemagstgviedikhspeseqfradhpflflikhnptntivyfgrywsp39
/903)Identifiers包括检索号,带版本号的检索号以及gi号都是允许的,但是格式有要求,下面是几种错误的格式。ACCESSION
P01013AAA68881.1gi|129295ACCESSION不能出现版本号之前不能有空格“|”与数字之间不能有空格40
/90限定检索范围例如“From”中填“20”,“To”中填“200”,那么就是只比对序列中第20个字符到第200个字符之间的子序列(181个字符),如果序列长度小于200,则取到序列长度。41
/90三、BLAST一般使用方法(1)得到并输入查询序列(2)选择BLAST程序(3)选择搜索的数据库(4)选项选择Thenclick“BLAST”42
/90选择数据库(核酸比对)非冗余数据库43
/90选择数据库(蛋白比对)44
/90更多的限制45
/90选择程序46
/90表3.1Blastn可以比对短的近似精确的序列比对47
/90说明48
/9049
/90megablastMEGABLASTisthetoolofchoicetoidentifyanucleotidesequence。寻找和被比对序列高度相似的序列,其他的程序discontiguous-megablast和blastn也能实现这个目标,但是MEGABLAST是专门针对高度相似序列而设计的,是最有效的查找和原序列相同序列的工具。50
/90discontiguousmegablastDiscontiguousMEGABLASTisbetteratfindingnucleotidesequencessimilar,butnotidentical,toyournucleotidequery。Discontiguousmegablast则更适合发现和被查询序列相似而不是相同的序列。51
/90蛋白搜索的程序52
/90三、BLAST一般使用方法(1)得到并输入查询序列(2)选择BLAST程序(3)选择搜索的数据库(4)选项选择Thenclick“BLAST”53
/90选择算法参数(核酸比对)54
/90选择算法参数(蛋白比对)55
/90一般先从默认的开始,根据结果或者特殊的需要调整参数。56
/90输出结果57
/9058
/90taxonomyreportsummarizesspecieswithmatches59
/90结果60
/90图示结果61
/90列表结果62
/90比对结果得分有两个:274是原始分,也就是根据打分矩阵计算得到的分数,248是比特分,是归一化的分数,这样可以忽略打分矩阵和的影响。63
/90目标序列信息64
/90开始点:一个分子序列RBP(任何物种的DNA或蛋白质)Blastp:有哪些其他蛋白与RBP相关Blastn:人类RBPDNA的3’非翻译区是否与RBP的直系同源物或者旁系同源物的3’非翻译区具有同源性?Blastx:一个脂质运载蛋白的EST与哪些已经蛋白的亲缘关系最近?tblastx:人类RBPDNA是否与一个被预测由一个像细菌EST这样的DNA文库中的某个基因编码的蛋白质相匹配?tblastn:一个基因组DNA数据库中是否有一个RBP的直系同源物?搜索策略与问题实例可改变的搜索参数将搜索限制在一个物种(如人类)或者一个类(如细菌);更改打分矩阵也很得到很远的同源关系;更改空位罚分来帮助找到同源物或者蛋白质中含有的在其他蛋白质中也出现的短的区域。目标:BLAST搜索可以获得的结果找到与RBP蛋白明确相关的其他蛋白质或者基因;找到与感兴趣的蛋白质有较远亲缘关系的其他蛋白质;发现一个与输入基因同源的“新基因”;找到在感兴趣的蛋白质中含有的并在其他蛋白质中也出现的结构域;通过多序列比对或者种系统进化树来显示蛋白质家族的关系。BLAST搜索策略图65
/90四、BLAST搜索实例Lipocalin蛋白家族成员NP_006735作为查询序列进行BLAST,可获得部分Lipocalin家族蛋白。66
/9067
/90序列间距离68
/90多序列比对69
/90分类学总结70
/90同源性与相似度两条相似度很差的序列是同源序列71
/9072
/90关于两个蛋白(或DNA)是否同源1)期望值是否显著?2)两个蛋白是否具有相似的大小?3)这两个蛋白质是否具有共同的模体或者信号序列?4)这两个蛋白质是否一个合理的多序列比对的一部分?5)这两个蛋白质是否共有一个相似的生物学功能?就像所有的载脂蛋白一样,这两个蛋白都是小的、亲水性的、含丰富的分泌分子。6)这两个蛋白质是否具有相似的三维结构?载脂蛋白共享一个显著的非常保守的结构。7)如果得到一个远缘关系的序列,用该远缘关系的序列再做一次BLASTP搜索,一般可获得更多的该蛋白家族的成员。73
/90用NP_002562.2进行BLASTP可获得更多lipocalin家族蛋白质。74
/90Lipocalin家族retinol-bindingproteinodorant-bindingproteinapolipoproteinD75
/90HIV-1的pol蛋白(NP_057849),这是一个多结构域的蛋白,包含有多个不同的蛋白酶、反转录酶和整合酶结构域。76
/90分析一个人类EST使用HIV-1pol蛋白对不同数据库进行查询Blastpnr(细菌蛋白质)找到很多HIVpol的变体找到几十个部分匹配找到更多的细菌蛋白的匹配很多显著性匹配几百个显著性匹配Blastpnr(所有蛋白质)tBlastnnr(细菌基因组)Blastpnr(人类蛋白质)tBlastnnr(人类基因组)tBlastxnr(病毒基因组)其他病毒以HIV-1pol蛋白开始的BLAST搜索总图,通常为研究一个特定基因、蛋白或者物种,可以进行一系列的BLAST搜索。搜索返回的数据库匹配结果的数量可以从一个到上千个,这完全取决于查询序列、数据库和搜索参数本身的特点。77
/9078
/90在非冗余数据库中搜索,可看到返回大量的匹配结果,全部具有极低的期望值。79
/90该蛋白具有丰富的结构域。80
/90HIV-1pol蛋白与人类蛋白的同源性搜索。81
/9082
/90与HIV-1pol同源的人类蛋白。很多匹配项跨越病毒pol的全长,83
/9084
/9085
/90细菌bacteria要想对pol蛋白在整个生命树中的分布了解得更多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度黑龙江省高校教师资格证之高等教育心理学通关提分题库(考点梳理)
- 2024年图书管理员考试复习建议试题及答案
- 商业信用与企业管理
- 文化素质测试试卷
- (高清版)DB12∕T 543-2018 南水北调工程监理管理规范
- 2025年同位素分离装置合作协议书
- 2025年媒体监测项目服务协议
- 服务员劳动合同(2025年版)
- 就业三方协议(2025年版)
- 2025年公司结款协议模板
- 部编版语文教材培训讲座-口语交际
- 二年级数学有余数的除法(2位数除以1位数)竞赛试题练习题
- 2025年法理学接本试题及答案
- 2025年工程力学笔试试题及答案
- 2025年安庆医药高等专科学校单招职业技能考试题库标准卷
- 2025-2030年中国工业废水处理产业十三五发展规划及战略规划分析报告
- 《抑郁症治疗新进展》课件
- 《天文学导论课件》
- 北京自主招生数学试卷
- 2024年特许权使用协议3篇
- 湖南固体废弃物综合利用和资源循环利用项目可行性研究报告
评论
0/150
提交评论