版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
序列比对基础与BLAST入门生物信息学2021/5/91序列比对基础与BLAST入门教材Page
68,第五章
本次课重点讲BLAST的使用下次理论课对本次课的内容进行总结、补充和深化2021/5/92上篇:序列比对基础2021/5/93
Yourtruevaluedependsentirelyonwhatyouarecomparedwith.—BobWells2021/5/94问题什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序2021/5/95一、序列比对(alignment)的概念、目的比对(联配)将两条或多条(核苷酸或氨基酸)序列排列在一起,通过一定的算法找出序列之间最大相似性匹配的过程。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC
||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
2021/5/96一、序列比对(alignment)的概念、目的序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。多序列比对还可以确定一群分子之间共享的结构域(domain)或模体(motif)。序列比对基于一种生物学推断(进化论):相似性同源性相似的结构和功能(问题:相似性等于同源性吗?)2021/5/97相似性与同源性的关系相似性(similarity)是指两个序列之间的相关程度。比如说,A序列和B序列的相似性是85%。这是个量化的关系。同源性(homology):是指两个序列具有共同的祖先,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为85%则是不科学的。2021/5/98相似性与同源性的关系
注意:序列相似不一定同源(相似可能是偶然的)序列不相似不一定不同源(高级结构相似)
例如:肌红蛋白与β球蛋白是同源蛋白,两者的三维结构非常相似,但氨基酸序列的相似性不到40%。2021/5/99肌红蛋白β球蛋白2021/5/910相似性与同源性的关系总结:一般来说序列间的相似性越高的话,它们是同源序列的可能性就越大,所以经常可以通过序列的相似性来推测序列是否同源(统计学推断)。根据经验法则,序列长度大于100(bp或aa)时,蛋白质序列相似性程度需大于25%,核酸序列相似性程度需大于70%,才能判断同源性。2021/5/911同源序列的两种形式直系同源(Orthologs):在物种形成、分化过程中,由共同祖先基因衍生而来的同源基因(或蛋白)。直系同源物存在于不同物种间,如:人和鼠的肌红蛋白。旁系同源(Paralogs):在同一物种内,由于基因复制而产生的同源基因(或蛋白)。如:人类的α1球蛋白和α2球蛋白,人类的α球蛋白和β球蛋白。2021/5/912旁系同源直系同源2021/5/913同源序列的两种形式人α球蛋白与人β球蛋白?人α球蛋白与鼠α球蛋白?人α球蛋白与鼠β球蛋白?同源序列的两种形式代表了两个不同的进化事件。用于分子进化分析的序列必须是直系同源的,才能真实反映进化过程。2021/5/914Agroupofmyoglobinorthologs(直系同源)2021/5/915二、序列比对的形式双序列比对(pairwisealignment)简单的双序列比对序列对库的双序列比对多重序列的比对(Multiplesequencealignment)
3条或3条以上的序列进行比对。主要用于构建系统发育树和蛋白质结构域研究等。BLAST2021/5/916三、序列比对的基本原理提出比对要考虑的问题专业算法(构建打分矩阵)数学编程计算机搜索数据库计算机给出比对结果(比对分数、显著性检验)打分2021/5/917序列比对要考虑的问题11、如何排列比较?(寻求序列之间最大相似性匹配!)
我们不能够简单的将两个序列头尾对应的排比,而是对各种可能的排比方式都进行比较以找出最佳的比对结果。ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
2021/5/918序列比对要考虑的问题22、是否存在插入和缺失?(gap,空位罚分的问题教材Page71)连字号(-)标记插入或缺失的事件。AT--GCAT--GCATGC--ATGCATATATATATATATATATGCATGCATGCATGCATGC|||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--CGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
2021/5/919序列比对要考虑的问题33、是否存在氨基酸的保守性替换?(相似性打分的问题)
通常在某些位点上有一些氨基酸被另外一些理化特性相似的氨基酸所代替,这种突变可称为保守性替换。保守性替换一般不会影响蛋白质的结构和功能。
与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残基是否相同,还要考虑残基是否相似以及相似的不同程度。
LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
||.|:|||||:
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸2.碱性氨基酸2021/5/920氨基酸分类glycine 甘氨酸 Gly Galanine 丙氨酸 Ala Avaline 缬氨酸 Val Vleucine 亮氨酸 Leu Lisoleucine 异亮氨酸
Ile Iphenylalanine 苯丙氨酸 Phe Fproline 脯氨酸 Pro Ptryptophan 色氨酸 Trp Wserine 丝氨酸 Ser Styrosine 酪氨酸 Tyr Ycysteine 半胱氨酸 Cys Cmethionine 甲硫氨酸 Met Masparagine 天冬酰氨 AsnNglutarmine 谷氨酰胺 Gln Qthreonine 苏氨酸 Thr Tasparticacid 天冬氨酸 Asp Dglutarmicacid 谷氨酸 Glu Earginine 精氨酸 Arg Rhistidine 组氨酸 His Hlysine 赖氨酸 Lys K非极性疏水性氨基酸极性中性氨基酸酸性氨基酸碱性氨基酸(芳香族氨基酸F、W、Y)(含硫氨基酸C、M)2021/5/921序列比对要考虑的问题44、全局比对还是局部比对?全局比对(globalalignment)对两条核苷酸或氨基酸序列的全长进行比对。局部比对(localalignment)对两条核苷酸或氨基酸序列的一部分进行比对。TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRVQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTVLPKLAGTWHSMAVNKYLGTWYEIE局部比对通常比全局比对更有意义因为它能发现序列中的保守区域2021/5/922序列比对要考虑的问题综上所述,序列比对并非简单的事情,比对之前需考虑诸多问题。这些问题的解决依赖于数学及计算机科学的帮助。2021/5/923三、序列比对的基本原理提出比对要考虑的问题专业算法(构建打分矩阵)数学编程计算机搜索数据库计算机给出比对结果(比对分数、显著性检验)打分2021/5/924问题什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序2021/5/925四、序列比对(alignment)的应用
序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。评价实验结果,为实验提供新思路指导进一步的实验设计(鉴定一条序列的身份,预测其功能)寻找和鉴定新基因的重要手段蛋白质结构预测和分子设计的基础(同源建模)研究生物进化和种属分类的基本方法(系统发生分析)比较基因组分析2021/5/926问题什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序2021/5/927五、局部序列比对的工具FASTABLAST1.简单的双序列比对2.序列对库的双序列比对
今天你BLAST了吗?
一般认为,BLAST运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感。2021/5/928下篇:BLAST入门2021/5/929NCBI-BLASTBasicLocalAlignmentSearchTool
基本局部比对搜索工具(1990)
TheBLASTalgorithmisfast,accurate,andweb-accessible.(教材Page74)2021/5/930一、BLAST搜索的基本步骤1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数2021/5/931NCBI-Blast2021/5/932PopularResources(常用资源)2021/5/9332021/5/934Step1:选择一个BLAST搜索类型2021/5/935Step1:选择一个BLAST搜索类型2021/5/936Step1:选择一个BLAST搜索类型Nucleotide
BLAST(blastn)1、确认一条DNA序列的身份
2、寻找与查询序列相似的DNA序列1、2021/5/937Step1:选择一个BLAST搜索类型Protein
BLAST(blastp)1、确认一条蛋白质序列的身份
2、寻找与查询序列相似的蛋白质序列2、2021/5/938Step1:选择一个BLAST搜索类型Translatednucleotidequeryvs.proteindatabase
(blastx)查询一条DNA序列是否可能编码某种蛋白质3、2021/5/939Step1:选择一个BLAST搜索类型Proteinqueryvs.translatednucleotidedatabase(tblastn)查询一个DNA数据库中是否存在某些DNA序列,它们编码与查询序列相同或相似的蛋白。4、2021/5/940Step1:选择一个BLAST搜索类型Translatednucleotidequeryvs.translatednucleotidedatabase
(tblastx)查询一个DNA数据库中是否存在某些DNA序列,它们与查询序列编码相同或相似的蛋白。5、2021/5/941Step1:选择一个BLAST搜索类型2021/5/942Step1:选择一个BLAST搜索类型Aligntwosequences
(bl2seq)简单的两条序列的比对6、2021/5/943Step1:选择一个BLAST搜索类型blastn
(Nucleotide-nucleotideBLAST)blastp
(Protein-proteinBLAST)blastx
(Translatedqueryvs.proteindatabase)tblastn
(Proteinqueryvs.translateddatabase)tblastx
(Translatedqueryvs.translateddatabase)bl2seq
(Aligntwosequences)
2021/5/944Step1:选择一个BLAST搜索类型Program
Input
Database
1blastn
DNA
DNA
1blastp protein
protein
6blastx DNA
protein
6tblastn protein
DNA
36tblastx DNA
DNA2021/5/945DNA可能编码六种蛋白质5’CATCAA…5’ATCAAC…5’TCAACT…
5’GTGGGT…5’TGGGTA…5’GGGTAG…5’CATCAACTACAA...AAACCTACCCAC3’3’GTAGTTGATGTT...TTTGGATGGGTG5’2021/5/946Step1:选择一个BLAST搜索类型
问题:为什么要将DNA序列翻译成蛋白质序列后进行比对?
蛋白质序列比对能提供更多的信息,较之DNA序列比对,更能发现序列间的同源关系。1.
密码子的简并性决定了蛋白质序列比对更符合实际情况;2.
氨基酸的打分系统比碱基的复杂,因此其比对更为灵敏;3.
蛋白质比DNA进化慢,也就是说DNA序列变化较快,蛋白质序列变化较慢,可用于远源关系序列的比较研究;4.
蛋白质序列的长度比相应的DNA序列要短许多,蛋白质序列数据库比DNA序列数据库小得多,这样随机序列的干扰就少。2021/5/9472021/5/948Step1:选择一个BLAST搜索类型2021/5/9491、EnterQuerySequence2、ChooseSearchSet3、ProgramSelection2021/5/950一、BLAST搜索的基本步骤1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数2021/5/9512021/5/952Step2:输入你要查询的序列在搜索框中复制粘贴一条DNA或蛋白质序列复制粘贴一条FASTA格式的DNA或蛋白质序列输入查询序列的索引号(accessionnumber)或gi号
注意:当你输入的是DNA序列时,BLAST将自动对两条互补链都进行搜索。2021/5/953Step2:输入你要查询的序列Thesequenceyougivetoblastpisthequerysequence.Sequencessimilartothequerythatblastpreturnsarethehitsormatches.Thedatabaseyousearchisthetarget
database.2021/5/954复制粘贴一条序列2021/5/955复制粘贴一条FASTA格式序列2021/5/956直接输入查询序列的索引号2021/5/957Querysubrange:From_To_设置查询序列的比对范围2021/5/958Organism限定物种2021/5/959EntrezQuery使用entrez的限定词限制搜索范围2021/5/960一、BLAST搜索的基本步骤1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数(搜索参数、格式参数)2021/5/961Step2:选择要搜索的数据库(proteinblast)Choosedatabase(默认为:nr)2021/5/962BLAST蛋白质序列数据库(6种)2021/5/963BLAST蛋白质序列数据库(6种)nr:非冗余GenBank编码序列+RefSeq+PDB+SwissProt+PIR+PRFrefseq:NCBI的蛋白质参考序列swissprot:swissprot最近发布的蛋白质序列pat:专利序列pdb:pdb的蛋白质三维结构数据库env_nr:非冗余的环境采样编码序列2021/5/964Step2:选择要搜索的数据库(nucleotideblast)通常选择Others(nretc.)默认2021/5/965BLAST核酸序列数据库(14种)nr:所有GenBank+EMBL+DDBJ+PDBrefseq_mrna:NCBI的mRNA参考序列。refseq_genomic:NCBI的基因组参考序列。est:GenBank+EMBL+DDBJ的EST序列。est_others:人类和小鼠以外的EST序列。gss:基因组调查序列。2021/5/966BLAST
核酸序列数据库(14种)Htgs:高通量基因组测序序列。pat:核酸专利序列。Pdb:来自pdb的蛋白质三维结构序列数据alu_repeats:Alu重复序列。dbsts:
GenBank+EMBL+DDBJ+PDB的STS序列。chromosome:完整的基因组和染色体序列。wgs:WholeGenomeShotgun,全基因组鸟枪法测序片段。env_nt:环境采样序列。2021/5/967一、BLAST搜索的基本步骤1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库选择一个BLAST程序(nucleotide/proteinblast)4.选择可选参数(搜索参数、格式参数)2021/5/968选择一个BLAST程序(nucleotideblast)通常选择blastn(默认为:megablast)2021/5/969选择一个BLAST程序(proteinblast)默认为:blastp2021/5/970一、BLAST搜索的基本步骤1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数2021/5/971Step4:选择可选的搜索参数Algorithmparameters算法参数2021/5/972GeneralParameters设置一般参数ScoringParameters设置打分参数Filters设置过滤参数1、2、3、2021/5/973Step4:选择可选的搜索参数1、Maxtargetsequences(默认为:100)2021/5/974Step4:选择可选的搜索参数2、Shortqueries(默认为:√)2021/5/975Step4:选择可选的搜索参数3、Expect
期望值(默认为:10)2021/5/976问题:期望值(E值)是什么意思?E值:是BLAST的一个非常重要的统计学指标。理解E值的前提:
1、BLAST比对结果中,得分高、非常相似的两条序列有可能是随机造成的,无生物学意义(不同源),但被BLAST报告出来。反之,得分低、不相似的两条序列也可能不是随机的,有生物学意义(同源),但被BLAST漏报。
2、这样的话,BLAST输出的比对结果就会出现两种疏漏,假阳性(上述前一种情况)和假阴性(上述后一种情况)。且两种情况此消彼涨。即,当我们增加BLAST输出的搜索结果时,假阴性会减少(但假阳性增加);反之亦然。2021/5/977问题:期望值(E值)是什么意思?理解E值的前提:
3、显然,BLAST在输出比对的结果时,需要在减少假阳性(尽可能减少随机比对的输出)与减少假阴性(尽可能不要漏报)之间寻找一个平衡。
4、E值正是用来解决这一平衡的统计学指标。2021/5/978问题:期望值(E值)是什么意思?E值的定义:一次搜索中(特定的数据库、打分矩阵及相关参数),期望发生的比对得分等于或大于某一分数的随机比对数目。E=10,我们期望在BLAST搜索结果中,比对得分等于或大于某一分数,属于随机匹配的比对数目为10个。E=1……E=0.01……E值越小,我们期望的,属于随机匹配的比对数目就会越少。2021/5/979问题:期望值(E值)是什么意思?
总结:从一次BLAST实践来讲,如果我们将E值调低,则BLAST返回的搜索结果就会变少(假阳性减少,但假阴性增加);反之,将E值调高,则返回的搜索结果就会增多(假阴性减少,但假阳性增加)。BLAST默认E值为10,也有文献建议通常情况下将E值设为1是一个比较好的平衡点。
(我们将在BLAST结果判读中继续讨论E值的含义)2021/5/980Step4:选择可选的搜索参数4、Wordsize字段长度blastp默认为:3blastn默认为:112021/5/9815、Matrix打分矩阵:blastp
提供5种打分矩阵PAM30、PAM70、BLOSUM45、BLOSUM62、BLOSUM80(默认为BLOSUM62)blastn无此选项2021/5/982Step4:选择可选的搜索参数问题:为什么蛋白质序列比对需要我们选择打分矩阵?(参见教材Page70)当我们选择不同的打分矩阵时,BLAST的搜索结果会发生什么样的变化?(BLAST实习)2021/5/9836、GapCosts空位罚分blastp默认为:
空位开放11,空位延伸12021/5/984Step4:选择可选的搜索参数问题:为什么要在序列比对时引入空位,同时又要罚分?(教材Page71)
基因在进化过程中往往会产生碱基的插入或缺失。这样,在进行序列比对时,为了更好地反映序列的相似性,也就必须考虑引入空位并进行罚分以控制空位插入的合理性。2021/5/9857、过滤选项blastp过滤低复杂度区域blastn过滤低复杂度区域及重复片段2021/5/986问题:为什么要设置过滤选项?低复杂度区域、
重复片段是什么意思?低复杂度区域(LowComplexity
Regions,LCR):是核酸和蛋白质序列中具有某种组成偏好的区域。如DNA序列中含大量aaaaaaaaaa、tttttttttt、或atatatatat的区域,蛋白质序列中富含某一种氨基酸如脯氨酸(PPPPP)的区域。低复杂度区域很常见,对序列比对会产生不良影响。因为低复杂度区域的碱基或氨基酸残基对评分贡献正分,使配对的显著性评分过高,从而检出大量的假阳性结果。低复杂度区域也可能是信号序列、疏水骨架、跨膜结构域等有用信息,因此,有时也应考虑关掉过滤功能。2021/5/987重复片段(Repeatsegment):是DNA序列中某些碱基组成在序列中重复出现的片段。如人类的Alu重复序列。重复片段在数据库序列中也很普遍,对序列比对的影响与低复杂度区域相似。GenBank专门设立了alu_repeats数据库,可用于判断查询序列中是否含有Alu重复序列。blastn提供了人类、啮齿类动物等10种生物的重复序列过滤功能。注意:BLAST的过滤功能过滤的是查询序列而不是数据库。问题:为什么要设置过滤选项?低复杂度区域、
重复片段是什么意思?2021/5/988Step4:选择可选的搜索参数Filter(Lowcomplexityregions,Repeats)过滤选项。Blastn过滤低复杂度区域及重复片段;
blastp过滤低复杂度区域。Expect
期望值。默认为10。Matrix打分矩阵。blastp
提供5种打分矩阵,默认为
BLOSUM62;
blastn无此选项。2021/5/989一、BLAST搜索的基本步骤1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数Thenclick“BLAST”2021/5/990二、BLAST搜索结果及其判读
我们以一个蛋白质的blastp查询为例:
1.选择blastp搜索类型2.输入一个查询号NP_0067353.默认选择nr数据库4.默认可选参数2021/5/9912021/5/9922021/5/9931、进入新页面:FormattingRequest2021/5/9942、进入新页面:FormattingResults该次查询任务的RID号自动搜索保守结构域2021/5/995ConservedDomains(保守结构域)2021/5/9962、进入新页面:FormattingResults该次查询任务的RID号自动搜索保守结构域2021/5/9973、BLAST搜索结果页面1、顶部:描述项2、体部1:比对结果彩图3、体部2:比对结果列表4、体部3:两两比对结果2021/5/9984、BLAST搜索结果页面(顶部:描述项)1.搜索类型和程序版本2.数据库及其大小2021/5/9995、BLAST搜索结果页面(体部1:比对结果彩图)2021/5/91006、BLAST搜索结果页面(体部2:比对结果列表)2021/5/9101
比对信息(从左往右阅读):
1、序列的标识号及简单的描述(序列名称)。
2、Score(Bits)比特分,由原始分数转化而来,便于比较。
3、EValue,E值。在本次搜索中(特定的数据库、打分矩阵及相关参数),比对得分等于或大于414分的随机比对数目为1×10-114(1e-114)。4、相关链接。U表示UniGene,G表示Gene。2021/5/9102E值与P值的关系E
P
10 0.999954605 0.993262052 0.864664721 0.632120560.1 0.09516258(about0.1)0.05 0.04877058(about0.05)0.001 0.00099950(about0.001)0.0001 0.0001000当E值≤0.1时,E≈P。2021/5/9103
EValue(E值)与比对结果的判读:在本次搜索中,比对得分等于或大于414分的随机比对数目为1×10-114(1e-114)。在本次搜索中,比对得分等于或大于414分属于随机比对的概率为1×10-114(1e-114)。该序列与查询序列属于随机匹配的概率为1×10-114。该序列与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基础英文课程设计
- 圣诞主题音乐课程设计
- 古代文论课程设计
- 功的微课程设计方案
- 9线条课程设计理念
- 五年级数学(小数乘除法)计算题专项练习及答案
- 一年级数学计算题专项练习1000题集锦
- 2024公司与个人租车协议范本
- 标准厂房租赁协议书模板
- 最高额抵押担保借款合同文本
- 患者病例汇报PPT模板
- 食材来源方案
- 因式分解-公式法1(平方差公式)
- 隧道爆破震动测试报告
- 分布式光伏发电项目施工方案
- 食堂日常加工流程及标准
- 辛寨小学教职工篮球定点投篮比赛记录表
- 第2章 CR400AF动车组司机室设备操作《复兴号动车组司机操作及整备》教学课件
- 逻辑与批判性思维第一讲课件
- 燃气埋地钢管外防腐层检测及修复
- 软件项目安装部署手册
评论
0/150
提交评论