生物信息技术应用分子序列比对分析_第1页
生物信息技术应用分子序列比对分析_第2页
生物信息技术应用分子序列比对分析_第3页
生物信息技术应用分子序列比对分析_第4页
生物信息技术应用分子序列比对分析_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息技术应用分子序列比对分析分子序列比对分析sequence alignmentcontents序列数据库142成对序列比对与blast工具3多重序列比对与clustal工具序列比对的应用 序列数据库1基本类型: 初级数据库 收录、存储序列的基本数据资源,如核酸(蛋白质)序列、蛋白质空间结构及基因组信息。 次级数据库 在初级库资源基础上进行整理和标注,为特定专业领域服务的派生数据库,如表达序列标记、微列阵(基因芯片)、代谢和信号途径、遗传疾病数据库、免疫数据库等等。核酸序列数据库 以核苷酸顺序及注释信息为基本内容的数据库 世界三大核酸数据库1. genbank in usa ( http:

2、/ )2. embl in europe ( http:/www.ebi.ac.uk/embl )3. ddbj in japan ( http:/www.ddbj.nig.ac.jp )1998年,genbank, embl, ddbj共同成立国际核酸序列数据库协会(insdc, ),实现了全球范围内的核酸序列的同步更新和交换互享。蛋白质序列数据库 以蛋白质氨基酸顺序及注释信息为基本内容的数据库 世界主要蛋白质序列数据库(1) pir-psd (protein information resource-prote

3、in sequence database) founded by nbrf of usa (美国国家医学研究基金会) in 1984 ( / )1988年,日本国际蛋白质信息库(jipid)和德国慕尼黑蛋白质序列信息中心(mips)加入pir,合作成立了国际蛋白质信息中心(pir-international)。pir为较全面和权威注释的蛋白质数据库,具有非冗余、高质量注释和分类全面等特点。蛋白质序列数据库 世界主要蛋白质序列数据库(2) swissprot 1986年始创于瑞士日内瓦大学 ,现由瑞士生物信息学研究所(sib)和欧洲生物信息学研究所

4、(ebi)共同管理和维护。 ( http:/www.expasy.ch/sprot/ )swissprot数据库的特点:所有序列条目经过专家核实,可靠性与可信度高;注释详细,包括蛋白质的功能、序列及结构域的结构、翻译后修饰及其位点、突变体等蛋白质序列数据库 世界主要蛋白质序列数据库(3) trembl (translation of embl)建立于1996年,是从embl中的cdna序列翻译得到的蛋白质数据库。相似的还有genpept (genbank)数据库。trembl、genpept数据库的特点:序列条目来自核酸序列库的翻译,即时性强;但未经专家的注释、分析和核实,因而错误率和冗余度都

5、较高。蛋白质序列数据库 全球统一的蛋白质序列与功能数据库uniprot (universal protein resource, 通用蛋白质资源)( / )2002年,pir、sib、ebi合并了分属其下的pir-psd、swiss-prot和trembl数据库,形成了统一的蛋白质数据库uniprot截止2008年8月,uniprot共收录蛋白质序列 6,462,751个生物大分子结构数据库 以生物大分子各原子空间信息为基本内容的数据库给定序列的蛋白质如何折叠为稳定、具一定生物功能的三维结构?信息来源:对蛋白质晶体的x射线衍射、核磁共振及冷冻电镜分析主

6、要数据库:美国brookhaven国家实验室的pdb (protein data bank, 1971年成立) 联合msd-ebi、pdbj,于2003年组建全球共享的worldwide pdb (wwpdb) ( / )截止2008年8月,共收录蛋白质结构52684个research collaboratory for structural bioinformaticsgenbanknational center for biotechnology information (ncbi)national library of medicinenationa

7、l institutes of health/genbank/genbankgenbank/ home pagencbi 数据库检索系统 entrez entrez为基于万维网的ncbi数据库检索系统,通过输入关键词,运用布尔算符,可在ncbi所有数据库中进行文本搜索。 ncbi 数据库检索系统 entrez点击进入entrez主页entrez为基于万维网的ncbi数据库检索系统,通过输入关键词,运用布尔算符,可在ncbi所有数据库中进行文

8、本搜索。ncbi 数据库检索系统 entrezentrez 应用举例 检索主题:小鼠(mouse)转录因子(tf) -e2f mrna的核酸序列 检索过程:ncbi主页all databases在search对话框输入关键词”e2f”,点”go”输出检索结果。 entrez 应用举例 输出相关序列3784条,有待进一步筛选:限制物种来源(小鼠 mus musculus)、限制分子为mrna (排除未经实验验证的预测序列)。 entrez 应用举例 最后命中168条,从中选中nm_148952,以待详细分析。 直接进入序列文件,或点”reports”,可选”graphic”图形显示entrez

9、应用举例 nm_148952: 小鼠e2f转录因子-4。 序列文件格式:fasta 格式gi号登录号名称标题行序列行1. 标题行:文件的第一行,以大于号“”开始,不换行。内容可自定义,包括基本信息和简单注释;2. 序列行:文件第二行起至结束,中间不得有空格。fasta为最简单的序列(核酸或蛋白质)格式 序列文件格式: genbank 格式genbank 格式注释信息丰富全面,属文本文件,包括4部分:1. 头部头部:含名称、定义、识别码、物种来源等基本信息;2. 引文区引文区:含相关文献信息。3. 序列特征表序列特征表:含序列的编码区、非编码区、功能域、修饰或突变位点、翻译序列等众多注释信息4.

10、 序列区序列区:序列本身 头 区genbank 格式locus 行信息:1. locus name;2. sequence length;3. type of molecule: dna, mrna, cdna 4. taxonomy:pri primate(灵长类) 、rod rodent(啮齿类)、 mam - other mammalian (其它哺乳类)、vrt - other vertebrate(脊椎动物)、inv invertebrate sequences、pln - plant, fungal, and algal; bct - bacterial; vrl - viral,

11、 phg - bacteriophage, syn - synthetic; una - unannotated; est - expressed sequence tags 5. date: 上传或最近修改时间 genbank 格式引文区genbank 格式序列特征表区genbank 格式序列区/序列以“/”为结束标志 成对序列比对与blast工具序列比对 概念:通过比较两个或两个以上的核酸(蛋白质)序列,显示其中相似的结构区域。 成对序列比对 (pairwise sequence alignment) 多重序列比对 (multiple sequence alignment) 功能: (1)

12、 “相似”的序列 “相似”的三维结构; (2) “相似”的序列 “相似”的功能; (3) “相似”的序列 共同的进化起源2序列比对相关概念 相似性(similarity):序列间相同碱基或氨基酸残基所占比例的高低,是直观的数量关系,是序列间匹配程度的直接测度。 同源性(homology):核酸或蛋白质序列间具有共同起源,是依据进化事实的因果判断。 直系同源(orthology):经由物种分离事件形成的存在于不同物种中的结构及功能相似的序列 旁系同源(paralogy):经由基因复制而演化形成在同一生物体的一系列结构及功能相似的序列 序列的相似与序列的同源之间无必然的因果关系(相似并不一定同源)

13、,但存在一定的相关性(足够的相似性往往意味着同源关系的存在) 成对序列比对 用于两个核酸(蛋白质)序列间相似性比较,是生物信息学的基本技术,是多重比对的基础。 the process of lining up two sequences to achieve maximal levels of identity (or conservation, in the case of amino acid sequences) for the purpose of assessing the degree of similarity and the possibility of homology.dn

14、a、蛋白质序列比对query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 | | | | | | sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247rbp: 26 rvkenfdkarfsgtwyamakkdpeglflqdniva 59 + k+ + + gtw+ma + l + a glycodelin: 23 qtkqdlelpklagtwhsmama-tnnislmatlka 55 成对序列比

15、对 全局比对(global alignment) 比较结果包含所比较序列全长范围内所有位点的比对,适用于整体相似水平高的同源序列,在分子系统学中常用。 局部比对(local alignment) 仅对相似水平较高的 局部片段进行比对,多用于分子结构和功能域研究。seq aseq bseq aseq b成对序列比对举例视黄醇结合蛋白(rbp)与水解牛乳蛋白(-lactoglobulin)的比对结果完全相同区部分相似区identitysimilaritygap间隔成对序列比对 完全匹配(complete match) 部分匹配(partial match) 对于蛋白质序列而言,不同但性质(size

16、, charge, hydrophobicity, and polarity)相近的氨基酸常具有相似的功能。碱性aa、酸性aa、中性-非极性aa、极性aa 空位(gap) 源于序列片段的插入或缺失源于序列片段的插入或缺失( (insertion or deletioninsertion or deletion) ) 序列比对不同算法对于空位的处理方式有所不同,这直接序列比对不同算法对于空位的处理方式有所不同,这直接影响了算法的适用性影响了算法的适用性局域比对搜索工具 blast basic local alignment search tool基于blast算法(altschul et al,

17、 1990)的序列比对搜索工具,由ncbi研发并维护,因其快速可靠、功能全面且使用方便而被广泛运用。现行的blast算法为blast2。程序程序待测序列待测序列数据库类型数据库类型说明说明blastn核酸核酸在核酸库中比对核酸序列blastp蛋白蛋白在蛋白库中比对蛋白序列blastx核酸蛋白在蛋白库中比对核酸序列(用6种orf翻译)tblastn蛋白核酸在核酸库(用6种orf翻译)中比对蛋白序列tblastx核酸核酸在核酸库中比对核酸序列(均用6种orf翻译)blast 应用示例大肠杆菌乳糖操纵子(lactose operon)翻译的一个蛋白质序列:mkpvtlydvaeyagvsyqtvsr

18、vvnqashvsaktrekveaamaelnyipnrvaqqlagkqslligvatsslalhapsqivaaiksradqlgasvvvsmversgveackaavhnllaqrvsgliinyplddqdaiaveaactnvpalfldvsdqtpinsiifshedgtrlgvehlvalghqqiallagplssvsarlrlagwhkyltrnqiqpiaeregdwsamsgfqqtmqmlnegivptamlvandqmalgamraitesglrvgadisvvgyddtedsscyippsttikqdfrllgqtsvdrllqlsqgqavkgnqllpvs

19、lvkrkttlapntqtaspraladslmqlarqvsrlesgq/blast/blast.cgiblast 应用示例选择”protein blast”blast 应用示例步骤1:以fasta格式输入序列或序列号步骤2:选择合适的数据库ncbi翻译库(nr)refseq专家库swissprot欧洲专家库pat专利库pdb三维结构库步骤3:调整参数或选默认,点blastblast 应用示例 blast参数设置(蛋白质对位)过滤器去除待测序列中重复序列干扰词长替换矩阵空位罚分相似程度降低期望阈值e值= x| h0) 其服从极值分布函数

20、e-value p * n (设数据库中有n条库存序列,px时由随机偶然因素产生的对位结果的次数(e=1出现一次错误对位)。 根据需要设定e-value的阈值,默认值为10,更严格的搜索需设置更小的阈值,如1。 blast 应用示例相似度最高的检索序列(sbjct)与被测序列(query)的比对:结论:待测序列应是大肠杆菌乳糖操纵子阻遏蛋白,与库存蛋白有一个错配(ls)blast 应用示例相似度第二高的检索序列与被测序列的比对:42%完全匹配,60%相同或性质相近(+),无间隔。两序列间可能存在很高的同源性克氏肺炎杆菌 klebsiella pneumoniae乳糖操纵子阻遏蛋白blast 应

21、用示例使用过滤器的必要性agaggccagagagggtgtcggatcccctagacctgtagtctcggacggttgttagctgacgtgtaggtgctgggagataaacccggacgctctggaggaccagtcagtcagctcttagcccctgagccctctctcctcaattgtatctttcaacttaattttctactaaaatcttttaatactttgaaaaaaaaaaaaaaaaaaaaaaaaaa polya尾巴blast 应用示例使用过滤器的必要性用n替代a,过滤掉简单重复序列(low complexity) 多重序列比对与clustal工具

22、多重序列比对 (multiple sequence alignment) 就是把两条以上可能有系统进化关系的序列同时进行比对的方法。3多重比对工具 运用最多的多重序列比对方法 clustal算法 by feng &doolittle,1987 包括clustalw, clustalx 由于最终的多重排列依赖起始的序列对,最紧密相关的起始对位中的可能错误会随多重比对的进行而累积扩增,尤其在起始排列为远缘序列时,问题更明显。因此clustal算法较适合于近缘的序列比对。 现有多重比对算法都不能保证获得最佳比对结果,只是个近似解,往往需要人工分析并作出改进clustalw ebi在线多重比对

23、工具http:/www.ebi.ac.uk/tools/clustalw2/index.html参数设置区clustalw应用示例序列输入框步骤: 输入fasta格式的系列序列,可直接粘贴或上传文件 “run”clustalw应用示例步骤: 程序运行 显示结果输出表 output file align file guide tree file input fileclustalw应用示例可能的保守功能区系统进化树图(旁系同源)clustalw应用示例“*”号:完全相同的残基位点;“.”号:有较高相似性的残基位点(分子大小与极性基本一致);“.” 号: 相似性略低的残基位点(分子大小或极性基本一

24、致)红色: avfpmilw (小分子非极性氨基酸)兰色: de (酸性、负电氨基酸)紫色: rhk (碱性正点氨基酸)绿色: styhcngq (带羟基、氨基的极性氨基酸)clustalx 单机版clustal多重比对工具。 版本2.0 输入序列多用fasta格式clustalx应用示例步骤: 载入fasta序列 “do complete alignment” 指定输出文件,包括:1.“指导树”文件(后缀dnd)2.“对位输出”文件(后缀aln)比对结果: 用彩条和符号标出相似程度高的位点 对位结果可通过调整参数进行调整,以寻找最佳对位,帮助挖掘其中的生物学意义 序列比对的应用4 两两比对

25、在序列库中对某目标序列进行比较认定 用est或蛋白序列与核酸序列的比对,确定编码区,用于基因预测 多重比对 通过比对寻找、分析保守区域(conserved region): 发现新的基序(motif) 用于基因家族或蛋白质家族分析 建立分子系统进化树 通过与已知基因的比对,对未知基因结构进行预测 通过与结构已知的蛋白质的比对,对未知蛋白的三维结构进行预测多重序列比对寻找保守的序列基序球蛋白(globin)的多重比较 多重序列比对寻找保守的序列基序多重比对发现调控序列的保守结构如:转录启动子的保守区域-10, -35 sequence用blast 进行蛋白质家族分析和寻找保守域用blast 进行蛋白质家族分析和寻找保守域np_631700pfam (protein domain families database)用blast 进行蛋白质家族分析和寻找保守域结果解读: 该蛋白序列有一个保守域,属离子转运超家族(ion_trans_2 superfamily), 位置在60-110aa之间clustalx应用示例ning zheng et al.1999 genes & developmentrrxyd: dna recognition motifblast 练习要求: 用ncbi b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论