核酸数据库的应用_第1页
核酸数据库的应用_第2页
核酸数据库的应用_第3页
核酸数据库的应用_第4页
核酸数据库的应用_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1核酸数据库的应用核酸数据库的应用第1页/共79页第一节第一节 常用的核酸数据库常用的核酸数据库 一、一、GenBankGenBankNCBINCBI核酸序列数据库核酸序列数据库1 1、 GenBankGenBank核酸序列数据库的检索核酸序列数据库的检索GenBank数据库的数据库的简单查询简单查询是是在在NCBI首页上的首页上的Search中中直接查询直接查询检索窗口第2页/共79页利用著者进行查询时,输入格式应为作者利用著者进行查询时,输入格式应为作者的姓加上名的缩写。如:的姓加上名的缩写。如: ThomasThomas点击点击第3页/共79页点击点击第4页/共79页第5页/共79

2、页也可以用序列登记号(也可以用序列登记号(accession numberaccession number)进)进行一般查询,如:行一般查询,如:AF477385AF477385点击点击第6页/共79页第7页/共79页 高级检索是通过高级检索是通过NCBINCBI的的EntrezEntrez检索系统检索系统实实现。现。EntrezEntrez是是NCBINCBI的数据库检索查询系统的的数据库检索查询系统的核心。核心。 利用利用EntrezEntrez系统,可以检索系统,可以检索GenBankGenBank和其和其他数据库的蛋白质序列数据、基因组图谱数据、他数据库的蛋白质序列数据、基因组图谱数据

3、、来自分子模型数据库(来自分子模型数据库(MMDBMMDB)的蛋白质三维)的蛋白质三维结构数据、种群序列数据集,以及有结构数据、种群序列数据集,以及有PubmedPubmed获得获得MedlineMedline的生物医学文献数据。的生物医学文献数据。第8页/共79页第9页/共79页EntrezEntrez提供方便实用的检索服务,所有操提供方便实用的检索服务,所有操作都可以在网络浏览器上完成。利用作都可以在网络浏览器上完成。利用EntrezEntrez界面提供的限制条件(界面提供的限制条件(Limit键)、键)、索引(索引(Index键)、检索历史(键)、检索历史(History键键)和剪贴板(

4、)和剪贴板(Clipboard键)等功能实现复键)等功能实现复杂的检索查询工作。杂的检索查询工作。 第10页/共79页 进入进入NCBINCBI的的EntrezEntrez主页,用户可以选择组主页,用户可以选择组成成EntrezEntrez系统的系统的五个数据库五个数据库之一作为查询起之一作为查询起点。如以点。如以NucleotideNucleotide开始。选择开始。选择NucleotideNucleotide即进入即进入Entrez Nucleotide searchEntrez Nucleotide search界面,点界面,点击击LimitsLimits进入限定检索界面。如上图。完成进

5、入限定检索界面。如上图。完成各各限制条件限制条件后,点击后,点击GoGo即进行检索。即进行检索。第11页/共79页第12页/共79页2、NCBI中的中的GenBank数据的格式数据的格式LOCUS DEFINITION 序列名称序列名称 基因定义基因定义ACCESSION 序列编号序列编号 序列接受号或登记号序列接受号或登记号VERSION 序列版本号序列版本号DATE 序列提交、创建和更新日期序列提交、创建和更新日期DISCRIPTION 序列简要描述序列简要描述KEYWORDS 与序列相关的关键词与序列相关的关键词SOURCE 序列的来源种属序列的来源种属ORGANISM 序列的来源分类序

6、列的来源分类REFERENCE 参考文献编号或递交序列信息参考文献编号或递交序列信息REMARK 参考文献评述参考文献评述MEDLINE 参考文献交叉索引或递交序列在参考文献交叉索引或递交序列在Medline 中的存取号中的存取号TITLEAUTHER 参考文献作者或递交序列作者参考文献作者或递交序列作者TITLE 参考文献题目参考文献题目JOURNAL 参考文献出处参考文献出处FEATURES 序列特征表起始序列特征表起始 COMMENT 序列注释信息序列注释信息BASE COUNT 序列起始标序列起始标志ORIGEN 序列数据序列数据 第13页/共79页第14页/共79页 LOCUS TG

7、29 EDGP 839bp DNA linear INV18-APR-1998DEFINITIONToxoplasma gondii DNA encodinga29kD GRA.ACCESSION Y13863VERSION Y13863.1GI:2231107KEYWORDS 29kDa protein;dense granule protein;p29gene.SOURCE Toxoplasma gondiiORGANISM ToxoplasmagondiiEukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida;Sarcocystidae;To

8、xoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,et al.TITLEGRA7,JOURNAL Mol.Biochem.Parasitol.91(2),251-262(1998)PUBMED 9566518 1:Y13863.ReportsToxoplasmagondii.gi:2231107第15页/共79页REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(16-JUN-997)Fi

9、scherH.G.,InstituteforMedicalMicrobiology and Virology,Heinrich-Heine-UniversitaetDuesseldorf,Universitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURES Location/QualifiersCDSCDS 79.78979.789第16页/共79页n检索大分子生物学数据检索大分子生物学数据n获取获取GenBankGenBank, EMBL, EMBL等数据库的核酸序列;等数据库的核酸序列;n获取获取Swiss-Swiss-prot,PIR,PRF

10、,PDBprot,PIR,PRF,PDB等蛋白质序等蛋白质序列;从核酸序列翻译到蛋白质的序列;列;从核酸序列翻译到蛋白质的序列;n获取基因和染色体图谱;蛋白质三维结构获取基因和染色体图谱;蛋白质三维结构数据及大分子模式(数据及大分子模式(MMDBMMDB)等其他生物信)等其他生物信息数据库检索。息数据库检索。nPubMedPubMed书目文献数据。书目文献数据。第17页/共79页EntrezEntrez生命科学搜索引擎生命科学搜索引擎第18页/共79页第19页/共79页检索字段限制分子类型选择基因位置限定序列片段限定数据更新日期限定功能栏核酸序列检索核酸序列检索第20页/共79页序列存取号基因

11、定义数据库标识符第21页/共79页代码物种来源参考文献特性专业评论第22页/共79页碱基数原序列复制后,可到BLAST中进行相似性对比第23页/共79页二、二、EMBL欧洲核酸数据库欧洲核酸数据库EMBL数据库共有数据库共有Genomes、Simple sequence retrieval 和和SRS(序列提取系统)(序列提取系统)三种检索方式。三种检索方式。1、Genomes 提供已完成测序的基因组数据,提供已完成测序的基因组数据,用户可以通过生物分类名称以分层点击浏览用户可以通过生物分类名称以分层点击浏览的方式获取相关信息,通过相关链接,用户的方式获取相关信息,通过相关链接,用户可获得大量

12、已完成测序的基因组数据。可获得大量已完成测序的基因组数据。第24页/共79页网址为:网址为:http:/www.ebi.ac.uk/genomes第25页/共79页2、Simple sequence retrieval:直接输入序直接输入序列接受号检索核酸序列。列接受号检索核酸序列。网址网址:http:/www.ebi.ac.uk/cgi-bin/emblfetch第26页/共79页3、SRS(序列提取系统)(序列提取系统):是目前生物信是目前生物信息界应用最为广泛的数据库系统。息界应用最为广泛的数据库系统。网址:网址:http:/srs.ebi.ac.uk/检索序列时只需用鼠标点击检索序列时

13、只需用鼠标点击“Search”,在输入框中输入拟检索的信息即可。在输入框中输入拟检索的信息即可。SRS的的 详细信息参见:详细信息参见:http:/www.sanger.ac.uk/srs/srsman.html第27页/共79页第28页/共79页三、三、DDBJ日本日本DNA数据库数据库包括包括GetentryGetentry、SRSSRS、AfgateAfgateTAISTAIS、HomologyHomology等几种方法。前四种用于检索等几种方法。前四种用于检索DDBJDDBJ数据库中原数据库中原始数据,始数据, HomologyHomology采用采用FASTA/BLASTFASTA/

14、BLAST检索对用检索对用户提供的序列或片段做同源性分析。户提供的序列或片段做同源性分析。1 1、GetentryGetentry:通过登录号检索:通过登录号检索DDBJDDBJ核酸数据核酸数据库,最多可同时输入库,最多可同时输入1010个号码进行检索,各号个号码进行检索,各号码之间用空格或码之间用空格或“,”分隔,连续号码可用分隔,连续号码可用“- -”表示。还可用表示。还可用Locus nameLocus name、Gene nameGene name、Product nameProduct name、P-IDP-ID、Clone numberClone number和和PatentPat

15、ent号等检索。号等检索。第29页/共79页2 2、SRSSRS:有快速检索和高级检索两种途径。快:有快速检索和高级检索两种途径。快速检索可同时选择多个数据库进行检索,并且速检索可同时选择多个数据库进行检索,并且它只对来自它只对来自“IDID”、“MoleculeMolecule”、“DiscriptionDiscription”、“AccNumberAccNumber”、“KeywordsKeywords”、“SourceSource”“OrganismOrganism”、“AuthorsAuthors”、“TitleTitle”及及“CommentComment”等等1010个默认字段的信

16、息进行检索。个默认字段的信息进行检索。3 3、AfgateAfgateTAISTAIS:比较简单的关键词检索途径,:比较简单的关键词检索途径,在检索框内输入检索策略,点击在检索框内输入检索策略,点击start searchstart search按钮即可完成。按钮即可完成。第30页/共79页第31页/共79页第二节第二节 常用的常用的RNA数据库及软件数据库及软件一、一、Transterm-mRNA序列和翻译调控元件数据库序列和翻译调控元件数据库1、Transterm数据库简介数据库简介 Transterm数据库由新西兰数据库由新西兰Otago大学生物化学系大学生物化学系构建并维护,是一个构建

17、并维护,是一个mRNA序列和翻译调控元件序列和翻译调控元件数数据库。据库。 Transterm设计的目的是研究设计的目的是研究mRNA的构成以及翻的构成以及翻译过程中的调控信号。译过程中的调控信号。 Transterm中收录的中收录的mRNA序序列包括多种功能成分,既可以对一种物种进行分析,列包括多种功能成分,既可以对一种物种进行分析,也可以借此进行信息查询。也可以借此进行信息查询。第32页/共79页每一个从每一个从GenBank内提取的内提取的mRNA被分成以下部被分成以下部分:分:功能成分,起始编码区,终止编码区,即功能成分,起始编码区,终止编码区,即5-UTR、3-UTR和翻译信号的侧翼

18、序列和翻译信号的侧翼序列。网址:网址:http:/www.uther.otago.ac.nz/Transterm.html第33页/共79页2、 Transterm数据检索数据检索Transterm提供每一物种密码子使用表格,还提供描提供每一物种密码子使用表格,还提供描述述mRNA中已知的基序或特征的模式的总结。通过中已知的基序或特征的模式的总结。通过Transterm来源于来源于GenBank的编码区可被分割为的编码区可被分割为5侧侧翼、起始区、全编码区、终止区、翼、起始区、全编码区、终止区、3侧翼。在侧翼。在Transterm的的WWW界面使用与数据库文件和有关数界面使用与数据库文件和有关

19、数据库相关联的图表,可以搜索所有或部分数据库内据库相关联的图表,可以搜索所有或部分数据库内容,找寻任一条符合条件的模式或用户自定义的模容,找寻任一条符合条件的模式或用户自定义的模式。式。第34页/共79页二、RDP-11-核糖体数据库核糖体数据库由由Maidak等人创建,提供一切与核糖体有等人创建,提供一切与核糖体有关的数据、程序及相关服务计算机程序,包关的数据、程序及相关服务计算机程序,包括括rRNA在线数据分析、进化分类系统树、在线数据分析、进化分类系统树、rRNA相似序列的排列、序列注释、相似序列的排列、序列注释、rRNA二级结构图以及各种相似序列比较分析和显二级结构图以及各种相似序列比

20、较分析和显示软件示软件。网址:网址:http:/www. 1、简介、简介第35页/共79页2、 RDP-数据库提供的分析工具数据库提供的分析工具(1)Probe Match:分析特异探针在数据库中出现的频率分析特异探针在数据库中出现的频率(2)Sequence Match:通过通过nearest neighbors算法确定与算法确定与 用户序列最相近的用户序列最相近的RDP-序列。序列。(3)Sequence Align:对使用者的数据进行排列,找到与对使用者的数据进行排列,找到与 使用者序列最相近的使用者序列最相近的RDP-序列。序列。(4)Similarity

21、 Matrix:计算计算RDP-和和/或使用者序列的或使用者序列的 相似性相似性/不相似性矩阵。不相似性矩阵。(5)Chimera Check:检查用户序列是否为嵌合型。检查用户序列是否为嵌合型。第36页/共79页(6)Alignment Slices:从从RDP-全排列数据库中抽取兴全排列数据库中抽取兴 趣部分,与相邻序列精简压缩为趣部分,与相邻序列精简压缩为 一个序列,突出邻近序列的差异性一个序列,突出邻近序列的差异性.(7)Sequence Selection:从动态展示的等级分类中选取从动态展示的等级分类中选取 序列,选出的序列可被下载并序列,选出的序列可被下载并 进行进行RDP-其他

22、软件分析。其他软件分析。(8)T-RFLP:以以ABI测序系统格式使用数据,建立一个测序系统格式使用数据,建立一个相似性矩阵。相似性矩阵。第37页/共79页(9)TAPT-RFLP:在在RDP数据库中进行数据库中进行“T-RFLP实实验验”,利于设计与分析。,利于设计与分析。(10)(Sub)Trees:一种一种Java applet,可以用来展示、,可以用来展示、操纵种属进化系统树,产生新分支,或选取序列进操纵种属进化系统树,产生新分支,或选取序列进行其他的行其他的RDP-分析。分析。(11)PCA(principal Component analysis):对那):对那些较大的序列系统进行

23、图象化处理,些较大的序列系统进行图象化处理,PCA可通过网可通过网页上的页上的“Sopplementary Material links”找到。找到。第38页/共79页三、三、RNARNA二级结构预测二级结构预测 借助计算机生物学可以很好地利用已知的借助计算机生物学可以很好地利用已知的RNARNA序列进行二级结构预测乃至三级结构建模。目序列进行二级结构预测乃至三级结构建模。目前较成熟并实现自动化的软件主要在前较成熟并实现自动化的软件主要在二级结构二级结构预测的水平上。预测的水平上。1 1、ViennaRNAViennaRNA软件包软件包 综合了两种算法来预测综合了两种算法来预测RNARNA二级

24、二级结构:一种是最小自由能的动态规划算法,另一种是结构:一种是最小自由能的动态规划算法,另一种是McCaskillMcCaskill的分割函数算法。除的分割函数算法。除RNARNA折叠外,还可计算折叠外,还可计算给定二级结构的给定二级结构的RNARNA能量、能量、RNARNA比热及采用字符串联配比热及采用字符串联配或编辑计算二级结构间距离,还为反折叠提供一种算或编辑计算二级结构间距离,还为反折叠提供一种算法,搜索给定二级结构的法,搜索给定二级结构的RNARNA序列。序列。第39页/共79页2 2、MFOLDMFOLD Zuker Zuker的主页含众多的主页含众多RNARNA结构站点的超链结构

25、站点的超链接,作为接,作为RNARNA相关网站的导航站点相关网站的导航站点。该站点可以下载该站点可以下载最新最新mfoldmfold软件,也可以将序列提交给软件,也可以将序列提交给ZukerZuker的的mfoldmfold服务器完成。其中服务器完成。其中RNA structure RNA structure 是是ZukerZuker预测预测RNARNA二二级结构的级结构的Windows9X/WindowsNTWindows9X/WindowsNT版本,可以免费下载。版本,可以免费下载。3 3、RNA drawRNA draw 其主页详细介绍了程序的安装、原理、其主页详细介绍了程序的安装、原理

26、、使用和前景。大多数使用和前景。大多数RNARNA二级结构预测均可在大型计二级结构预测均可在大型计算机上完成,一般实验室不具备这些条件。算机上完成,一般实验室不具备这些条件。第40页/共79页4 4、RNARNA世界世界 可能是最全面的可能是最全面的RNARNA站点,其超链接包站点,其超链接包括各种数据库站点、网络工具、序列、二级结构以及括各种数据库站点、网络工具、序列、二级结构以及相关软件。可以很方便地根据相关软件。可以很方便地根据PDBPDB(protein data protein data bankbank)代码或者)代码或者NDBNDB(nucleic acid data basen

27、ucleic acid data base)代)代码来查找所需要码来查找所需要RNARNA的结构信息,同时提供包括研究的结构信息,同时提供包括研究方法、参考文献、可视化图象软件及相关数据库等信方法、参考文献、可视化图象软件及相关数据库等信息。息。5 5、其他核酸数据库、其他核酸数据库 HIV Database HIVHIV Database HIV序列数据库、序列数据库、IMGT ImMunoGeneTicsIMGT ImMunoGeneTics数据库;数据库;dbESTdbEST表达序列标签数表达序列标签数据库、据库、BERLIN 5S rRNA BERLIN 5S rRNA 数据库;数据库

28、;EPDEPD真核启动子数据真核启动子数据库。库。第41页/共79页第42页/共79页 第43页/共79页二、二、BLAST简介简介 BLAST和和FASTA是当前应用最广泛的程序,最新是当前应用最广泛的程序,最新版的版的BLAST和和FASTA中已消除原有各自局限性。综合中已消除原有各自局限性。综合程序速度和敏感性,本节介绍程序速度和敏感性,本节介绍NCBI中的中的BLAST程序。程序。 BLAST (basic local alignment search tool,局部序列相似,局部序列相似性对比工具性对比工具)集速度、敏感性、弹性与统计处理的最佳)集速度、敏感性、弹性与统计处理的最佳组

29、合于一身,能迅速找到非空位的相似片段。在报告相组合于一身,能迅速找到非空位的相似片段。在报告相似性的同时,也报告这个相似性片段出现的可能性。似性的同时,也报告这个相似性片段出现的可能性。 BLAST集成了一系列程序进行核酸和氨基酸序列不集成了一系列程序进行核酸和氨基酸序列不同类型的搜索,采用卡林氏统计描述结果的显著性。同类型的搜索,采用卡林氏统计描述结果的显著性。第44页/共79页第45页/共79页 BLAST是是NCBI提供的用于核酸或蛋白质序列相似提供的用于核酸或蛋白质序列相似性对比分析的一个软件,已发展到包括性对比分析的一个软件,已发展到包括BLASTP, BLASTN,BLASTX,

30、TBLASTN, TBLASTX, MEGABLAST, PSI-BLAST, PHI-BLAST, RPS-BLAST等多个软件和应用工具的多功能序列分析程序。等多个软件和应用工具的多功能序列分析程序。1、BLASTN:最早的最早的BLAST程序,用于鉴定测序所程序,用于鉴定测序所得序列和查找与之相似的序列。系最常用得序列和查找与之相似的序列。系最常用BLAST软件。软件。第46页/共79页程序程序 数据库数据库 查查 询询 简简 述述 blastpblastnblastxtblastntblastx 蛋白质蛋白质核酸核酸蛋白质蛋白质核苷酸核苷酸(翻译翻译)核酸核酸(翻译翻译) 蛋白质蛋白质

31、核苷酸核苷酸核酸核酸(翻译翻译)蛋白质蛋白质核酸核酸(翻译翻译) 可能找到具有远可能找到具有远源进化关系的匹源进化关系的匹配序列配序列适合寻找分值较适合寻找分值较高的匹配,不适高的匹配,不适合远源关系合远源关系适合新适合新DNA序列序列和和EST序列的分序列的分析析适合寻找数据库适合寻找数据库中尚未标注的编中尚未标注的编码区码区适合分析适合分析EST序序列列 第47页/共79页2、MEGABLAST:用于鉴定一个未知的核酸序列。用于鉴定一个未知的核酸序列。若要了解测得一个未知核酸序列是否已发表在公开若要了解测得一个未知核酸序列是否已发表在公开的核酸数据库中,以及其相关的生物研究文献时,的核酸数

32、据库中,以及其相关的生物研究文献时,这是一个最好的工具。它可有效地找到与序列相近这是一个最好的工具。它可有效地找到与序列相近的其他序列。的其他序列。3、 Discontiguous MEGABLAST:与与MEGABLAST相似,主要用于相近的序列段比较短、并且相邻的相似,主要用于相近的序列段比较短、并且相邻的序列段不连续的搜索。相近序列不易查找时,该工序列段不连续的搜索。相近序列不易查找时,该工具可以提高查询灵敏度和查询效果。具可以提高查询灵敏度和查询效果。第48页/共79页4、 BLASTP:为查询蛋白质序列设计的软件,主要为查询蛋白质序列设计的软件,主要用于鉴定蛋白质的氨基酸序列和在数据

33、库中查找相似用于鉴定蛋白质的氨基酸序列和在数据库中查找相似的序列。既可通过找到相似的已知蛋白质的功能来鉴的序列。既可通过找到相似的已知蛋白质的功能来鉴定一个未知的蛋白质序列的功能,也可用于两个或多定一个未知的蛋白质序列的功能,也可用于两个或多个蛋白质序列的比较。个蛋白质序列的比较。5、 PSI-BLAST ( 点位重心点位重心BLAST):):最灵敏的最灵敏的BLAST程序,通过它可以找到一个蛋白质的远亲序程序,通过它可以找到一个蛋白质的远亲序列。列。第49页/共79页6、 PHI-BLAST ( 特异片段重心特异片段重心BLAST):):可以指可以指定某一个蛋白质序列片段,并以这个片段为重心

34、查询定某一个蛋白质序列片段,并以这个片段为重心查询相关蛋白质序列。相关蛋白质序列。7、 BLASTX:把所需查询的核酸序列翻译成氨基酸把所需查询的核酸序列翻译成氨基酸序列序列,再在蛋白质数据库中查找。再在蛋白质数据库中查找。LBASTX可以将核可以将核酸序列翻译成有酸序列翻译成有6种可能的氨基酸序列后在进行查寻,种可能的氨基酸序列后在进行查寻,对编码区所有三联密码的组合所翻译的氨基酸序列都对编码区所有三联密码的组合所翻译的氨基酸序列都查寻,提高了查寻灵敏度。查寻,提高了查寻灵敏度。第50页/共79页8、TBLASTN:与与BLASTX相反,相反,TBLASTN蛋白质序蛋白质序列翻译成可能的列翻

35、译成可能的6种三联密码核酸序列,对寻找相似功能种三联密码核酸序列,对寻找相似功能的核酸序列特别有用。多用于的核酸序列特别有用。多用于EST和大规模测序所做的和大规模测序所做的序列分析,对三联密码的错位有很高的容错度。序列分析,对三联密码的错位有很高的容错度。9、TBLASTX:把要查寻的核酸序列和进行比较的核酸把要查寻的核酸序列和进行比较的核酸序列都翻译成序列都翻译成6种可能的氨基酸序列后进行比较。种可能的氨基酸序列后进行比较。10、RPS-BLAST:用于鉴定某些进化上比较稳定的蛋白用于鉴定某些进化上比较稳定的蛋白质功能片段。数据来源于质功能片段。数据来源于NCBI的的CDD数据库。数据库。

36、11、CDART(conserved domain architeture retrieval tool):):用于筛选特定蛋白质数据库中所有的蛋白质功用于筛选特定蛋白质数据库中所有的蛋白质功能片段和功能片段结构,并得到含有某一个或多个功能能片段和功能片段结构,并得到含有某一个或多个功能片段结构的所有蛋白质序列。片段结构的所有蛋白质序列。第51页/共79页三、三、BLAST应用举例应用举例顺序:顺序:建立建立BLAST搜索,确定查询序列;搜索,确定查询序列; 选择适当的搜索程序和相应的数据选择适当的搜索程序和相应的数据 库,以及参数;库,以及参数; 发送查询序列;发送查询序列; 读取读取BLA

37、ST结果。结果。1、具体步骤、具体步骤(1)确定查询序列;)确定查询序列;(2)选择数据库和搜索程序:数据库为核酸数据库,)选择数据库和搜索程序:数据库为核酸数据库,程序为程序为BLASTN;第52页/共79页(3)选择默认的允许非空位的搜索;)选择默认的允许非空位的搜索;( 4)E值限制,默认为值限制,默认为10;(5)用默认矩阵)用默认矩阵BLOSUM62;(6)最后确认结果输出格式。)最后确认结果输出格式。 确认以上参数无误后,点击确认以上参数无误后,点击“BLAST”按钮,同时按钮,同时也可以选择也可以选择E-mail回复结果。回复结果。2、结果分析、结果分析BLAST结果分两部分,即

38、图形化结果和文字结果,结果分两部分,即图形化结果和文字结果,后者又分为有意义的序列排列、两两对比结果、统计后者又分为有意义的序列排列、两两对比结果、统计结果三部分。结果三部分。第53页/共79页选择对比程序基因组对比特殊对比第54页/共79页第55页/共79页将序列数据库中的复制序列在此粘贴第56页/共79页点击点击第57页/共79页(1)图形结果)图形结果得分高低以不同颜色表示:得分高低以不同颜色表示:200200红色,红色,80-20080-200分红分红色,色,50-8050-80绿色,绿色,40-5040-50蓝色,蓝色,4040黑色,也表示同源黑色,也表示同源性由高到低。性由高到低。

39、第58页/共79页2、文字结果、文字结果第59页/共79页第60页/共79页搜索的分值高低排列,即同源性从高到低。排搜索的分值高低排列,即同源性从高到低。排列第一的是查询序列本身。右侧分别为随机分列第一的是查询序列本身。右侧分别为随机分值(值(scorescore,S S值)和期望值(值)和期望值(expectexpect,E E值)。值)。E E值是特定匹配中基本的随机噪声。值是特定匹配中基本的随机噪声。S S值增加,值增加,E E值呈指数性减少,即随机噪声降低,表明序列值呈指数性减少,即随机噪声降低,表明序列同源性较高。同源性较高。经验提示,经验提示,DNADNA序列具有序列具有75%75

40、%以上的同源性才具以上的同源性才具有潜在的生物学意义,但这种结果很难把握,有潜在的生物学意义,但这种结果很难把握,必须实验验证,或要求研究者具有丰富的序列必须实验验证,或要求研究者具有丰富的序列分析经验。分析经验。第61页/共79页对比资源类似性图谱第62页/共79页对比图谱报告对比图谱报告数据库标识符基因定义类似性积分E值为匹配期望值。说明可以找到与搜索序列相匹配的其它序列的几率。E值越接近零,越不可能找到其它的匹配序列,其背后的含义就是E值越少,匹配度越好第63页/共79页点击可得待检序列与库存序列对排基因表达库链接单基因库基因信息库第64页/共79页人类染色体上的抗肿瘤基因序列对排表第6

41、5页/共79页相关文献链接相关文献链接第66页/共79页对排序列不一致处序列对排报告序列对排报告第67页/共79页第四节第四节 新序列的提交新序列的提交提交信息到提交信息到NCBI、EBI和和DDBJ的过程非常简单。介的过程非常简单。介绍三种方式:绍三种方式:一、一、Internet的方式,如的方式,如BankIt,为在线序列数据提,为在线序列数据提交工具,基于互联网直接将数据库提交给交工具,基于互联网直接将数据库提交给GenBank的的序列提交工具,序列提交工具,提交的序列必须是提交者测定的提交的序列必须是提交者测定的DNA/RNA序列。序列。输入的格式是输入的格式是FASTA;由;由E-m

42、ail给给予回复;有基本的予回复;有基本的GenBank文本格式文件、文本格式文件、GenBank存取号和完整的存取号和完整的GenBank文本格式。文本格式。第68页/共79页 BankIt是一系列表单,包括联络信息、发布要求、是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息以及序列本身的信息等。引用参考信息、序列来源信息以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据用户提交序列后,会从电子邮件收到自动生成的数据条目。条目。GenBank的新序列号及完成注释后的完整记录。的新序列号及完成注释后的完整记录。用户还可在用户还可在BankIt页面下修改已经发布

43、序列的信息。页面下修改已经发布序列的信息。 BankIt适于独立测序工作者提交少量序列,不适适于独立测序工作者提交少量序列,不适于提交很长的序列,于提交很长的序列,EST序列和序列和GSS序列也不用序列也不用BankIt提交。提交。第69页/共79页二、通过二、通过Sequin(authorin)提交。可将序列提交给)提交。可将序列提交给GenBank、EMBL和和DDBJ及在线更新。能处理简单及在线更新。能处理简单和复杂提交。和复杂提交。 Sequin的使用说明可祥见网页。的使用说明可祥见网页。三、通过三、通过Webin提交,该程序被推荐作为提交,该程序被推荐作为EMBL序列序列提交的互联网界面。提交的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论