生物信息学的应用课件_第1页
生物信息学的应用课件_第2页
生物信息学的应用课件_第3页
生物信息学的应用课件_第4页
生物信息学的应用课件_第5页
已阅读5页,还剩277页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学的应用

1精选ppt

生物信息学的应用

1精选ppt生物信息学(Bioinformatics)生物分子数据计算机计算+2精选ppt生物信息学(Bioinformatics)生物分子计算机+概念(广义)生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理药理过程的中各种生物信息信息科学生命科学中的信息科学

3精选ppt概念(广义)生物体系和过程中信息细胞、组织、器官的生理、病理概念(狭义)生物分子数据深层次生物学知识分子生物信息学MolecularBioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用4精选ppt概念(狭义)生物深层次分子生物信息学挖掘获取生物分子信息的获生物信息学主要研究两种信息载体DNA分子蛋白质分子5精选ppt5精选ppt生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息6精选ppt生物分子至少携带着三种信息6精选ppt

第一节生物信息学与基因组学一、生物信息学概述(一)生物信息学发展简史生物信息学发展的3个阶段:前基因组时代基因组时代后基因组时代生物信息学的发展脉络:

1956年,在美国田纳西州盖特林堡(Gatlinburg)召开的首次“生物学中的信息理论研讨会”上,孕育了生物信息学的概念.1987年,佛罗里达州立大学32岁的林华安(Wa.A.Lim)博士首创“Bioinformatics”一词,被誉为“世界生物信息之父”。7精选ppt

第一节生物信息学与基因组学一、生物信息学概述1987年1990年,林华安博士发起第一届国际Bioinformatics学术会议。1990年10月,被誉为生命科学“阿波罗登月计划”的国际人类基因组计划(HGP)启动。1995年,美国人类基因组计划第一个五年总结报告中给出生物信息学一个较为完整的定义。2000年6月26日,美、英、日、德、法、中等六国科学家共同努力,完成人类基因组工作草图,这是人类科学史上又一个里程碑式的事件。

2003年4月14日,国际人类基因组测序组隆重宣布:美、英、日、德、法和中国科学家历经13年共同努力,人类基因组序列图(“完成图”)提前绘制成功。人类迈入“后基因组时代”(Post-genomicEra)。8精选ppt1990年,林华安博士发起第一届国际Bioinfor(二)生物信息学的主要研究内容1.生物信息的收集、存储、管理与提供2.基因组序列信息的提取和分析3.功能基因组相关信息分析4.基因表达数据的分析与处理5.蛋白质结构预测9精选ppt(二)生物信息学的主要研究内容1.生物信息的收集、存储、管理基因组数据库

蛋白质序列数据库

蛋白质结构数据库

DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子数据的收集与管理10精选ppt基因组蛋白质蛋白质DDBJEMBLGenBankSWISS-2、数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。11精选ppt2、数据库搜索及序列比较搜索同源序列在一定程度上就是通过发现同源分子12精选ppt发现同源分子12精选ppt3、基因组序列分析遗传语言分析——天书基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较13精选ppt3、基因组序列分析遗传语言分析——天书13精选ppt4、基因表达数据的分析与处理基因表达数据分析是目前生物信息学研究的热点和重点目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能

14精选ppt4、基因表达数据的分析与处理基因表达数据分析是目前生物信息学基因芯片15精选ppt基因芯片15精选ppt二维电泳图16精选ppt二维电泳图16精选ppt5、蛋白质结构预测蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径蛋白质结构预测分为:二级结构预测空间结构预测蛋白质折叠17精选ppt5、蛋白质结构预测蛋白质的生物功能由蛋白质的结构所决定,二级结构预测在一定程度上二级结构的预测可以归结为模式识别问题

在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法预测准确率超过70%的第一个软件是基于神经网络的PHD系统18精选ppt二级结构预测18精选ppt空间结构预测在空间结构预测方面,比较成功的理论方法是同源模型法该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作19精选ppt空间结构预测在空间结构预测方面,比较成功的理论方法是同源模型(三)生物信息学研究现状与展望

1.国外生物信息学研究现状2.我国生物信息学研究现状3.我国生物信息学研究目标

实现基因组数据、蛋白质组和结构基因组数据、天然及合成化合物数据的计算机处理、分析和可视化,以及生物实验和生物分子的模拟设计,解析蛋白质三维结构和蛋白质组的时空表达关系等20精选ppt(三)生物信息学研究现状与展望1.国外生物信息学研究现状2蛋白质研究为生物信息学提供了极为丰富的研究数据,极大地推动了生物信息学的发展。生物信息学在蛋白质的序列分析、结构预测、功能预测、分子设计等方面具有重要应用。二、生物信息学与蛋白质

21精选ppt二、生物信息学与蛋白质

21精选ppt

序列比对是生物信息学的基础,通过比较两个或多个蛋白质序列的相似区域和保守性位点,确定相互间具有共同功能的序列模式和分子进化关系,进一步分析其结构和功能。把未知结构的蛋白质序列与已知具有三维结构的蛋白质序列进行序列比对,有助于进一步了解该未知结构蛋白质的空间折叠信息(一)蛋白质序列分析22精选ppt

序列比对是生物信息学的基础,通过比较两个或多个蛋白质序列的(二)蛋白质结构预测

蛋白质结构预测内容二级结构预测三维结构预测蛋白质结构预测方法

理论分析方法:是在理论计算的基础上进行结构预测。统计分析方法:是在对已知结构的蛋白质进行统计分析的基础上,建立由序列到结构的映射模型,对未知结构的蛋白质直接从氨基酸序列预测其结构。23精选ppt(二)蛋白质结构预测

蛋白质结构预测内容23精选ppt

是否未知蛋白序列与已知功能的蛋白质相似确定跨膜螺旋、卷曲螺旋和前导序列未知序列是否包含保守序列模体查对PROSITE数据库库查对BLOCKS和PRINTS数据库整理所有肯定的结果并核对一致性预测蛋白质功能蛋白质功能预测流程图(三)蛋白质功能预测(引自HPDB蛋白质数据库(/prediction/subprediction/functionalflowchat.asp)24精选ppt

是否未知蛋白序列与已知功能的蛋白质相似确定跨膜螺旋、卷曲螺(四)蛋白质分子设计蛋白质分子设计类型:按照被改造部位的多少可以分为“小改”、“中改”和“大改”三种。

“小改”:即通过对目标蛋白质进行定位突变或化学修饰改变其结构和功能。“中改”:即通过对来源于不同蛋白质的结构域进行拼接和组装,从而较大程度的改变其结构和功能。“大改”:即完全从头设计出一种具有特异结构与功能的全新蛋白质。25精选ppt(四)蛋白质分子设计蛋白质分子设计类型:按照被改造部位的多少常用的数据库有:核酸序列数据库(NucleotideSequenceDatabases)RNA序列数据库(RNAsequencedatabases)蛋白质序列数据库(Proteinsequencedatabases)结构数据库(StructureDatabases)基因组数据库(GenomicsDatabases(non-vertebrate))代谢酶相关产物(MetabolicandSignalingPathways)人类和其他脊椎动物基因组(HumanandotherVertebrateGenomes)人类基因和疾病(HumanGenesandDiseases)芯片和其他基因表达数据库(MicroarrayDataandotherGeneExpressionDatabases);蛋白组资源(ProteomicsResources);其他分子生物学数据库(OtherMolecularBiologyDatabases)细胞器官数据库(Organelledatabases);植物数据库(Plantdatabases);免疫学数据库(Immunologicaldatabases)第二节常用数据库26精选ppt常用的数据库有:第二节常用数据库26精选ppt生物信息学数据库类型一次数据库:数据直接来源于实验获得的原始数据,仅对原始数据进行简单的归类整理和注释。如Genbank、EMBL和DDBJ等核酸序列数据库;SWISS-PROT、PIR等蛋白质序列数据库;PDB等蛋白质结构数据库。二次数据库:针对不同的研究内容和需要在一次数据库、实验数据和理论分析的基础上对相关生物学知识和信息进行进一步分析和整理。如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等。27精选ppt生物信息学数据库类型27精选ppt图6-2生物信息学数据库相互关系生物信息学数据库相互关系28精选ppt图6-2生物信息学数据库相互关系生物信息学数据库常用数据库类型名称网址核酸序列一次数据库Genebank/Genbank/EMBLhttp://www.ebi.ac.uk/embl/DDBJhttp://www.ddbj.nig.ac.jp/Welcome.html.ja/基因组一次数据库GDB/蛋白质序列一次数据库SWISS-PROT/sprot/PIR/TrEMBLhttp://www.ebi.ac.uk/trembl/UniProt/index.shtml/MIPShttp://mips.gsf.de/GenPept/pub/genpept/NRL-3D/general/software/packages/nrl_3d/nrl_3d.html/复合数据库NRDBhttp://www.nrdb.co.uk/OWLhttp://www.bioinf.manchester.ac.uk/dbbrowser/OWL/SWISS-PROT+TrEMBLhttp://www.ebi.ac.uk/clustr/

二次数据库PROSITE/prosite/PRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKS/Pfamhttp://pfam.sanger.ac.uk/IDENTIFY/identify/COGs/COG/ProDomhttp://www.toulouse.inra.fr/prodom.html/29精选ppt常用数据库类型名称网结构一次数据库PDB/pdb/home/home.doMMDB/Structure/MMDB/mmdb.shtml/

二次数据库DSSPhttp://www.sander.embl-heidelberg.de/dssp/HSSPhttp://www.sander.embl-heidelberg.de/hssp/FSSPhttp://www.ebi.ac.uk/dali/fssp/PSdb/~geigel/PSdb/PSdb.html/

结构分类SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/CATH/latest/index.html/PDBsumhttp://www.ebi.ac.uk/thornton-srv/databases/pdbsum/分类二次数据库ProtoMap蛋白质组

蛋白质组

氨基酸索引AAindexhttp://www.genome.ad.jp/dbget/蛋白质间功能关系Predictome/蛋白质组分析ProteomeAnalysishttp://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二维凝胶电泳GELBANK/SWISS-2DPAGE/ch2d/酵母蛋白质定位YPL.dbhttp://ypl.tugraz.at/模式生物蛋白质组BioknowledgeLibrnary/pages/index.php?id=home/30精选ppt结构一次数据库PDB

一、核酸数据库

(一)核酸序列数据库目前,国际上主要有Genbank、EMBL、DDBJ三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。31精选ppt

一、核酸数据库

(一)核酸序列数据库31精选ppt1.Genbank

Genbank由美国国立生物技术信息中心(NCBI)建立维护,其主页如图6-3所示。32精选ppt1.Genbank

Genbank由美国国立生物技术信息中Genbank数据直接来源测序工作者提交的序列、测序中心提交的大量EST序列、其它测序数据以及与其它数据机构协作交换的数据。Genbank内容所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表等辅助信息。Genbank对数据记录的处理划分为细菌类、病毒类、灵长类、啮齿类,EST数据、基因组测序数据、大规模基因组序列数据等16类。33精选pptGenbank数据直接来源33精选ppt(1)Genbank数据检索

通过NCBI首页“Search”选项中的“gene”或“Nucleotide”等选项,在检索窗口输入检索词进行直接检索;利用NCBI网站的综合生物信息数据库检索系统Entrez提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能进行精细检索图6-4NCBI-Entrzgene检索界面34精选ppt(1)Genbank数据检索

通过NCBI首页“Searc35精选ppt35精选pptEntrez综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库(MEDLINE),获取序列相关的文献信息。可以利用Entrezcross-database数据库进行综合信息检索(图6-5)。图6-5NCBI-Entrezcross-database检索界面36精选pptEntrez综合生物信息数据库检索系统将美国国家生物技术信息中心(NCBI)EntrezEntrez,TheLifeSciencesSearchEngine37精选ppt美国国家生物技术信息中心(NCBI)EntrezEntrPubMed:

biomedicalliteraturecitationsandabstracts

是一个医学文献网络搜索界面

BLAST(BasicLocalAlignmentsearchTool)

是DNA或氨基酸序列比对分析的重要软件38精选pptPubMed:biomedicalliterature

OMIM:

onlineMendelianInheritanceinMan人类孟德尔遗传数据库在线

Books:

onlinebooks39精选ppt

OMIM:onlineMendelianInher

TaxBrowser:Taxonomybrowser分类浏览器Structure:该目录下最重要的资源是分子模型数据库MMDB及Cn3D生物大分子三维模型查看软件

40精选pptTaxBrowser:TaxonomybrowserStEMBL和GenBank数据库识别标志EMBL识别标志GenBank识别标志含义IDLOCUS标识字符串及短描述字XX为阅读清晰而加的空行ACACCESSION唯一的提取号SVVERSION序列版本号DTDATE建立日期DEDEFINITION简单的描述KWKEYWORDS关键字OSSOURCE来源生物体OCORGANISM生物体分类谱系RNREFERENCE引文编号RCREMARK引文注释RP其他注释RXMEDLINEMEDLINE引文代码41精选pptEMBL和GenBank数据库识别标志GenBank识别标志RAAUTHORS引文作者RTTITLE引文题目RLJOURNAL引文出处CCCOMMENT评注DR相关数据库交叉引用号FHFEATURES特性表头FT特征表SQEMBL序列开始,后跟长度、字母数BASECOUNTGeneBank碱基数ORIGINGeneBank序列开始标志,为空行////序列结束标志42精选pptRAAUTHORS引文作者RTTITLE引文题目RLJOURGenBank核酸数据库实例

以人畜共患的病源菌鼠伤寒沙门氏菌(Salmonellatyphimurium)H1相抗原基因H-1-i为例,简要说明GenBank核酸数据库的数据格式。LOCUSSTYFLGH1I1485bpDNAlinearBCT26-APR-1993DEFINITIONSalmonellatyphimuriumH-1-igeneencodingphase1flagellarfilamentprotein(flagellin),completecds.ACCESSIONM11332VERSIONM11332.1GI:153978KEYWORDSflagellin.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(bases1to1485)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof

Salmonella

typhimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134序列标识简单描述序列编号版本号关键词物种来源物种分类引文编号引文作者引文标题引文出处43精选pptGenBank核酸数据库实例以人畜COMMENTOriginalsourcetext:S.typhimuriumSL877DNA.Draftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.Bothendsoftheflagellingeneactintheregulationofflagellinsynthesis.FEATURESLocation/Qualifierssource1..1485/organism="Salmonella

typhimurium"/mol_type="genomicDNA"/db_xref="taxon:602"CDS13..1485/note="phase-1flagellarfilamentprotein"/codon_start=1/transl_table=11/protein_id="AAA27072.1"/db_xref="GI:153979"评注特征表编码区44精选pptCOMMENTOriginalsourcete/translation="MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVNGQTQFSGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDEKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAAVTPATVTTATALSGKMYSANPDSDIAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQDKDGSISIDTTKYTADNGTSKTALNKLGGADGKTEVVTIDGKTYNASKAAGHDFKAEPELAEQAAKTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLSSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR"ORIGIN98bpupstreamofTaqIsite.1aaggaaaagatcatggcacaagtcattaatacaaacagcctgtcgctgttgacccagaat61aacctgaacaaatcccagtccgctctgggcaccgctatcgagcgtctgtcttccggtctg121cgtatcaacagcgcgaaagacgatgcggcaggtcaggcgattgctaaccgttttaccgcg181aacatcaaaggtctgactcaggcttcccgtaacgctaacgacggtatctccattgcgcag241accactgaaggcgcgctgaacgaaatcaacaacaacctgcagcgtgtgcgtgaactggcg301gttcagtctgctaacagcaccaactcccagtctgacctcgactccatccaggctgaaatc蛋白序列基因序列45精选ppt/translation="MAQVINTNSLSL361acccagcgtctgaacgaaatcgaccgtgtaaatggccagactcagttcagcggcgtgaaa421gtcctggcgcaggacaacaccctgaccatccaggttggtgccaacgacggtgaaactatc481gatatcgatctgaagcagatcaactctcagaccctgggtctggatacgctgaatgtgcaa541caaaaatataaggtcagcgatacggctgcaactgttacaggatatgccgatactacgatt601gctttagacaatagtacttttaaagcctcggctactggtcttggtggtactgacgagaaa661attgatggcgatttaaaatttgatgatacgactggaaaatattacgccaaagttaccgtt721acggggggaactggtaaagatggctattatgaagtttccgttgataagacgaacggtgag781gtgactcttgctgcggtcactcccgctacagtgactactgcgacagcactgagtggaaaa841atgtacagtgcaaatcctgattctgacatagctaaagccgcattgacagcagcaggtgtt901accggcacagcatctgttgttaagatgtcttatactgataataacggtaaaactattgat961ggtggtttagcagttaaggtaggcgatgattactattctgcaactcaagataaagatggt1021tccataagtattgatactacgaaatacactgcagataacggtacatccaaaactgcacta1081aacaaactgggtggcgcagacggcaaaaccgaagtcgttactatcgacggtaaaacctac1141aatgccagcaaagccgctggtcatgatttcaaagcagaaccagagctggcggaacaagcc1201gctaaaaccaccgaaaacccgctgcagaaaattgatgctgctttggcacaggttgacacg1261ttacgttctgacctgggtgcggtacagaaccgtttcaactccgctattaccaacctgggc1321aacaccgtaaacaacctgtcttctgcccgtagccgtatcgaagattccgactacgcgacc1381gaagtctccaacatgtctcgcgcgcagattctgcagcaggccggtacctccgttctggcg1441caggcgaaccaggttccgcaaaacgtcctctctttactgcgttaa//

记录结束46精选ppt361acccagcgtctgaacgaaatcgac

少量序列利用BankIt提交,大量序列利用Sequin程序进行提交。NCBI网站提供数据查询、序列相似性搜索等服务,从其FTP服务器上可免费下载Genbank数据。NCBI网址:/BankIt网址:/BankIt/Sequin网址:/Sequin/Genebank网址:/Genbank/Entrezgene网址:/sites/entrez?db=geneEntrezcross-database网址:/sites/gquery/(2)向Genbank提交序列数据47精选ppt

少量序列利用BankIt提交,大量序列利用Sequin程EMBL核酸序列数据库创建于1982年,由欧洲生物信息学研究所(EBI)管理维护。使用序列提取系统(SRS)进行查询检索,利用基于网络的WEBIN工具,或利用Sequin软件向EMBL核酸序列数据库提交序列。

EMBL网址:http://www.ebi.ac.uk/embl/SRS的网址:http://srs.ebi.ac.uk/WEBIN网址:http://www.ebi.ac.uk/webin-align/webinalign_help.html/Sequin网址:http://www.ebi.ac.uk/Sequin/2.EMBL核酸序列数据库

48精选pptEMBL核酸序列数据库创建于1982年,由欧洲生物信息学研究DDBJ核酸序列数据库创建于1986年,由日本国家遗传学研究所负责维护和管理。使用SRS工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文互换。DDBJ的日文版网址:http://www.ddbj.nig.ac.jp/index-j.html/DDBJ的英文版网址:http://www.ddbj.nig.ac.jp/index-e.html/3.DDBJ数据库49精选pptDDBJ核酸序列数据库创建于1986年,由日本国家遗传学研究

(二)基因组数据库GDB

基因组数据库(GDB)创建于1990年,是一个专门汇集人类基因组数据的数据库,以对象模型来保存数据,提供基于网络的数据对象检索服务,可搜索各种类型的对象,并以图形方式观看基因组图谱。GDB的网址是:/50精选ppt

(二)基因组数据库GDB

基因组数据库(GDB)创建于19(一)蛋白质序列数据库常用的蛋白质序列数据库有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。

1.SWISS-PROTSWISS-PROT数据库提供蛋白质序列查询及相似蛋白质序列搜索等服务。

二、蛋白质数据库51精选ppt(一)蛋白质序列数据库二、蛋白质数据库51精选ppt图6-6Swiss-Prot数据库网站主页52精选ppt图6-6Swiss-Prot数据库网站主页52精选pptSWISS-PROT数据库内容

核心数据:包括蛋白质序列、引用文献、分类信息等。注释:包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、与其它蛋白质的相似性等。SWISS-PROT将广泛收集的相关数据进行合并,且与蛋白质三维结构数据库(PDB)等其他数据库交互索引。通过SWISS-PROT数据库可以得到某蛋白质的序列,再通过交互引用从PDB数据库得到其结构。SWISS-PROT数据由数据行排列组成,数据格式与EMBL数据库数据格式基本相同(见表6-3)。53精选pptSWISS-PROT数据库内容53精选ppt表6-3SWISS-PORT数据库的行识别标志及含义中止符号Terminationline//序列标头SequenceheaderSQ特征表FeaturetabledataFT关键词KeywordsKW交叉引用数据库Databasecross-referenceDR评注或注释CommentsornotesCC引文出处ReferencelocationRL引文标题ReferencetileRT引文作者ReferenceauthorsRA交叉引用Cross-referenceRX相关内容ReferencecommentsRC引文位置ReferencepositionRP引文序号ReferencenumberRN物种分类OrganismclassificationOC来源细胞器OrganelleOG来源物种OrganismspeciesOS基因名称Genename(s)GN描述DescriptionDE登录日期或最后更新日期DateDT序列编号AccessionNumberAC标识号IdentificationID含义全称缩写54精选ppt表6-3SWISS-PORT数据库的行识别标志及含义中以鼠伤寒沙门氏菌SalmonellatyphimuriumH1-i基因编码的鞭毛蛋白FLIC_SALTY为例介绍SWISS-PORT数据库的数据格式。55精选ppt以鼠伤寒沙门氏菌SalmonellatyphimuIDFLIC_SALTYReviewed;495AA.ACP06179;P97160;Q02871;Q56088;DT01-JAN-1988,integratedintoUniProtKB/Swiss-Prot.DT23-JAN-2007,sequenceversion4.DT24-JUL-2007,entryversion69.DEFlagellin(Phase1-Iflagellin).GNName=fliC;Synonyms=flaF,hag;OrderedLocusNames=STM1959;OSSalmonellatyphimurium.OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.OXNCBI_TaxID=602;RN[1]RPNUCLEOTIDESEQUENCE[GENOMICDNA].RXMEDLINE=86059460;PubMed=2999134;RAJoysT.M.;RT"Thecovalentstructureofthephase-1flagellarfilamentproteinofSalmonellatyphimuriumanditscomparisonwithotherflagellins.";RLJ.Biol.Chem.260:15758-15761(1985).序列标识序列编号登录日期描述基因名称来源物种物种分类物种分类号引文序号引文位置交叉引用引文作者引文标题引文出处SWISS-PROT数据库条目实例56精选pptIDFLIC_SALTYRRN[9]RPNUCLEOTIDESEQUENCE[GENOMICDNA]OF476-495.RCSTRAIN=LT2/ATCC23564;……CC-!-FUNCTION:Flagellinisthesubunitproteinwhichpolymerizestoformthefilamentsofbacterialflagella.CC-!-MISCELLANEOUS:IndividualSalmonellaserotypesusuallyalternatebetweentheproductionof2antigenicformsofflagella,termedphase1andphase2,eachspecifiedbyseparatestructuralgenes,fliCandfljB.CC-!-SIMILARITY:Belongstothebacterialflagellinfamily.CCDREMBL;M11332;AAA27072.1;-;Genomic_DNA.DREMBL;D13689;BAA02846.1;-;Genomic_DNA.DREMBL;AE008787;AAL20871.1;-;Genomic_DNA.DREMBL;X51740;CAA36029.1;-;Genomic_DNA.DREMBL;J01801;AAA27074.1;-;Genomic_DNA.DRPIR;A24262;A24262.DRPIR;S16121;S16121.DRPDB;1IO1;X-ray;A=54-451.DRPDB;1P95;Model;A=57-451.DRPDB;1UCU;EM;A=1-495.相关内容评注功能其他特性

相似性交叉引用数据库EMBL核酸序列数据库PIR蛋白序列数据库

PDB蛋白结构数据库57精选pptRN[9]相关内容57精选pptPE1:Evidenceatproteinlevel;KW3D-structure;Completeproteome;Flagellum.FTINIT_MET11Removed(Bysimilarity).FTCHAIN2495Flagellin.FT/FTId=PRO_0000182578.FTCONFLICT127127S->N(inRef.1).FTCONFLICT133133N->S(inRef.1).……FTHELIX332FTTURN3739FTHELIX4498关键词特征表不同来源数据库的冲突位点二级结构信息58精选pptPE1:EvidenceatproteinleSQSEQUENCE495AA;51612MW;4BD7849FA3B936BACRC64;MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVSGQTQFNGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDQKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAGGATSPLTGGLPATATEDVKNVQVANADLTEAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQNKDGSISINTTKYTADDGTSKTALNKLGGADGKTEVVSIGGKTYAASKAEGHNFKAQPDLAEAAATTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLTSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR//序列标头蛋白质序列记录结束59精选pptSQSEQUENCE495AA;516122.PIR

PIR的子数据库:蛋白质序列数据库(PIR-PSD)蛋白质分类数据库(iProClass)非冗余的蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部分:PIR1序列已经验证,注释最为详尽;PIR2为尚未确定的冗余序列;PIR3序列既未检验,也未注释;PIR4序列来自其它渠道,既未验证,也无注释。美国国家生物医学研究基金会与国际蛋白质信息中心(PIR-International)共同维护。PIR是第一个蛋白质分类和功能注释数据库60精选ppt2.PIRPIR的子数据库:美国国家生物医学研究基金会

PIR作用:提供基于文本的交互式检索、序列相似性搜索以及结合序列相似性、注释信息和蛋白质家族信息的高级检索。PIR网址:/61精选pptPIR作用:61精选ppt3.TrEMBL是一个经计算机注释的蛋白质数据库,采用SWISS-PROT数据库格式。主要包含从EMBL/Genbank/DDBJ三大核酸数据库中根据编码序列翻译的、尚未集成到SWISS-PROT数据库中的蛋白质序列。TrEMBL为SWISS-PROT数据库及时提供补充。TrEMBL网址:http://www.ebi.ac.uk/trembl/62精选ppt3.TrEMBL是一个经计算机注释的蛋白质数据库,采用SWI4.UniProtUniProt将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本检索、序列相似检索以及UniProtFtp网站可获得蛋白质序列。如图6-7所示图6-7UniProt网站主页63精选ppt4.UniProtUniProt将SWISS-PUniProt包含UniProtKB、UniRef和UniParc3个部分:(1)UniProtKB数据库(UniProtKnowledgebase):蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniRef数据库(UniProtReferenceClusters):为提高检索的速度,将紧密相关的蛋白质序列合并到同一条记录中。目前,根据序列相似程度可将UniRef数据库分为UniRef100、UniRef90和UniRef503个子库(3)UniParc(UniProtArchive):储存大量蛋白质研究的历史信息。64精选pptUniProt包含UniProtKB、UniRef和Uni利用UniProt可方便的进行蛋白质序列的交互检索,SalmonellatyphimuriumH-1项鞭毛蛋白P06176的UniProt检索截图如下。UniProt网址:/index.shtml65精选ppt利用UniProt可方便的进行蛋白质序列的交互检索图6-8核心数据66精选ppt图6-8核心数据66精选ppt图6-9核心数据(续)、引用文献与评注67精选ppt图6-9核心数据(续)、引用文献与评注67精选ppt图6-10交互检索与关键词68精选ppt图6-10交互检索与关键词68精选ppt图6-11特征表与序列信息69精选ppt图6-11特征表与序列信息69精选ppt5.GenPept数据库GenPept数据库特点由Genebank数据库的核酸序列经翻译后产生。GenPept数据量大,随核酸数据库的更新而更新,但未经实验证实,也未有详细注释。

GenPept蛋白质数据库实例以鼠伤寒沙门氏菌S.typhimuriumH-1-i基因编码的鞭毛蛋白为例进行GenPept数据库检索。70精选ppt5.GenPept数据库GenPept数据库特点70精选pGenPept蛋白质数据库实例LOCUSAAA27072490aalinearBCT26-APR-1993DEFINITIONphase-1flagellarfilamentprotein.ACCESSIONAAA27072VERSIONAAA27072.1GI:153979DBSOURCElocusSTYFLGH1IaccessionM11332.1KEYWORDS.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(residues1to490)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof

SalmonellatyphimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134COMMENTDraftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.……序列标识简单描述序列编号版本号关键词物种来源物种分类引文编号引文作者引文标题引文出处评注71精选pptGenPept蛋白质数据库实例LOCUSAAAFEATURESLocation/Qualifierssource1..490/organism="Salmonellatyphimurium"/db_xref="taxon:602"

Protein1..490/name="phase-1flagellarfilamentprotein"Region1..490/region_name="PRK08026"/note="flagellin;PRK08026"/db_xref="CDD:76379"Region29..163/region_name="Flagellin_N"/note="BacterialflagellinN-terminus.Flagellinspolymerisetoformbacterialflagella.Thisfamilyincludesflagellinsandhookassociatedprotein3;pfam00669"/db_xref="CDD:64529"Region191..>256/region_name="Flagellin_D3"/note="FlagellinD3domain.ThisdomainisfoundinthecentralportionbacterialflagellinFliC.Thedomaincontainsastructuralmotifcalledabeta-foliumfold;pfam08884"/db_xref="CDD:72304"特征表72精选pptFEATURESLocation/

Region397..468/region_name="Flagellin_C"……/db_xref="CDD:64558"CDS1..490/coded_by="M11332.1:13..1485"/transl_table=11ORIGIN1maqvintnslslltqnnlnksqsalgtaierlssglrinsakddaagqaianrftanikg61ltqasrnandgisiaqttegalneinnnlqrvrelavqsanstnsqsdldsiqaeitqrl121neidrvngqtqfsgvkvlaqdntltiqvgandgetididlkqinsqtlgldtlnvqqkyk181vsdtaatvtgyadttialdnstfkasatglggtdekidgdlkfddttgkyyakvtvtggt241gkdgyyevsvdktngevtlaavtpatvttatalsgkmysanpdsdiakaaltaagvtgta301svvkmsytdnngktidgglavkvgddyysatqdkdgsisidttkytadngtsktalnklg361gadgktevvtidgktynaskaaghdfkaepelaeqaakttenplqkidaalaqvdtlrsd421lgavqnrfnsaitnlgntvnnlssarsriedsdyatevsnmsraqilqqagtsvlaqanq481vpqnvlsllr//蛋白质序列记录结束GenPept的网址是:/pub/genpept/73精选pptRegion397..468GenP国际上主要的蛋白质序列数据库的种类和特点

名称维护单位注释冗余度数据量更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SWISSPROTEBI、SIB完善小不大较慢NRL-3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢(引自《生物信息学》,赵国屏等编著,科学出版社,2002)74精选ppt国际上主要的蛋白质序列数据库的种类和特点名称维护单位注释冗(二)蛋白质序列二次数据库

1.PROSITEPROSITE是蛋白质家族保守区域和功能位点数据库,也是第一个蛋白质序列二次数据库,收录蛋白质家族中同源序列多重比对所确定的保守性区域:如酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知具有重要生物学功能蛋白质位点和序列模式。PROSITE数据库组成包含Prosite(数据文件)和PrositeDoc(说明文件)两个文件数据库。PROSITE数据库主页如图6-12所示。75精选ppt(二)蛋白质序列二次数据库1.PROSITE75精选ppt图6-12PROSITE数据库主页76精选ppt图6-12PROSITE数据库主页76精选pptPROSITE数据库作用:可确定一段新蛋白质序列中包含的功能位点以及其归属的蛋白质家族。PROSITE的网址:http://www.expasy.ch/prosite/或/prosite/PROSITE的中国镜像网址是:/prosite/77精选pptPROSITE数据库作用:可确定一段新蛋白质序列中包含的功能2.PRINTSPRINTS蛋白质指纹图谱数据库将多个保守的序列模式作为识别蛋白质家族的特征,与PROSITE数据库的单个序列模式相比,PRINTS具有更好的识别率。PRINTS网址:http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/78精选ppt2.PRINTS78精选ppt3.BLOCKS序列模块(block):是通过序列比对得到的若干蛋白质序列中具有较高相似性的序列片段。BLOCKS由通过自动检测PROSITE数据库和PRINTS蛋白质指纹图谱数据库中蛋白质家族高度保守区域产生的序列模块组成。BLOCKS的网址:/79精选ppt3.BLOCKS79精选ppt(三)蛋白结构数据库

1.PDBPDB(ProteinDataBank)蛋白质结构数据库是国际上最完整的蛋白质、核酸、糖类、蛋白质-核酸复合物及病毒等生物大分子三维结构数据库。PDB主页,如图6-13所示。其数据库增长曲线,如图6-14所示。80精选ppt(三)蛋白结构数据库

1.PDB80精选ppt图6-13PDB数据库主页81精选ppt图6-13PDB数据库主页81精选ppt图6-14结构数据库增长曲线截图红色图:总结构数蓝色图:新增结构数(引自/pdb/statistics/contentGrowthChart.do?content=molType-protein&seqid=100)82精选ppt图6-14结构数据库增长曲线截图82精选pptPDB数据库作用提供序列详细信息、原子坐标、三维结构、交叉检索等与结构相关的信息。PDB数据库实例以鼠伤寒沙门氏菌SalmonellatyphimuriumH1-i鞭毛蛋白(P06176)F41片段晶体结构为例,图示PDB数据库格式(框6-4)和网页格式(图6-15)。三维结构的动态展示(如图6-16所示)。PDB的地址:/pdb/home/home.do83精选pptPDB数据库作用83精选ppt框6-4PDB格式实例HEADERSTRUCTURALPROTEIN28-DEC-001IO1TITLECRYSTALSTRUCTUREOFF41FRAGMENTOFFLAGELLINCOMPNDMOL_ID:1;COMPND2MOLECULE:PHASE1FLAGELLIN;……SOURCEMOL_ID:1;SOURCE2ORGANISM_SCIENTIFIC:SALMONELLATYPHIMURIUM;……KEYWDSBETA-FOLIUM,FLAGELLINEXPDTAX-RAYDIFFRACTIONAUTHORF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,T.KUMASAKA,AUTHOR2M.YAMAMOTO,K.NAMBAREVDAT215-APR-031IO11SOURCEDBREFSEQADVREVDAT104-APR-011IO10JRNLAUTHF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,JRNLAUTH2T.KUMASAKA,M.YAMAMOTO,K.NAMBA……REMARK1REMARK2REMARK2RESOLUTION.2.00ANGSTROMS.

……标头题目化合物名称来源关键词作者发布日期相关文献注释84精选ppt框6-4PDB格式实例HEADERSTRUCTUSEQADV1IO1ALAA426UNPP06179GLY426CONFLICTSEQRES1A398PHETHRALAASNILELYSGLYLEUTHRGLNALASERARGSEQRES2A398ASNALAASNASPGLY

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论