生物信息学课件_第1页
生物信息学课件_第2页
生物信息学课件_第3页
生物信息学课件_第4页
生物信息学课件_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章核酸序列分析

Nucleic

Acid

sequence

Analysis12/26/2023§2.1生物信息学数据库

Bioinformaticsdatabase12/26/2023生物信息学最重要的任务是从海量数据中提取新知识12/26/2023生物信息学数据存在的问题信息源分布在世界各地不同的站点上涉及多个数据源的全局问题无法立刻得到答案PainfullycollectingunstructuredinformationaroundthesitesManuallyputtingpiecestogetherHopefullygettingtherightpicture...总之,信息源的特点是:自治的(autonomous)分布式的(distributed)异构的(heterogeneous)数据集成DataIntegration12/26/2023一、生物信息学数据库生物信息学数据库的种类分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类:基因组数据库核酸和蛋白质一级结构数据库生物大分子(主要是蛋白质)三维空间结构数据库由上述3类数据库和文献资料为根底构建的二级数据库12/26/2023生物信息数据库的分类一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释一级核酸数据库:EMBLdatabase,GenBankdatabase,DDBJdatabase一级蛋白质序列数据库:SWISS-PORTdatabase,PIRdatabase一级蛋白质结构数据库:PDBdatabase二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的根底上针对特定的应用目标而建立人类基因组图谱库GDB蛋白质结构分类数据库SCOP,CATH蛋白质序列功能位点数据库Prosite12/26/2023《核酸研究》杂志——《NucleicAcidsResearch》〔:///〕自1993年起,每年都会在第一期推出生物数据库特刊,介绍上一年度的数据库增加和更新情况。至2023年,生物信息学数据库总数已达1230个。12/26/202312/26/2023核酸序列数据库12/26/202312/26/2023相关数据库及其主要分类1核酸序列数据库2.RNA序列数据库3.蛋白质序列数据库4.结构数据库5.基因组数据库〔非脊椎动物〕6.代谢酶相关产物7.人类和其他脊椎动物基因组8.人类基因和疾病9.其他数据和其他基因表达数据库10.蛋白组资源11.其他分子生物学数据库12.细胞器官数据库13.植物数据库14.免疫学数据库12/26/2023二、核酸数据库1、国际三大核酸数据库数据库(Database)网址(Address)12/26/2023GenBank:由美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)建立。该中心隶属于美国国家医学图书馆,位于美国国家卫生研究院(NIH)内。EMBL:欧洲分子生物学实验室(EuropeanMolecularBiologyLaboratory,其下有EuropeanBioinformaticsCentre),主要位于英国剑桥Cambridge和德国汉堡Hamburg。DDBJ:日本DNA数据库(DNADataBankofJapan〕,由theNationalInstituteofGenetics,NIG主管。12/26/2023这3个大型数据库于1988年达成协议,组成合作联合体。它们每天交换信息,并对数据库DNA序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布的数据〔EMBL负责欧洲,GenBank负责美洲,DDBJ负责亚洲等〕,然后来自各地的所有信息汇总在一起,3个数据库的数据共享并向世界开放,故这3个数据库又被称为公共序列数据库〔PublicSequenceDatabase〕。所以从理论上说,这3个数据库所拥有的DNA序列数据是完全相同的。你可以从中选择一个你喜欢的数据库;但是如果你的研究需要实时(24小时以内)的,那么要注意这些数据库间的记录是会有差异的。12/26/2023北京大学生物信息学中心(CentreofBioinformatics,PekingUniversity):北京华大基因研究中心(中国科学院北京基因组研究所):清华大学生物系生物信息研究室:中国科学院上海生命科学研究院生物信息中心:2、我国主要生物信息学机构12/26/2023三、基因组数据库如:大肠杆菌基因组ECDC、酵母菌基因组CYGD、线虫基因组AceDB、果蝇基因组FlyBase、老鼠基因组MGD、人类基因组GDB、拟南芥TAIR(AtDB)数据库和水稻基因组RGP等。局部生物基因组方案网址如下:12/26/2023大肠杆菌EColi——ECDC数据库://uni-giessen.de/~gx1052/ECDC/ecdc.htm酵母菌Yeast——CYGD数据库

线虫Caenorhabditiselegans——AceDB数据库果蝇Drosophila——FlyBase数据库://老鼠Mouse——MGD数据库12/26/2023目前完成全基因组测序工作的物种有很多,并在随时更新〔update〕.可以进入ncbi的基因组方案二次数据库查看,其12/26/2023四、数据库格式历史原因:没有完全统一的数据库格式了解所用数据库格式的重要性一般由两局部组成:文字注释序列12/26/2023FASTA序列格式包括三个局部:〔1〕在注释行的第一行用字符“>〞标识,后面是序列的名字和来源〔2〕标准的单字符表示序列〔3〕可选的“*〞表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。FASTA格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。FASTA序列格式和蛋白质信息资源NBRF格式很相似。1、FASTA序列格式(Person格式)12/26/2023说明3点:序列文件的第一行是由大于符号〔>〕打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符〔通常60个字符〕。12/26/2023核酸序列氨基酸序列12/26/2023组成序列信息字符串的符号必须为标准的国际生物化学联合会〔IUB〕/国际纯粹与应用化学联合会〔IUPAC)氨基酸或核苷酸的符号符号的大小写同义,单个“连字符〞表示一个空位不清楚的核苷酸残基用N表示,不确定的氨基酸残基用X表示标题行的名称是用户自定义的,可以是汉字,也可以是英文注意12/26/20232.序列详细注释的GenBank格式GBFF(GenBankflatfile,GenBank平面文件)格式GenBank数据库的根本信息单位,是最为广泛使用的生物信息学序列格式之一。12/26/2023GenBank格式GenBank格式:

每个条目都是一份纯文本文件。每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。GenBank条目,使用一大批与EMBL和DDBJ数据库统一的关键字。格式可以分成3个局部:1〕头部包含关于整个序列的信息〔描述字符〕,从LOCUS行到ORIGIN行;2〕注释这一序列的特性〔FeatureTable〕,为注释的核心局部;3〕序列本身(Sequence)。

注:所有的核苷酸数据库记录〔EMBL/GenBank/DDBJ)都在最后一行以//结尾。12/26/2023一个简单的GenBank记录LOCUSAF0620693808bpmRNAINV02-MAR-2000DEFINITIONLimuluspolyphemusmyosinIIImRNA,completecds.ACCESSIONAF062069VERSIONAF062069.2GI:7144484KEYWORDS.SOURCEAtlantichorseshoecrab.ORGANISMLimuluspolyphemusEukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.REFERENCE1(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEAmyosinIIIfromLimuluseyesisaclock-regulatedphosphoproteinJOURNALJ.Neurosci.(1998)InpressREFERENCE2(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(29-APR-1998)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREFERENCE3(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(02-MAR-2000)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2,2000thissequenceversionreplacedgi:3132700.12/26/2023FEATURESLocation/Qualifierssource1..3808/organism="Limuluspolyphemus"/db_xref="taxon:6850"/tissue_type="lateraleye"CDS258..3302/note="N-terminalproteinkinasedomain;C-terminalmyosinheavychainhead;substrateforPKA"/codon_start=1/product="myosinIII"/protein_id="AAC16332.2"/db_xref="GI:7144485"/translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ

BASECOUNT1201a689c782g1136tORIGIN1tcgacatctgtggtcgctttttttagtaataaaaaattgtattatgacgtcctatctgtt

3781aagatacagtaactagggaaaaaaaaaa//GenBank记录〔cont.〕12/26/2023LOCUSAF0620693808bpmRNAINV02-MAR-2000序列和数据库标识位置,提取号,版本DEFINITIONLimuluspolyphemusmyosinIIImRNA,completecds.GBDivisionLocus名字简单描述(标题)修改日期序列类型mRNA(=cDNA)rRNAsnRNADNA序列长度VERSIONAF062069.2GI:7144484ACCESSIONAF062069提取号Accession.versionginumber12/26/2023关键字,生物体来源KEYWORDS.SOURCEAtlantichorseshoecrab.ORGANISMLimuluspolyphemusEukaryota;Metazoa;Arthropoda;Chelicerata; Merostomata;Xiphosura;Limulidae;Limulus.序列来源的物种名序列来源的物种学名和分类学位置可更新的序列版本号12/26/2023REFERENCE1(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEAmyosinIIIfromLimuluseyesisaclock-regulatedphosphoproteinJOURNALJ.Neurosci.(1998)InpressREFERENCE2(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(29-APR-1998)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREFERENCE3(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(02-MAR-2000)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2,2000thissequenceversionreplacedgi:3132700.引用以前版本号相关文献编号,或递交序列的注册信息相关文献作者,或递交序列的作者相关文献题目引文出处相关文献刊物杂志名,或递交序列的作者单位相关文献注释评注12/26/2023FEATURESLocation/Qualifierssource1..3808/organism="Limuluspolyphemus"/db_xref="taxon:6850"/tissue_type="lateraleye"CDS258..3302/note="N-terminalproteinkinasedomain;C-terminalmyosinheavychainhead;substrateforPKA"/codon_start=1/product="myosinIII"/protein_id="AAC16332.2"/db_xref="GI:7144485"/translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKNKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL"特性表编码序列Biosource阅读框GenPeptProteinIdentifiers12/26/2023BASECOUNT1201a689c782g1136tORIGIN

1tcgacatctgtggtcgctttttttagtaataaaaaattgtattatgacgtcctatctgtt<sequenceomitted>

3721accaatgttataatatgaaatgaaataaagcagtcatggtagcagtggctgtttgaaata3781aagatacagtaactagggaaaaaaaaaa//Sequence记录结束标记指示序列数据的起始GenBank碱基数目12/26/20233.序列详细注释的EMBL格式除了GenBank对序列的信息详细标注外,EMBL数据库对序列的信息标注与GenBank类似,只是字符的标识符是两个字母的简写。12/26/2023数据库记录注释代码和内容说明

EMBL识别标志

GenBank识别字

意义IDLOCUS序列名称DEDEFINITION序列简单说明ACACCESSION唯一的提取号OSSOURCE序列来源的物种名OCORGANISM序列来源的物种学名和分类学位置DT建立日期

KWKEYWORDS与序列相关的关键词RNREFERENCE相关文献编号,或递交序列的注册信息RAAUTHORS相关文献作者,或递交序列的作者RTTITLE相关文献题目RLJOURNAL引文出处相关文献刊物杂志名,或递交序列的作者单位RXMEDLINE相关文献Medline引文代码RP相关文献其它注释12/26/2023数据库记录注释代码和内容说明〔cont.〕EMBL识别标志

GenBank识别字

意义RCREMARK相关文献注释DR相关数据库交叉引用号XX为阅读清晰而加的空行

CCCOMMENT评注

NIVERSION可更新的序列版本号

FHFEATURES序列特征表起始FTFEATURES特性表

SQEMBL序列开始标志,后随长度、字母数

BASECOUNTGenBank碱基数目

ORIGINGenBank序列开始标志,该行空

////序列结束标志,空行

12/26/2023§2.2序列数据库检索12/26/2023一二级数据库数量的增加,按不同需求组织信息的各类数据库的出现不同数据库的信息整合、检索查询系统〔baidu,Google〕EntrezSRS12/26/2023Entrez用途检索大分子生物学数据获取GenBank,EMBL等数据库的核酸序列;获取Swiss-port,PIR,PRF,PDB等蛋白质序列;从核酸序列翻译到蛋白质的序列;获取基因和染色体图谱;蛋白质三维结构数据及大分子模式〔MMDB〕等其他生物信息数据库检索。PubMed书目文献数据。12/26/2023NCBI:

://12/26/2023GenBank数据库是由美国国立生物技术信息中心〔NCBI〕维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。简介12/26/2023检索界面简介1、根本检索界面12/26/202312/26/2023检索界面简介1、根本检索界面2、跨库检索界面12/26/202312/26/202312/26/2023简介检索界面根本检索功能〔一〕字段限制检索、强制短语检索〔二〕特殊标志符检索〔四〕范围检索〔三〕序列长度检索12/26/2023简介检索界面根本检索功能〔一〕字段限制检索、强制短语检索12/26/202312/26/2023ras12/26/202312/26/2023ras[GENE]12/26/202312/26/202312/26/2023检索限定词:1、基因名称的检索限定词:[GENE]or[GENENAME]2、生物体名称的检索限定词:[ORGN]or[ORGANISM]3、作者姓名的检索限定词:[AUTH]or[AUTHOR]12/26/2023简介检索界面根本检索功能〔二〕特殊标志符检索〔一〕字段限制检索、强制短语检索12/26/2023特殊标志符的格式〔核酸序列〕:1、序列识别号〔GI〕:一串阿拉伯数字e.g.:1944073312/26/202312/26/2023特殊标志符的格式〔核酸序列〕:2、GenBank/EMBL/DDBJ序列接受号:

(1)1个字母+5个阿拉伯数字e.g.:U12345

(2)2个字母+6个阿拉伯数字

e.g.:AY123456,Af1234561、序列识别号〔GI〕:一串阿拉伯数字e.g.:1944073312/26/202312/26/2023〔1〕mRNA记录〔NM_*〕:e.g.:NM_000492〔2〕基因组的DNA重叠群〔NT_*〕:e.g.:NT_000347〔3〕完整的基因组或染色体〔NC_*〕:e.g.:NC_000907

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论