生物信息数据库1117骄阳书苑_第1页
生物信息数据库1117骄阳书苑_第2页
生物信息数据库1117骄阳书苑_第3页
生物信息数据库1117骄阳书苑_第4页
生物信息数据库1117骄阳书苑_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1专业课堂 直接来源于实验获得的原始数据直接来源于实验获得的原始数据,只经过简单的归类、整理只经过简单的归类、整理和注释。和注释。 一级核酸数据库:一级核酸数据库:genbank数据库、数据库、embl数据库、数据库、ddbj数据库数据库 一级蛋白质序列数据库:一级蛋白质序列数据库:swiss-prot库、库、pir库库 一级蛋白质结构数据库:一级蛋白质结构数据库:pdb数据库数据库 在一级数据库、实验数据和理论分析的基础上,针对不同的在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数研究内容和需要,对生物学知识和信息的进一步整理得到的数

2、据库。据库。 人类基因组图谱库人类基因组图谱库gdb、转录因子和结合位点库、转录因子和结合位点库transfac、蛋白质序列功能位点数据库蛋白质序列功能位点数据库prosite等。等。2专业课堂(1 1)数据库的更新速度不断加快)数据库的更新速度不断加快 数据量呈指数增长趋势数据量呈指数增长趋势 (2 2)数据库使用频率增长更快)数据库使用频率增长更快 (3 3)数据库的复杂程度不断增加)数据库的复杂程度不断增加 (4 4)数据库网络化)数据库网络化 (5 5)面向应用)面向应用(6 6)先进的软硬件配置)先进的软硬件配置3专业课堂4专业课堂5专业课堂rgenbankhttp:/www.ncb

3、/genbank/index.htmlrembl(european melecular biology laboratory)http:/www.ebi.ac.uk/embl/rddbj(dna data bank of japan)http:/www.ddbj.nig.ac.jp/index-e.html6专业课堂r1982.4 由由los alamos national lab创建创建rncbi (national center for biotechnology information)rnih (national institute of health)r 数

4、据库查询工具:数据库查询工具:entrezr 数据提交工具:数据提交工具: sequinr nucleic acids research, 2008 jan;36(database issue):d25-307专业课堂8专业课堂v173.0,2009.099专业课堂10专业课堂r1. 提供高质量的,无冗余的,完整的序列提供高质量的,无冗余的,完整的序列信息;信息;r2. 包括基因组的包括基因组的dna,转录成的转录成的rna以及蛋以及蛋白质序列信息。白质序列信息。r3. 序列文件的标识符:序列文件的标识符:mrna序列:序列:nm_001158非编码非编码rna:nr_002769蛋白质序列:

5、蛋白质序列: np_001159r /refseq/11专业课堂12专业课堂13专业课堂r1982.3 由德国科隆大学收集整理由德国科隆大学收集整理rebi(european bioinformatics institute)r 数据库查询工具:数据库查询工具:sas (开源开源)r数据提交工具:数据提交工具:webin, sequinrhttp:/www.ebi.ac.uk/embl/14专业课堂15专业课堂r创建于创建于1986年年rnig(national institute of genetics)r 数据库查询工具:数据库查询工具:

6、sasr数据提交工具:数据提交工具: sequinr http:/www.ddbj.nig.ac.jp/index-e.html16专业课堂17专业课堂r1998年,年,genbank、embl和和ddbj共同共同成立了国际核酸序列数据库协会成立了国际核酸序列数据库协会(international nucleotide sequence database collaboration,insdc)r三大核酸数据库之间每天将新测定或更新三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。整与同步,每两个月更新一

7、次版本。r/18专业课堂19专业课堂20专业课堂21专业课堂rpir/rswissprothttp:/www.expasy.ch/sprot/rtremblhttp:/www.expasy.ch/sprot/22专业课堂r1984年,蛋白质信息资源(年,蛋白质信息资源(protein information resource,pir)计划由美国)计划由美国国家医学研究基金会(国家医学研究基金会(nref)正式启动)正式启动r1988年,日本的国际蛋白质信息数据库年,日本的国际蛋白质信息数据库(jipid)和德

8、国慕尼黑蛋白质序列信息中)和德国慕尼黑蛋白质序列信息中心(心(mips)加入)加入pirr非冗余、高质量注释、全面分类非冗余、高质量注释、全面分类23专业课堂r1986年,由瑞士日内瓦大学创建。年,由瑞士日内瓦大学创建。rsib(swiss institute of bioinformatics)rexpasy(expert protein analysis system)r所有序列条目均经过有经验的分子生物学所有序列条目均经过有经验的分子生物学家和蛋白质化学家审核,因此又称为蛋白家和蛋白质化学家审核,因此又称为蛋白质专家库质专家库24专业课堂r1996年创建,意为年创建,意为“transla

9、tion of embl”r从从embl的的cdna序列翻译而来,包含序列翻译而来,包含embl数据库中所有核酸编码序列信息数据库中所有核酸编码序列信息25专业课堂26专业课堂27专业课堂28专业课堂r2002年在年在nih资助下将资助下将pir、swiss-prot和和trembl合并为合并为uniprot(universal protein resource)r具有全世界最全面的蛋白质分类信息具有全世界最全面的蛋白质分类信息r包含三个子库包含三个子库uniprotkb(uniprot knowledgebase)uniref(uniprot reference clusters)unipa

10、rc(uniprot archive)r29专业课堂30专业课堂runiprot knowledgebase(uniprotkb):): release 15.4 , 16-jun-2009 ,包括:,包括:swiss-prot release 57.4 : 497293 entries trembl release 40.4 : 9145906 entries r包含蛋白质序列全面的信息,提供准确、包含蛋白质序列全面的信息,提供准确、丰富的序列与功能注释。丰富的序列与功能注释。r记录以记录以6位字母和数字组成,例:位字母和数字组成,例:q5k8d3

11、31专业课堂32专业课堂33专业课堂34专业课堂35专业课堂runiprot refefence clusters (uniref)r通过通过cd-hit算法把非常相似的序列聚类算法把非常相似的序列聚类r根据序列根据序列identity=100%,identity90%, identity50%进行聚类合并,形成进行聚类合并,形成uniref100、uniref90和和uniref50三个子三个子库,加速同源搜索。库,加速同源搜索。r记录以记录以unirefxx开头加开头加uniprotkb的的accession表示,例:表示,例:uniref90_o70405 36专业课堂runiprot

12、archive (uniparc)r存储所有公共数据库中有效的蛋白质序列存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据库的链数据,包括序列的来源及来源数据库的链接。接。r记录所有蛋白质的当前状态和历史信息记录所有蛋白质的当前状态和历史信息r记录以记录以upi开头,例:开头,例:upi000005e9d0 37专业课堂38专业课堂pdb网址:网址:/pdb(美国美国)(1)pdb (protein data bank) u 由由 brookhaven national laboratories 创办创办

13、 v 蛋白质蛋白质 v 核酸核酸 v 其它其它 u 57,706 个结构图(个结构图(2009.5.20)39专业课堂40专业课堂41专业课堂42专业课堂r2003年,年,pdb(rcsb),),msd-ebi(ebi),),pdbj(japan)组建了全球范)组建了全球范围的围的pdb库(库(worldwide pdb,wwpdb)r数据共享,统一数据格式数据共享,统一数据格式r数据集中存储,尚未提供数据检索服务数据集中存储,尚未提供数据检索服务r/43专业课堂44专业课堂显示分子结构(显示分子结构(rasmol rasmol , chemview ch

14、emview )45专业课堂46专业课堂r收集某些生物整个基因组序列的数据库收集某些生物整个基因组序列的数据库r基因组计划基因组计划human genome projecthttp:/www.sanger.ac.uk/hgp/c. elegans projecthttp:/www.sanger.ac.uk/projects/c_elegans/r从从genbank中选择同一物种的核酸信息组中选择同一物种的核酸信息组成的二级库成的二级库47专业课堂 老鼠老鼠(mouse) /mgd.html 小鼠小鼠(rat) http:/ratmap.

15、gen.gu.se 狗狗(dog) /dog.html 牛牛(cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪猪(pig) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊羊(sheep) http:/dirk.invermay.cri.nz 鸡鸡(chicken) http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼斑马鱼(zebra fish) htt

16、p:/ 线虫线虫(c. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/ce_index.html 果蝇果蝇(drosophila) 蚊子蚊子(mosquito) 拟南芥拟南芥(arabidopsis) /arabidopsis 棉花棉花(cotton) 玉米玉米(maize) http:

17、/ 水稻水稻(rice) http:/www.staff.or.jp 大豆大豆(soya) :8000/main.html 树树(trees) 48专业课堂 二级数据库的形式:大多以二级数据库的形式:大多以web界面为基础,具有文字信界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。一级数据库与二级数据库之间并无明确的界限。 (例如:(例如:gd

18、b、acedb、scop、cath等都已经具有二级数据库的特等都已经具有二级数据库的特色)色)49专业课堂 德国德国pastear研究所建立。研究所建立。 除具有浏览、检索、搜寻功能外,还对环状基因组实现可除具有浏览、检索、搜寻功能外,还对环状基因组实现可视化。视化。 网址网址:http:/ 德国生物工程研究所开发维护,始建于德国生物工程研究所开发维护,始建于1988年。年。 包括顺式调控位点、基因、转录因子、细胞来源、分类和包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分布调控位点核苷酸分布6个子库。个子库。transfac的网址的网址:http:/ 50专业课堂colib

19、ri网址网址:http:/ 始建于始建于1990年代初,由瑞典生物信息学研究所年代初,由瑞典生物信息学研究所sib负责维负责维护。护。 基于对蛋白质家族中同源序列多重序列比对得到的保守区基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件数据库包括两个数据库文件:数据文件prosite;说明文件;说明文件prositedoc。prosite网址网址:/prosite53专业课堂54专业课堂 蛋白质二级结构构象参数数据库蛋白质二级结构构象参数数据库 dssp

20、的网址的网址:http:/www.cmbi.kun.nl/gv/dssp/ 蛋白质家族数据库蛋白质家族数据库 fssp的网址:的网址:http:/www2.embl-ebi.ac.uk/dall/fssp/ 同源蛋白质数据库同源蛋白质数据库 hssp的网址:的网址: http:/www.cmbi.kun.nl/gv/hssp/ 55专业课堂56专业课堂酶和代谢数据库酶和代谢数据库(1)kegg (kyoto encyclopedia of genes and genomes) u 各种代谢、遗传等路径图各种代谢、遗传等路径图 u 可检索参于可检索参于各种各种路径的基因路径的基因kegg主页主页

21、http:/www.genome.ad.jp/kegg/点击点击“kegg pathway” “pathway”网页点击任何代谢路径(网页点击任何代谢路径(metabolism),),如糖酵解如糖酵解/糖原异生途径(糖原异生途径(glycolysis/gluconeogenesis)u 检索检索metabolism(1)57专业课堂u 检索检索genetic information processing(2)kegg主页点击主页点击“kegg pathway” “pathway”网页点击任何遗传信息(网页点击任何遗传信息(genetic information processing)路径,如)

22、路径,如 protein export 路径路径可以查看参加这一路径蛋白质的可以查看参加这一路径蛋白质的信息信息 58专业课堂u 检索检索environmental information processing(3)kegg主页点击主页点击“kegg pathway” “pathway”网页点击任何网页点击任何environmental information processing 路径,如路径,如 mapk signaling pathway 路径路径可以查看与这一路径相连的可以查看与这一路径相连的其它信号路径其它信号路径或参加这一路径的或参加这一路径的蛋白质信息蛋白质信息 59专业课堂u

23、检索检索celluar processes(4)kegg主页点击主页点击“kegg pathway” “pathway”网页点击任何网页点击任何cellular processes 路径,如路径,如 cell cycle 路径路径可以查看与这一路径相连的其它信号路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息或参加这一路径的蛋白质信息 60专业课堂 历史原因:没有完全统一的数据库格式;历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性了解所用数据库格式的重要性 一般由两部分组成:一般由两部分组成: 文字注释文字注释 内容(序列,内容(序列,)61专业课堂一个数据

24、库记录一个数据库记录(entry)一般由两部分组成:一般由两部分组成: 1. 原始序列数据原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值注释中包含的信息与相应的序列数据同样重要和有应用价值数据的完整性和注释工作量:数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整序列数据广,序列注释不够完整 2. 库数据面窄,序列注释全面库数据面窄,序列注释全面数据库的动态更新:数据库的动态更新: 1. 不断增加不断增加 2. 不断修正不断修正62专业课堂r1.

25、dna/rna/氨基酸代码的标识氨基酸代码的标识r2. genbank数据格式数据格式r3. uniprotr4. fasta63专业课堂64专业课堂65专业课堂子库类型子库类型geninfo identifier66专业课堂67专业课堂68专业课堂69专业课堂embl标识字genbank标识字含义idlocus序列名称dedefinition序列简单说明acaccession唯一的序列编号svversion序列版本号kwkeywords与序列相关的关键词ossource序列来源的物种名ocorganism序列来源的物种学名和分类学位置dt建立日期rnreference相关文献编号或提交注册信

26、息raauthors相关文献作者或提交序列作者rttitle相关文献题目rljournal相关文献刊物名或作者单位rxmedline相关文献medline引文代码rcremark相关文献注释rp相关文献其它注释cccomment关于序列的注释信息dr相关数据库交叉引用号fhfeatures序列特征表起始ft序列特征表子项sqbase content序列长度、碱基数目统计数空格origin序列/序列结束标志、空行70专业课堂71专业课堂关键词关键词 名词、描述性词、词组名词、描述性词、词组 序列注册号序列注册号 (accession number) 检索体系检索体系 entrez sequenc

27、e retrieval system (srs) integrated database retrieval system (dbget)72专业课堂 entrez是基于web界面的综合生物信息数据库检索系统。 /entrez 利用entrez系统,用户不仅可以方便地检索genbank的核酸数据,还可以检索来自genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(mmdb)的蛋白质三维结构数据、种群序列数据集、以及由pubmed获得medline的文献数据。 73专业课堂8大类大类44个与个与 entreze 体系相

28、连的体系相连的数据库数据库 u “nucleotide sequences” databases (15) u “protein sequences” databses (4) u “structures” databases (5) u “genes” databases (4) u “gene expression” databases (4) u “taxonomy” databases (2) u “genomes” databases (6) u “literature” databases (4)74专业课堂r entrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另外一个数据库r entrez的另一个特点是把数据库和应用程序结合在一起。例如,通过“related sequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的cn3d软件直接显示分子图形。r entrez系统的开发基于特殊的数据模型ncbi ans.1 (abstract

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论