生物信息学之数据库及在线分析工具_第1页
生物信息学之数据库及在线分析工具_第2页
生物信息学之数据库及在线分析工具_第3页
生物信息学之数据库及在线分析工具_第4页
生物信息学之数据库及在线分析工具_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学 数据库及在线分析工具 SeeQZIFF 一、数据库(Database) 用于收集、整理、储存、加工、发布和用于收集、整理、储存、加工、发布和 检索数据的系统。检索数据的系统。 u 生物类的数据库种类很多(生物类的数据库种类很多(序列序列、结结 构构、生物分子互作生物分子互作、其他其他) u 投稿文章首先要将核苷酸序列或蛋白质序列投稿文章首先要将核苷酸序列或蛋白质序列 提交到相应的数据库中提交到相应的数据库中 u 数据库记录通常包括两部分数据库记录通常包括两部分 v 原始数据原始数据 v 对这些数据进行的生物学意义的注释对这些数据进行的生物学意义的注释 u 一个数据库通常链接了多个相

2、关数据库一个数据库通常链接了多个相关数据库 核苷酸数据库水稻抗病相关基因核苷酸数据库水稻抗病相关基因OsDR8 DQ176424 Taxonomy 数据库数据库 Pubmed 数据库数据库 NCBI-Protein 数据库数据库 (一)数据库工具(一)数据库工具 u 建立纯文本数据库建立纯文本数据库 v GenBank 数据库、数据库、EMBL 核苷酸数据库核苷酸数据库 u 数据库工具数据库工具 v SQL(结构化查询语言)是世界上流行的和(结构化查询语言)是世界上流行的和 标准化的数据库语言标准化的数据库语言 v 能够快速灵活存储记录文件和图像能够快速灵活存储记录文件和图像 v 下载网址下载

3、网址 http:/ AccessSQLOracle u AceDB 数据库工具数据库工具 v AceDB:A C. elegans DataBase (线虫数据库)(线虫数据库) v 被广泛应用的管理和提供基因组被广泛应用的管理和提供基因组 数据的工具数据的工具 v 数据形式丰富数据形式丰富 遗传图谱遗传图谱 G181 0.42 0.84 RM224 0.21 R1506 0.21 Xa26 S12886 1.47 0.00 0.63 L1044 NBS119 RM144 Y6855RA 0.00 11 新陈代谢途径新陈代谢途径 物理图谱物理图谱 1 gggctccacc actagtaccc

4、 ctcactacag gtagccataa aaaaaatcga tcaccaaaac 61 ccattattag gttgtgtact gatacagaaa gttgggaacc aatctcccag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca aaaaaacaca ccgttttcta 241 gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggt

5、t ggaaacgtgg gattgcaaac (二)各种生物数据库(二)各种生物数据库 1、核苷酸数据库、核苷酸数据库 u DNA、mRNA、tRNA、rRNA序列序列 u RNA序列以序列以cDNA序列的形式收集序列的形式收集 u 核苷酸序列直接来源于实验数据核苷酸序列直接来源于实验数据 u 大量氨基酸序列大量氨基酸序列 v 主要是非实验来源数据主要是非实验来源数据 v coding sequence (CDS) EXONINTRON CDS (coding sequence) ORF (open reading frame) u 数据库种类很多数据库种类很多 u 三大核苷酸数据库三大核苷

6、酸数据库 v GenBank、EMBL核苷酸数据库、核苷酸数据库、DDBJ United States Patent and Trademark Office (USPTO) European Patent Office (EPO) Japan Patent Office (JPO) v 收集了专利的核苷酸序列收集了专利的核苷酸序列 信息资源共享:以天为基础进行数据库之间的序列数据交换信息资源共享:以天为基础进行数据库之间的序列数据交换 (1)GenBank / u 美国美国NCBI的数据库,有部分蛋白质序列的数据库,有部分蛋白质序列 u 数

7、据每天更新,每年发行六版数据每天更新,每年发行六版release /genbank/gbrel.txt u Release 172(2009.6.15) v 106,073,709 entries v 105,277,306,080 bases u 来源于来源于260,000多个物种多个物种 u 大约大约12的序列来源于人的序列来源于人(Homo sapiens) Growth of GenBank v Locus name(位点名)(位点名) v Accession number (注册号或登陆号)(注册号或登陆号) v GI(GenInfo ide

8、ntifier) NID(Nucleotide ID) u 每个序列有一个每个序列有一个flatfile u 每条序列有三个专有的编号或标识(每条序列有三个专有的编号或标识(identifier) u LOCUS line Sample record /Sitemap/samplerecord.html The divisions of GenBank 分支缩写分支缩写分支全称分支全称 PRI灵长类序列灵长类序列 (primate sequences) ROD啮齿类序列啮齿类序列 (rodent sequences) MAM其它哺乳类序列其它

9、哺乳类序列 (other mammalian sequences) VRT其它脊椎动物序列其它脊椎动物序列 (other vertebrate sequences) INV无脊椎动物序列无脊椎动物序列 (invertebrate sequences) PLN植物、真菌和海藻类序列植物、真菌和海藻类序列 (plant, fungal, and algal sequences) BCT细菌序列细菌序列 (bacterial sequences) VRL病毒序列病毒序列 (viral sequences) PHG噬菌体序列噬菌体序列 (bacteriophage sequences) SYN合成序列

10、合成序列 (synthetic sequences) The divisions of GenBank 分支缩写分支缩写分支全称分支全称 UNA未注释的序列未注释的序列 (unannotated sequences) EST表达序列标签表达序列标签 (expressed sequence tags) PAT已专利的序列已专利的序列 (patent sequences) STS序列标签位点序列标签位点 (sequence tagged sites) GSS基因组勘察序列基因组勘察序列 (genome survey sequences) HTG高产出基因组序列高产出基因组序列 (high thro

11、ughput genomic sequences) HTC高产出高产出cDNA序列序列 (high throughput cDNA sequences) ENV环境样品序列环境样品序列 (Environmental sampling sequences) (2)dbEST (Database of Expressed Sequence Tags) /dbEST/index.html u GenBank的二级数据库的二级数据库 u 5 端或端或3 端的端的cDNA 序列(序列(EST) u 200-500 bp “Single-pass rea

12、d” sequence u GenBank 中中60以上的序列是以上的序列是 EST (3)UniGene 数据库数据库 /UniGene/ u NCBI 的另一个核苷酸的另一个核苷酸数据库数据库 u 来源于同一基因的非重复来源于同一基因的非重复 EST 组成基因序列群组成基因序列群 v 人、大鼠、小鼠、人、大鼠、小鼠、斑马鱼、斑马鱼、牛牛、蛙等、蛙等 v 拟南芥、水稻、小麦、大麦、玉米等拟南芥、水稻、小麦、大麦、玉米等 v 共计共计100多个物种多个物种 u UniGene主页输入关键词主页输入关键词检索检索 (4)dbSTS (Datab

13、ase of Sequence Tagged Sites) /dbSTS/index.html u GenBank的二级数据库的二级数据库 UniSTS u 短序列短序列(200-500 bp),仅在基因组中出现一次),仅在基因组中出现一次 u 已定位于染色体上已定位于染色体上 如何找到一个如何找到一个STS u 检索:检索:GenBank主页主页选择选择UniSTS后输入关键词后输入关键词 检索到的条目检索到的条目每一条目详细内容每一条目详细内容 点击点击“mv”查看染色体定位查看染色体定位 contig (5)dbGSS (Databas

14、e of Genome Survey Sequences) /dbGSS/index.html u GenBank的二级数据库的二级数据库 u 基因组短序列基因组短序列 u cosmid / BAC / YAC 外源插入片段的末端序列外源插入片段的末端序列 u Alu PCR 序列序列 cosmid / BAC / YAC G181 0.42 0.84 RM224 0.21 R1506 0.21 Xa26 S12886 1.47 0.00 0.63 L1044 NBS119 RM144 Y6855RA 0.00 11 (6)HTG (High

15、-Throughput Genomic Sequences) /HTGS/ u GenBank 的二级数据库的二级数据库 u 尚未完成测序的重叠群(尚未完成测序的重叠群( 2 kb)的序列的序列 u 新序列的增加速度很快新序列的增加速度很快 cosmid / BAC / YAC Phase 0 Phase 1 Phase 2 Phase 3 逐步克隆法 clone-by-clone reliable but slow, and the mapping step can be especially time- consuming 鸟枪法 sho

16、tgun potentially very fast, but it can be extremely difficult to put together so many tiny pieces of sequence all at once. 水稻基因组全基因组大小:430Mb; 每个Reads 读长450bp; 故覆盖每个水稻基因组所需反应:100万; 覆盖水稻基因组8X,需要800万反应; 每个反应的测序成本为19元,800万反应总共需 15200万人民币; 人力费800万人民币。 中国水稻基因组计划的经费预算中国水稻基因组计划的经费预算 (7)基因组数据库)基因组数据库 http:/w

17、/sites/entrez?db=genome u NCBI 的另一个的另一个数据库数据库 u 测序完成和正在测序物种基因组序列、遗传图、测序完成和正在测序物种基因组序列、遗传图、 物理图等物理图等 u 序列收集在序列收集在GenBank u 已经完成测序的基因组(截止已经完成测序的基因组(截止2009年年2月)月) Genome ProjectStatistics (8)dbSNP (Database of Single Nucleotide Polymorphisms) 单核苷酸多态性数据库 /sit

18、es/entrez?db=snp u NCBI的数据库,创建于的数据库,创建于1998.9 u 约每约每300 bp 有一个有一个SNP u 数据种类数据种类 SNP Insertion/deletion (Indel) Deletion/insertion/substitution (DIS) u 发现致病基因、发现致病基因、进化分析进化分析 u dbSNP主页输入关键词主页输入关键词 检索到的条目检索到的条目 每一条目详细内容每一条目详细内容 代码代码碱基碱基 MA或或C RA或或G WA或或T SC或或G YC或或T KG或或T VA、C或或G HA、C或或T DA、G或或T BC、G或

19、或T N G、A、T 或或C 标准碱基多意代码标准碱基多意代码 (9)EMBL (European Molecular Biology Laboratory) Nucleotide Sequence Database v EBI (European Bioinformatics Institute) 管理管理 v 主要是欧洲国家产生的主要是欧洲国家产生的 DNA 和和 RNA 序列序列 v 序列数据序列数据文档文档格式与格式与 GenBank 不同不同 数据库主页数据库主页http:/www.ebi.ac.uk/embl输入关键词输入关键词 检索到的检索到的条目条目 每一条目每一条目详细内容详

20、细内容 (10)DDBJ (DNA Data Bank of Japan) u 主要是日本产生的主要是日本产生的 DNA 和和 RNA 序列序列 数据库主页数据库主页http:/www.ddbj.nig.ac.jp/Welcome-e.html 输入关键词输入关键词 检索到的检索到的条目条目 每一条目每一条目详细内容详细内容 u 发表文章要提供发表文章要提供 Accession number (11)EPD (Eukaryotic Promoter Database) http:/www.epd.isb-sib.ch/ u 由由Weizmann Institute of Science in

21、Rehovot (Israel) 开创开创 u 4809条真核生物启动子序列(条真核生物启动子序列(2009.2) u 人类基因组中的启动子大约人类基因组中的启动子大约19万个万个 u 同一个基因具有多个启动子同一个基因具有多个启动子 2、蛋白质数据库、蛋白质数据库 (1)SWISS-PROT u 由由 EBI 和瑞士创办和瑞士创办 u 有详细注释有详细注释的序列的序列,数据来源于实验,数据来源于实验 u 与与44个个数据库数据库相互参照(相互参照(cross-reference) 数据库主页数据库主页http:/www.ebi.ac.uk/swissprot/ 点击点击SRS 在在查询网页查

22、询网页输入关键词输入关键词 检索到的检索到的条目条目 (2)TrEMBL (Translation of EMBL) u EBI 的数据库的数据库 u 提交到提交到 EMBL 核苷酸核苷酸数据库中所有数据库中所有CDS 的氨的氨 基酸序列基酸序列 u SWISS-PROT 和和 TrEMBL数据库合并数据库合并 UniProt (Universal Protein Resource) v 检索方法与检索检索方法与检索SWISS-PROT相同相同 v 查询结果查询结果和和数据格式数据格式 (3)PIR (Protein Information Reso

23、urce) u 由由National Biomedical Research Foundation 创办创办 u蛋白质蛋白质家族分类家族分类 u 蛋白质整合信息蛋白质整合信息 (4)PRF (Protein Research Foundation) http:/www.prf.or.jp/en/os.html u 由日本的由日本的 Protein Research Foundation 创办创办 u 已发表在杂志上的蛋白质序列已发表在杂志上的蛋白质序列 u 修饰位点、修饰位点、SS键等键等 u 两月更新一次两月更新一次 (6)Prosite h

24、ttp://prosite u 蛋白质家族蛋白质家族 u 结构域结构域 3、结构数据库、结构数据库 (1)PDB (Protein Data Bank) u 由由 Brookhaven National Laboratories 创办创办 v 蛋白质蛋白质 v 核酸核酸 v 其它其它 u 57, 103 个结构图(个结构图(2009.2) u 可通过可通过 BLAST 系统检索系统检索 u X 射线衍射图射线衍射图、 核磁共振(核磁共振(NMR) 光谱图光谱图和电和电 镜图镜图(文字文字和和三维三维结构图)结构图) (2)SWI

25、SS-3D IMAGE http:/www.expasy.ch/sw3d/ 蛋白质的平面和立体图蛋白质的平面和立体图 u 来源于实验结果来源于实验结果 u 理论模型理论模型 4、酶和代谢数据库、酶和代谢数据库 (1)KEGG (Kyoto Encyclopedia of Genes and Genomes) u 各种代谢、遗传等路径图各种代谢、遗传等路径图 u 可检索参于可检索参于各种各种路径的基因路径的基因 KEGG主页主页http:/www.genome.ad.jp/kegg/ 点击点击“PATHWAY” “PATHWAY”网页点击任何代谢路径,如糖酵解网页点击任何代谢路径,如糖酵解/糖糖

26、 原异生途径(原异生途径(Glycolysis/Gluconeogenesis) u 检索检索Genetic Information Processing KEGG主页点击主页点击“PATHWAY” “PATHWAY”网页点击任何遗传信息路径,网页点击任何遗传信息路径, 如如 Protein export 路径路径 可以查看参加这一路径蛋白质的可以查看参加这一路径蛋白质的信息信息 u 检索检索Environmental Information Processing KEGG主页点击主页点击“PATHWAY” “PATHWAY”网页点击任何网页点击任何Environmental Informat

27、ion Processing 路径,如路径,如 MAPK signaling pathway 路径路径 可以查看与这一路径相连的可以查看与这一路径相连的其它信号路径其它信号路径 或参加这一路径的或参加这一路径的蛋白质信息蛋白质信息 u 检索检索Cellular Processes KEGG主页点击主页点击“PATHWAY” “PATHWAY”网页点击任何网页点击任何Cellular Processes 路径,如路径,如 Cell cycle 路径路径 可以查看与这一路径相连的其它信号路径可以查看与这一路径相连的其它信号路径 或参加这一路径的蛋白质信息或参加这一路径的蛋白质信息 (2)PKR (

28、Protein Kinase Resource) /pkr/Welcome.do 多种检索内容多种检索内容 u 已知蛋白激酶的序列比较已知蛋白激酶的序列比较 u 蛋白激酶分类蛋白激酶分类 u 蛋白激酶的三维结构蛋白激酶的三维结构 u 其它参考资料其它参考资料 5、物种分类数据库、物种分类数据库 u 物种分类物种分类 界(界(Kingdom) 门(门(Phylum) 纲(纲(Class) 目(目(Order) 科(科(Family) 属(属(Genus) 种(种(Species) 每一分类等级下可加设亚级(每一分类等级下可加设亚级(Sub

29、-),如亚门、亚),如亚门、亚 纲、亚科等。纲、亚科等。 每一分类等级上可加设总级(每一分类等级上可加设总级(Super-),如总纲、),如总纲、 总目、总科等。总目、总科等。 动物界(动物界(Animal) 脊索动物门(脊索动物门(Chordata) 脊椎动物亚门(脊椎动物亚门(Vertebrata) 哺乳纲(哺乳纲(Mammalia) 啮齿目(啮齿目(Rodentia) 鼠科(鼠科(Muridae) 小家鼠属(小家鼠属(Mus) 小家鼠种(小家鼠种(musculus) 举例:举例: Mouse:Mus musculus Human:Homo sapiens Arabidopsis:Arab

30、idopsis thaliana Taxonomy /Taxonomy/taxonomyhome.html u 拟南芥拟南芥系谱(系谱(lineage) u 各个物种的系谱树各个物种的系谱树 在在NCBI Entrez Taxonomy Homepage网页网页 点击点击“tree” 在在“tree”网页点击任一物种名,如网页点击任一物种名,如 “Eukaryota” 真核生物的真核生物的系谱系谱(lineage) 6、文献数据库、文献数据库 u 各种杂志、书刊上发表的文章各种杂志、书刊上发表的文章 u 大多数有摘要大多数有摘要 (1)Pub

31、Med /PubMed/ u 美国国家医学图书馆的数据库美国国家医学图书馆的数据库 u 医学医学 u 分子生物学分子生物学 u 基础生物学基础生物学 u 5300多种刊物,来源于多种刊物,来源于70多个国家多个国家 u 刊物年限:刊物年限:1948年至今年至今 (2)OMIM (Online Mendelian Inheritance in Man) u NCBI 的数据库的数据库 u 人类基因人类基因 u 遗传疾病遗传疾病 u 每天更新数据每天更新数据 条目条目 /sites/entrez

32、?db=OMIM (3)Agricola / u 美国农部农业图书馆的数据库美国农部农业图书馆的数据库 u 农业类刊物农业类刊物 7、向数据库提交和修改核苷酸和蛋白质序列、向数据库提交和修改核苷酸和蛋白质序列 提交:提交:Submission 修改:修改:Update 数据库中的数据由大家无偿提供,共同享用数据库中的数据由大家无偿提供,共同享用 Growth of Sequence and 3D Structure Databases Signed by 256 researchers (1)向向 GenBank提交或修改核苷酸序列提交或修

33、改核苷酸序列 u 用用 BankIt 功能功能提交提交序列序列 v 网上直接提交,简单方便网上直接提交,简单方便 v 提交后立刻得到临时编号提交后立刻得到临时编号 v 一周内得到一周内得到 Accession number u 用用Update 功能功能修改修改 GenBank 中的序列和相关信息中的序列和相关信息 v 修改一次,修改一次,version 的编号就进一位的编号就进一位 u 用用 Sequin 方法提交序列方法提交序列 v 可下载的电子表格可下载的电子表格 v 自动确定自动确定 CDS、ORF 和查找重复序列和查找重复序列 (2)向)向 SWISS-PROT 提交或修改蛋白质序列

34、提交或修改蛋白质序列 u 网上直接操作网上直接操作 u 只接收用蛋白质直接测序的序列只接收用蛋白质直接测序的序列 u 由核苷酸序列翻译得到的蛋白质序列由核苷酸序列翻译得到的蛋白质序列 将进入将进入TrEMBL (三)上机操作(三)上机操作 1. 熟悉各种数据库熟悉各种数据库 2. 重点了解重点了解 GenBank 和和 SWISS-PROT 的各种功能和适用范围的各种功能和适用范围 Xa26 nucleic acid sequence (DQ426646,6000 bp): ATGGCCATGGGTCCACACGCAGTGAGATGAATGCT AGATCTCACGAGAAAAAAGAAATACATCTCA GGGGTTGTGATG

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论