数据库-p第二章_第1页
数据库-p第二章_第2页
数据库-p第二章_第3页
数据库-p第二章_第4页
数据库-p第二章_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教学http:/

/kech/sw

/华农主页-南湖教苑-精品课程-国家精品课程-2007年国家精品课程-生物信息学参考DavidW.

Mount.

Bioinformatics:

SequenceandGenome ysis.(2nd

edition)NewYork:

Cold

Spring

Harbor

LaboratoryPress,

2004.等译,生物信息学(第一版),高等教育

,2003。参考

岗、 ,生物信息学:方法与实践,科学

,2002。A.

D.

Boxevanis

and

B.

F.

F.

Ouellette.Bioinformatics:

A

Practical

Guidetotheysis

of

Genes

and

Proteins.(3rdedition)

New

York:

Wile-Interscience,2004.了解各种生物数据库掌握利用Internet上的各种数据库、

,查找生物相关信息,分析和解释各种生物数据。学习本课程的目的Sequenceysisysis

of

gene

expressionysis

of

regulationPrediction

of

protein

structureGenomeannotationComparative

genomics数据库(Database)?、加工、发布和检用于收集、整理、索数据的系统。生物类的数据库种类很多(序列、结构、生物分子互作、其它)投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中数据库(Database)?数据库记录通常包括两部分原始数据对这些数据进行的生物学意义的注释一个数据库通常 了多个相关数据库核苷酸数据库-水稻抗病相关

OsDR8Taxonomy

数据库Pubmed

数据库NCBI-Protein

数据库DQ176424ContentsBackground

(背景)Bioinformatics

Links(数据库)Bioinformatics

Centres

(重要生物信息中心)数据库和序列的格式数据库检索工具数据库组数据库(GDB,

ACeDB)结构数据库(PDB,NDB)蛋白质序列数据库(EMBL,SWISSPROT,PIR)核苷酸数据库(GENBANK,DDBJ,EMBL)图谱数据库Bioinformatics生物信息学History1975-77

Sanger

and

his

colleagues

developed

rapid

DNA

sequencing

methods.--1977

introns

discovery--

1982

Databases

(GenBank,

KEGG)--1987 human

genetic

map1990

Launch

of

the

Human

Genome

Project--1992

2-nd

generation

map

of

human

genome--

1993

new

HGP

fiveyear

plan--

1994

Detailed

human

geneticmap--

1995

Twomicrobial

genomes

sequenced

physical

map

of

human

genome

completed--

1996

meeting

of

human

genome

sequenceMouse

genetic

mapA

eukaryote-

yeast

genome

sequenced--1997

E.coli

genome

sequenced--1998

HGP

includes

map

30.000human

genesNew

HGP

goals

for

2003Round

worm ans

sequenced--1999

Full-Scale

sequenced

beginchromosome222000

Fruit

fly

genomesequencedchromosome21--

2003

Planned

completing

of

human

sequencingMouse

working

draft--

2004

Mouse

sequencing

obtained1970’s

+1990’s

+2000+Half

dayontheweb,savesyouhalfmonthin

thelab.-

AlanBleasby数据库的建设和发展GenomicGenomicExperimentalDataWarehousePrepareddataPatternsKnowledgeExpertKnowledgeOften

notexplicitlyimplemented生物数据库的种类数据库(一)数据库工具建立纯文本数据库GenBank

数据库、EMBL

核苷酸数据库

SQL(结构化查询语言)是世界上流行的和标准化的数据库语言记录文件和图像能够快速灵活MySQLhttp://d/SQL数据库工具Access

OracleAceDB

数据库工具AceDB:A

C.elegans

DataBase

(线虫数据库)组数据的工具G181L10440.420.84RM2240.21R15060.21Xa261.470.000.63NBS119RM144Y6855RAS128860.0011被广泛应用的管理和提供数据形式丰富遗传图谱物理图谱新陈代谢途径1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactg

agaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataatttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(一)数据库工具(二)各种生物数据库1、核苷酸数据库DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列主要是非实验来源数据coding

sequence

(CDS)EXONINTRONCDS(coding

sequence)1、核苷酸数据库ORF

(open

reading

frame)真核生物

结构1、核苷酸数据库三大核苷酸数据库GenBank、EMBL核苷酸数据库、DDBJ信息资源共享:以天为基础进行数据库之间的序列专利核苷酸序列United

States

Patent

and

Trademark

Office

(USPTO)European

Patent

Office

(EPO)Japan

Patent

Office

(JPO)1、核苷酸数据库GenBankNCBI的核苷酸数据库,包括部分蛋白质序列数据每天更新,每年 六版releaseftp://ftp.ncbi.nih.

/genbank/gbrel.txtRelease

178(2010.6.15)120,604,423sequences115,624,497,715

bases来源于370,000多个物种大约12%的序列来源于人(Homosapiens)Nucleic

Acids

Res.

2009;37(Database

issue):D26-31(1)GenBank……号或登陆号)每个序列有一个flatfile每条序列有三个专有的Locus

name(位点名)Accession

number

(GI(GenInfo

identifier)或标识(identifier)Sample

record(1)GenBank(1)GenBankThedivisionsofGenBankPRI

-

primate

sequencesROD

-

rodent

sequencesMAM

-

other

mammalian

sequencesVRT

-

other

vertebrate

sequencesINV

-

invertebrate

sequencesPLN

-

plant,

fungal,

and

algal

sequencesBCT

-

bacterial

sequencesVRL

-

viral

sequencesPHG

-

bacteriophage

sequencesSYN

-

synthetic

sequencesUNA

-

unannotated

sequencesEST

-

EST

sequences

(expressed

sequence

tags)PAT

-

patent

sequencesSTS

-

STS

sequences

(sequence

tagged

sites)GSS

-

GSS

sequences

(genome

survey

sequences)HTG

-

HTG

sequences

(high-throughput

genomic

sequences)HTC

-

unfinished

high-throughput

cDNA

sequencingENV

-

environmental

sampling

sequences(2)EST数据库dbEST

(Database

of

Expressed

Sequence

Tags)GenBank的二级数据库5’端或3’端的cDNA

序列(EST)200-500

bp“Single-pass

read”sequenceGenBank

中60%以上的序列是EST(3)UniGene数据库UniGeneNCBI

的另一个核苷酸数据库来源于同一

的非重复

EST

组成

序列群鼠、小鼠、斑马鱼、牛、猪等拟南芥、水稻、小麦、大麦、玉米等共计100多个物种UniGene主页输入

检索(4)STS数据库dbSTS

(Database

of

Sequence

Tagged

Sites)GenBank的二级数据库

UniSTS短序列(200-500

bp),仅在

组中出现一次已定位于

如何找到一个STS检索:NCBI主页选择UniSTS后输入检索到的条目

每一条目详细内容点击“map

viewer”查看

定位(4)STS数据库contigScience

1989;245:1434-5.(5)GSS数据库dbGSS

(Database

of

Genome

Survey

Sequences)片段的末端序列GenBank的二级数据库组短序列cosmid/BAC/YAC

外源Alu

PCR

序列cosmid

/

BAC

/

YACHTGS

(High-Throughput

Genomic

Sequences)GenBank

的二级数据库尚未完成

的 群(>

2

kb)的序列新序列的增加速度很快组 过程中(Phase

0、1、2)产生的过渡数据(6)HTGS数据库Nature,

409,

860-921Phase2Unfinished,

ordered,

orientedcontigs,

with

or

without

gapsPhase3Finished,

no

gaps

(with

orwithout

annotations)one-to-fePhase0ss

readsof

asingle

clone

(not

contigs)Phase1Unfinished,

may

be

unordered,unoriented

contigs,

with

gaps鸟枪法(shotgun)流程水稻 组全 组大小:430Mb;每个Reads

读长450bp;故覆盖每个水稻

组所需反应:100万;覆盖水稻 组8X,需要800万反应;每个反应的15200万成本为19元,800万反应总共需;人力费800万。中国水稻组计划的经费Genomesequencing: QUICKER,

SMALLER,

CHE

RX

PRIZE

FoundationNature

2008,

452:788GenomeNCBI

的另一个数据库

完成和正在 物种物理图等序列收集在GenBank组序列、遗传图、已经完成

的 组(截止2010年8月)Genome

Project——Statistics(7)组数据库dbSNP

(Database

of

Single

Nucleotide

Polymorphisms)NCBI的数据库,创建于1998.9约每300

bp

有一个SNP数据种类SNPInsertion/deletion

(Indel)Deletion/insertion/substitution

(DIS)发现致病 、进化分析…(8)单核苷酸多态性数据库dbSNP主页输入检索到的条目每一条目详细内容代码碱基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C标准碱基多意代码(8)单核苷酸多态性数据库(9)EMBL

(European

Molecular

Biology

Laboratory)Nucleotide

Sequence

DatabaseEBI

(European

Bioinformatics

Institute)

管理与GenBank收集的数据相同序列数据文档格式与GenBank

不同数据库主页 输入检索到的条目每一条目详细内容(10)DDBJ

(DNA

Data

Bank

ofJapan)与GenBank收集的序列数据相同

e-e.html数据库主页输入检索到的条目每一条目详细内容文章要提供Accession

number(在三大核苷酸数据库中通用)EPD

(Eukaryotic

Promoter

Database)由Weizmann

Institute

of

Science

in

Rehovot(Israel)

开创4806条真核生物启动子序列(2009.6)人类 组中的启动子大约19万个同一个 具有多个启动子(11)启动子数据库(12)miRNA数据库miRBase收集了>14000条hairpin

precursormiRNA

序列(2010.4)来源于>100个物种可以通过miRNA名、

、位置等检索数据库分析一条DNA序列中是否可能包含miRNA2、蛋白质数据库UniPROT由EBI

和SIB创办分为两个部分:来源于实验的有详细注释的序列(SwissProt)和自动注释序列(TrEMBL)与110个数据库相互参照(cross-reference)可用

(Text

search)和序列比对(BLAST

similarity

search)进行检索数据库主页,使用检索结果页面,reviewed(Swiss-Prot),unreviewed

(TrEMBL)Browse

bytaxonomy,keyword,

geneontology,

enzymeclassor

pathway条目详细内容(1)UniPROT(2)其它类型的蛋白质数据库PIR

(Protein

Information

Resource)蛋白质

分类蛋白质整合信息Prosite蛋白质结构域3、结构数据库(1)PDB

(Protein

Data

Bank)由Brookhaven

National

Laboratories

创办67,131个结构图(2010.8)蛋白质核酸其它可通过BLAST

系统检索X

射线衍射图、

核磁 (NMR)

光谱图和电镜图(文字和三维结构图)(1)

PDB

(Protein

Data

Bank)(2)SWISS-3D

IMAGE蛋白质的平面和

图来源于实验结果理论模型4、酶和代谢数据库KEGG

(Kyoto

Encyclopedia

of

Genes

andGenomes)各种代谢、遗传等路径图可检索参于各种路径的KEGG主页点击“PATHWAY”“PATHWAY”网页点击任何代谢路径,如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis)检索Genetic

Information

ProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何遗传信息路径,如Protein

export

路径可以查看参加这一路径蛋白质的信息KEGG数据库KEGG数据库检索Environmental

Information

ProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何EnvironmentalInformation

Processing

路径,如MAPK

signaling

pathway

路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息检索Cellular

ProcessesKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何Cellular

Processes路径,如Cell

cycle

路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息KEGG数据库5、物种分类数据库物种分类界(Kingdom)门(Phylum)纲(Class)目(Order)科(Family)属(Genus)种(Species)每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。每一分类等级上可加设总级(Super-),如总纲、总目、总科等。Mouse:Mus

musculus动物界(Animal)脊索动物门(Chordata)脊椎动物亚门(Vertebrata)哺乳纲(Mammalia)啮齿目(Rodentia)鼠科(Muridae)

小家鼠属(Mus)小家鼠种(musculus)拟南芥系谱(lineage)查找某一物种的系谱树在NCBI

Taxonomy

主页输入物种名称“pig”lineageTaxonomy数据库6、文献数据库(1)国家医学 馆的数据库医学、分子生物学、基础生物学5400多种 ,来源于80多个国家文献年限:1947年至今提供 ,全文免费全文收集在(2)其它类型的文献数据库OMIM

(Online

Mendelian

Inheritance

in

Man)NCBI

的数据库,每天更新数据人类 、遗传疾病名称Agricola农部农业农业类馆的数据库输入疾病、条目7、向数据库提交和修改核苷酸和蛋白质序列提交:Submission修改:Update数据库中的数据由大家无偿提供,共同Accuracy??(1)向GenBank提交或修改核苷酸序列在GenBank主页用BankIt

功能提交序列网上直接提交,简单方便提交后立刻得到临时二天内得到Accession

number用Sequin方法提交序列可 的电子表格自动确定CDS、ORF

和查找重复序列用Update

功能修改GenBank

中的序列和相关信息修改一次,version

的 就进一位Accession

number不变OldNew(2)向SWISS-PROT

提交或修改蛋白质序列网上直接操作只接收用蛋白质直接 的序列由核苷酸序列翻译得到的蛋白质序列将进入TrEMBL上机操作熟悉各种数据库重点了解GenBank

和SWISS-PROT的各种功能和适用范围Xa26

nucleic

acid

sequence

(DQ426646,6000

bp):…ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAA

ATCT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论