版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
教学http:/
/kech/sw
/华农主页-南湖教苑-精品课程-国家精品课程-2007年国家精品课程-生物信息学参考DavidW.
Mount.
Bioinformatics:
SequenceandGenome ysis.(2nd
edition)NewYork:
Cold
Spring
Harbor
LaboratoryPress,
2004.等译,生物信息学(第一版),高等教育
,2003。参考
岗、 ,生物信息学:方法与实践,科学
,2002。A.
D.
Boxevanis
and
B.
F.
F.
Ouellette.Bioinformatics:
A
Practical
Guidetotheysis
of
Genes
and
Proteins.(3rdedition)
New
York:
Wile-Interscience,2004.了解各种生物数据库掌握利用Internet上的各种数据库、
,查找生物相关信息,分析和解释各种生物数据。学习本课程的目的Sequenceysisysis
of
gene
expressionysis
of
regulationPrediction
of
protein
structureGenomeannotationComparative
genomics数据库(Database)?、加工、发布和检用于收集、整理、索数据的系统。生物类的数据库种类很多(序列、结构、生物分子互作、其它)投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中数据库(Database)?数据库记录通常包括两部分原始数据对这些数据进行的生物学意义的注释一个数据库通常 了多个相关数据库核苷酸数据库-水稻抗病相关
OsDR8Taxonomy
数据库Pubmed
数据库NCBI-Protein
数据库DQ176424ContentsBackground
(背景)Bioinformatics
Links(数据库)Bioinformatics
Centres
(重要生物信息中心)数据库和序列的格式数据库检索工具数据库组数据库(GDB,
ACeDB)结构数据库(PDB,NDB)蛋白质序列数据库(EMBL,SWISSPROT,PIR)核苷酸数据库(GENBANK,DDBJ,EMBL)图谱数据库Bioinformatics生物信息学History1975-77
Sanger
and
his
colleagues
developed
rapid
DNA
sequencing
methods.--1977
introns
discovery--
1982
Databases
(GenBank,
KEGG)--1987 human
genetic
map1990
Launch
of
the
Human
Genome
Project--1992
2-nd
generation
map
of
human
genome--
1993
new
HGP
fiveyear
plan--
1994
Detailed
human
geneticmap--
1995
Twomicrobial
genomes
sequenced
physical
map
of
human
genome
completed--
1996
meeting
of
human
genome
sequenceMouse
genetic
mapA
eukaryote-
yeast
genome
sequenced--1997
E.coli
genome
sequenced--1998
HGP
includes
map
30.000human
genesNew
HGP
goals
for
2003Round
worm ans
sequenced--1999
Full-Scale
sequenced
beginchromosome222000
Fruit
fly
genomesequencedchromosome21--
2003
Planned
completing
of
human
sequencingMouse
working
draft--
2004
Mouse
sequencing
obtained1970’s
+1990’s
+2000+Half
dayontheweb,savesyouhalfmonthin
thelab.-
AlanBleasby数据库的建设和发展GenomicGenomicExperimentalDataWarehousePrepareddataPatternsKnowledgeExpertKnowledgeOften
notexplicitlyimplemented生物数据库的种类数据库(一)数据库工具建立纯文本数据库GenBank
数据库、EMBL
核苷酸数据库
SQL(结构化查询语言)是世界上流行的和标准化的数据库语言记录文件和图像能够快速灵活MySQLhttp://d/SQL数据库工具Access
OracleAceDB
数据库工具AceDB:A
C.elegans
DataBase
(线虫数据库)组数据的工具G181L10440.420.84RM2240.21R15060.21Xa261.470.000.63NBS119RM144Y6855RAS128860.0011被广泛应用的管理和提供数据形式丰富遗传图谱物理图谱新陈代谢途径1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactg
agaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataatttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(一)数据库工具(二)各种生物数据库1、核苷酸数据库DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列主要是非实验来源数据coding
sequence
(CDS)EXONINTRONCDS(coding
sequence)1、核苷酸数据库ORF
(open
reading
frame)真核生物
结构1、核苷酸数据库三大核苷酸数据库GenBank、EMBL核苷酸数据库、DDBJ信息资源共享:以天为基础进行数据库之间的序列专利核苷酸序列United
States
Patent
and
Trademark
Office
(USPTO)European
Patent
Office
(EPO)Japan
Patent
Office
(JPO)1、核苷酸数据库GenBankNCBI的核苷酸数据库,包括部分蛋白质序列数据每天更新,每年 六版releaseftp://ftp.ncbi.nih.
/genbank/gbrel.txtRelease
178(2010.6.15)120,604,423sequences115,624,497,715
bases来源于370,000多个物种大约12%的序列来源于人(Homosapiens)Nucleic
Acids
Res.
2009;37(Database
issue):D26-31(1)GenBank……号或登陆号)每个序列有一个flatfile每条序列有三个专有的Locus
name(位点名)Accession
number
(GI(GenInfo
identifier)或标识(identifier)Sample
record(1)GenBank(1)GenBankThedivisionsofGenBankPRI
-
primate
sequencesROD
-
rodent
sequencesMAM
-
other
mammalian
sequencesVRT
-
other
vertebrate
sequencesINV
-
invertebrate
sequencesPLN
-
plant,
fungal,
and
algal
sequencesBCT
-
bacterial
sequencesVRL
-
viral
sequencesPHG
-
bacteriophage
sequencesSYN
-
synthetic
sequencesUNA
-
unannotated
sequencesEST
-
EST
sequences
(expressed
sequence
tags)PAT
-
patent
sequencesSTS
-
STS
sequences
(sequence
tagged
sites)GSS
-
GSS
sequences
(genome
survey
sequences)HTG
-
HTG
sequences
(high-throughput
genomic
sequences)HTC
-
unfinished
high-throughput
cDNA
sequencingENV
-
environmental
sampling
sequences(2)EST数据库dbEST
(Database
of
Expressed
Sequence
Tags)GenBank的二级数据库5’端或3’端的cDNA
序列(EST)200-500
bp“Single-pass
read”sequenceGenBank
中60%以上的序列是EST(3)UniGene数据库UniGeneNCBI
的另一个核苷酸数据库来源于同一
的非重复
EST
组成
序列群鼠、小鼠、斑马鱼、牛、猪等拟南芥、水稻、小麦、大麦、玉米等共计100多个物种UniGene主页输入
检索(4)STS数据库dbSTS
(Database
of
Sequence
Tagged
Sites)GenBank的二级数据库
UniSTS短序列(200-500
bp),仅在
组中出现一次已定位于
上
如何找到一个STS检索:NCBI主页选择UniSTS后输入检索到的条目
每一条目详细内容点击“map
viewer”查看
定位(4)STS数据库contigScience
1989;245:1434-5.(5)GSS数据库dbGSS
(Database
of
Genome
Survey
Sequences)片段的末端序列GenBank的二级数据库组短序列cosmid/BAC/YAC
外源Alu
PCR
序列cosmid
/
BAC
/
YACHTGS
(High-Throughput
Genomic
Sequences)GenBank
的二级数据库尚未完成
的 群(>
2
kb)的序列新序列的增加速度很快组 过程中(Phase
0、1、2)产生的过渡数据(6)HTGS数据库Nature,
409,
860-921Phase2Unfinished,
ordered,
orientedcontigs,
with
or
without
gapsPhase3Finished,
no
gaps
(with
orwithout
annotations)one-to-fePhase0ss
readsof
asingle
clone
(not
contigs)Phase1Unfinished,
may
be
unordered,unoriented
contigs,
with
gaps鸟枪法(shotgun)流程水稻 组全 组大小:430Mb;每个Reads
读长450bp;故覆盖每个水稻
组所需反应:100万;覆盖水稻 组8X,需要800万反应;每个反应的15200万成本为19元,800万反应总共需;人力费800万。中国水稻组计划的经费Genomesequencing: QUICKER,
SMALLER,
CHE
RX
PRIZE
FoundationNature
2008,
452:788GenomeNCBI
的另一个数据库
完成和正在 物种物理图等序列收集在GenBank组序列、遗传图、已经完成
的 组(截止2010年8月)Genome
Project——Statistics(7)组数据库dbSNP
(Database
of
Single
Nucleotide
Polymorphisms)NCBI的数据库,创建于1998.9约每300
bp
有一个SNP数据种类SNPInsertion/deletion
(Indel)Deletion/insertion/substitution
(DIS)发现致病 、进化分析…(8)单核苷酸多态性数据库dbSNP主页输入检索到的条目每一条目详细内容代码碱基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C标准碱基多意代码(8)单核苷酸多态性数据库(9)EMBL
(European
Molecular
Biology
Laboratory)Nucleotide
Sequence
DatabaseEBI
(European
Bioinformatics
Institute)
管理与GenBank收集的数据相同序列数据文档格式与GenBank
不同数据库主页 输入检索到的条目每一条目详细内容(10)DDBJ
(DNA
Data
Bank
ofJapan)与GenBank收集的序列数据相同
e-e.html数据库主页输入检索到的条目每一条目详细内容文章要提供Accession
number(在三大核苷酸数据库中通用)EPD
(Eukaryotic
Promoter
Database)由Weizmann
Institute
of
Science
in
Rehovot(Israel)
开创4806条真核生物启动子序列(2009.6)人类 组中的启动子大约19万个同一个 具有多个启动子(11)启动子数据库(12)miRNA数据库miRBase收集了>14000条hairpin
precursormiRNA
序列(2010.4)来源于>100个物种可以通过miRNA名、
、位置等检索数据库分析一条DNA序列中是否可能包含miRNA2、蛋白质数据库UniPROT由EBI
和SIB创办分为两个部分:来源于实验的有详细注释的序列(SwissProt)和自动注释序列(TrEMBL)与110个数据库相互参照(cross-reference)可用
(Text
search)和序列比对(BLAST
similarity
search)进行检索数据库主页,使用检索结果页面,reviewed(Swiss-Prot),unreviewed
(TrEMBL)Browse
bytaxonomy,keyword,
geneontology,
enzymeclassor
pathway条目详细内容(1)UniPROT(2)其它类型的蛋白质数据库PIR
(Protein
Information
Resource)蛋白质
分类蛋白质整合信息Prosite蛋白质结构域3、结构数据库(1)PDB
(Protein
Data
Bank)由Brookhaven
National
Laboratories
创办67,131个结构图(2010.8)蛋白质核酸其它可通过BLAST
系统检索X
射线衍射图、
核磁 (NMR)
光谱图和电镜图(文字和三维结构图)(1)
PDB
(Protein
Data
Bank)(2)SWISS-3D
IMAGE蛋白质的平面和
图来源于实验结果理论模型4、酶和代谢数据库KEGG
(Kyoto
Encyclopedia
of
Genes
andGenomes)各种代谢、遗传等路径图可检索参于各种路径的KEGG主页点击“PATHWAY”“PATHWAY”网页点击任何代谢路径,如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis)检索Genetic
Information
ProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何遗传信息路径,如Protein
export
路径可以查看参加这一路径蛋白质的信息KEGG数据库KEGG数据库检索Environmental
Information
ProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何EnvironmentalInformation
Processing
路径,如MAPK
signaling
pathway
路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息检索Cellular
ProcessesKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何Cellular
Processes路径,如Cell
cycle
路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息KEGG数据库5、物种分类数据库物种分类界(Kingdom)门(Phylum)纲(Class)目(Order)科(Family)属(Genus)种(Species)每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。每一分类等级上可加设总级(Super-),如总纲、总目、总科等。Mouse:Mus
musculus动物界(Animal)脊索动物门(Chordata)脊椎动物亚门(Vertebrata)哺乳纲(Mammalia)啮齿目(Rodentia)鼠科(Muridae)
小家鼠属(Mus)小家鼠种(musculus)拟南芥系谱(lineage)查找某一物种的系谱树在NCBI
Taxonomy
主页输入物种名称“pig”lineageTaxonomy数据库6、文献数据库(1)国家医学 馆的数据库医学、分子生物学、基础生物学5400多种 ,来源于80多个国家文献年限:1947年至今提供 ,全文免费全文收集在(2)其它类型的文献数据库OMIM
(Online
Mendelian
Inheritance
in
Man)NCBI
的数据库,每天更新数据人类 、遗传疾病名称Agricola农部农业农业类馆的数据库输入疾病、条目7、向数据库提交和修改核苷酸和蛋白质序列提交:Submission修改:Update数据库中的数据由大家无偿提供,共同Accuracy??(1)向GenBank提交或修改核苷酸序列在GenBank主页用BankIt
功能提交序列网上直接提交,简单方便提交后立刻得到临时二天内得到Accession
number用Sequin方法提交序列可 的电子表格自动确定CDS、ORF
和查找重复序列用Update
功能修改GenBank
中的序列和相关信息修改一次,version
的 就进一位Accession
number不变OldNew(2)向SWISS-PROT
提交或修改蛋白质序列网上直接操作只接收用蛋白质直接 的序列由核苷酸序列翻译得到的蛋白质序列将进入TrEMBL上机操作熟悉各种数据库重点了解GenBank
和SWISS-PROT的各种功能和适用范围Xa26
nucleic
acid
sequence
(DQ426646,6000
bp):…ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAA
ATCT
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年海南建筑安全员知识题库及答案
- 中国传统文化主题:对联
- 长度与时间的测量课件
- 《电路中的能量转化》课件
- 石油加工原油组成教学课件
- 病理生理学课件凝血和抗凝血平衡紊乱
- 一年级语文下册《语文园地六》课件
- 《心血管急症》课件
- 固定收益点评报告:把握跨年后的信用配置窗口
- 单位管理制度展示大全【职员管理】
- 授课课件国家卫健委发布《猴痘诊疗指南(2022年版)》全文内容PPT通用课件
- 600MW机组除氧器水位控制系统
- 史上最全的涉税风险
- 初中数学问题情境的创设
- 朱东润《中国历代文学作品选》目录简体字版
- 电力设备典型消防规程.ppt
- 银行授信前须问企业的100个问题
- 北京兴昌达博房地产开发有限公司重整计划
- 红外线卤素加热管项目建议书写作模板用于立项备案申报
- 二年级劳动教学工作总结doc
- 标识牌项目备案申请(模板范本)
评论
0/150
提交评论