版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
核酸、蛋白质在线数据库资源俞海
Chapter
1Introduction
of
Database生物信息学自诞生之日起,计算机似乎就注定要成为其核心工具。飞速发展的电子计算机技术仍然赶不上生物学科海量信息的快速积累的脚步,光计算机,量子计算机和生物计算机学科成为计算机技术新的发展方向。互联网汇总着人类的文明,并成为人们生活的主题。计算机几乎应用在所有学科上,尤其是研究生物大分子的分子生物学和以量化生物为目的的生物信息学。计算机硬件计算机网络系统环境数据库技术计算机语言生物信息学中的计算机知识CPU:体系架构、主频、摩尔定律、多线程、多核心…内存:容量、运行频率、多通道…显卡:运行频率、位宽、架构、功率…内置存储(硬盘):介质、容量、接口…外置存储:软盘、光盘、优盘、蓝光光盘计算机硬件的发展国际互联网域名系统(gov,edu,org,com…)TCP/IP协议HTTP、FTP、Pop3、SMTP、IMAP和BitTorrentTelnet和SSH计算机网络大型机,中型机,小型机和微机。Server,Workstation,PC,Laptop,mobileUNIX操作系统以其稳定的计算环境和良好的多用户支持成为企业内部和研究所采用的平台;MacOS/iOS:早期的Macintosh机由于具有优良的图像支持能力的图形界面环境而广泛应用于图形计算等领域;Windows95/98/NT/2000/XP/Vista/7/8:Microsoft的Windows操作系统成为PC上的主流操作系统;Linux:源代码开放的完全免费的UNIX兼容系统,在生物信息学分析已经显示出巨大的生命力,并成为发展的趋势。从事生物信息学分析的用户一般会同时安装Linux和Windows系统以满足更深入的分析任务,Linux具有很好的兼容性。Android:基于Linux深度开发的操作系统(Google),最初目的用于支持手机等移动设备,逐渐扩展到平板电脑、电视、数码相机和游戏机等设备。2012年占据了全球智能手机操作系统市场76%的份额。平台开发的开放性是Android的首要优势,开发者和用户迅速增加。计算机系统环境数据库技术数据库(DataBase,DB)是一个按数据结构来存储和管理数据的计算机软件系统。数据库方法与文件方法相比,具有以下两个特征。1)数据库中的数据具有数据整体性。2)数据库中的数据具有数据共享性。①不同的用户可以按各自的用法使用数据库中的数据。②多个用户可以同时共享数据库中的数据资源。一个数据库系统应由计算机硬件、数据库、数据库管理系统、数据库应用系统和数据库管理员五部分构成。数据库的发展:第一代的网状、层次数据库系统;第二代的关系数据库系统;第三代的以面向对象模型为主要特征的数据库系统。第三代数据库支持多种数据模型(比如关系模型和面向对象的模型),并和诸多新技术相结合(比如分布处理技术、并行计算技术、人工智能技术、多媒体技术、模糊技术),广泛应用于多个领域(商业管理、GIS、计划统计等),由此也衍生出多种新的数据库技术。e.g.学籍信息、库房管理、电子商务…数据库的基本概念-SQL简介SQL是关系数据库的标准语言,对关系模型的发展和商用DBMS的研制起着重要的作用。SQL语言是介乎于关系代数和元组演算之间的一种语言。SQL语言:即结构化查询语言,是基于关系代数运算的一种关系数据查询语言。(SELECT*FROMSequenceTableWHEREvirustype=‘HBV’)SQL语言的特点:⑴SQL是一种通用的、功能较强的数据库语言;⑵面向集合的操作方式;⑶SQL具有两种使用方式,一种是自含语言,另一种是宿主语言;⑷SQL语言简洁、易学。计算机语言机器语言汇编语言高级语言C,C++,C#,VB.Net,Pascal,JAVAPython,PerlObject-C…Composition
ofBiological
Database数据库记录通常包括两部分:原始数据对这些数据进行的生物学意义的注释通常情况下,一个数据库常关联许多数据库。Database一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。Chapter2BiologicalDatabases
The
NAR
online
Molecular
Biology
Database
Collection,
hasbeen
updated
and
currently
lists
1512
online
databases.Biological
Databases生物信息数据库种类繁多,归纳起来大体可以分为4个大类一.核酸序列数据库二.蛋白质序列数据库三.结构数据库四.基因组数据库其他分类一.核酸序列数据库GenBank
(美国国家生物技术信息中心NCBI)/Genbank/ENA
(欧洲分子生物学实验室EMBL
)http://www.ebi.ac.uk/ena/homeDDBJ
(日本国立遗传研究所)http://www.ddbj.nig.ac.jp/searches-e.html这三个大型数据库于1982年达成协议,组成合作联合体。每天交换信息
Accession
number,序列数据和注解相同NationalCenterforBiotechnologyInformationNCBI是美国国立卫生研究院(NIH)的美国国立医学图书馆(NLM)的一个分支。1988年国立生物技术信息中心(NCBI)成立。What
does
NCBI
do?conductsresearchincomputationalbiology,developssoftwaretoolsforanalyzinggenomedata,anddisseminatesbiomedicalinformation-allforthebetterunderstandingofmolecularprocessesaffectinghumanhealthanddisease.NCBI
综合检索平台(Entrez)GenBankGenBank数据库中有部分蛋白质序列数据每天更新,每年发行release)六版GenBank的数据来源于约380,000多个物种,包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。GenBank的数据完全公开,也接受世界各国实验室送交的核酸序列数据要大批下载GenBank的数据,可用匿名FTP的方式进入:
;要获取少量数据,可进入NCBI网站,使用EntrezGenBank数据来源GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。特殊标志符的格式
(核酸序列)
Accession
number
(GenBank/EMBL/DDBJ序列接受号)1个字母+5个阿拉伯数字2个字母+6个阿拉伯数字其他格式
GI(GenInfo
identifier)一串阿拉伯数字
RefSeq(Reference
Sequence)序列接受号:mRNA记录(NM_*):NM_000492基因组DNA重叠群(NT_*):
NT_000347完整的基因组或染色体(NC_*):
NC_000907基因组的局部区域(NG_*):
NG_000019从人类基因组序列注释、加工得到的序列模型记录(XM,XP,orXR_*):XM_000483
AF392820Case
Study若检索与细胞凋亡有关的自噬基因“autophagy”的核酸序列进入NCBI主页Search“autophagy”for“Nucleotide”
点击“go”开始查询Search
results:辅助功能
各种辅助功能:包括限定查询范围(Limits)、保存查询结果(Save
search)、高级查询(Advanced
search)和帮助(Help)等,以提高查询效率。
点击”Limits”按钮,可以将输入的关键词的查询范围限制在某个范围内,如分子类型、数据库来源、提交日期等。
Limited
to:Gene
Location搜索结果减少为8912GenBank
FlatfileGenBank
flatfile(GBFF):GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。GBFF可以分成三个部分:•头部包含关于整个记录的信息(描述符)•第二部分包含了注释这一记录的特性•第三部分是核苷酸序列自身。所有的核苷酸数据库记录(DDBJ/EMBL/GenBank)都在最后一行以//结尾。NM_001142673字段含义解释LOCUSIdentifier序列名称、性质描述ACCESSIONAccessionnumber序列接受号DEFINITIONDescription序列定义KEYWORDSKeywords关键词SOURCEOrganism(species)来源种属ORGANISMOrganism(classification)来源分类REFERENCEReferencenumber参文条目AUTHORSReferenceauthors参文作者TITLEReferencetitle参文题目JOURNALReferencelocation参文出处COMMENTSDatabasecross-reference交叉索引MEDLINEMedlinenumberMEDLINE号FEATURESFeaturetableheaderdata序列性质表头数据BASECOUNT碱基数目ORIGIN序列开始标志//Terminationline序列终止标志GenBank的主要字段及其含义常见的序列文件格式-Staden一个Staden格式的序列文件仅仅含有序列本身,用单字母表示核苷酸或氨基酸,每行60个字母。大多数程序都识别这个基本的格式。但是Staden格式的文件中不包含任何与序列有关的信息,信息必须通过一个链接保留在另外一个独立的文件在中。常见的序列文件格式-GCGGCG格式中序列有关的信息放在序列正文前,用两个点表示序列正文的开始。GCG文件格式中有一个被称为checksum(checknumber)的数值(按一定的算法计算)。该值由序列的组成和长度计算而来,以用来检测GCG文件是否受损。因为当GCG序列被送入程序前,程序重新计算这个数值,并与文件中的check值比较,如果不符,序列被认为受损,程序将拒绝执行。因此编辑序列时,应该用相关的序列编辑软件,因为它可以保证序列的完整性。常见的序列文件格式-FASTA标准的FASTA文件格式,是以“>”开头的一行注释行,第二行起为序列行,每序列行含核苷酸残基数(nt)为50或60个。而FASTA文件(*.fas)基本上是各个生物信息学软件均认可的通用格式,包括向GenBank数据库注册序列。无特殊说明,本文所述的“文件”均指核酸序列文件。>Protein1MRPRPILLLLLMFLPMLPAPPPGQPSGRRRGRRSGGSGGGFWGDRADSQPFAIPYIHPTNEHVIPSERLHYRNQGWRSVETSGVAEEEATSGLVMLCIHGSLVNSYTNTPYTGALGLLDF常见的序列文件格式-PRI/NBRF该文件格式有两行注释,第一行仍然以“>”开头。序列正文结束时以“*”结尾。常见的序列文件格式-GenBank除GCG和Staden文件格式外,Fasta、PIR、GenBank格式可以在一个文件中保留多个序列。常见的序列文件格式-DNAStarCreated:2004年6月9日21:31^^ATGATAGCGCTTACCCTGTTTAACCTTGCTGACACCCTGCTAGGCGGTCTACCCACAGAATTGATTTCGTCGGAGGTGGACAGCTGTTCTACTCTCGTCCCGTTGTCTCGGCCAATGGCGAGCCGACTGTTAAGCTTTATACA2.
EMBL(European
Molecular
Biology
Laboratory)EBI
(European
Bioinformatics
Institute)管理主要是欧洲国家产生的DNA和RNA序列序列数据文档格式与GenBank不同3.
DDBJ(DNA
Data
Bank
of
Japan)主要是日本产生的DNA和RNA序列发表文章要提供Accession
number上机操作登录NCBI网站登录EMBL网站登录DDBJ网站按ID查找:AF111847按关键字查找:hepatitisbvirus打开GenBank格式的核酸(蛋白)数据页面打开EMBL格式的核酸(蛋白)数据页面下载FASTA格式的序列文件上机操作筛选:查找人的表皮生长因子的全长序列高级查询:查找今年以来新报道的HBV(乙肝病毒)全基因组序列(((("2013/1/1"[PublicationDate]:"3000"[PublicationDate]))ANDhepatitisbvirus[Title])ANDcompletegenome[Title])Search(((
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年首期款全付房产买卖合同书3篇
- 二零二五版个人信用重建借款委托担保合同3篇
- 二零二五版包装行业绿色认证与推广合同3篇
- 二零二五年陵园墓地购置与家族纪念馆建设合同3篇
- 二零二五版知识产权保护技术服务合同泄密责任细则3篇
- 二零二五年度餐饮企业食品安全追溯平台建设合同3篇
- 二零二五年度食品供应与餐饮服务合同2篇
- 二零二五年防火门制造与施工安装一体化合同模板3篇
- 2025年度影视基地场地租赁及拍摄制作合同范本3篇
- 2025年复合材料堆放场地租赁及环保处理合同3篇
- 建筑材料供应链管理服务合同
- 孩子改名字父母一方委托书
- 2024-2025学年人教版初中物理九年级全一册《电与磁》单元测试卷(原卷版)
- 江苏单招英语考纲词汇
- 矿山隐蔽致灾普查治理报告
- 2024年事业单位财务工作计划例文(6篇)
- 2024年工程咨询服务承诺书
- 青桔单车保险合同条例
- 车辆使用不过户免责协议书范文范本
- 《狮子王》电影赏析
- 2023-2024学年天津市部分区九年级(上)期末物理试卷
评论
0/150
提交评论