生物信息学简单介绍_第1页
生物信息学简单介绍_第2页
生物信息学简单介绍_第3页
生物信息学简单介绍_第4页
生物信息学简单介绍_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学Bioinformaticscontent1.生物信息学简介2.生物信息学数据库3.生物信息学软件4.生物信息学门户网站5.生物信息学在基因芯片技术中的作用1.生物信息学简介

1.1生物信息学(Bioinformatics)这一名词的由来1.2Bioinformatics的定义1.3获取生物的完整基因组1.4发现新基因和新的核苷酸多态性1.5基因组中非编码蛋白质区域的结构与功能1.1生物信息学(Bioinformatics)这一名词的由来

八十年代末期,马来西亚的美籍学者林华安(HwaA.Lim)认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。因此不久,他便进一步把它更改为“bio-informatics(或bio/informatics)”。但由于当时的电子邮件系统与今日不同,名称中的-或/符号经常会引起许多问题,林博士于是将其去除,“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。20世纪50年代以来,生命科学进入了前所未有的高速发展阶段,在短短几十年积累了大量的数据。据不完全统计,目前在国际数据库中记录的DNA序列的碱基早已超过了100亿;而随着人类和其他模式生物基因组测序的完成,可以预计今后DNA序列数据的增长将更为惊人;与此同时,蛋白质的一级结构,即氨基酸序列的数据的积累也随之增加,迄今已测定一万多种蛋白质的不同分辨率的空间结构。这一切构成了一个生物学数据的海洋。6WhatisBioinformatics?如何从海量数据中发掘出人类生存和发展所需的知识,诞生了一门新兴的交叉科学生物信息学。1.2定义广义:指对基因组研究中的相关生物信息的获取、加工、存储、分配、分析、和解释。它包括了两层含义:一是、对海量数据的收集、整理与服务;二是、从中发现新的规律。具体来说,生物信息学是把基因组DNA序列信息作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区,同时阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律。在此基础上归纳、整理与基因组遗传信息释放及调控相关的转录普和蛋白质普的数据,从而认识生物有机体的代谢、发育、分化、进化规律。狭义:采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。1.3获取生物的完整基因组模式生物基因组计划酵母、线虫、果蝇、细菌、拟南芥等共约50多种已完成,70余种正在进行。目前总量已达60亿碱基对!基因组研究的首要目标是获得生物体的基因组全部核苷酸序列。humanArabidopsisThermotoga

maritimaEscherichiacoliBuchnerasp.APSRickettsia

prowazekiiUreaplasma

urealyticumBacillussubtilisDrosophilamelanogasterThermoplasma

acidophilumPlasmodiumfalciparumHelicobacterpylorimouseCaenorhabitis

elegansratBorrelia

burgorferiBorrelia

burgorferiAquifex

aeolicusNeisseria

meningitidis

Z2491Mycobacteriumtuberculosis模式生物virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenomesizesinnucleotidepairs(base-pairs)10410810510610710111010109bonyfishamphibiansEscherichiacoli

大肠杆菌大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。EscherichiacoliO157:H7EscherichiacoliK12模式生物(ModelOrganism)Drosophilamelanogaster

果蝇繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。

模式生物(ModelOrganism)Arabidopsisthaliana

拟南芥个体生活周期只有6周的十字花科小草,是一种理想的模式植物。模式生物(ModelOrganism)模式生物(ModelOrganism)小鼠(Mus

musculus)

基因组大小与人类相近,约30亿个核苷酸对;1.4发现新基因和新的核苷酸多态性发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如啤酒酵母完整基因组所包含的基因约6000个,大约60%的基因是通过信息分析得到的。1.2.1基因的电脑克隆利用EST数据库发现新基因也被称为基因的电脑克隆。EST序列是基因表达的短的cDNA序列,它们携带着完整基因的某些片段的信息。目前,Genbank的EST数据库中水稻EST序列已达124万条,拟南芥达80万条,而人类的EST序列已超过957万余条,它大约覆盖了人类基因的90%以上。基因的电脑克隆原理很简单,就是找到属于同一基因的所有EST片段,再把它们连接起来。由于EST序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST连接起来,直到发现了他们的全长,这样就可以通过电脑克隆到一个基因。如果这个基因以前未曾发现过,那它就是一个新基因。但是进行电脑克隆基因的程序设计复杂,计算量巨大。1.2.2从基因组DNA中预测新基因从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新基因。1.2.3发现核苷酸多态性

核苷酸多态性(singlenucleotidepolymorphism,SNP)是指基因组内DNA中某一特定核苷酸位置上存在转换、颠换、插入、缺失等变化。现在普遍认为SNP研究是植物基因组计划走向应用的重要步骤之一。因为SNP将提供一个强有力的工具,用于与重要农艺形状相关基因的鉴定以及生物学的基础研究等。1.5基因组中非编码蛋白质区域的结构与功能近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%~20%。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占基因组序列的绝大部分。这表明这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),最新资料说明这部分序列只占基因组的1.1%。仅占人类基因组1.1%的编码区的相关研究已经缔造了数十名诺贝尔奖获得者,98%非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。2.生物信息学数据库数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。目前国际上已建立了许多公共生物信息学数据库,包括核酸序列数据库、蛋白质序列数据库、蛋白质片段数据库、生物大分子结构数据库和生物学文献数据库等。这些数据库有专门的机构建立和维护,这些机构负责数据的收集、组织、管理和发布,并提供在线检索和分析工具,向生物学研究人员提供有用的信息。生物信息分析已经成为分子生物学研究必须要借助的一种方法。数据及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。虽然分子生物学研究各个领域的侧重点有所不同,但是研究对象之间存在着密切的内在联系,如DNA与蛋白质序列之间、基因调控与基因表达之间的联系等,因而实验数据之间就必然存在着某些联系。一个研究领域的相关数据会影响另一个领域的进展。各类数据库已成为联系分子生物学各个方面研究的桥梁和纽带。生物信息学数据库几个明显的特征:(1)数据库更新速度不断加快,数据量呈指数增长。如,核酸序列数据以每年翻番的速度增长,而增长更快的则是数据库的使用频率,每年增长幅度为200~

500%。(2)数据库的复杂程度不断增加。除基本数据之外,还包括大量的注释、链接、参考文献等信息。(3)数据库使用的高度计算机和网络化。许多数据库服务器已从工作站升级到大型服务器,使数据库能够高效地管理数据和为用户服务,并在专门的硬件上运行服务程序。(4)面向应用。各个数据库除了提供数据外还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等。(5)二级数据库的开发。在原始数据库的基础上进一步开发出许多二级数据库,如蛋白质分类数据库、蛋白质二级结构数据库等。2.1核酸序列数据库1.GenBank/EMBL/DDBJ2.基因组数据库3.表达序列标签数据库4.序列标记位点数据库5.面向基因聚类数据库GenBankEMBLDDBJ

2.1.13大核酸数据库

Genbank

Genbank是美国国家生物技术信息中心(NCBI)建立和维护的DNA数据库。由按物种及数据获取手段分割成的17个子数据库构成。使用Entrez数据管理系统,通过该系统可以检索基本的DNA基因图谱、蛋白质序列及结构数据库。其中通过与MEDLINE的连接,还能够得到关于该序列的更进一步的信息,比如有关的文献摘要甚至全文。

EMBL核酸序列数据库EMBL是欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过因特网上的序列提取系统(SRS)服务完成。DDBJ数据库

日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。GenBankPublicfreeAvailableviaInternetEMBLDataLibraryDDBJ(DNADataBankofJapan)三大基因数据库之间的关系

这三个机构相互合作互通有无,数据库中的数据基本一致,仅在格式上有些差异,但对某一特定序列的查询,三个数据库会给出一样的结果。这三个数据库的数据来源于世界各国众多的研究机构和核酸测序小组以及科学文献。现在,用户可以通过互联网将核酸序列数据提交给这三个数据库系统的任何一个。http:///http://www.ddbj.nig.ac.jp/searches-e.htmlhttp://www.ebi.ac.uk/embl/2.1.2基因组数据库随着核酸测序技术的迅速发展,已经获得一部分生物的全基因数据,如人、小鼠、大鼠、拟南芥、酵母等。这些数据对认识基因组信息的奥秘、了解生物体生长发育的规律至关重要。国际上有专门的机构收集和管理这些数据。EntrezGenomes所收集的基因组数据量非常大。该数据库还提供了一个基因组浏览工具MapViewer,利用这个工具,用户可以很方便地得到所需要的数据。目前国际上有一些专门的模式生物基因组数据库,这些数据库侧重于收集某种生物基因组的相关数据。2.1.3表达序列标签数据库(dbEST)表达序列标签(EST)方法是识别转录序列的最有效方法。EST序列中含有大量的基因信息,利用这些信息可以发现新的基因,阐明基因的功能。表达序列标签数据库dbEST是GenBank的一个部分,该数据库包括不同生物的EST序列及其他相关信息,主要是从大量不同的组织和器官得到短的mRNA片段。截止2004年4月,该数据库含有2000万个登陆项,EST数据库的主要作用是通过搜索比较,给实验新得到的一条cDNA序列或基因组序列赋予公认的功能。2.1.4序列标记位点数据库dbSTS序列标记位点(sequensetaggedsites,STS)数据库是NCBI的一个数据源,也是GenBank的一个部分,包含已知序列的序列标记位点组成和定位信息。可以通过BLAST搜索STS序列,或者直接通过FTP下载序列。2.1.5面向基因聚类数据库UniGene面向基因聚类数据库UniGene将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。每个UniGene群包含代表一个惟一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱等。除了基因的序列之外,还包括大量的EST序列。UniGene即可以作为发现新基因的数据源,也可以作为进行大规模表达分析的辅助工具。需要指出的是,自动分类的过程还有待于进一步发展和完善。目前,UniGene中包括人类、果蝇、拟南芥、水稻等生物的相关数据,因为这些生物有大量的EST数据。2.2蛋白质序列数据库1.蛋白质信息资源数据库PIR2.SWISS-PROT3.TrEMBL4.蛋白质数据库UniProt2.2.1.蛋白质信息资源数据库ProteinInformationResource,简称PIR●这个数据库是一个经过注释的、全面的和非冗余的蛋白质序列数据库。所有序列数据都经过了处理,绝大多数序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。●为了提高蛋白质预测和实验数据之间的相互吻合度,PIR建立了一套系统,允许研究者们递交、分类、提取文献信息。PIR提供了在超家族、域和模体水平上的对蛋白的分类。PIR同时提供了蛋白的结构和功能信息,并给出了与其他40个数据库之间的相互参考。PIR还提供了一个非冗余的蛋白质数据库,包括从PIR-PSD,SWISS-PROT,TrEMBL,GenPept,PDB收集来的约800,000条序列,对每条序列给出了一个符合的名称和相关文献。为了提高数据库的协同工作能力,PIR采用开发的数据库框架,利用XML技术进行数据发布。除了蛋白质序列数据以外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。PIR提供三种类型的检索服务:(1)基于文本的交互式查询,用户通过关键字进行数据查询。(2)标准的序列相似性搜索,包括BLAST、FASTA等。(3)结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。主页的导航

2.2.2.SWISS-PROT

1.瑞士Geneva大学和欧洲生物信息学研究所(EBI)合作维护(1986年);

2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;

SWISS-PROT的网址:/sprotSWISS-PROT是目前国际上权威的蛋白质序列数据库。SWISS-PROT中的蛋白质序列是经过注释的。SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。SWISS-PROT有三个明显特点(1)注释。在SWISS-PROT中,数据分为核心数据和注释两大类。对于数据库中的每一个序列登录项,核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)等,而注释包括:①蛋白质的功能描述;②翻译后修饰;③域和功能位点,如钙结合区域、ATP结合位点等;④蛋白质的二级结构;⑤蛋白质的四级结构,如同构二聚体、异构三聚体等;⑥与其它蛋白质的相似性;⑦由于缺乏该蛋白质而引起的疾病;⑧序列的矛盾、变化等。(2)最小冗余。对于给定的蛋白质,许多数据库根据不同的文献报道设置分立的登录项,而在SWISS-PROT中,尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。(3)与其它数据库的连接。SWISS-PROT目前已经建立了与其它30多个相关数据库的交叉索引,即对于每一个SWISS-PROT的登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。例如,根据到蛋白质结构数据库的索引,用户不仅可以得到某个蛋白质的序列,还可以进一步得到其结构。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。用户可以通过网络将蛋白质序列数据提交给SWISS-PROT,或者对蛋白质数据进行修改。SWISS-PROT提供序列序列查询及相似蛋白质序列搜索工具 2.2.3.TrEMBL目前大多数蛋白质序列不是直接由实验得到,而是通过DNA序列映射而得到的。TrEMBL

是一个计算机注释的蛋白质数据库,作为SWISS-PROT数据库的补充。网址是:(http://www.ebi.ac.uk/trembl/index.html)该数据库主要包含从EMBL/Genbank/DDBJ核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且,这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分,分别是SP-TrEMBL(SWISS-PROTTrEMBL)和REM-TrEMBL(REMaining

TrEMBL)。SP-TrEMBL包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。这部分数据可以看成是SWISS-PROT数据库的预备库。REM-TrEMBL包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。如人工合成的蛋白质序列、申请专利的序列、伪基因对应的蛋白质序列等。TrEMBL数据库的26.0版(2004年3月)拥有1069649条蛋白质序列,总氨基酸长度达到335331748。EBI将上述3个蛋白质数据库(即PIR、SWISS-PROT和TrEMBL)统一起来,建立了一个蛋白质数据仓库UniProt(UniversalProteinResource),其网址为:http://www.ebi.ac.uk/uniprot/index.html)。

UniProt包含3个部分:(1)UniProtKnowledgebase(UniProt),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniProtNon-redundantReference(UniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniProtArchive(UniParc),是一个资源库,记录所有蛋白质序列的历史。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。

2.2.4.蛋白质数据库UniProt蛋白质结构数据库生物大分子结构数据库核酸序列数据库主要有GenBank,EMBL,DDBJ等.蛋白质序列数据库主要有SWISS-PROT,PIR,TrEMBL等,蛋白结构数据库有PDB,MMDB等,与基因组有关的数据库还有dbEST,OMIM等,

PDB(proteindatabank)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论