生物信息学课件_第1页
生物信息学课件_第2页
生物信息学课件_第3页
生物信息学课件_第4页
生物信息学课件_第5页
已阅读5页,还剩324页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、谢为博谢为博Tel:87281677Email: 2011年年5月月生物信息学Bioinformatics 生命科学相关专业的本科生 毕业设计 考研 生命科学相关专业的研究生 课题研究适用者适用者u了解各种生物数据库了解各种生物数据库u掌握利用掌握利用Internet上上的各种数据库、软件,的各种数据库、软件,查找生物相关信息,分析和解释各种查找生物相关信息,分析和解释各种生物生物数数据。据。学习本课程的目的学习本课程的目的Sequence analysis Genome annotation Analysis of gene expression Analysis of regulation

2、 Prediction of protein structure Comparative genomics http:/ 密码:lampp参考教材参考教材u David W. Mount. Bioinformatics: Sequence and Genome Analysis. (2nd edition) New York: Cold Spring Harbor Laboratory Press, 2004.u 钟扬等译,生物信息学(第一版)钟扬等译,生物信息学(第一版),高等教育出版社,高等教育出版社,2003。 参考教材参考教材u 周艳红、王石平,生物信息学,周艳红、王石平,生物信息学,

3、高等教育出版社,高等教育出版社,2007。u A. D. Boxevanis and B. F. F. Ouellette. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins. (3rd edition) New York: Wile-Interscience, 2004.注意事项和要求注意事项和要求 应用型课程,自学占很大比重 按时上课,位置固定,课间不休,如已掌握内容,可以早退 考试方式:开卷,凡修课者必需参加考试,否则0分 分10组,每次一组课后留下做清洁第一章第一章生物信息学的发展和研究内容生

4、物信息学的发展和研究内容生物信息学1、什么是生物信息学?、什么是生物信息学?u 生物信息学是信息科学领域和生命科学领域生物信息学是信息科学领域和生命科学领域的一门新兴的、应用型交叉学科。的一门新兴的、应用型交叉学科。u 以计算机为主要工具,以以计算机为主要工具,以大量大量生物数据库和生物数据库和分析软件为基础分析软件为基础u 采用数理和信息科学的理论、技术和方法,采用数理和信息科学的理论、技术和方法,分析生物学数据,研究生命现象的一门科学分析生物学数据,研究生命现象的一门科学u 为人类揭示生命的奥秘提供了一条新的途径为人类揭示生命的奥秘提供了一条新的途径u 解决生物学问题为导向解决生物学问题为

5、导向2、生物信息学发展简史、生物信息学发展简史DDBJ 核苷酸数据库核苷酸数据库1986GenBank 和和 EMBL核苷酸数据库核苷酸数据库1982M. Dayhoff 开始收集蛋白质序列开始收集蛋白质序列1960sProtein Information Resource (PIR)“the mother and father of bioinformatics” by David J. Lipman (Director of NCBI)Protein sequence atlas2、生物信息学发展简史、生物信息学发展简史生物信息学生物信息学 (Bioinformatics)Computat

6、ional biologyBiology with computer1991SWISS-PROT蛋白质数据库蛋白质数据库1986BLAST程序程序1990国家生物技术信息中心(国家生物技术信息中心(NCBI)1988In vivoIn vitroIn silico2、生物信息学发展简史、生物信息学发展简史Human genome project (HGP)u生物信息学学科的迅速发展在生物信息学学科的迅速发展在1990年代年代1. identify all the approximately 20,000-25,000 genes in human DNA,2. determine the se

7、quences of the 3 billion chemical base pairs that make up human DNA, 3. store this information in databases, 4. improve tools for data analysis, 5. transfer related technologies to the private sector,6. address the ethical, legal, and social issues (ELSI) that may arise from the project. Goals主要高通量技

8、术的发展历程DNA自动化测序(1990-)基因芯片(1995-)新一代测序技术(2005-)厂商RocheIlluminaABI技术454Solexa GASOLiD测序仪GS20FLXTiIIIIIx123序列数目(百万)52810025040115320单末端测序(Single-end)读长(bp)1002004003550100253550运行时间(天)335658通量(Gb)0.050.10.515251416配对末端测序(Paired-end)读长(bp)2004002352502100225235250库序列长度(kb)0.2

9、0.2332运行时间(天)0.30.461010121016通量(Gb)0.10.529502832Solexa和SOLiD配对末端测序所需时间和产出是单末端的两倍,454的配对末端和单末端差异在于建库方法,所需时间和测序量不变。ABI SOLiD包含两张芯片,这里的数据是一张芯片的量。 目前使用最广泛的三大第二代测序平台测序目前使用最广泛的三大第二代测序平台测序能力统计信息(能力统计信息(2010年年初数据)年年初数据)http:/3个水稻基因组/天 12个水稻基因组/天 10个水稻基因组/天人基因组测序费用Towards a Paradigm Shift in BiologyWalter

10、Gilbert, Nature 349:99 (1991) The new paradigm, now emerging, is that all “genes” will be known (in the sense of being resident in databases available electronically), and that the starting point of a biological investigation will be theoretical. An individual scientist will begin with a theoretical

11、 conjecture, only then turning to experiments to follow or to test that hypothesis. 生物信息学是伴随着生物信息学是伴随着生命科学生命科学的发展而出的发展而出现的,并且随着技术的发展而不断发展现的,并且随着技术的发展而不断发展 生命科学的现状:生命科学的现状:Observing & Recording 生命科学的未来:生命科学的未来:Designing & Creating,离不开生物信息学离不开生物信息学启示3、生物信息学的基本方法和技术、生物信息学的基本方法和技术u 建立生物数据库建立生物数据

12、库v 各种公共数据库各种公共数据库v 本地化数据库本地化数据库u 数据库检索数据库检索v 各种数据检索工具的开发和使用各种数据检索工具的开发和使用 Entrez检索体系检索体系 BLAST检索体系检索体系3、生物信息学的基本方法和技术、生物信息学的基本方法和技术u 生物大分子序列分析生物大分子序列分析v Homologous sequence analysis(同源序列分析)(同源序列分析)v Multiple sequence alignment (多序列对位排列)(多序列对位排列) Phylogenetic analysis(进化分析)v 基因结构、功能分析基因结构、功能分析Mapping

13、 (ePCR)、Exon/Intron、Promoter、Regulatory regionsv 蛋白质结构、功能分析蛋白质结构、功能分析Motif、3-D structure、post-translational modification、interactions3、生物信息学的基本方法和技术、生物信息学的基本方法和技术u 基因组分析基因组分析 序列拼接序列拼接 序列注释序列注释3、生物信息学的基本方法和技术、生物信息学的基本方法和技术u统计概率模型统计概率模型vHidden Markov model(HMM,隐马尔可夫模型),隐马尔可夫模型) 基因识别和药物设计基因识别和药物设计vMaxi

14、mum likelihood model(最大似然模型)(最大似然模型) 序列进化分析序列进化分析u因特网的域名(因特网的域名(domain name)规定)规定v 四级域名四级域名.三级域名三级域名.二级域名二级域名.顶级域名顶级域名我校一台名为我校一台名为bioinformatics主机:主机:4、生物信息学的研究内容、生物信息学的研究内容u 收集、整理、储存、加工、发布和收集、整理、储存、加工、发布和分析生物学数据分析生物学数据u 发展新的数理和信息科学的技术发展新的数理和信息科学的技术和方法用于管理和分析生物数据和方法用于管理和分析生物数据(数理和信息科

15、学工作者,(数理和信息科学工作者,IT人士)人士)(生物工作者,(生物工作者,BT人士)人士)5、生物信息学的应用、生物信息学的应用u 基础研究和教学基础研究和教学v 分子生物学研究的重要手段之一分子生物学研究的重要手段之一v 生命科学的教学生命科学的教学u 药物开发(药物开发(Pharmaceutical Bioinformatics) v 新药筛选新药筛选v 药靶设计药靶设计v 分子药理学研究分子药理学研究5、生物信息学的应用、生物信息学的应用u疾病诊断疾病诊断v利用疑难病症的病原利用疑难病症的病原DNA序列诊断疾病序列诊断疾病v遗传病遗传病u其他其他v环境监测环境监测 (Metageno

16、mics)v进化分析进化分析6、本课程主要内容、本课程主要内容u 检索数据库检索数据库v 序列数据的检索和分析序列数据的检索和分析v 比较基因组学比较基因组学(comparative genomics)v 进化分析进化分析v 文字数据(文献)的检索文字数据(文献)的检索v 序列(序列(DNA、蛋白质)数据的检索、蛋白质)数据的检索v 其他(三维结构、网络图等)数据的检索其他(三维结构、网络图等)数据的检索u 分析和解释实验数据(核苷酸和蛋白质序列)分析和解释实验数据(核苷酸和蛋白质序列)利用国际上共享的数据库和分析软件利用国际上共享的数据库和分析软件7、上机操作、上机操作初步了解初步了解Int

17、ernet上的数据库和分析工具上的数据库和分析工具自自学学课程课程 /Education http:/www.ebi.ac.uk/2can/home.html/nar/database/c/Microarray集成化、并行化、微型化集成化、并行化、微型化 (比拟集成电(比拟集成电路,符合摩尔定理)!路,符合摩尔定理)!微乳液PCR桥式PCR单分子测序第二章第二章数数 据据 库库生物信息学什么是数据库(什么是数据库(Database)?)?用于收集、整理、储存、加工、发布和检用于收集、整理

18、、储存、加工、发布和检索数据的系统。索数据的系统。u 生物类的数据库种类很多(生物类的数据库种类很多(序列序列、结构结构、生物分子互作生物分子互作、其它其它)u 投稿文章首先要将核苷酸序列或蛋白质序列投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中提交到相应的数据库中什么是数据库(什么是数据库(Database)?)?u 数据库记录通常包括两部分数据库记录通常包括两部分v 原始数据原始数据v 对这些数据进行的生物学意义的注释对这些数据进行的生物学意义的注释u 一个数据库通常链接了多个相关数据库一个数据库通常链接了多个相关数据库 核苷酸数据库水稻抗病相关基因核苷酸数据库水稻抗病相关基因

19、OsDR8Taxonomy 数据库数据库Pubmed 数据库数据库NCBI-Protein 数据库数据库DQ176424(一)数据库工具(一)数据库工具u 建立纯文本数据库建立纯文本数据库v GenBank 数据库、数据库、EMBL 核苷酸数据库核苷酸数据库 u 数据库工具数据库工具v SQL(结构化查询语言)是世界上流行的和标准化的(结构化查询语言)是世界上流行的和标准化的数据库语言数据库语言v 能够快速灵活存储记录文件和图像能够快速灵活存储记录文件和图像v MySQL下载网址下载网址 http:/ AceDB 数据库工具数据库工具v AceDB:A C. elegans DataBase

20、(线虫数据库)(线虫数据库)v 被广泛应用的管理和提供基因组数据的工具被广泛应用的管理和提供基因组数据的工具v 数据形式丰富数据形式丰富 遗传图谱遗传图谱G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.0011 新陈代谢途径新陈代谢途径 物理图谱物理图谱1 gggctccacc actagtaccc ctcactacag gtagccataa aaaaaatcga tcaccaaaac 61 ccattattag gttgtgtact gatacagaaa gttgggaacc aatc

21、tcccag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca aaaaaacaca ccgttttcta 241 gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac (一)数据库工具(一)数据库工具(二)各种生物数据库(二)各种生物数据库1、核苷酸数据库、核苷酸数据库u DNA、mRNA、tRNA、rRNA序

22、列序列u RNA序列以序列以cDNA序列的形式收集序列的形式收集u 核苷酸序列直接来源于实验数据核苷酸序列直接来源于实验数据u 大量氨基酸序列大量氨基酸序列v 主要是非实验来源数据主要是非实验来源数据v coding sequence (CDS)EXONINTRONCDS (coding sequence)ORF (open reading frame)1、核苷酸数据库、核苷酸数据库1、核苷酸数据库、核苷酸数据库u 三大核苷酸数据库三大核苷酸数据库v GenBank、EMBL核苷酸数据库、核苷酸数据库、DDBJ United States Patent and Trademark Office

23、 (USPTO)European Patent Office (EPO)Japan Patent Office (JPO)v 专利核苷酸序列专利核苷酸序列信息资源共享:以天为基础进行数据库之间的序列数据交换信息资源共享:以天为基础进行数据库之间的序列数据交换1、核苷酸数据库、核苷酸数据库(1)GenBank /genbanku 美国美国NCBI的核苷酸数据库,包括部分蛋白质序列的核苷酸数据库,包括部分蛋白质序列u 数据每天更新,每年发行六版数据每天更新,每年发行六版release /genbank/g

24、brel.txt u Release 182(2011.2.15)v 132,015,054 sequencesv 124,277,818,310 basesu 来源于来源于380,000多个物种多个物种u 大约大约12的序列来源于人的序列来源于人(Homo sapiens)Nucleic Acids Res. 2011;39(Database issue):D32-37(1)GenBank v Locus name(位点名)(位点名)v Accession number (注册号或登陆号)(注册号或登陆号)v GI(GenInfo identifier)u 每个序列有一个每个序列有一个fla

25、tfileu 每条序列有三个专有的编号或标识(每条序列有三个专有的编号或标识(identifier)Sample record/Sitemap/samplerecord.html(1)GenBank (1)GenBank The divisions of GenBank1.PRI - primate sequences2.ROD - rodent sequences3.MAM - other mammalian sequences4.VRT - other vertebrate sequences5.INV - invertebrate se

26、quences6.PLN - plant, fungal, and algal sequences7.BCT - bacterial sequences8.VRL - viral sequences9.PHG - bacteriophage sequences10. SYN - synthetic sequences11. UNA - unannotated sequences12. EST - EST sequences (expressed sequence tags)13. STS - STS sequences (sequence tagged sites)14. GSS - GSS

27、sequences (genome survey sequences)15. HTG - HTG sequences (high-throughput genomic sequences)16. HTC - unfinished high-throughput cDNA sequencing17. ENV - environmental sampling sequences18. TSA-Transcriptome Shotgun Assembly 19. PAT - patent sequences20. WGS-whole genome shotgun(2)EST数据库数据库 dbEST

28、(Database of Expressed Sequence Tags) /dbEST/index.htmlu GenBank的二级数据库的二级数据库u 5 端或端或3 端的端的cDNA 序列(序列(EST)u 200-500 bp“Single-pass read” sequence u GenBank 中中60以上的序列是以上的序列是 EST/About/primer/est.html(3)UniGene数据库数据库 u NCBI 的另一个核苷酸的另一个核苷酸数据库数据库u 来源于同一

29、基因的非重复来源于同一基因的非重复 EST 组成基因序列群组成基因序列群v 人、大鼠、小鼠、人、大鼠、小鼠、斑马鱼、斑马鱼、牛牛、猪等、猪等v 拟南芥、水稻、小麦、大麦、玉米等拟南芥、水稻、小麦、大麦、玉米等v 共计共计120多个物种多个物种u UniGene主页输入关键词主页输入关键词检索检索 UniGene /unigene//genbank/TSA.htmlTSA is an archive of computationally assembled sequences from pri

30、mary data submitted to dbEST, the Short Read Archive (SRA), or the Trace Archive. The overlapping sequence reads from a complete transcriptome are assembled into transcripts by computational methods instead of by traditional cloning and sequencing of cloned cDNAs. The primary sequence data used in t

31、he assemblies and the assemblies must be submitted by the same submitter. TSA sequence records differ from EST and GenBank records because there are no physical counterparts to the assemblies inserted in the TSA record.Example(4)STS数据库数据库 dbSTS (Database of Sequence Tagged Sites) http:/www.ncbi.nlm.

32、/dbSTS/index.htmlu GenBank的二级数据库的二级数据库 UniSTSu 短序列短序列(200-500 bp),仅在基因组中出现一次),仅在基因组中出现一次u 已定位于染色体上已定位于染色体上 如何找到一个如何找到一个STSu 检索:检索:NCBI主页主页选择选择UniSTS后输入关键词后输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容点击点击“map viewer”查看染色体定查看染色体定位位(4)STS数据库数据库 contigScience 1989;245:1434-5.(5)GSS数据库数据库 dbGSS (Database of

33、Genome Survey Sequences) /dbGSS/index.htmlu GenBank的二级数据库的二级数据库u 基因组短序列基因组短序列u cosmid / BAC / YAC 外源插入片段的末端序列外源插入片段的末端序列u Alu PCR 序列序列cosmid / BAC / YAC HTGS (High-Throughput Genomic Sequences) /HTGS/u GenBank 的二级数据库的二级数据库u 尚未完成测序的重叠群(尚未完成测序的重叠群( 2

34、 kb)的序列的序列u 新序列的增加速度很快新序列的增加速度很快(6)HTGS数据库数据库 基因组测序过程中(基因组测序过程中(Phase 0、1、2)产生)产生的过渡数据的过渡数据Nature, 409, 860-921Phase 3Finished, no gaps (with or without annotations)Phase 0one-to-few pass reads of a single clone (not contigs)Phase 1Unfinished, may be unordered, unoriented contigs, with gapsPhase 2Un

35、finished, ordered, oriented contigs, with or without gaps 鸟枪法(鸟枪法(shotgun)测序流程)测序流程水稻基因组全基因组大小:430Mb;每个Reads 读长450bp;故覆盖每个水稻基因组所需反应:100万;覆盖水稻基因组8X,需要800万反应;每个反应的测序成本为19元,800万反应总共需15200万人民币;人力费800万人民币。 中国水稻基因组计划的经费预算中国水稻基因组计划的经费预算Genome sequencing: QUICKER, SMALLER, CHEAPER /

36、X PRIZE Foundation Nature 2008, 452:788 Genome /sites/entrez?db=genomeu NCBI 的另一个的另一个数据库数据库u 测序完成和正在测序物种基因组序列、遗传图、测序完成和正在测序物种基因组序列、遗传图、物理图等物理图等u 序列收集在序列收集在GenBanku 已经完成测序的基因组(截止已经完成测序的基因组(截止2011年年2月)月) Genome ProjectStatistics(7)基因组数据库基因组数据库 dbSNP (Database of Single Nucleo

37、tide Polymorphisms) /sites/entrez?db=snpu NCBI的数据库,创建于的数据库,创建于1998.9u 约每约每300 bp 有一个有一个SNPu 数据种类数据种类SNPInsertion/deletion (Indel)Deletion/insertion/substitution (DIS)u 发现致病基因、发现致病基因、进化分析进化分析(8)单核苷酸多态性数据库)单核苷酸多态性数据库/About/primer/snps.htmlu dbSNP主页输入

38、关键词主页输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容代码代码碱基碱基MA或或CRA或或GWA或或TSC或或GYC或或TKG或或TVA、C或或GHA、C或或TDA、G或或TBC、G或或TNG、A、T或或C标准碱基多意代码标准碱基多意代码(8)单核苷酸多态性数据库)单核苷酸多态性数据库(9)EMBL (European Molecular Biology Laboratory) Nucleotide Sequence Databasev EBI (European Bioinformatics Institute) 管理管理v 与与GenBank收集的数据相同收集的数据相同

39、v 序列数据文档格式与序列数据文档格式与 GenBank 不同不同数据库主页数据库主页http:/www.ebi.ac.uk/embl输入关键词输入关键词检索到的检索到的条目条目每一条目每一条目详细内容详细内容(10)DDBJ (DNA Data Bank of Japan)u 与与GenBank收集的序列数据相同收集的序列数据相同数据库主页数据库主页http:/www.ddbj.nig.ac.jp/Welcome-e.html输入关键词输入关键词检索到的条目检索到的条目每一条目每一条目详细内容详细内容发表文章要提供发表文章要提供 Accession number(在三大核苷酸数据库中通用)(

40、在三大核苷酸数据库中通用) EPD (Eukaryotic Promoter Database) http:/www.epd.isb-sib.ch/u 由由Weizmann Institute of Science in Rehovot (Israel) 开创开创u 4806条真核生物启动子序列(条真核生物启动子序列(2009.6)u 人类基因组中的启动子大约人类基因组中的启动子大约19万个万个u 同一个基因具有多个启动子同一个基因具有多个启动子(11)启动子数据库)启动子数据库 miRBase /u 收集了收集了15000条条 hairpin pre

41、cursor miRNA 序列(序列(2010.9)u 来源于来源于100个物种个物种u 可以通过可以通过miRNA名称、关键词、染色名称、关键词、染色体位置等信息检索数据库体位置等信息检索数据库u 分析一条分析一条DNA序列中是否可能包含序列中是否可能包含miRNA(12)miRNA数据库数据库2、蛋白质数据库、蛋白质数据库u 由由PIR、EBI 和和SIB创办创办u 分为两个部分:来源于实验的有详细注释分为两个部分:来源于实验的有详细注释的序的序列列(SwissProt)和自动注释序列()和自动注释序列(TrEMBL)u 与与100多个多个数据库数据库相互参照(相互参照(cross-ref

42、erence)u 可用关键词(可用关键词(Text search)和序列比对)和序列比对(BLAST similarity search)进行检索)进行检索(1)UniPROT /数据库主页,使用关键词检索数据库主页,使用关键词检索结果页面结果页面,reviewed(Swiss-Prot),unreviewed (TrEMBL)Browse by taxonomy, keyword, gene ontology, enzyme class or pathway条目详细内容条目详细内容(1)UniPROTu蛋白质蛋白质家族分类家族分类u 蛋白质整合信息蛋

43、白质整合信息(2)其它类型的蛋白质数据库)其它类型的蛋白质数据库u 蛋白质家族蛋白质家族u 结构域结构域Prosite/prositePIR (Protein Information Resource) 3、结构数据库、结构数据库(1)PDB (Protein Data Bank) u 由由 Brookhaven National Laboratories 创办创办v 蛋白质蛋白质v 核酸核酸v 其它其它u 71,415个结构图(个结构图(2011.2)u 可通过可通过

44、BLAST 系统检索系统检索(1) PDB (Protein Data Bank)(2)SWISS-3D IMAGE http:/www.expasy.ch/sw3d/蛋白质的平面和立体图蛋白质的平面和立体图u 来源于实验结果来源于实验结果u 理论模型理论模型u X 射线衍射图射线衍射图、 核磁共振(核磁共振(NMR) 光谱图光谱图和电镜图和电镜图(文文字字和和三维三维结构图)结构图)4、酶和代谢数据库、酶和代谢数据库KEGG (Kyoto Encyclopedia of Genes and Genomes)u 各种代谢、遗传等路径图各种代谢、遗传等路径图u 可检索参于可检索参于各种各种路径的

45、基因路径的基因KEGG主页主页http:/www.genome.ad.jp/kegg/点击点击“PATHWAY”“PATHWAY”网页点击任一代谢路径,如糖酵解网页点击任一代谢路径,如糖酵解/糖糖原异生途径(原异生途径(Glycolysis/Gluconeogenesis)u 检索检索Genetic Information ProcessingKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任一遗传信息路径,网页点击任一遗传信息路径,如如 Protein export 路径路径可以查看参加这一路径蛋白质的可以查看参加这一路径蛋白质的信息信息KEGG数据库数据库u 检索检索E

46、nvironmental Information ProcessingKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何网页点击任何Environmental Information Processing 路径,如路径,如 MAPK signaling pathway 路径路径可以查看与这一路径相连的可以查看与这一路径相连的其它信号路径其它信号路径或参加这一路径的或参加这一路径的蛋白质信息蛋白质信息KEGG数据库数据库u 检索检索Cellular ProcessesKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何网页点击任何Cellular Pro

47、cesses 路径,如路径,如 Cell cycle 路径路径可以查看与这一路径相连的其它信号路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息或参加这一路径的蛋白质信息KEGG数据库数据库5、物种分类数据库、物种分类数据库u 物种分类物种分类界(界(Kingdom) 门(门(Phylum)纲(纲(Class) 目(目(Order) 科(科(Family) 属(属(Genus) 种(种(Species) 每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。 每一分类等级上可加设总级(Super-),如总纲、总目、总科等。动物界(Animal)脊索动物门(Chordata

48、) 脊椎动物亚门(Vertebrata)哺乳纲(Mammalia)啮齿目(Rodentia) 鼠科(Muridae) 小家鼠属(Mus)小家鼠种(musculus) Mouse:Mus musculus/Taxonomy/taxonomyhome.htmlu 拟南芥拟南芥系谱(系谱(lineage)u 查找某一物种的系谱树查找某一物种的系谱树在在NCBI Taxonomy 主页输入物种名称主页输入物种名称“pig”Taxonomy数据库数据库lineage6、文献数据库、文献数据库(1) /

49、PubMed/u美国国家医学图书馆的数据库美国国家医学图书馆的数据库u医学、分子生物学、基础生物学医学、分子生物学、基础生物学u5400多种刊物,来源于多种刊物,来源于80多个国家多个国家u文献年限:文献年限:1947年至今年至今u提供摘要,全文链接提供摘要,全文链接u免费全文收集在免费全文收集在(2)其它类型的文献数据库)其它类型的文献数据库Agricola/u 美国农业部农业图书馆的数据库美国农业部农业图书馆的数据库u 农业类刊物农业类刊物OMIM (Online Mendelian Inheritance in Man)http:/w

50、/sites/entrez?db=OMIMu NCBI 的数据库的数据库,每天更新数据,每天更新数据u 人类基因人类基因、遗传疾病、遗传疾病u 输入疾病、基因名称输入疾病、基因名称 条目条目7、更多的数据库、更多的数据库/nar/database/c/8、向数据库提交和修改核苷酸和蛋白质序列、向数据库提交和修改核苷酸和蛋白质序列提交:提交:Submission修改:修改:Update数据库中的数据由大家数据库中的数据由大家无偿提供,共同享用无偿提供,共同享用Accuracy?(1)向向 GenBank

51、提交或修改核苷酸序列提交或修改核苷酸序列u 在在GenBank主页主页用用 BankIt 功能提交序列功能提交序列v 网上直接提交,简单方便网上直接提交,简单方便v 提交后立刻得到临时编号提交后立刻得到临时编号v 二天二天内得到内得到 Accession numberu 用用Update 功能修改功能修改 GenBank 中的序列和相关信息中的序列和相关信息v 修改一次,修改一次,version 的编号就进一位的编号就进一位v Accession number不变不变u 用用 Sequin 方法提交序列方法提交序列v 可下载的电子表格可下载的电子表格v 自动确定自动确定 CDS、ORF 和查找

52、重复序列和查找重复序列New(2)向)向 SWISS-PROT 提交或修改蛋白质序列提交或修改蛋白质序列u 网上直接操作网上直接操作u 只接收用蛋白质直接测序的序列只接收用蛋白质直接测序的序列u 由核苷酸序列翻译得到的蛋白质序列由核苷酸序列翻译得到的蛋白质序列 将进入将进入TrEMBL/sprot/Moreu EMBLhttp:/www.ebi.ac.uk/embl/Documentation/information_for_submitters.htmlu 大规模数据邮件联系大规模数据邮件联系9、常用序列格式、常用序列格式 Fasta Genbank flat

53、file ASN.1 格式转换http:/www.ebi.ac.uk/cgi-bin/readseq.cgi/molbio/readseq/上机操作上机操作1. 熟悉各种数据库熟悉各种数据库2. 了解常用序列格式并学习格式转换了解常用序列格式并学习格式转换3. 重点了解重点了解 GenBank 和和 SWISS-PROT的各种的各种功能和适用范围功能和适用范围Xa26 nucleic acid sequence (DQ426646,6000 bp): Xa26, mRNA ATGGCCATGGGTCCACACGCAGTGAGATGAATGC

54、TAGATCTCACGAGAAAAAAGAAATACATCTCA GGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATG GATGGAGCCGGCAGCCGGCGATCCTATTTAA Xa26 amino acid sequence (ABD84047,1103 aa): Xa26, protein MALVRLPVWIFVAALLIASSSTVPCASSLGPIASKSNSSDTDLAALLAFKAQLSDPNNILAGNWTTGTPF CRWVGVSCSSHRRRRQRVTALELPNVPLQGELSS

55、Adam Zemla Four genetic signatures of the SARS virus shown in yellow, blue, light green, and dark green are mapped onto a 3-D protein model of the SARS RNA polymerase.Surface features of the substrate-binding pockets of TGEV Mpro (A) and SARS 3CL proteinase (B). The surface color was loaded by the e

56、lectrostatic properties. One small molecule, its chemical structure is shown in (C), produced by the virtual screening on the MDDR database, represented as CPK model, was docked into the binding pockets. XIONG Bin Microarray2-D PAGETwenty most sequenced organisms in GenBank (2011.2)建立特定染色体的基因组文库建立特定

57、染色体的基因组文库随机选择克隆进行短片段单次测序随机选择克隆进行短片段单次测序比对确认不含重复序列比对确认不含重复序列在序列上寻找引物在序列上寻找引物合成引物对基因组合成引物对基因组DNA进行进行PCR产物为单一片段即是产物为单一片段即是STS标记,确标记,确认其在染色体上的位置认其在染色体上的位置如如何何找找到到一一个个STSNew BankIt第三章第三章 关键词或词组为基础的关键词或词组为基础的数据库检索数据库检索生物信息学检索数据库的方法检索数据库的方法 u 用关键词或词组进行数据库检索用关键词或词组进行数据库检索 (Text-based database searching)u 用核

58、苷酸或蛋白质序列进行数据库检索用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching)Gene nameAuthorAccession numberDatabase关键词或词组为基础的数据库检索关键词或词组为基础的数据库检索关键词关键词名词、描述性词、词组名词、描述性词、词组序列注册号序列注册号 (Accession number)检索体系检索体系EntrezSequence Retrieval System (SRS)Integrated database retrieval system (DBGET)Trends in Biotechno

59、logy 1998, 16 (supplement 1):3-5.检索须知(检索须知(1)u 连接词连接词 AND, OR, NOT(Boolean operators)rice AND enzyme (AND为缺省值,可略去为缺省值,可略去)rice AND enzyme NOT kinaseretrotransposon OR retroelement注意事项:注意事项:1、AND, OR, NOT must be entered in UPPERCASE2、Boolean operators are processed in a left-to-right sequencerice AN

60、D (microarray OR expression profile)rice AND microarray OR expression profile3、The order can be changed by enclosing individual concepts in parentheses (processed first)PubMed27000 records 504 records u 用引号将两个单词组成一个词组用引号将两个单词组成一个词组16S rRNA = 16S AND rRNA“16S rRNA”pseudopod* =pseudopod OR pseudopodia OR pse

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论