生物奥赛培训 生物信息学_第1页
生物奥赛培训 生物信息学_第2页
生物奥赛培训 生物信息学_第3页
生物奥赛培训 生物信息学_第4页
生物奥赛培训 生物信息学_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、NCBI生物信息学和生物数据库NCBI生物信息学-数据库NCBI生物信息学-数据库NCBI分子生物学数据类型物种物种基因组图谱基因组图谱小鼠小鼠X X染色体染色体来源于小鼠基因组计划来源于小鼠基因组计划/NCBI物种物种基因组图谱DNA序列序列RNA序列序列.AATGGTACCGATGACCTGGAGCTTGGTTCGA.分子生物学数据类型NCBI物种物种基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列.TRLRPLLALLALWPPPPARAFVNQHLCGSHLVEA.分子生物学数据类型NCBI物种物种基因组图谱

2、基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列RNA结构结构E. coli small subunit rRNAGutell R.R. (1994) Collection of small subunit (16S- and 16S-like) ribosomal RNA structures Nucleic Acids Res 22:3502分子生物学数据类型NCBI物种物种基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构RNA结构结构PDB entry 1CISP.Osmark, P.Sorensen, F.M.Poulsen分子生物学数

3、据类型NCBI物种物种基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构DNA模体模体RNA结构结构核酸结构模体核酸结构模体:转录因子结合位点转录因子结合位点(CBF1:CCGNC ) (TACCGACAT )RNA 催化模体催化模体蛋白质模体:蛋白质模体:结构模体结构模体保守区保守区(D/N-R-X-G-R-R/K; I-X2-R-X3-G-X3-G )NAD+结合区含有一个保守的模体 G-X-G-X2-G (GSGAWA)(D. salina)活性位点等活性位点等分子生物学数据类型蛋白质模体蛋白质模体NCBI物种物种基因组图谱基因组图谱DNA序列序列R

4、NA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构DNA模体模体蛋白质模体蛋白质模体RNA表达RNA结构结构分子生物学数据类型NCBI在RNA水平上使用DNA微阵列检测变异一个芯片上包含酵母一个芯片上包含酵母基因组全序列基因组全序列http:/cmgm.Stanford.EDU/pbrown/De Risi et al, Science 278:680红色红色点:点: RNA 表达水平增加的基因表达水平增加的基因绿色绿色点:点: RNA表达水平降低的基因表达水平降低的基因NCBI物种物种基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构DNA模体模体蛋白

5、质模体蛋白质模体蛋白质表达蛋白质表达RNA表达表达RNA结构结构分子生物学数据类型NCBI蛋白质组学: 2D凝胶电泳SWISS-2D PAGE数据库数据库http:/www.expasy.chNCBI物种物种基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构DNA模体模体蛋白质模体蛋白质模体底物底物代谢途径代谢途径蛋白质表达蛋白质表达RNA表达表达RNA结构结构KEGG database, http:/kegg.genome.ad.jp/kegg/分子生物学数据类型NCBI物种物种基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列蛋白质结

6、构蛋白质结构DNA模体模体蛋白质模体蛋白质模体抑制因子抑制因子和药物和药物底物底物代谢途径代谢途径蛋白质表达蛋白质表达RNA表达表达RNA结构结构分子生物学数据类型NCBI药物设计与抑制因子结合的与抑制因子结合的HIV-1蛋白酶复合体蛋白酶复合体PDB entry 1DIFA.M.Silva, R.E.Cachau, H.L.Sham, J.W.EricksonNCBI物种物种组织和细胞组织和细胞基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构DNA模体模体蛋白质模体蛋白质模体抑制因子抑制因子和药物和药物底物底物代谢途径代谢途径蛋白质表达蛋白质表达RNA

7、表达表达RNA结构结构分子生物学数据类型NCBI种群种群物种物种组织和细胞组织和细胞基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质结构蛋白质结构DNA模体模体蛋白质模体蛋白质模体抑制因子抑制因子和药物和药物底物底物代谢途径代谢途径蛋白质表达蛋白质表达RNA表达表达RNA结构结构蛋白质序列蛋白质序列分子生物学数据类型NCBI种群种群物种物种组织和细胞组织和细胞基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构DNA模体模体蛋白质模体蛋白质模体抑制因子抑制因子和药物和药物底物底物代谢途径代谢途径蛋白质表达蛋白质表达R

8、NA表达表达RNA结构结构突变突变/多形性多形性分子生物学数据类型NCBI种群种群物种物种组织和细胞组织和细胞基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构DNA模体模体蛋白质模体蛋白质模体抑制因子抑制因子和药物和药物底物底物代谢途径代谢途径蛋白质表达蛋白质表达RNA表达表达RNA结构结构突变突变/多形性多形性疾病疾病分子生物学数据类型NCBI种群种群物种物种组织和细胞组织和细胞基因组图谱基因组图谱DNA序列序列RNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构DNA模体模体蛋白质模体蛋白质模体抑制因子抑制因子和药物和药物底物底物代谢途径代谢途径蛋

9、白质表达蛋白质表达RNA表达表达RNA结构结构突变突变/多形性多形性疾病疾病文献文献分子生物学数据类型NCBI分子生物学数据库NCBI序列数据库NCBI通用核酸数据库NCBIGenBank - 按物种分类Entries Entries 碱基碱基 物种物种2217460 1556595261 Homo sapiens2217460 1556595261 Homo sapiens553872 260818221 Mus musculus553872 260818221 Mus musculus77205 177824883 Caenorhabditis elegans77205 177824883

10、 Caenorhabditis elegans123758 133950582 Drosophila melanogaster123758 133950582 Drosophila melanogaster72565 117022315 Arabidopsis thaliana72565 117022315 Arabidopsis thaliana87138 47136422 Oryza sativa87138 47136422 Oryza sativa80507 42049391 Rattus norvegicus80507 42049391 Rattus norvegicus14403 3

11、0390617 Saccharomyces cerevisiae14403 30390617 Saccharomyces cerevisiae61001 26060656 Rattus sp.61001 26060656 Rattus sp.5240 18407242 Escherichia coli5240 18407242 Escherichia coli32227 17046673 Fugu rubripes32227 17046673 Fugu rubripes33482 14732289 Danio rerio33482 14732289 Danio rerio31504 14498

12、639 Human immunodeficiency virus type 131504 14498639 Human immunodeficiency virus type 19882 14270269 Schizosaccharomyces pombe9882 14270269 Schizosaccharomyces pombe5446 11539475 Plasmodium falciparum5446 11539475 Plasmodium falciparum19704 10817282 Zea mays19704 10817282 Zea mays1101 10008018 Bac

13、illus subtilis1101 10008018 Bacillus subtilis13898 9038361 Magnaporthe grisea13898 9038361 Magnaporthe grisea16089 8486371 Dictyostelium discoideum16089 8486371 Dictyostelium discoideum11429 7007861 Lycopersicon esculentum11429 7007861 Lycopersicon esculentumNCBIGenBank剖析 I: 数据结构NCBIGenBank剖析 II:记录起

14、始LOCUS ANACIAG 3042 bp DNA PLN 28-NOV-1996DEFINITION A.nidulans aciA gene for AciA protein.ACCESSION Z11612 S51247NID g5544KEYWORDS aciA gene; AciA protein.SOURCE Emericella nidulans. ORGANISM Emericella nidulans Eukaryotae; mitochondrial eukaryotes; Fungi; Ascomycota; Euascomycetes; Plectomycetes;

15、Eurotiales; Trichocomaceae; Emericella.REFERENCE 1 (bases 1 to 3042) AUTHORS Saleeba,J.A., Cobbett,C.S. and Hynes,M.J. TITLE Characterization of the amdA-regulated aciA gene of Aspergillus nidulans JOURNAL Mol. Gen. Genet. 235 (2-3), 349-358 (1992) MEDLINE 93101140REFERENCE 2 (bases 1 to 3042) AUTHO

16、RS Saleeba,J.A. TITLE Direct Submission JOURNAL Submitted (24-JAN-1992) Jennifer A. Saleeba, Department of Genetics, University of, Melbourne, Grattan Street, Parkville, Victoria, 3052, AustraliaNCBIGenBank记录起始 III: 特征FEATURES Location/Qualifiers source 1.3042 /organism=Emericella nidulans /strain=G

17、lasgow /chromosome=Segment of chromosome 1 mRNA join(969.1263,1318.1493,1553.2624) /gene=aciA exon 969.1263 /gene=aciA /number=1 mRNA join(1205.1263,1318.1493,1553.2624) /gene=aciA exon 1205.1263 /gene=aciA /number=1 CDS join(1249.1263,1318.1493,1553.2495) /gene=aciA /codon_start=1 /product=AciA /db

18、_xref=PID:g5545 /db_xref=SWISS-PROT:Q03134NCBIGenBank记录起始 IV: 序列ANACIAGA.nidulans aciA gene for AciA proteinSeq: ANACIAG Length: 3042 Sun Jan 19 21:10:37 1997 Check: 422 . 1 AAGCTTACTT GTGTCCATTT TCTGGATTCC AGACTCAAGA CCAGTGCTAA 51 AGAAAACCCC TAGATTACTA TTTCAACCAT ATTATTTTTT TCCTTGCCAG 101 AATTTAATC

19、G CGAGCGTAGA AGCCAACTAT ACTACAAACA GGCTGTCCCA 151 ATGAAACTGT AGATTTCTAT CGAGTGCTTC TACTTTTACC AAAATTTATT 201 ATTACTTATC TCCTTTTGTC AATTCCACGC TCTGAGCTGG GGCTTTTTGC 251 TGACAGTCAA GTGAGGGGGA GGGGCGGGAG TTTACCCCTC ATGCGGGGAA 301 GACCGTGTGT TGTAGATCAT ACTGACAGCC AGCGACAAAG TATGTCGGCC 351 AGTTTGCAAG TCA

20、ACCTGAG GCAGCAGAGA CGATTGGAAG AGC.NCBI通用蛋白质数据库NCBI使用序列数据库NCBI后续链接: SWISS-PROT entry 交叉索引DR EMBL; M16591; AAA52643.1; -.DR EMBL; M16592; AAA52644.1; -.DR PIR; A27812; TVHUHC.DR PDB; 2HCK; 20-AUG-97.DR PDB; 3HCK; 15-OCT-97.DR PDB; 1BU1; 11-NOV-98.DR MIM; 142370; -.DR PROSITE; PS00107; PROTEIN_KINASE_A

21、TP; 1.DR PROSITE; PS00109; PROTEIN_KINASE_TYR; 1.DR PROSITE; PS50011; PROTEIN_KINASE_DOM; 1.DR PROSITE; PS50001; SH2; 1.DR PROSITE; PS50002; SH3; 1.DR PFAM; PF00017; SH2; 1.DR PFAM; PF00018; SH3; 1.DR PFAM; PF00069; pkinase; 1.NCBI无冗余数据库NCBI简略注释数据库NCBILOCUS T12742 157 bp mRNA EST 28-OCT-1993DEFINITI

22、ON zEST00149-5 Zea mays cDNA clone csuh00149/umc382 5 end similar to similar to short chain alcohol dehydrogenase.ACCESSION T12742NID g409680KEYWORDS EST.SOURCE Maize clone=csuh00149/umc382 library=Maize Leaf, Stratagene #937005 strain=B73 vector=Uni-ZAP primer=SK Rsite1=EcoR1 Rsite2=Xho1 mRNA isola

23、ted from illuminated leaves and sheaths of 5 week old plant. cDNA directionally cloned into vector. . ORGANISM Zea mays Eucaryotae; Embryophyta; Magnoliophyta; Liliopsida; Cyperales; Poaceae; Zea.REFERENCE 1 (bases 1 to 157) AUTHORS Baysdorfer,C. TITLE The Maize cDNA Program JOURNAL Unpublished (199

24、3)COMMENT Contact: Baysdorfer C California State University Dept Biol Sci, California State Univ, Hayward, CA 94542 Tel: 5108813459 Fax: 5107272035 Email: .FEATURES Location/Qualifiers source 1.157 /organism=Zea mays /clone=csuh00149/umc382 /strain=B73BASE COUNT 33 a 42 c 51

25、 g 26 t 5 othersORIGIN 1 CCTCAAGGGC GTCGACNNNA TGCCCGAGGA CGTCGCCCAG GNNGTGCTCT 51 ACCTGGCCAG CGACGAGGCG AGGTACGTCA GCGCGGTCAA CCTCATGGTG 101 GACGGAGGCT TCACAGCCGT AAACAATAAC CTCAGGGCGT TTGAGGATTA 151 GTTGAGGdbEST entryNCBI归类核酸序列数据库NCBIGenBank数据库数据库格式NCBIGBFF文件格式NCBI头部中部尾部NCBI其他序列文件格式NCBI序列文件格式例子(Fa

26、sta)NCBI序列文件格式例子(GenBank)NCBI 序列文件格式例子(GenBank)NCBI序列文件格式例子(GCG)NCBI序列文件格式例子(GCG)NCBI序列文件格式例子(ASN.1)ASN.1是NCBI用来存储和维护所有数据的格式 NCBI*47NCBI*48NCBI1 1、核酸序列数据库、核酸序列数据库NCBIGenBank:/Genbank/NCBIEMBL http:/www.embl-heidelberg.deNCBIDDBJ http:/www.ddbj.nig.ac.jp/NCBI22 November 2010

27、Total nucleotides: 301,588,430,608 NCBI22 November 2010Number of entries: 199,575,971 NCBINCBI*56NCBI*57“ID”为序列的标识符行,包括登录号、类型,分子的长度 “AC”为登录号行;“XX”为分隔符号行; “DT”为创建和更新日期行 “DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“

28、RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH” 为特征开始符号;“FT”为特征表行 (1)Feature Key,它是描述域生物功能的关键字; (2)Location,指明特征在序列中的特定位置; (3)Qualifiers,描述关于一个特征的辅助信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“/”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分 文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(anno

29、tation)NCBI*58NCBI*59 人类基因组计划所得到的图谱数据人类基因组计划所得到的图谱数据 目前GDB包含对下述三种对象的描述:(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等; (2)人类基因组图谱, 包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化, 包括基因突变和基因多态性,加上等位基因频率数据。NCBI*60与染色体相关的信息NCBI*61其它模式生物基因组数据库如:如:鼠基因组数据库鼠基因组数据库 MGDMG

30、D(//)酵母基因组数据库酵母基因组数据库 SGDSGD(http:/genome-/Saccharomyces//Saccharomyces/)NCBI*62Ensembl (Ensembl (//)Ensembl包括所有公开的人类基因组包括所有公开的人类基因组DNA序列,通过注释形序列,通过注释形成的关于

31、序列的特征。成的关于序列的特征。 现在包括其他基因组,如大鼠、小鼠现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。、线虫、果蝇等。例如:基因例如:基因通过实验发现的通过实验发现的或者是通过或者是通过GenScan程序预测的程序预测的其他的特征:其他的特征:单核苷酸多态性(单核苷酸多态性(SNP)、重复序列等)、重复序列等NCBI*63Ensembl 数据库结构图 NCBI*64Ensembl提供多种查询方式 通过关键字查询用BLAST进行相似序列的搜索 另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组NCBI*65NCBI*66人的第人的第9号染号

32、染色体及大鼠对色体及大鼠对应的染色体片应的染色体片段段NCBI*67EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法 ,EST序列大约覆盖了人类基因的90%。 DbEST (/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。 WEB页面或emailFTP有关EST的数据dbEST数据库NCBI*68UniGene( /UniGene/)数据库将GenBa

33、nk中的序列进行自动分类,形成面向基因群的非冗余集合。 每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息, 如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。 目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。NCBI*69 SWISS-PROT (http:/www.expasy.ch/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的 SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑

34、选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据 NCBI*70 (1)在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括: (A)蛋白质的功能描述; (B)翻译后修饰; (C)域和功能位点; (D)蛋白质的二级结构; (E)蛋白质的四级结构; (F)与其它蛋白质的相似性; (G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。SWISS-PROT有三个明显的特点 :NCBI*71NCBI*72NCBI*73TrEMBL (http:/www.ebi.ac.uk/trembl

35、/index.html) 包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROT TrEMBL)(2)REM-TrEMBL(REMaining TrEMBL)NCBI*74生物大分子结构数据库生物大分子结构数据库NCBI*75Current Holding DataSubmit DataKeyword SearchIntroduction to selected molecular DataNCBI*76Download DataPDB File Form

36、atRelated SoftwareNCBI*77HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1;

37、。SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL

38、ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 - 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 - 304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DB

39、REF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论