




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、What is the total number of human genes? 28,0004,000 Only 1.1% of the genome is spanned by exons, whereas 24% is in introns, with 75% of the genome being intergenic DNA. One of the largest challenges is identifying the unknown functions that almost certainly exist in much of the “junk” DNA. Organism
2、 Year Millions Total Predicted Number of genes of bases coverage number per million bases sequenced (%) of genes sequenced Humangenomeroughdraft20012,6938431,78012 (publicsequence) Humangenomeroughdraft20012,6548339,11415 (Celerasequence) Arabidopsis thaliana 20001159225,498221 Drosophila metanogast
3、er20001166413,601117 Caenorhabditis elegans 1998979919,099197 Saccharomyces cerevisiae 199612935,800483 人类基因组非编码区(“Junk”DNA)的构成 至少包含如下类型的DNA成份或由其表达的RNA成分: 1. 内含子(intron)、 2. 卫星(Satellite)DNA、 3. 小卫星(minisatellite)DNA、 4. 微卫星(Microsatellite)DNA、 5. 非均一核RNA(简称hnRNA)、 6. 短散置元(shortinterspersedelements简
4、称SINE)、 7. 长散置元(1onginterspersedelements,简称LINE)、 8. 伪基因(Pseudogenes)、 9. 顺式调控元件,如启动子、增强子等也属于非编码序列。 重复序列在基因组中的比例 Human45% Arabidopsis11% C.elegans7% D.melanogaster3% Higher eukaryotes are believed to carry a large burden of “junk DNA” in their genomes. Although 98% of the human genome comprises non-
5、protein-coding DNA (1), the true density and distribution of functional nucleotides in these regions is currently unknown. Who share Ultraconserved Elements?Who share Ultraconserved Elements? human mouse rat chicken fish dog # of Ultraconserved Elements Theinsertionofarepetitivesequenceintoa genecan
6、influenceitstranscription.TheSINEs andotherrepeatscanactastissue-specific enhancersorsilencersoftheadjacentgenes. SmallRNA,microRNA,andRNA Interference(RNAi) EncyclopediaofDNAElements “DNA元件百科全书”计划(Encyclopediaof DNAElements,简称ENCODE)发表了一系 列重要研究成果,挑战了关于人类基因组 的传统理论,即我们的基因组不是由孤立 的基因和大量“无用DNA片段”组成的,而 是
7、一个复杂的网络系统。 编码基因、调控元件以及非编码RNA基因之 间,有着复杂的相互作用,共同控制着人 类的生理活动。 6.研究生物进化 1859,Darwin的物种起源对人类自然科学和自然 哲学发展的最重大贡献之一。 进化论研究的核心是描述生物进化的历史 (系统进化树)和探索进化过程的机制。 当前分子进化的研究已是进化论研究的重 要手段,并建立了一套依赖于核酸、蛋白 质序列信息的理论方法。 l 序列相似性比较。常用的程序包有BLAST、FASTA 等; l 序列同源性分析。完成这一工作必须使用多序列 比较算法。常用的程序包有CLUSTALW等 l 构建系统进化树。象PYLIP、MEGA等; l
8、 稳定性检验。 通用的方法使用 Bootstrap算法, 相应的软件已包括在构建系统进化树所用的软件 包当中。 一:发现同一种群基于不同分子序列所重构出的进化 树可能不同。 二:对“ 垂直进化”和“水平演化”之间关系的讨论 正逐渐引起人们的重视。 三、基因的“横向迁移现象”。即:基因可以在同时 存在的种群间迁移,其结果虽可导致序列差异,但这 种差异与进化无关。 如:对人类基因组的分析发现,有几十个人的基因只 与细菌基因相似,而在果蝇、线虫中都不存在。所以 在当前的分子进化研究中必须选择垂直进化的分子作 为样本。 序列差异和进化关系的争论: 分子进化分析中,“ 相似性”和“同源性”是两 个不同的
9、概念。 相似性只反映两者类似,并不包含任何与进化相 关的暗示。同源性则是与共同祖先相关的相似性。 不同的生物分子替代速率不同。纤维蛋白约200万 年有一个aa被替代。而组蛋白约3000万年才被替 换一个,一些非编码序列一两万年就可能被替换。 这些变化速率不同的分子可作为进化研究的分子 时标,有人称之为分子钟。 但随着序列的增加,不支持分子钟的假设。 植物LFY同源基因系统树 Phylogenyof23completelysequencedBacteriaandArchaeaspecies onthebasisof16srRNA. A)Phylogenetictreebuiltbyournewm
10、ethod.B)PhylogenetictreebuiltbyClustalwprogram. (MadebyR.S.Chen) Phylogenyof24completelysequencedBacteria,Archaeaand Eukaryaspecies.A)genomictree.(MadebyR.S.Chen) Phylogeny of T.tengcongensis based on Whole Genome ( Made by R.S.Chen) After Pace NR (1997) Science 276:734 1.1.7. 7. 完整基因组的比较研究完整基因组的比较研
11、究 1.1. 生命的起源?生命的进化?生命的起源?生命的进化? 2.2. 遗传密码的起源?遗传密码的起源? 3.3. 最小独立生活的生物体至少需要多少基因?最小独立生活的生物体至少需要多少基因? 4.4. 这些基因是如何使生物体活起来的?这些基因是如何使生物体活起来的? 5.5. 啤酒酵母,它有啤酒酵母,它有59325932个基因,最小的是生殖个基因,最小的是生殖 道枝原体它只有道枝原体它只有470470个基因。个基因。 6.6. 黑猩猩黑猩猩和人的基因组大小相似,都含有约和人的基因组大小相似,都含有约 3 03 0亿碱基对,基因的数目也类似,且大部亿碱基对,基因的数目也类似,且大部 同源。但
12、黑猩猩和人差异大同源。但黑猩猩和人差异大, ,为什么?为什么? 人类基因组与其它生物基因组比较人类基因组与其它生物基因组比较 通过几个完整基因组的比较,统计出维持 生命活动所需要的最少基因个数为250个左右。 比较鼠和人的基因组就会发现,尽管两者 基因组大小和基因数目类似,但基因组的组 织却差别很大。例如存在于鼠1 号染色体上 的基因已分布到人的1、2、5、6、8、13、18 号7个染色体上了。 在同一界中,某些核糖体蛋白排列顺序的 差异能反映出物种间的亲缘关系,亲缘关系 越近,基因排列顺序越接近。这样就可以通 过比较基因的排列顺序来研究物种间的系统 发育关系。 人与鼠染色体的差别人与鼠染色体
13、的差别 Thedistributionofmousehomologygenesinthehumanchromosome (DatafromGenBank,CoordinatebyR.S.Chen) Thedistributionofmousehomologygenesinthehumanchromosome (DatafromGenBank,CoordinatebyR.S.Chen) * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
14、* * * * * * * * * * * * * * * * * * * * * genes in this No. chromosome of distribution of mouse homology genes mouse in human chromosome 1 1 1 1、2 2、5 5、6 6、8 8、1313、18 18 2 2 2 2、7 7、9 9、1010、1111、1515、2020 3 1 3 1、3 3、4 4、8 8 4 1 4 1、6 6、8 8、9 9 5 1 5 1、4 4、7 7、1212、1313、1818、22 22 6 2 6 2、3 3、7 7
15、、1010、12 12 7 6 7 6、1010、1111、1515、1616、19 19 8 1 8 1、4 4、8 8、1313、1616、19 19 9 3 9 3、6 6、1111、1515、19 19 10 6 10 6、1010、1212、1919、2121、22 22 11 2 11 2、5 5、7 7、1616、1717、22 22 12 2 12 2、7 7、14 14 13 1 13 1、5 5、6 6、7 7、9 9、1515、17 17 14 3 14 3、8 8、1010、1313、1414、X X 15 5 15 5、8 8、1212、22 22 16 3 16 3
16、、8 8、1616、2121、2222 17 6 17 6、1616、1919、21 21 18 5 18 5、1010、18 18 19 9 19 9、1010、1111、X X X X X X * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 8.从功能基因组到系统生物学 功能基因组研究功能基因组研究: : 不仅需要了解基因的序列,还要了 解基因的功能,也
17、就是要了解在不同的时间、不同的组织 中基因的表达谱。 研究不同时间、不同组织的基因表达谱的技术有: 在核酸层次上的基因芯片(或称DNA芯片); 在蛋白质层次上的大规模蛋白质分离和序列鉴定技术, 也称蛋白质谱技术和蛋白质组研究。 芯片杂交:DNA芯片基质有硅片、玻片和金属片。 蛋白质二维凝胶电泳和测序质谱相结合的技术在蛋白 质水平上监测基因表达的功能谱。 酵母双杂交技术研究蛋白质的相互作用。 需要解决的关键问题:需要解决的关键问题: 表达谱数据挖掘和知识发现就成了该研究成功 与否的关键。需要发展新的方法和工具。 对大规模基因功能表达谱的分析也导致了新的 方法学问题。基因表达谱的数据和蛋白质谱的
18、数据,既有图象,又是在时空多维水平上展开 的数据。 芯片等的设计上也需要从理论到软件的支持。 应用分析系应用分析系 统获得的统获得的48 小时昼夜交小时昼夜交 替的表达谱替的表达谱 信息信息 cDNAcDNA微阵列杂交的聚类分析微阵列杂交的聚类分析 Protein interaction network: direct/indirect; static/dynamic From the Cell to Protein Machines By R.S.Chen 9. 蛋白质结构模拟与药物设计蛋白质结构模拟与药物设计 蛋白质功能取决于蛋白质的空间结构蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定
19、于蛋白质的序列(这是蛋白质结构决定于蛋白质的序列(这是 目前基本共认的假设),蛋白质结构的目前基本共认的假设),蛋白质结构的 信息隐含在蛋白质序列之中。信息隐含在蛋白质序列之中。 9. 蛋白质结构模拟与药物设计蛋白质结构模拟与药物设计 要找到蛋白质功能的分子基础,必须知道它们的 三维结构,与此同时,设计药物也需要了解与药物相 应的蛋白质受体的三维结构。 目前,X射线晶体学技术、多维核磁共振(NMR) 波谱学技术、二维电子衍射和三维图像重构技术等是 蛋白质空间结构测定的有效手段。 每天可测出几个生物大分子空间结构,但远小于 蛋白质序列信息增长的速度。预测这些蛋白的空间结 构,进而实现针对性的药物
20、设计,就成了迫在眉睫的 任务。这也是大规模的计算问题。 蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定 ,蛋,蛋 白质结构预测成为了解蛋白质功能的重要途径。白质结构预测成为了解蛋白质功能的重要途径。 蛋白质结构预测分为蛋白质结构预测分为: 二级结构预测二级结构预测 空间结构预测空间结构预测 二级结构预测二级结构预测 在一定程度上二级结构的预测可以归结为模式识别在一定程度上二级结构的预测可以归结为模式识别 问题问题 在二级结构预测方面主要方法有:在二级结构预测方面主要方法有: 立体化学方法立体化学方法 图论方法图论方法 统计方法统计方法 最邻近决策方法最邻近决策方法 基
21、于规则的专家系统方法基于规则的专家系统方法 分子动力学方法分子动力学方法 人工神经网络方法人工神经网络方法 预测准确率超过预测准确率超过70%的第一个软件是基于神经网络的第一个软件是基于神经网络 的的PHD系统系统 空间结构预测空间结构预测 在空间结构预测方面,比较成功的在空间结构预测方面,比较成功的 理论方法是同源建模法理论方法是同源建模法 该方法的依据是:相似序列的蛋白该方法的依据是:相似序列的蛋白 质倾向于折叠成相似的三维空间结质倾向于折叠成相似的三维空间结 构构 运用同源模型方法可以完成所有蛋运用同源模型方法可以完成所有蛋 白质白质10-30%的空间结构预测工作的空间结构预测工作 DN
22、ARNAprotein Central dogma of molecular biology genometranscriptomeproteome Central dogma of bioinformatics and genomics DNARNA cDNA ESTs UniGene phenotype genomic DNA databases protein sequence databases protein Pic5 Phenylketonuria (PKU) is caused by a deficiency of the iron-containing enzyme pheny
23、lalanine hydroxylase (PAH), which converts phenylalanine to tyrosine. Pic6 Pic7 后基因组时代 Post-genome era 后基因组时代的挑战: 1. 蛋白组学: 序列-结构-功能 2.研究生物的生长代谢的过程和疾病的机制 3.基因组药物 生物信息学离不开高性能计算机。 并需要信息学家的参与。 急需有自主知识产权的生物信息处理软件平台 和大量高效的快速的新算法的开发及改进。 后基因组时代 Post-genome era 基因组数据 DNA, Protein 序列序列 生物信息学 软件平台 Blast Gensca
24、n Blocks 生物学家 计算生物学模型/算法 软件 计算机专家计算机专家 串行 后基因组学数据 并行 数据库 proteomicsdata Proteomics tools Identificationandcharacterization DNA-Protein Similaritysearches Patternandprofilesearches Post-translationalmodificationprediction Primarystructureanalysis Secondarystructureprediction Tertiarystructure Transme
25、mbraneregionsdetection Alignment 四、生物信息学的应用与发展研究 生物信息学相关的分析与应用算法、软件和数据库, 都具有重要的经济价值,最终都会形成商品,提供 经济和社会效益。 1. 疾病相关的基因信息及相关算法和软件开发 2. 建立与动、植物良种繁育相关的基因组数据库,发 展分子标记辅助育种技术 3. 研究与发展药物设计软件和基于生物信息的分子生 物学技术 MajorApplicationsI:OverallGenomeCharacterization OverallOccurrenceof aCertainFeaturein theGenome e.g.ho
26、wmanykinases inYeast CompareOrganisms andTissues Expressionlevelsin CancerousvsNormal Tissues Databases,Statistics II:FromFindingHomologstodrugdesign III:DrugDesigning UnderstandingHowStructuresBind OtherMolecules(Function) DesigningInhibitors Docking,StructureModeling Three-dimensionalmolecularstru
27、ctureisoneofthefoundationsof structure-baseddrugdesign.Often,dataareavailablefortheshapeofa proteinandadrugseparately,butnotforthetwotogether.Dockingisthe processbywhichtwomoleculesfittogetherin3Dspace. 生物信息学与新药研制生物信息学与新药研制 未来的药物研究将是基于生物信息知识挖掘的过未来的药物研究将是基于生物信息知识挖掘的过 程程 数据 处理 关联 分析 发现 药物 作用 对象 确定 靶标
28、分子 针对 靶标 设计 药物 基因组学与药靶的选择基因组学与药靶的选择 已有数十种模式菌或致病菌基因组 完成测序,所有的基因都是潜在的靶, 根据不同标准进行优选。 通过分析某一化合物是否为某一特 定生化反应或分子间相互作用(药靶) 的抑制物,确定有无成药的可能。 产生于基因组学的信息极大地方便 了靶的选择。利用基因组DNA序列 信息指导生化及功能研究(抗菌素), 克服致病菌抗药性。 Proteininhibitors(Virusasanexample) attachment,entryandfusioninhibitors DNApolymeraseinhibitors integrasein
29、hibitors interferons maturationinhibitors monoclonalantibodies neuraminidaseinhibitors NS3proteaseinhibitors nucleosidereversetranscriptaseinhibitors proteaseinhibitors reversetranscriptaseinhibitors RNApolymeraseinhibitors Designingnucleicacidinhibitors (AntisenseoligonucleotidesorRNAi) TargetingmR
30、NA TargetingmicroRNA TargetinggenomicDNA InterferemRNAprocessing Aptamersoligonucleotideorpeptidemoleculesthatbind toaspecifictargetmolecule PLoSONEpaper Wang X, Gou D, Xu S-y (2010) Polymerase-Endonuclease Amplification Reaction (PEAR) for Large-Scale Enzymatic Production of Antisense Oligonucleoti
31、des. PLoS ONE 5(1): e8430. doi:10.1371/journal.pone.0008430 Bioinformatics and Pharmacutics 在BIOINFORMATICS没有诞生之前,一个新 药的问世需要十年时间,数亿美元的R&D, 而BIOINFORMATICS已将这个过程减少三分 之二,R&D的费用也相应大大减少。许多中 小BIOTECH公司也看到了BIOINFORMATICS 的巨大作用和潜在的商机,纷纷投资 BIOINFORMATICS研究项目。 (PGP) Personal genetic testing 23andme To provid
32、e an introduction to bioinformatics with a focus on the National Center for Biotechnology Information (NCBI) and EBI To focus on the analysis of DNA, RNA and proteins To introduce you to the analysis of genomes To combine theory and practice to help you solve research problems What are the goals of
33、this course? 五、生物信息学的现状五、生物信息学的现状 今后今后DNADNA序列数据的增长将更为惊人。生物学数据序列数据的增长将更为惊人。生物学数据 的积累并不仅仅表现在的积累并不仅仅表现在DNADNA序列方面,与其同步的序列方面,与其同步的 还有蛋白质的一级结构,即氨基酸序列的增长。还有蛋白质的一级结构,即氨基酸序列的增长。 与正在以指数增长的生物学数据相比,人类相关知与正在以指数增长的生物学数据相比,人类相关知 识的增长(粗略地用每年发表的生物、医学论文数识的增长(粗略地用每年发表的生物、医学论文数 来代表)显得十分缓慢。一方面是巨量的数据,另来代表)显得十分缓慢。一方面是巨量
34、的数据,另 一方面是我们在医学、药物、农业和环保等方面对一方面是我们在医学、药物、农业和环保等方面对 新知识的渴求,这些新知识将帮助人们改善其生存新知识的渴求,这些新知识将帮助人们改善其生存 环境和提高生活质量。环境和提高生活质量。 各国政府和工业界对生物信息学研究极为重视, 投入了大量资金。欧美各国及日本相继成立了生物信 息中心,如美国的国家生物技术信息中心、欧洲生物 信息学研究所、日本信息生物学中心等。这些机构相 互合作,共同维护着GenBank、EMBL、DDBJ三大基因 序列数据库。 美国一些最著名的大学,如哈佛、斯坦福和普林 斯顿大学等都投资几千万到一亿多美元成立了生物、 物理、数学
35、等学科交叉的新中心,诺贝尔奖获得者朱 棣文领导的斯坦福大学的中心还命名为Bio-X。 据报导,只有50名员工的德国Lion生物信息学公司,将通过 扫描公共数据库中的序列来发现500个可能的药物作用靶点, 以一亿美元的价格预售给德国Bayer公司。 NIH已向美国国会建议投资160亿美元在美国建立520个将 生物学与计算结合起来的中心, 来处理海量的基因组相关信 息。 法国议会科技决策评估办公室,最近评估了基因工程、生物 信息学和组合化学等学科的应用前景及法国的对策。 美国出现了大批的基于生物信息学的公司,实施了许多生物 信息学研究计划,主要与药物设计,基因工程药物,生物芯 片,代谢工程与化学工
36、程密切相关。 生物信息学工业 属于基础研究,以探索生物学自然学自然规律为己任; 又属于应用研究,它的许多研究成果可以较快或立即 产业化,成为价值很高的产品。 人类基因组计划的完成为生物医药工业提供了大量可 用于新药开发的原材料。有些基因产物可以直接作为 药物,而有些基因则可以成为药物作用的对象( “靶 点”)。 生物信息学为分子生物学家提供了大量对基因序列进 行分析的工具,不但可以从资料的获取、基因功能的 预测、药物筛选过程中的信息处理等方面大大加快新 药开发的进程,而且可以大大加快传统的基因发现和 研究。 据报导,只有50名员工的德国Lion生物信息学公司,将通 过扫描公共数据库中的序列来发
37、现500个可能的药物作用靶 点,以一亿美元的价格预售给德国Bayer公司。 NIH已向美国国会建议投资160亿美元在美国建立520个将 生物学与计算结合起来的中心, 来处理海量的基因组相关 信息。 法国议会科技决策评估办公室,最近评估了基因工程、生 物信息学和组合化学等学科的应用前景及法国的对策。 美国出现了大批的基于生物信息学的公司,实施了许多生 物信息学研究计划,主要与药物设计,基因工程药物,生 物芯片,代谢工程与化学工程密切相关。 六、与生物信息学关系密切的学科 1.与生物信息学关系密切的数学领域 统计学:包括多元统计学,是生物信息学的数学基础; 概率论与随机过程理论,如隐马尔科夫链模型
38、(HMM); 运筹学:如动态规划法是序列比对的基本工具, 最优化理论与算法:在蛋白质空间结构预测和分子对接 研究中有重要应用, 函数论: 如傅里叶变换等都是生物信息学中的常规工 具; 信息论:在分子进化、蛋白质结构预测、序列比对中 有重要应用,而人工神经网络方法则用途极为广泛; 组合数学: 在分子进化和基因组序列研究中十分有用。 原则上讲,各种数学理论或多或少或直接或间接都应 该在生物学研究中有各种各样的应用,其中包括生物 信息学. 2.生物信息学密切相关的计算机科学技术生物信息学密切相关的计算机科学技术 网络技术 数据库管理技术(特别是关系型数据库) 实验室数据信息管理系统(LIMS)。 数
39、据整合和可视化 数据挖掘(DataMining) 基于Linux/Unix操作系统的各种软件包 人工智能 神经网络 算法的复杂性研究。 参考文献参考文献 1、生物信息学生物信息学 孙啸孙啸 东南大学(课程讲义)东南大学(课程讲义) 2、生物信息学概论生物信息学概论 罗静初罗静初 北京大学北京大学 北京大学出版社北京大学出版社 3、生物信息学生物信息学(863高科技丛书)高科技丛书) 赵国平赵国平 中科院上海生命科学院中科院上海生命科学院 科学出版社科学出版社 4、生物信息学生物信息学基因和蛋白质分析的使用指南基因和蛋白质分析的使用指南 李衍达李衍达 清华大学清华大学 清华大学出版社清华大学出版社 5、简明生物信息学简明生物信息学 钟扬钟扬 复旦大学复旦大学 高等教育出版社高等教育出版社 6、bioinformatic
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计算机VB考试强化训练试题及答案
- 轻松应对税法考试试题及答案
- 预算与财务成本管理试题及答案探讨
- 银行系统中的信息技术应用测试试题及答案
- 细化目标2025年税法考试试题及答案
- 法律面试题目及答案
- 2025年MySQL查询条件优化试题及答案
- 法律类观点面试题及答案
- 法律考试题及答案pdf下载
- 计算机二级Delphi知识分享的价值与方法试题及答案
- 医院培训课件:《消毒隔离》
- 重症甲流护理查房
- 人工智能数学基础全套教学课件
- 尿毒症患者的护理健康评估
- 论社会系统研究方法及其运用读马克思主义与社会科学方法论有感
- 钢结构焊接技术的操作技巧与要点
- 健康喝水知识讲座
- 依莱达电动车使用说明书
- 《高速铁路客运服务礼仪》试题及答案 项目7 试题库
- 无人机系统数据链
- 颈内静脉血栓形成的护理查房
评论
0/150
提交评论