生物信息课件1_第1页
生物信息课件1_第2页
生物信息课件1_第3页
生物信息课件1_第4页
生物信息课件1_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学现在与未来李 霞 教授1一、生物信息学二、生物信息学研究方向Outline复杂疾病的基因定位基因芯片信息学技术药物基因组信息学三、重要的研究成果2 生物信息学 (Bioinformatics) 是数学、计算机、信息技术与生命科学交叉形成的前沿学科。一、生物信息学3Bio molecular biologyInformatics computer 、 mathematics and informatics etc.Bioinformatics solving problems arising from biology using methodology from computer an

2、d mathematics science.Bioinformation Technology (BIT)What is Bioinformatics?45是人类自然科学史上最伟大的创举之一 是世纪交替之时,人类历史上最重大的事件之一 是人类认识自我的宏伟计划 是一项全人类的国际间合作项目 其规模可以与“曼哈顿原子弹计划”、“阿波罗”登月计划媲美,而它的意义又远远超出了这两个计划。 人类基因组计划(Human Genome Project):6人类基因组计划之大事记 1990年10月启动国际人类基因组计划, 预计2005年完成。 1998年10月23日美国国家人类基因组研究所在美国Scienc

3、e杂志上发表声明说,人类基因组计划的全部测序工作将比计划提前两年,即在2003年完成。1999年9月中国获准加入人类基因组计划,负责测定人类基因组全部序列的1%,即3号染色体上的3000万个碱基对,使中国成为继美、英、日、德、法之后第六个国际人类基因组计划参与国。1999年12月1日国际人类基因组计划联合研究小组宣布完整译出人体第22对染色体的遗传密码,人类首次成功完成人体染色体基因完整序列的测定。2000年4月我国按照人类基因组计划的部署,完成了1%人类基因组的工作框架。2000年6月26日各国科学家公布了人类基因组工作草图。 7人类基因组计划(Human Genome Project, H

4、GP) 也称人类基因测序计划,主要目标是完成对人的基因组的所有碱基序列的测定(结构基因组),阐明人体中全部基因的位置、结构、功能、表达、调控方式及致病突变的全部信息(功能基因组)。 8 基因是染色体上的一段DNA9DNA就是脱氧核糖核酸(长链)腺嘌呤(A)鸟嘌呤(G)胸腺嘧啶(T)胞嘧啶(C)基因测序就是读出 A-C-G-T-G-G-A-C-G.目标是测定人类基因组全部30亿个碱基对序列。10全基因组测序的方法分段克隆 分段测序 部分序列重叠 计算机拼接 完整序列绘制“标志”11DNA序列测定每一个峰代表一个碱基 四种颜色代表四种不同的碱基12How many characters are i

5、n the “Heaven Book”? 13EntrezGenBankMGDSWISS-PROTGOMIPSLocusLinkUniGenedbESTKEGG生物数据库14 Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。欧洲分子生物学实验室(EMBL)的数据库日本的DNA数据库(DDBJ)交换数据Genbank库里的数据按来源于约55,000个物种,其中5

6、6%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。NCBI的网址是:。EMBL的网址是: 。DDBJ的网址是:http:/ 基因组数据库 15基因组数据库 功能数据库( KEGG )京都基因和基因组百科全书(KE

7、GG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。 KEGG的网址是:。 16PATHWAY DATABASE A Pathway Example17功能基因组研究的目标

8、基因及其 编码蛋白质生理功能疾病相关诊断、治疗、药物开发等应用18分子生物学数据库和分析软件基因组制图与测序DNA与蛋白质序列同源性分析基因识别与翻译基因功能信号检测蛋白质结构与功能预测疾病基因的连锁定位克隆策略基因芯片表达谱分析基因与其产物间的互作网络药物基因组学与药物分子设计分子进化钟与进化树比较基因组学自动化检测仪器设计(软件)系统生物学. . 生物医学计算机科学数学、物理信息技术(图象识别、人工智能、计算机网络、数据库、统计学、Data Mining )生物信息学Bioinformatics生物信息学:交叉学科19二、生物信息学研究方向20如何寻找疾病相关基因?复杂疾病的基因作图(Ge

9、ne Mapping)致病基因世代相传肥胖症正常人2122传递不平衡方法 (Transmission Disequilibrium Test)下面是来自三个家庭的传递/非传递数据表。23The Principle24基因芯片(gene chip)信息学技术 基因芯片技术是90年代的重大科技进展之一,既有重要的基础研究价值,又有明显的产业化前景。25 数据的获取和分析 (计算机及软件) 杂交信号的检测(扫描仪等)26基因表达谱(Express Profiling)示意图胶质瘤脑组织27生物学问题:差异表达基因、疾病亚型分析等模式识别(疾病预测)生物学证实与解释微阵列杂交实验特征基因探针筛选、芯片

10、与实验设计杂交信号采集与图象处理标准化与Ratio值分析聚类分析(基因或组织)基因调控网络R, G基因芯片生物信息学研究28无监督学习方法(Unsupervised Learning Methods) 聚类分析无监督数值分类要解决的主要问题是:将有相似表达行为的基因进行归类,发现共调节表达的基因,从而推测未知基因的功能。根据基因表达谱,将组织样本分组,这些组可能对应于特别的表型,如癌的亚型。 常用的无监督学习方法有:层次系统聚类。K mean分割聚类。 神经网络与自组织映射 各种聚类分析方法有不同的适用条件与效能。 29 肿瘤疾病分型及预测 30有监督学习方法(Supervised Learn

11、ing Methods)根据基因表达谱,有监督学习主要要解决两个问题:(1)分类肿瘤等疾病样本到已知类别,即判别诊断问题。(2)识别对疾病有鉴别力的特征基因,即特征选择问题。常用的有监督学习方法:(1)最近邻法 (Nearest Neighbor)(2)线性判别分析 (Linear Discriminant Analysis)(3)分类树法CART(Classification And Regression Trees)(4)机器学习(Machine Learning,Booting and Bagging )(5)支持向量机技术(Support Vector Machine) 这些方法的主要

12、的困难是如何排除大量无关基因的干扰31Fig.1. Classification trees for tissue types by using espression data form three genes (M26383, R15447, M28214)32遗传算法-支持向量机偶合的特征选择方法2001级研究生李丽:在五种不同的分类器中,GA-SVM选择出的特征基因均高于T检验、非参数、随机的基因子集的分类贡献。33Relevance network joining disparate features of cell linesGreen box: agentsWhite boxes:

13、 genesLines:Proportional toCC.Only CC=0.80 shown hereGRAPH EDITOR TOOLKIT (Tom Sawyer Software, Berkeley, CA) 34PATHWAY DATABASE A Pathway Example35基因芯片技术的应用领域基因芯片基因功能等 基础研究司法军事环境保护个性化给药病理和毒理药物筛选基因诊断疾病亚型36大规模表达谱芯片基因表达谱药物基因组信息学药物筛选用关键基因制备的芯片37生物医学信息(BMI)软件系统价格昂贵$99999999938给药个性化 由于存在遗传差异,如药物应答基因不同,病人

14、对药物的疗效与副作用有不同的反应。利用基因芯片技术可以对患者进行鉴别,实现对病人的个体优化治疗。我们曾经根据药物动力学原理,提出了一整套个体化给药方案的设计与评价方法,研制了一套程序GPAP。希望今后能够结合药物基因组信息学进一步开展这方面的工作。39系统生物医学信息学对疾病的认识系统器官组织细胞分子生物医学信息学必将成为未来医学研究的关键工具!40生物技术的支持和迫切需求传统医学研究产生多种多样的数据信息(包括生化指标、X线、CT、MRI、B超、心电图等),但相对容易理解和分析。41新技术(生物芯片,SNP、通路、分子模拟等)、新的研究方法(蛋白组学、基因组学、生物信息学)和互联网正在为生物

15、医学领域带来质的飞跃。42- GO:0003673 Gene_Ontology - GO:0003674 molecular_function The action characteristic of a gene product. - GO:part_of part_of - GO:0016209 antioxidant activity Inhibition of the reactions brought about by dioxygen (O2) or peroxides. Usually the antioxidant is effective because it can its

16、elf be more easily oxidized than the substance protected. The term is often applied to components that can trap free radicals, thereby breaking the chain reaction that normally leads to extensive biological damage. - SP_KW Antioxidant - HAMAP MF_00269 - HAMAP MF_00401 - GO:is_a is_a 1Z11793_at Selen

17、oprotein P 5871.5394 2D38549_at KIAA0068 gene, partial cds 5981.4098 3U31383_at G protein gamma-10 subunit mRNA 6013.5882 4U26648_at STX5A Syntaxin 5A 6030.7527 5L77886_at Protein tyrosine phosphatase mRNA 6034.6004 6U73377_at SKI V-ski avian sarcoma viral oncogene homolog 6043.9792 7M37721_at PAM P

18、eptidylglycine alpha-amidating monooxygenase 6044.6296 8U90716_at Cell surface protein HCAR mRNA 6103.3580 9J05633_at ITGB5 Integrin beta-5 subunit 6131.0221 10X69910_at P63 mRNA for transmembrane protein 6150.3927 11U41515_at Deleted in split hand/split foot 1 (DSS1) mRNA 6205.2808 12D44466_at Prot

19、easome subunit p112 6235.8605 13L19314_at HRY gene 6248.6168 14U03100_at CTNNA1 Catenin (cadherin-associated protein), alpha 1 (1026248.9223 15U91930_at AP-3 complex delta subunit mRNA 6273.9915 16M57730_at EPH-RELATED RECEPTOR TYROSINE KINASE LIGAND 1 PRECURSOR 6315.0203 17L77213_at Phosphomevalona

20、te kinase mRNA 6339.9237 18X99728_at NDUFV3 gene, exon 3 6362.6388 19U34252_at ALDH7 Aldehyde dehydrogenase 7 (NOTE: redefinition of symb6387.0264 20D30756_at KIAA0108 gene 6392.8205Patient #statusSamplename at WICGRVO2 max (ml/kg/min total body weight)M valueTrigsCholWHRAgeBMIGlucose 0 capillary bl

21、ood who 85Glucose 120 capillary blood who 85Insulin 0Insulin 120UQCRB (209065_at)Centroid (Using 34 OXPHOS-CR Genes)Glycogen (mmol/kg)Type1 (n)Type1 (%)Type1 Area (m2)Type1 Area (%)Type1 Mean Area (m2)Type1 Min. Area (m2)Type1 Max. Area (m2)Cap./Type1 (mean n)Type2a (n)Type2a (%)Type2a Area (m2)Type

22、2a Area (%)Type2a Mean Area (m2)Type2a Min. Area (m2)Type2a Max. Area (m2)Cap./Type2a (mean n)Type2b (n)Type2b (%)Type2b Area (m2)Type2b Area (%)Type2b Mean Area (m2)Type2b Min. area (m2)Type2b Max. area (m2)Cap./Type2b (mean n)10122DM2DM2_mm39_10122:CI2002061839AA26.085.081.025.720.9567.0025.018.40

23、14.9031988.190.001665118230.29157028232.83.515923.6 2.9810943.62.5810126DM2DM2_mm21_10126:CI2002061821AA25.673.331.655.8765.9025.785.407.901153205.90.016814294427.77245189135.73.65220.4 3.7911243.93.3210131DM2DM2_mm77_10131:CI2002061877AA20.852.472.945.34165.0028.098.4018.601042212.2-0.064649412408.

24、441652910839.64.495620.5 4.710939.94.0810169DM2DM2_mm28_10169:CI2002061828AA24.593.010.9966.1033.3610.9014.701017214.8-0.048561576375.55223.11111111428398.678325.036299538096.8458643461.70003814187.000024.84499263810345.77777778909222.265553.136394048928.150548731.95199917932.800135.0684620145524.44

25、444444267472.508115.631518424867.159398955.842960310221.500092.81944444810179DM2DM2_mm03_10179:CI2002061803AA16.841.474.817.60.9865.9031.348.1016.102668218.3-0.01488399.89907694731.12582781272148.355436.860490465780.1234423026.839898903.9797763.82662844753.31125827828847.520823.9071842425785.6501815

26、463.8098496023.5301194.6259965.56291391437324.075659.23232534577.96139473.61597987151.6002012.89393937610186DM2DM2_mm31_10186:CI2002061831AA18.775.652.296.111.0568.0033.337.3015.001176232.4-0.055387824281.67784626525.49019608339406.149434.055375545506.5882571670.5700167831.8898034.18753614.117647061

27、57929.417115.846341084504.9270031136.6799726863.1300643.09821426914456.47058824452518.577345.40486413183.400713254.02999157005.210192.49509799510189DM2DM2_mm05_10189:CI2002061805AA29.685.491.025.020.9969.0025.095.9011.10959328.90.035752647258.557538511349.56140351553855.180454.8079884967.5124582617.

28、7999778977.1798883.818219985323.24561404266538.201326.37588864985.7341671330.42998810006.200312.9616013376026.31578947182936.371818.102881092889.6301471300.2899874873.9399182.50483091710194DM2DM2_mm32_10194:CI2002061832AA 35.183.8964.9025.345.9012.601368290.7-0.06155300.946153811342.3220

29、9738439541.437947.014765563934.1467541524.1800049041.7602293.5525068046323.59550562255244.671627.301790834103.3528922432.6600735795.3402083.3284574759134.082397240114.729925.683443612644.3292031054.8699694327.130212.10731595810197DM2DM2_mm61_10197:CI2002061861AA 20.985.441.514.940.9965.0025.228.1020

30、.90515116.2-0.034958294343.9384615 10199DM2DM2_mm81_10199:CI2002061881AA24.334.370.856.40.9664.0027.424.7010.80728296.9-0.050696471246.775846212043.79562044538225.776855.795037474485.2148072269.0500597444.3797794.33333349213850.3649635372770.273338.643135022701.2338651171.1199793853.5099563.62318849

31、651.8248175187457.2898970.7730580491491.4579791218.4799841709.3200192.79999995210201DM2DM2_mm07_10201:CI2002061807AA34.99161.0024.866.4014.30931261.9-0.082378588357.27127.84313725271816.851732.692576683801.0757252088.2200417556.3297843.6911057239938.82352941342958.280441.249060953357.8883

32、28835.2860076781.319953.280360468031.37254902198315.959223.852309612458.261365111.94600114391.7101072.66071426910204DM2DM2_mm08_10204:CI2002061808AA34.482.332.916.050.9765.0026.3710.1018.90924167.5-0.065306941600.93692317352.51798561348155.140348.949412134805.1784512699.6100917242.0198735.1910803324

33、532.37410072283532.39439.863676856293.9329193931.0101848327.0297325.550420284128.63309352550517.584787.1025982134471.14914766.39700145799.6398793.350000024新技术产生的海量生物信息带来了数据共享问题、信息标准化问题、信息集成问题以及与临床信息融合等一系列问题,要求生物医学信息系统的开发与建设。43三、重要的研究成果44微阵列分析可视化基因功能基因调控网络疾病模式确认疾病模式发现表达图谱微阵列重要模式标志性成果: Expression Pro

34、45标志性成果: Gene Mining46标志性成果: 疾病遗传异质性研究原始数据S1G1S3G2G3G4S2S4第一次运行后S5S6G5G6第二次运行后第n次运行后47系统的输出结果原数据输出数据48Ensemble process on the resultsBased on the newParameterZgAlgorithm flow chart18 feature ion channel genes were selectedData setIon channel genesselectionEnsemble tree processPrimary feature genes a

35、nd good trees selectionValidation by other classificationmethods497. Permutation test72 samples, 54675 probes(14 normal + 58 disease)1. Filter 548 ion channel genes and transmembrane protein genes2. Random partition each sample n groups. (n=3, 5, 7, 14)10. Feature gene sets validated by other classi

36、fication methods1/n1/n1/n3. Select training and test group(n-1)/ntraining 1/n test4. TrainModel trained5. Reselect 6. Repartition 8. Feature genes selection9. Good trees selectionSelection basedon rulesEnsemble process on the resultsBased on the newParameterZgAlgorithm flow chart18 feature ion chann

37、el genes were selected50Gene IDSymbolGene IDSymbolGene IDSymbol22SLC17A885CACNG1313P2RX727KCNG1119KCNA3325SLC12A831IRTA1157SLC17A2360CFTR38TPTE200KCNA10456KCND161KCNV1209KCNK12476KCNJ1070NECAB2227TRPM5533No recordFeature genesKCNG1KCNJ1051CFTR52调控通路内基因表达的相关性分析利用7套你酿酒酵母基因芯片表达谱数据,分析研究了17条基因表达调控通路内的基因在

38、mRNA表达水平上的相关性。发现有15条(88.2%) 基因表达调控通路内的基因在多套(4)数据集中共表达。5354面向个性化医疗的医学生物学信息系统个性化医疗系统个性化给药系统个性化保健系统个性化诊断系统疾病再确认发病风险分析靶药物选择虚拟治疗及效果分析网络和本地数据库分子细胞组织系统临床医学数据库 群体数据库分子生物学数据库 病人序列分析表达谱分析通路分析智能化生物医学信息搜索引擎医学生物信息学算法库分子模拟关键技术数据库功能模块应用模块55科研论文数量和质量 新的飞跃论文100余篇(SCI论文20篇:EI论文3篇) Xia Li, Shaoqi Rao,YadongWang. Gene

39、Mining: A Novel and Powerful Ensemble Decision Approach to Hunting for Disease Genes Using Microarray Expression Profiling. Nucleic Acids Research, 2004 ( 影响因子:7.051)Li X,Rao S,Zhang T .An ensemble method for gene discovery based on DNA microarray data. SCIENCE IN CHINA (Series C) 2004;34(2). Li X, Rao S, Moser KL, Elston RC, Olson JM, Guo Z, Zhang T: Genetic mapping of complex discrete human diseases by discriminant analysis. Progress In Natural Science 2002, 12:431-437.Li X, Rao S, Elston RC, Olson JM, Moser KL, Zhang T, Guo Z: Locating the genes underlying a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论