生物信息学现在与未来_第1页
生物信息学现在与未来_第2页
生物信息学现在与未来_第3页
生物信息学现在与未来_第4页
生物信息学现在与未来_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学现在与未来哈尔滨医科大学生物信息学院

李霞教授1医学下载吧一、生物信息学二、生物信息学研究方向Outline复杂疾病的基因定位基因芯片信息学技术药物基因组信息学……三、重要的研究成果2医学下载吧

生物信息学(Bioinformatics)是数学、计算机、信息技术与生命科学交叉形成的前沿学科。一、生物信息学3医学下载吧Bio–molecularbiologyInformatics–computer、

mathematicsandinformaticsetc.Bioinformatics–solvingproblemsarisingfrombiologyusingmethodologyfromcomputerandmathematicsscience.BioinformationTechnology(BIT)WhatisBioinformatics?4医学下载吧5医学下载吧是人类自然科学史上最伟大的创举之一是世纪交替之时,人类历史上最重大的事件之一是人类认识自我的宏伟计划

是一项全人类的国际间合作项目其规模可以与“曼哈顿原子弹计划”、“阿波罗”登月计划媲美,而它的意义又远远超出了这两个计划。人类基因组计划(HumanGenomeProject):6医学下载吧人类基因组计划之大事记

1990年10月

启动国际人类基因组计划,预计2005年完成。

1998年10月23日

美国国家人类基因组研究所在美国《Science》杂志上发表声明说,人类基因组计划的全部测序工作将比计划提前两年,即在2003年完成。1999年9月

中国获准加入人类基因组计划,负责测定人类基因组全部序列的1%,即3号染色体上的3000万个碱基对,使中国成为继美、英、日、德、法之后第六个国际人类基因组计划参与国。1999年12月1日

国际人类基因组计划联合研究小组宣布完整译出人体第22对染色体的遗传密码,人类首次成功完成人体染色体基因完整序列的测定。2000年4月

我国按照人类基因组计划的部署,完成了1%人类基因组的工作框架。2000年6月26日

各国科学家公布了人类基因组工作草图。

7医学下载吧人类基因组计划(HumanGenomeProject,HGP)

也称人类基因测序计划,主要目标是完成对人的基因组的所有碱基序列的测定(结构基因组),阐明人体中全部基因的位置、结构、功能、表达、调控方式及致病突变的全部信息(功能基因组)。

8医学下载吧基因是染色体上的一段DNA9医学下载吧DNA就是脱氧核糖核酸(长链)腺嘌呤(A)鸟嘌呤(G)胸腺嘧啶(T)胞嘧啶(C)基因测序就是读出A-C-G-T-G-G-A-C-G…...目标是测定人类基因组全部30亿个碱基对序列。10医学下载吧全基因组测序的方法分段克隆

分段测序

部分序列重叠

计算机拼接

完整序列绘制“标志”11医学下载吧DNA序列测定每一个峰代表一个碱基四种颜色代表四种不同的碱基12医学下载吧Howmanycharactersareinthe“HeavenBook”?13医学下载吧EntrezGenBankMGDSWISS-PROTGOMIPSLocusLinkUniGenedbESTKEGG生物数据库14医学下载吧

Genbank

Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。欧洲分子生物学实验室(EMBL)的数据库日本的DNA数据库(DDBJ)交换数据Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。NCBI的网址是:。EMBL的网址是:

http://www.ebi.ac.uk/embl/。DDBJ的网址是:http://www.ddbj.nig.ac.jp/

基因组数据库

15医学下载吧

基因组数据库

功能数据库(KEGG)京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。KEGG的网址是:http://www.genome.ad.jp/kegg/。16医学下载吧PATHWAYDATABASE—APathwayExample17医学下载吧功能基因组研究的目标

基因及其编码蛋白质生理功能疾病相关诊断、治疗、药物开发等应用18医学下载吧分子生物学数据库和分析软件基因组制图与测序DNA与蛋白质序列同源性分析基因识别与翻译

基因功能信号检测蛋白质结构与功能预测疾病基因的连锁定位克隆策略基因芯片表达谱分析基因与其产物间的互作网络药物基因组学与药物分子设计

分子进化钟与进化树比较基因组学

自动化检测仪器设计(软件)系统生物学…...生物医学计算机科学数学、物理信息技术(图象识别、人工智能、计算机网络、数据库、统计学、DataMining……)生物信息学Bioinformatics生物信息学:交叉学科19医学下载吧二、生物信息学研究方向20医学下载吧如何寻找疾病相关基因?复杂疾病的基因作图(GeneMapping)致病基因世代相传肥胖症正常人21医学下载吧22医学下载吧传递不平衡方法

(TransmissionDisequilibriumTest)下面是来自三个家庭的传递/非传递数据表。23医学下载吧ThePrinciple24医学下载吧基因芯片(genechip)信息学技术基因芯片技术是90年代的重大科技进展之一,既有重要的基础研究价值,又有明显的产业化前景。25医学下载吧

数据的获取和分析

(计算机及软件)

杂交信号的检测(扫描仪等)26医学下载吧基因表达谱(ExpressProfiling)示意图胶质瘤脑组织27医学下载吧生物学问题:差异表达基因、疾病亚型分析等模式识别(疾病预测)生物学证实与解释微阵列杂交实验特征基因探针筛选、芯片与实验设计杂交信号采集与图象处理标准化与Ratio值分析聚类分析(基因或组织)基因调控网络R,G基因芯片生物信息学研究28医学下载吧无监督学习方法

(UnsupervisedLearningMethods)

聚类分析无监督数值分类要解决的主要问题是:将有相似表达行为的基因进行归类,发现共调节表达的基因,从而推测未知基因的功能。根据基因表达谱,将组织样本分组,这些组可能对应于特别的表型,如癌的亚型。

常用的无监督学习方法有:层次系统聚类。K–mean分割聚类。

神经网络与自组织映射

各种聚类分析方法有不同的适用条件与效能。

29医学下载吧肿瘤疾病分型及预测

30医学下载吧有监督学习方法

(SupervisedLearningMethods)根据基因表达谱,有监督学习主要要解决两个问题:(1)分类肿瘤等疾病样本到已知类别,即判别诊断问题。(2)识别对疾病有鉴别力的特征基因,即特征选择问题。常用的有监督学习方法:(1)最近邻法

(NearestNeighbor)(2)线性判别分析

(LinearDiscriminantAnalysis)(3)分类树法CART(ClassificationAndRegressionTrees)(4)机器学习(MachineLearning,BootingandBagging)(5)支持向量机技术(SupportVectorMachine)这些方法的主要的困难是如何排除大量无关基因的干扰31医学下载吧Fig.1.Classificationtreesfortissuetypesbyusingespressiondataformthreegenes(M26383,R15447,M28214)32医学下载吧遗传算法-支持向量机偶合的特征选择方法2001级研究生李丽:在五种不同的分类器中,GA-SVM选择出的特征基因均高于T检验、非参数、随机的基因子集的分类贡献。33医学下载吧RelevancenetworkjoiningdisparatefeaturesofcelllinesGreenbox:agentsWhiteboxes:genesLines:ProportionaltoCC.OnlyCC>=0.80shownhereGRAPHEDITORTOOLKIT(TomSawyerSoftware,Berkeley,CA)34医学下载吧PATHWAYDATABASE—APathwayExample35医学下载吧基因芯片技术的应用领域基因芯片基因功能等基础研究…………司法……军事环境保护个性化给药病理和毒理药物筛选基因诊断疾病亚型36医学下载吧大规模表达谱芯片基因表达谱药物基因组信息学-药物筛选用关键基因制备的芯片37医学下载吧生物医学信息(BMI)软件系统价格昂贵$99999999938医学下载吧给药个性化

由于存在遗传差异,如药物应答基因不同,病人对药物的疗效与副作用有不同的反应。利用基因芯片技术可以对患者进行鉴别,实现对病人的个体优化治疗。我们曾经根据药物动力学原理,提出了一整套个体化给药方案的设计与评价方法,研制了一套程序GPAP。希望今后能够结合药物基因组信息学进一步开展这方面的工作。39医学下载吧系统生物医学信息学对疾病的认识系统器官组织细胞分子生物医学信息学必将成为未来医学研究的关键工具!40医学下载吧生物技术的支持和迫切需求传统医学研究产生多种多样的数据信息(包括生化指标、X线、CT、MRI、B超、心电图等),但相对容易理解和分析。41医学下载吧新技术(生物芯片,SNP、通路、分子模拟等)、新的研究方法(蛋白组学、基因组学、生物信息学)和互联网正在为生物医学领域带来质的飞跃。42医学下载吧-<go:term

rdf:about="/go#GO:0003673"n_associations="0"><go:accession>GO:0003673</go:accession><go:name>Gene_Ontology</go:name></go:term>-<go:term

rdf:about="/go#GO:0003674"n_associations="0"><go:accession>GO:0003674</go:accession><go:name>molecular_function</go:name><go:definition>Theactioncharacteristicofageneproduct.</go:definition><go:part_of

rdf:resource="/go#GO:0003673"/></go:term>-<go:term

rdf:about="http:///go#GO:part_of"n_associations="0"><go:accession>GO:part_of</go:accession><go:name>part_of</go:name></go:term>-<go:term

rdf:about="/go#GO:0016209"n_associations="0"><go:accession>GO:0016209</go:accession><go:name>antioxidantactivity</go:name><go:definition>Inhibitionofthereactionsbroughtaboutbydioxygen(O2)orperoxides.Usuallytheantioxidantiseffectivebecauseitcanitselfbemoreeasilyoxidizedthanthesubstanceprotected.Thetermisoftenappliedtocomponentsthatcantrapfreeradicals,therebybreakingthechainreactionthatnormallyleadstoextensivebiologicaldamage.</go:definition><go:is_a

rdf:resource="/go#GO:0003674"/>-<go:dbxref

rdf:parseType="Resource"><go:database_symbol>SP_KW</go:database_symbol><go:reference>Antioxidant</go:reference></go:dbxref>-<go:dbxref

rdf:parseType="Resource"><go:database_symbol>HAMAP</go:database_symbol><go:reference>MF_00269</go:reference></go:dbxref>-<go:dbxref

rdf:parseType="Resource"><go:database_symbol>HAMAP</go:database_symbol><go:reference>MF_00401</go:reference></go:dbxref></go:term>-<go:term

rdf:about="http:///go#GO:is_a"n_associations="0"><go:accession>GO:is_a</go:accession><go:name>is_a</go:name></go:term>

1 Z11793_at SelenoproteinP 5871.53942 D38549_at KIAA0068gene,partialcds 5981.40983 U31383_at Gproteingamma-10subunitmRNA 6013.58824 U26648_at STX5ASyntaxin5A 6030.75275 L77886_at ProteintyrosinephosphatasemRNA 6034.60046 U73377_at SKIV-skiaviansarcomaviraloncogenehomolog 6043.97927 M37721_at PAMPeptidylglycinealpha-amidating

monooxygenase 6044.62968 U90716_at CellsurfaceproteinHCARmRNA 6103.35809 J05633_at ITGB5Integrinbeta-5subunit 6131.022110 X69910_at P63mRNAfortransmembraneprotein 6150.392711 U41515_at Deletedinsplithand/splitfoot1(DSS1)mRNA 6205.280812 D44466_at Proteasomesubunitp112 6235.860513 L19314_at HRYgene 6248.616814 U03100_at CTNNA1Catenin(cadherin-associatedprotein),alpha1(102 6248.922315 U91930_at AP-3complexdeltasubunitmRNA 6273.991516 M57730_at EPH-RELATEDRECEPTORTYROSINEKINASELIGAND1PRECURSOR 6315.020317 L77213_at Phosphomevalonate

kinasemRNA 6339.923718 X99728_at NDUFV3gene,exon3 6362.638819 U34252_at ALDH7Aldehyde

dehydrogenase7(NOTE:redefinitionofsymb 6387.026420 D30756_at KIAA0108gene 6392.8205Patient# status SamplenameatWICGR VO2max(ml/kg/mintotalbodyweight) Mvalue Trigs Chol WHR Age BMI Glucose0capillarybloodwho85 Glucose120capillarybloodwho85 Insulin0 Insulin120 UQCRB(209065_at) Centroid(Using34OXPHOS-CRGenes) Glycogen(mmol/kg) Type1(n) Type1(%) Type1Area(µm2) Type1Area(%) Type1MeanArea(µm2) Type1Min.Area(µm2) Type1Max.Area(µm2) Cap./Type1(meann) Type2a(n) Type2a(%) Type2aArea(µm2) Type2aArea(%) Type2aMeanArea(µm2) Type2aMin.Area(µm2) Type2aMax.Area(µm2) Cap./Type2a(meann) Type2b(n) Type2b(%) Type2bArea(µm2) Type2bArea(%) Type2bMeanArea(µm2) Type2bMin.area(µm2) Type2bMax.area(µm2) Cap./Type2b(meann)10122 DM2 DM2_mm39_10122:CI2002061839AA 26.08 5.08 1.02 5.72 0.95 67.00 25.01 8.40 14.90 3 19 88.19 0.001665118 230.2915702 82 32.8 3.51 59 23.6 2.98 109 43.6 2.5810126 DM2 DM2_mm21_10126:CI2002061821AA 25.67 3.33 1.65 5.87 65.90 25.78 5.40 7.90 11 53 205.9 0.016814294 427.7724518 91 35.7 3.6 52 20.4 3.79 112 43.9 3.3210131 DM2 DM2_mm77_10131:CI2002061877AA 20.85 2.47 2.94 5.34 1 65.00 28.09 8.40 18.60 10 42 212.2 -0.064649412 408.4416529 108 39.6 4.49 56 20.5 4.7 109 39.9 4.0810169 DM2 DM2_mm28_10169:CI2002061828AA 24.59 3.01 0.99 66.10 33.36 10.90 14.70 10 17 214.8 -0.048561576 375.5 52 23.11111111 428398.6783 25.03629953 8096.845864 3461.700038 14187.00002 4.844992638 103 45.77777778 909222.2655 53.13639404 8928.150548 731.951999 17932.80013 5.068462014 55 24.44444444 267472.5081 15.63151842 4867.159398 955.8429603 10221.50009 2.81944444810179 DM2 DM2_mm03_10179:CI2002061803AA 16.84 1.47 4.81 7.6 0.98 65.90 31.34 8.10 16.10 26 68 218.3 -0.01488 399.8990769 47 31.12582781 272148.3554 36.86049046 5780.123442 3026.83989 8903.979776 3.826628447 5 3.311258278 28847.52082 3.907184242 5785.650181 5463.809849 6023.530119 4.625 99 65.56291391 437324.0756 59.2323253 4577.96139 473.6159798 7151.600201 2.89393937610186 DM2 DM2_mm31_10186:CI2002061831AA 18.77 5.65 2.29 6.11 1.05 68.00 33.33 7.30 15.00 11 76 232.4 -0.055387824 281.6778462 65 25.49019608 339406.1494 34.05537554 5506.588257 1670.570016 7831.889803 4.1875 36 14.11764706 157929.4171 15.84634108 4504.927003 1136.679972 6863.130064 3.098214269 144 56.47058824 452518.5773 45.4048641 3183.400713 254.0299915 7005.21019 2.49509799510189 DM2 DM2_mm05_10189:CI2002061805AA 29.68 5.49 1.02 5.02 0.99 69.00 25.09 5.90 11.10 9 59 328.9 0.035752647 258.5575385 113 49.56140351 553855.1804 54.807988 4967.512458 2617.799977 8977.179888 3.81821998 53 23.24561404 266538.2013 26.3758886 4985.734167 1330.429988 10006.20031 2.961601337 60 26.31578947 182936.3718 18.10288109 2889.630147 1300.289987 4873.939918 2.50483091710194 DM2 DM2_mm32_10194:CI2002061832AA 35.18 3.84 2.11 7.12 0.99 64.90 25.34 5.90 12.60 13 68 290.7 -0.06155 300.9461538 113 42.32209738 439541.4379 47.01476556 3934.146754 1524.180004 9041.760229 3.552506804 63 23.59550562 255244.6716 27.30179083 4103.352892 2432.660073 5795.340208 3.328457475 91 34.082397 240114.7299 25.68344361 2644.329203 1054.869969 4327.13021 2.10731595810197 DM2 DM2_mm61_10197:CI2002061861AA 20.98 5.44 1.51 4.94 0.99 65.00 25.22 8.10 20.90 5 15 116.2 -0.034958294 343.9384615 10199 DM2 DM2_mm81_10199:CI2002061881AA 24.33 4.37 0.85 6.4 0.96 64.00 27.42 4.70 10.80 7 28 296.9 -0.050696471 246.7758462 120 43.79562044 538225.7768 55.79503747 4485.214807 2269.050059 7444.379779 4.333333492 138 50.3649635 372770.2733 38.64313502 2701.233865 1171.119979 3853.509956 3.623188496 5 1.824817518 7457.289897 0.773058049 1491.457979 1218.479984 1709.320019 2.79999995210201 DM2 DM2_mm07_10201:CI2002061807AA 25.9 7.25 1.33 4.99 1 61.00 24.86 6.40 14.30 9 31 261.9 -0.082378588 357.2 71 27.84313725 271816.8517 32.69257668 3801.075725 2088.220041 7556.329784 3.691105723 99 38.82352941 342958.2804 41.24906095 3357.888328 835.286007 6781.31995 3.28036046 80 31.37254902 198315.9592 23.85230961 2458.261365 111.9460011 4391.710107 2.66071426910204 DM2 DM2_mm08_10204:CI2002061808AA 34.48 2.33 2.91 6.05 0.97 65.00 26.37 10.10 18.90 9 24 167.5 -0.065306941 600.9369231 73 52.51798561 348155.1403 48.94941213 4805.178451 2699.610091 7242.019873 5.191080332 45 32.37410072 283532.394 39.86367685 6293.932919 3931.010184 8327.029732 5.550420284 12 8.633093525 50517.58478 7.102598213 4471.14914 766.3970014 5799.639879 3.350000024新技术产生的海量生物信息带来了数据共享问题、信息标准化问题、信息集成问题以及与临床信息融合等一系列问题,要求生物医学信息系统的开发与建设。43医学下载吧三、重要的研究成果44医学下载吧微阵列分析可视化基因功能基因调控网络疾病模式确认疾病模式发现表达图谱微阵列重要模式标志性成果:

ExpressionProfileAnalysis

45医学下载吧标志性成果:

GeneMining46医学下载吧标志性成果:

疾病遗传异质性研究原始数据S1G1S3G2G3G4S2S4第一次运行后S5S6G5G6第二次运行后第n次运行后47医学下载吧系统的输出结果原数据输出数据48医学下载吧EnsembleprocessontheresultsBasedonthenewParameterZgAlgorithmflowchart18featureionchannelgeneswereselectedDatasetIonchannelgenes’selectionEnsembletreeprocessPrimaryfeaturegenesandgoodtrees’selectionValidationbyotherclassificationmethods49医学下载吧7.Permutationtest72samples,54675probes(14normal+58disease)1.Filter548ionchannelgenesandtransmembraneproteingenes2.Randompartitioneachsamplengroups.(n=3,5,7,14)10.Featuregenesets’validatedbyotherclassificationmethods1/n1/n…1/n3.Selecttrainingandtestgroup(n-1)/ntraining

1/ntest4.TrainModeltrained5.Reselect6.Repartition8.Featuregenesselection9.GoodtreesselectionSelectionbasedonrulesEnsembleprocessontheresultsBasedonthenewParameterZgAlgorithmflowchart18featureionchannelgeneswereselected50医学下载吧GeneIDSymbolGeneIDSymbolGeneIDSymbol22SLC17A885CACNG1313P2RX727KCNG1119KCNA3325SLC12A831IRTA1157SLC17A2360CFTR38TPTE200KCNA10456KCND161KCNV1209KCNK12476KCNJ1070NECAB2227TRPM5533NorecordFeaturegenesKCNG1KCNJ1051医学下载吧CFTR52医学下载吧调控通路内基因表达的相关性分析利用7套你酿酒酵母基因芯片表达谱数据,分析研究了17条基因表达调控通路内的基因在mRNA表达水平上的相关性。发现有15条(88.2%)基因表达调控通路内的基因在多套(≥4)数据集中共表达。53医学下载吧54医学下载吧面向个性化医疗的医学生物学信息系统个性化医疗系统个性化给药系统个性化保健系统个性化诊断系统疾病再确认发病风险分析靶药物选择虚拟治疗及效果分析…网络和本地数据库分子细胞组织系统临床医学数据库群体数据库分子生物学数据库…病人序列分析表达谱分析通路分析智能化生物医学信息搜索引擎医学生物信息学算法库…分子模拟关键技术数据库功能模块应用模块55医学下载吧科研论文数量和质量-新的飞跃论文100余篇(SCI论文20篇:EI论文3篇)

XiaLi,Shaoqi

Rao,YadongWang.GeneMining:ANovelandPowerfulEnsembleDecisionApproachtoHuntingforDiseaseGenesUsingMicroarrayExpressionProfiling.NucleicAcidsResearch,2004(影响因子:7.051)LiX,RaoS,ZhangT.AnensemblemethodforgenediscoverybasedonDNAmicroarraydata.SCIENCEINCHINA(SeriesC)2004;34(2).

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论