计算药物分析(药学与生物信息学)第六章课件_第1页
计算药物分析(药学与生物信息学)第六章课件_第2页
计算药物分析(药学与生物信息学)第六章课件_第3页
计算药物分析(药学与生物信息学)第六章课件_第4页
计算药物分析(药学与生物信息学)第六章课件_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第6章 药学研究中的模式识别技术China Pharmaceutical UniversityContents引言1模式识别的基本概念2聚类分析3有监督模式识别4China Pharmaceutical University分类俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。 China Pharmaceutical University6.1 基本概念分析化学已扩展到多维空间

2、;越来越多的智能型分析仪器采集到多维多变量数据;化学模式识别技术是多变量数据分析在化学领域的重要应用。HPLC中,二极管阵列检测器色谱光谱图每个组分多个波长的吸收度;复杂体系的分离分析(中药分析、生物大分子分析、人类基因组学)如:China Pharmaceutical University模式识别的基本概念(Pattern Recognition) 模式:模式识别:供模仿用的完美无缺的样本;具有某种共同性质的一类现象的集合。认识出某个样本与哪一种供模仿用的样本相同体相似。是鉴别数据阵提供的信息,用数学方法识别具有一定模式的样品和变量,其功能是对样本进行分类或识别。例如: 中医凭舌苔和脉搏进行

3、诊断;公安人员根据 指纹查证罪犯。China Pharmaceutical UniversityChina Pharmaceutical University羧酸、酮类在熔点和沸点二维平面上的分布图China Pharmaceutical University无监督模式识别(unsupervised learning):模式识别的基本概念聚类分析不依赖训练集,直接在特征空间中寻找点群或其它可以识别的数据结构。有监督模式识别(supervised learning):数据中有一部分是已知模式的样本,通过对处理过的数据进行试验,识别未知类别的样本属于不同的类别。训练集和预测集有监督模式识别:利用训

4、练集(Training set)通过训练或学习来获得识别准规(或判别函数),然后用这些识别好的规则来判决未知模式所属类别,并利用预测集,对训练集中获得的识别准则加以检测,来考察识别准则的可靠性与正确性。未包括在训练集中的已知类别的样本已知各个模式的所属类别分类:China Pharmaceutical University6.2. 数据预处理6.2.1 遗漏的数据、中心化与比例调整 遗漏数据:不宜用零替代,而用行或列的平均来替代,或者使用随机数来替代。China Pharmaceutical University消除数据量纲不同或分布范围过大造成的常数偏移量,可以对坐标原点做变换,一般的步骤是

5、均值中心化。 China Pharmaceutical University原始数据矩阵的预处理n个样本,每个样本数据为一个m维矢量中心化处理:对数变换:范围调整正规标准化处理:正规标准化处理(均值为零 ,方差为1)MATLAB 命令:zscore(X)China Pharmaceutical University6.2.2 协方差矩阵与相关矩阵数据预处理的常用方法 将原始数据变换坐标系,用于后面介绍的各种 模式识别方法。变换的思路 根据原始数据矩阵得到一个可以反映原始数据 中各数据点之间关系的数据矩阵; 即方差协方差矩阵或相关矩阵。China Pharmaceutical Universit

6、y方差协方差矩阵MATLAB 命令: cov(X)China Pharmaceutical University相关矩阵 China Pharmaceutical University6.2.3 距离与相似性度量通过样本间的相似性来对样本进行分类的。可用距离来描述样本间的相似程度;距离越小两个样本越接近,相似性大,分在 同一类的可能性就越大,距离大则相反。 China Pharmaceutical University距离越小两样本越接近,分在同一类的可能性就越大绝对距离欧氏距离 明氏距离:与各变量的量纲有关没考虑变量间的相关性马氏距离:距离数据矩阵的协方差矩阵原始数据矩阵的预处理China

7、Pharmaceutical University6.3 聚类分析聚类分析的一般概念将一批样品或变量按照它们性质上亲疏远近的程度分类基本思路n个样本各自成一类,按一定方法逐步并类,使类由多变少,直至最后合并为一类。类:设T为取定的阈值,若对任意的样本 则称G为一类。样本间的距离描述样本(或变量)间亲疏程度的统计量: 相似系数或距离性质越接近的样本间的相似系数越接近1或-1China Pharmaceutical University6.3.2 系统(谱系) 聚类法基本思想:先把n个样本各自看成一类,选择距离最小的两类合并成一个新类并计算该类和其它类的距离,再将距离最近的两类合并,这样每次减少一

8、类,直至所有样本都成为一类。算法:设初始模式样品共n个,每个样本看成一类计算各类之间的距离,可得维的距离矩阵 从距离矩阵找出距离最小的元素(如i,j)合并成类计算合并后的新类别之间的距离矩阵转向第二步,直至所有样品都聚为一类China Pharmaceutical University谱系聚类法平均距离法如何定义两类的距离P、Q两类相距最近,合并为K类,则K类和其它相关类H的距离DHP:例:对于5种陨石样品分别测试4种金属的含量,原始数据如下:解:按计算其距离矩阵如下:China Pharmaceutical UniversityD和E相距最近,合并为D*,B和C合并为B*,A和B*合并为A*

9、,China Pharmaceutical University聚类分析谱系图 距离ABCDEA*B*D*(a)平均距离法China Pharmaceutical UniversityMATLAB 命令 pdist: 计算距离矩阵 linkage: 生成谱系数据dendrogram: 绘制谱系图 cluster: 聚类分析 China Pharmaceutical University最短距离法如何定义两类的距离H,K为两类,K类是P和Q类两类合并而成的,例讲:平均距离法对于5种陨石样品分别测试4种金属的含量。China Pharmaceutical University将每个样本各自看成一类

10、x2x3x4x5x1GA(0)GB(0)GC(0)GD(0)GE(0)计算距离(欧氏距离),D,E最近解:合并得China Pharmaceutical University计算新类与其它类之间的距离,再合并由上表知最小,合并B,C;China Pharmaceutical University6.3.3 动态聚类分析谱系聚类分析的缺点:样本一旦划分到某个类后就不变了;聚类过程需多次合并,计算量大。基本思想:设定类别的数目,选择若干样本作为聚类中心;按聚类准则使所有样本向各自聚类中心聚集,从而得到初始分类;判断初始分类是否合理,如不合理就修改分类,直至合理为止。最短距离法 特点: 计算过程中各

11、类重心和类别都可能变化China Pharmaceutical University动态聚类法算法算法的步骤选n个初始聚类中心:逐个将需要的样品按最小距离分配给K个聚类中心的 某一个Z1(1),形成初始分类计算初始类的新的向量值(重心),合理,打印若如果不等,返回第二步。China Pharmaceutical University选择凝聚点初始分类最终分类修改分类分类是否合理NY动态聚类法示意图例:7样本2变量China Pharmaceutical University对A和D,其中心点*1坐标为: x1=(45+64)/2=54.5 x2=(24+52)/2=38对B、C、E、F、G的中

12、心点*2坐标为: x1=(24+14+36+56+20)/5=30 x2=(42+23+121+140+148)/5=95下一步再计算各点离*1和*2的距离确定下一轮的类别。 结果为(A、B、C、D); (E、F、G),显然这一轮已经得到了正确的结果。继续计算新的中心点*3和*4,得到的结果仍为(A、B、C、D); (E、F、G) 动态聚类的结果为(A、B、C、D)和(E、F、G)。China Pharmaceutical University动态聚类分析China Pharmaceutical University最小生成树法基本思想:对n个样本,要找到连通n个顶点的n-1条边的加和为最小的

13、生成树。计算方法:从最短距离的两点开始,每加一条边都不和已经生成树的构成回路循环。例:x17样本2变量的聚类分析CABDEGFx2China Pharmaceutical University最小生成树法 计算各点间的距离得下表:解:据上表,按两点距离小到大排列得如下顺序BCABEFEGACADCDDECABDEGFx1x2将最长的边DE剪断,将7个样本分为两类China Pharmaceutical University6.3.4 模糊聚类法China Pharmaceutical UniversityChina Pharmaceutical University6.4 降维和显示技术处理多

14、变量数据时,当变量数为或时,我们可以通过绘图或计算机屏幕显示的方式直观地观察图形并识别其特征。当变量数超过时,这种直接显示则不再可能,这就涉及降维问题。如何将多维的数据在二维或三维空间中显示出其最大多数的信息,是降维和显示技术要解决的主要问题。降维和显示技术有多种方法,因子分析技术是多数方法的算法基础,因子分析是通过对数据矩阵进行特征分析,旋转变换等处理获得信息的方法。因子分析在模式识别中的重要应用是降维和显示技术。数据的投影主要有主成分分析、因子分析等。China Pharmaceutical University 需要与可能:在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观

15、测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。China Pharmaceutical University 因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因

16、子分析就是这样一种降维的方法。 主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法 直线综合指标往往是不能直接观测到的,但它更能反映事物的本质。因此在医学、心理学、经济学等科学领域以及社会化生产中得到广泛的应用。China Pharmaceutical UniversityPCA 算法简介China Pharmaceutical UniversityChina Pharmaceutical UniversityChina Pharmaceutical University主成分数的估计China Pharmaceutical UniversityChina P

17、harmaceutical University特征值 1 分析法: 1 视为主成分 ( 2 个主成分)China Pharmaceutical UniversityChina Pharmaceutical UniversityPCA法的MATLAB命令PCACOV Principal Component Analysis using the covariance matrix.PC, LATENT, EXPLAINED = PCACOV(X) takes a the covariance matrix, X, and returns the principal components in P

18、C, the eigenvalues of the covariance matrix of X in LATENT, and the percentage of the total variance in the observations explained by each eigenvector in EXPLAINED.China Pharmaceutical University164页习题5程序% 以协方差矩阵进行主成分分析 x=5 18 18 22 8 8 18 21 28 27; 1 41 58 52 56 39 75 11 26 36; 6 26 28 32 16 14 30

19、26 36 36; 4 54 72 68 64 46 90 24 44 54; 13 60 66 74 40 34 72 57 80 81;pc,latent,explained=pcacov(cov(x)China Pharmaceutical University运行结果如下:pc =Columns 1 through 9 -0.0199 0.1361 0.0006 -0.0983 0.0456 0.0304 -0.0117 0.0848 -0.2164 -0.2983 0.0844 0.6591 0.6219 0.2248 0.0856 0.1132 -0.0593 -0.0906 -0

20、.4012 -0.0999 0.0433 0.0752 -0.3812 -0.3530 -0.7146 -0.1924 0.0244 -0.3760 0.0827 -0.0759 -0.3922 0.7002 0.1299 -0.2349 -0.2493 -0.2260 -0.3614 -0.3721 0.3883 -0.4524 -0.1564 0.3146 0.0623 0.4034 0.2910 -0.2584 -0.1878 -0.0705 -0.0897 -0.4269 0.2514 0.3924 -0.5479 -0.4301 -0.5042 -0.2842 -0.5498 0.3

21、338 0.1760 -0.1602 0.2943 0.1283 0.2792 -0.1248 0.4979 0.1041 -0.1917 -0.0657 -0.0765 0.2096 -0.4442 0.6535 -0.2351 0.5410 -0.2868 0.1793 -0.2310 0.5943 -0.1980 0.2803 -0.0415 -0.2929 0.4031 0.0824 -0.2258 -0.1285 -0.5508 0.3059 0.3673 -0.3418 Column 10 -0.9562 -0.0180 -0.0568 0.1294 -0.0270 0.0194

22、-0.1167 -0.1022 0.1079 0.1693pc: the principal componentsChina Pharmaceutical Universitythe eigenvalues of the covariance matrix of X in LATENT, latent = 1.0e+003 * 3.5091 0.9884 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000China Pharmaceutical Universityexplained = 78.0226 21.9774 0.0000

23、0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000China Pharmaceutical Universitypc,latent,explained=pcacov(cov(x)由贡献率explained可知:78.0226+21.9774=10085,所以只取两个主成分即可,它们为:y1=-0.0199*x1-0.2983*x2-0.4012*x3-0.3760*x4-0.3614*x5-0.2584*x6-0.5042*x7-0.1248*x8-0.2351*x9-0.2929*x10;y2=0.1361*x1+0.0844*x2-0.0999

24、*x3+0.0827*x4-0.3721*x5-0.1878*x6-0.2842*x7+0.4974*x8+0.5410*x9+0.4031*x10China Pharmaceutical University6.4.2 图形分类法图形分类法是以多维特征样本的简洁表达为基础的分类方法。使用星(star)图、太阳光线(sun-ray)图和Chernoff 脸谱(Chernoff faces)等方法对多变量数据进行表示。使用这些方法的先决条件是将特征描述值标准化或变换为正值。China Pharmaceutical UniversityChina Pharmaceutical University

25、图6-10 用图形方法表示表6-3中头发样本数据的分类(a,b和c的归属见表6-5)上:星型图;中:太阳光线图;下:Chernoff脸谱图China Pharmaceutical University图6-11 基于血清样本的20次临床分析数据区分患者和健康人的Chernoff脸谱图China Pharmaceutical University非监督模式识别的局限性不确定性没有已知类别的样本集,甚至不知道类别数,可以利用的信息量少。 在实际应用中,应该设法有效应用领域的专门知识,以弥补信息的不足。China Pharmaceutical UniversityChina Pharmaceutic

26、al University6.5 有监督模式识别方法有监督学习方法需要运用一组已知其类别的样本,这些样本集在特征空间中构成的点集称为训练集(training Set)有监督模式识别就是利用训练集通过训练获得判别准则(或判别函数),然后再利用识别准则来判决未知模式所属的类别。为了检验从训练集中得到的识别准则的可靠程度。常利用一组未包含在训练集中的已知类别的样本构成预示集(prediction set),利用从训练集中获得的识别准则对预示集中的各模式进行识别,以检验其识别的可靠性。常见的有监督学习方法包括贝叶斯线性判别法、Fisher线性判别分析、线性学习机、最近邻域判决法、SIMCA分类法等。C

27、hina Pharmaceutical University 贝叶斯线性判别法Fisher线性判别分析线性学习机 LDA (LINAER DISCRIMINANT ANALYSIS)(线性判别式分析)对已知类别的样本数据建立一定的数学模型, 如概率 密度函数对未知样本的类别归属进行判断China Pharmaceutical UniversityK-最近邻域判决法(K-NN法)基本思想:一组已知类别的样本集每个样品n维向量,且每个样本分别属于类中的某一类,不知每一类中的样品个数比较到哪一样品的距离最小,取前k个距离最小者缺点:存贮量和计算量大(k为奇数),然后再看在哪一类中较多,就判为哪一类。

28、对于一未知模式计算出到的有已知模式间的 dChina Pharmaceutical University图6-16 时将样本分为两类的分类边界线China Pharmaceutical University6.5.5 SIMCA (Soft independent modeling class analogies)法 SIMCA:簇类的独立软模式对训练集中同一类样本的数据集分别进行主成分分析,建立能表述类别特征的局部软模式;以各类模型来对未知样品进行分析,根据残差比较, 确定其属于哪一类,或不属于哪一类。China Pharmaceutical University图 不同显著主成分个数时的SIMCA模型图6-16 不同显著主成分个数时的SIMCA 模型China Pharmaceutical University6.6 模式识别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论