模式识别及其分类_第1页
模式识别及其分类_第2页
模式识别及其分类_第3页
模式识别及其分类_第4页
模式识别及其分类_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、模式识别与分类导言数据预处理无监督方法有监督方法本章作业模式识别与分类导言 Clustering/Classification 统称 如下问题 人眼识别物 中医看舌苔/脉搏 图谱辨别化合物 低维与高维数据 一次观察的矢量表示tnxxx21xn为空间维数,变量数变量即特征各特征类型/量纲/大小相差大模式识别与分类数据预处理 值域调整range scalingmin,max,min,*kkkikikxxxxx10*ikx 自标度化 Autoscalingkkikiksxxx*均值0方差1模长1n模式识别与分类数据预处理 标准化 Normalizationkikikxxx*模长为1niikikikx

2、xx1*色谱面积归1)max(*ikikikxxx质谱最大为1模式识别与分类数据预处理 变换法ikikxx*原变量相加/减/除等ikikxxlg* 组合法模式识别与分类数据预处理 特征的选择偏差权重法s大的变量更重要Fisher比率法F大的变量更重要21221iiiiissxxF模式识别与分类数据预处理协方差矩阵C与相关矩阵R对于)(pnXn为对象数,p为特征数方差j=1,p 21211nijijijxxnsnikikjijxxxxnkj111),cov(协方差j,k=1,p;jk 模式识别与分类数据预处理方差-协方差矩阵,简称协方差矩阵如下:2222211)2 ,cov() 1 ,cov()

3、, 2cov() 1 , 2cov(), 1cov()2 , 1cov(ppspppspsC对称矩阵模式识别与分类数据预处理相关矩阵如下:11121212112pppprrrrrrR其中ikijjksskjr),cov(但对于Autoscaling后的数据,s=1。C即为R。模式识别与分类主成分分析PCA因子分析FA聚类分析clustering无监督方法模式识别与分类PCATTLX 得分score载荷loading d为主成分数 模式识别与分类PCA投影判别法 XLT 数据重构组成互不相关的新变量 取较少的主成分数(常为2),完成分类-1.5-0.50.51.52.5-3-2-10123258

4、491367模式识别与分类PCA实例1 不同嫌疑人头发中元素的含量(g/g) 样品CuMnClBrI19.20.30 173012.0 3.6 212.40.39 93050.0 2.3 37.20.32 275065.3 3.4 410.20.36 15003.4 5.3 510.10.50 104039.2 1.9 66.50.20 249090.0 4.6 75.60.29 294088.0 5.6 811.80.42 86743.1 1.5 98.50.25 16205.2 6.2 原始数据原始数据X(95)autoscaling计算计算相关矩阵相关矩阵计算计算特征值特征值返回模式识别

5、与分类方差百分数主成分数的确定piidiies112指定 ,如90% 相应的d2esPCA实例1 头发样品中的特征值与方差 成分数 特征值 方差% 累计方差% 1 3.352 67.05 67.05 2 1.182 23.65 90.70 3 0.285 5.70 96.40 4 0.135 2.70 99.10 5 0.045 0.90 100.00特征值1对于相关矩阵, 1的成分为主成分ppii1Scree检验nPC在2-3间斜率下降 因此d=2合适01234012345nPC模式识别与分类得分图主成分图形解释PCA实例1-1.5-0.50.51.52.5-3-2-10123t1t2258

6、491367-1.5-0.50.51.52.5-3-2-10123t1t22584913673个聚类分属三人t1对t2作图t1最重要模式识别与分类主成分图形解释PCA实例1载荷图-1-0.8-0.6-0.4-0.200.20.40.60.8-0.6-0.4-0.200.20.40.6l1l2CuMnBrClIl1对l2作图特征在主成分上的投影各变量的相关信息夹角越小,相关性越高高度相关的特征取1即可载荷大小是重要性的度量位于原点的载荷不重要金属间的相关性大于卤素间的Cu与Cl反性相关l1最重要,距原点距离越大,该特征权重越大,Cu模式识别与分类主成分图形解释PCA实例1 相似系数或相关系数表

7、CuCu 1.000 MnMn 0.697 1.000 ClCl -0.950 -0.692 1.000 BrBr -0.530 -0.233 0.588 1.000 I -0.645 -0.749 0.581 -0.084 相似系数)(cos12121nkkjknkkiknkkjkikijxxxx相关系数)()()(21211nkkjjknkkiiknkkjjkiikijxxxxxxxxrBr/I接近正交Cu/Cl负相关1:完全相同0:完全正交自标度化的数据cos=r模式识别与分类得分图主成分图形解释PCA实例1-1.5-0.50.51.52.5-3-2-10123t1t2258491367

8、特征的选择5个全取-1012-2-1012t1t2取Cu/Br/I仍能分类效果略差-1-0.500.51-2-1012t1t2取Cu/Mn/Cl分类效果差l2无效果-0.10.1-2-10123个,仅1个12.57,0.38,0.05一维投影结果原始数据模式识别与分类主成分图形解释PCA实例1双重图biplot-1012-2.5-1.5-0.50.51.52.514982516 7BrClICuMnt1各元素均有贡献t2由Br和I表征Cu/Mn/Cl/I将对象聚为2组Br将对象聚为另2组模式识别与分类PCA实例1应用示例应用示例烟叶硅烷化色谱烟叶硅烷化色谱 辽宁凤城烟叶不同辽宁凤城烟叶不同部位

9、烟叶的区分部位烟叶的区分下部上部中部模式识别与分类FAEFLXT 用少数几个通用因子描述矩阵中的特征 抽象因子需经旋转变换成实因子TTFAF包含d个因子的特征参数,各因子对应1个起因L与对应因子相关的载荷分数E由剩余p-d个和通用因子无关的特殊因子构成,如噪声因子模式识别与分类FATFLX 目标转换因子分析Target Transformation FA*T1TLLL)(LT变换矩阵*LLT 抽象载荷目标LTL 预测目标均值相对偏差relative deviation估计两者的一致性pjjpjjjlllrd1*1*模式识别与分类FA实例TTFA2452652853053256.47.814.8

10、33.370.941.786.584.3352.6956.112.8920.736.6161.5899.30108.4326.9239.036.7173.3377.8997.2639.3728.676.8274.763.9282.1647.1520.066.9218.9236.9539.8225.5810.497.079.0412.0710.586.543.23HPLC-DAD数据(mA)tR/minwavelength/nm6.46.66.87.0245285325050100150200250300多环芳烃HPLC-DAD数据有3个重要因子模式识别与分类多环芳烃HPLC-DAD数据*XFT

11、L-1.476-1.307-1.295-1.285-1.174-0.6400.088-0.017-0.5810.2220.2051.4471.2500.2441.5710.3340.8230.9800.9770.8071.4420.4160.6141.4350.1730.832-0.371-0.4120.165-0.532-0.697-1.096-1.120-0.955-1.067-2.904-0.3400.210-0.370-0.815-0.0662.178-1.192-0.2481.783-0.1700.3831.7581.2690.121-0.2191.074-0.329-2.2270.

12、174-0.0710.3850.4730.4840.4400.4470.662-0.309-0.2110.455-0.464-0.628-0.1920.2180.699-0.181FA实例TTFA已知4物的纯光谱但仅3个主因子F补一列1111111模式识别与分类多环芳烃HPLC-DAD数据FA实例TTFA*T1TLLL)(LT111.2112.6282.128038.287.276.42.2552.569.412.21110.633.25.11.314.7256.95.5*L283.331545.91126.4-58.497102.72120.36217.71172.223.665-106.1

13、3-223.13-169.66-63.573-628.81-435.2476.663 LTL111.23112.88282.74274.6138.03685.85873.30428.34552.66370.73415.276-24.929110.5432.7193.991310.64514.72625.2127.38911.377BkFBbF苝蒽BkFBbF苝蒽245111.2112.6282.1280111.2112.9282.7274.626538.287.276.42.2538.085.973.328.328652.569.412.2152.770.715.3-24.9305110.63

14、3.25.11.3110.532.74.010.632514.7256.95.514.725.27.41.4KnownPredicted0100200300240260280300320wavelength/nmabsorbance/mA-5050150250240260280300320wavelength/nmabsorbance/mA存在不存在模式识别与分类聚类分析 无监督学习方法 根据相似性度量,物以类聚 分类方法是把未知对象分配到已存在类中聚类分析步骤n个样本个样本n类类计算距离计算距离最近最近的的2类类合并合并 继续合并继续合并最近的最近的2类类经经n-1次合并次合并最后成最后成1

15、类类模式识别与分类聚类分析距离与相似性度量的方法明氏Minkowski距离pKkpjkikijxxd11欧氏Euclidean距离2p曼哈顿Manhattan距离city-block距离1p模式识别与分类聚类分析距离与相似性度量的方法马氏Mahalanobis距离)()(12jiTjiijDxxCxx基于协方差矩阵C的向量运算基于马氏距离的相似性量度)max(1ijijijddS完全相似 Sij=1完全不相似 Sij=0马氏距离可避免特征向量的相关性引起的失真无需对数据进行调整模式识别与分类聚类分析实例6个血清样本的分级聚类mg/100ml对象钙磷酸盐18.005.5028.255.7538.

16、706.30410.003.00510.254.0069.753.50血清样本的钙和磷酸盐浓度对象12345610.00020.3540.3540.00031.6030.7110.00043.2023.2603.3470.00052.7042.6582.7741.0310.00062.6582.7042.9900.5590.7070.000第一次距离对象1、2距离最短,聚为新对象1*设其距离为0与其余各对象用平均法或新距离221*1iiiddd模式识别与分类聚类分析实例6个血清样本的分级聚类对象1*345610.00030.8870.00043.2313.3470.00052.6812.774

17、1.0310.00062.6812.9900.5590.5590.7070.000第二次距离4,6并并4*对象1*34*51*0.00030.8870.0004*2.9563.1690.00052.6812.7740.8690.8690.000第三次距离4*,5并5*对象1*35*1*0.00030.8870.8870.0005*2.8192.9720.000第四次距离对象3*5*3*0.0005*2.8952.8950.000第五次距离1*,3并3*模式识别与分类聚类分析实例6个血清样本的分级聚类1231234651*3*4*5*欧氏距离6个血清样本实际上可分为两类模式识别与分类聚类分析A、

18、B聚后新距离的算法加权均连weighted average linkage2BiAiABiddd单连法(最近距离)single linkage),min(BiAiABiddd全连法(最远距离)complete linkage),max(BiAiABiddd其他方法模式识别与分类线性学习机LLMK最近邻法KFASIMCA法有监督方法模式识别与分类LLM111111111222222221x2xw判别面12以分类(疾病判断)为例12存在一判别面,用垂直的法线(权)矢量w表示w 与类1中任一样本矢量的夹角 ,与类2中 901w902线性判别函数s(标量)pjjjxws1xwcosxw s ,s0 ,

19、s0901902模式识别与分类LLM步骤已知样本作训练得法线矢量w未知样本计算s并预测分类初值w,可随机确定第第1个已知样本个已知样本计算计算s 不符xwwcoldnew222jxsscTxx下一个样本计算下一个样本计算s继续调整w 模式识别与分类LLM实例数据初值11111w样品v1v2v3v4v5归类 1-1.310.800.78-0.70-0.6112-0.630.751.94-0.61-0.42130.701.481.04-0.66-0.7314-0.970.870.01-0.64-0.6115-1.420.630.78-0.65-0.7116-1.311.50-0.63-0.70-0

20、.5817-0.971.090.91-0.70-0.5718-0.280.581.43-0.69-0.52190.74-1.10-0.890.51-0.212100.170.000.660.041.542110.06-0.73-0.631.01-0.432122.56-0.300.27-0.060.092131.19-1.29-1.270.20-0.60214-0.06-0.78-0.120.132.152150.17-1.19-1.140.660.672160.06-1.46-1.143.580.52217-0.740.310.40-0.48-0.651180.400.700.01-0.70

21、-0.641190.51-0.30-0.630.292.602200.85-1.53-1.780.17-0.242甲状腺病人与正常人5项指标及归类模式识别与分类LLM实例修正w不修正004.111xws须修正003.122xws2xwwc2222xxsc16. 124. 124. 071. 025. 1以后还需修正1次,最终32. 138. 102. 039. 010. 1w判别模式识别与分类LLM实例程序clear;close all;Y= load(E:bkjshxjiazx.txt);Y(:,1)=; n,p = size(Y); cluster = Y(:,p);cluster = cluster*(-2)+3*ones(n,1); %let symbol of first cluster=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论