




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
模式识别与分类第1页,共39页,2023年,2月20日,星期五模式识别与分类导言
Clustering/Classification统称
如下问题人眼识别物
中医看舌苔/脉搏
图谱辨别化合物
低维与高维数据
一次观察的矢量表示n为空间维数,变量数变量即特征
各特征类型/量纲/大小相差大
第2页,共39页,2023年,2月20日,星期五模式识别与分类数据预处理
值域调整rangescaling
自标度化Autoscaling均值0
方差1
模长第3页,共39页,2023年,2月20日,星期五模式识别与分类数据预处理
标准化Normalization模长为1色谱面积归1质谱最大为1第4页,共39页,2023年,2月20日,星期五模式识别与分类数据预处理
变换法原变量相加/减/除等
组合法第5页,共39页,2023年,2月20日,星期五模式识别与分类数据预处理特征的选择偏差权重法s大的变量更重要Fisher比率法F大的变量更重要第6页,共39页,2023年,2月20日,星期五模式识别与分类数据预处理协方差矩阵C与相关矩阵R对于n为对象数,p为特征数方差
j=1,…,p
协方差
j,k=1,…,p;
j≠k
第7页,共39页,2023年,2月20日,星期五模式识别与分类数据预处理方差-协方差矩阵,简称协方差矩阵如下:对称矩阵第8页,共39页,2023年,2月20日,星期五模式识别与分类数据预处理相关矩阵如下:其中但对于Autoscaling后的数据,s=1。
C即为R。第9页,共39页,2023年,2月20日,星期五模式识别与分类主成分分析PCA因子分析FA聚类分析clustering无监督方法第10页,共39页,2023年,2月20日,星期五模式识别与分类PCA得分score
载荷loadingd为主成分数第11页,共39页,2023年,2月20日,星期五模式识别与分类PCA投影判别法
数据重构
组成互不相关的新变量
取较少的主成分数(常为2),完成分类第12页,共39页,2023年,2月20日,星期五模式识别与分类PCA实例1
不同嫌疑人头发中元素的含量(μg/g)
样品 Cu Mn Cl Br I1 9.2 0.30 1730 12.0 3.62 12.4 0.39 930 50.0 2.33 7.2 0.32 2750 65.3 3.44 10.2 0.36 1500 3.4 5.35 10.1 0.50 1040 39.2 1.96 6.5 0.20 2490 90.0 4.67 5.6 0.29 2940 88.0 5.68 11.8 0.42 867 43.1 1.59 8.5 0.25 1620 5.2 6.2原始数据X(9×5)autoscaling计算相关矩阵计算特征值返回第13页,共39页,2023年,2月20日,星期五模式识别与分类方差百分数主成分数的确定指定,
如90%
相应的dPCA实例1
头发样品中的特征值与方差
成分数 特征值λ方差%累计方差%1 3.352 67.0567.05
2 1.182 23.65 90.703 0.285 5.7096.404 0.1352.7099.105 0.045 0.90100.00特征值>1对于相关矩阵,
λ>1的成分为主成分Scree检验nPC在2-3间
斜率下降
因此d=2合适第14页,共39页,2023年,2月20日,星期五模式识别与分类得分图主成分图形解释PCA实例13个聚类
分属三人t1对t2作图t1最重要第15页,共39页,2023年,2月20日,星期五模式识别与分类主成分图形解释PCA实例1载荷图l1对l2作图特征在主成分上的投影
各变量的相关信息
夹角越小,相关性越高
高度相关的特征取1即可载荷大小是重要性的度量
位于原点的载荷不重要金属间的相关性大于卤素间的
Cu与Cl反性相关l1最重要,距原点距离越大,该特征权重越大,Cu第16页,共39页,2023年,2月20日,星期五模式识别与分类主成分图形解释PCA实例1相似系数或相关系数表
Cu Cu1.000Mn Mn0.6971.000Cl Cl-0.950-0.6921.000Br Br-0.530-0.2330.588 1.000I-0.645-0.7490.581-0.084
相似
系数相关
系数Br/I接近正交Cu/Cl负相关1:完全相同
0:完全正交自标度化
的数据
cosα=r第17页,共39页,2023年,2月20日,星期五模式识别与分类得分图主成分图形解释PCA实例1特征的选择5个全取取Cu/Br/I仍能分类效果略差取Cu/Mn/Cl分类效果差l2无效果3个λ,仅1个>12.57,0.38,0.05一维投影结果原始数据第18页,共39页,2023年,2月20日,星期五模式识别与分类主成分图形解释PCA实例1双重图biplott1各元素均有贡献
t2由Br和I表征Cu/Mn/Cl/I
将对象聚为2组
Br
将对象聚为另2组第19页,共39页,2023年,2月20日,星期五模式识别与分类PCA实例1应用示例
烟叶硅烷化色谱
辽宁凤城烟叶不同部位烟叶的区分下部上部中部第20页,共39页,2023年,2月20日,星期五模式识别与分类FA用少数几个通用因子描述矩阵中的特征抽象因子需经旋转变换成实因子TTFA包含d个因子的特征参数,各因子对应1个起因与对应因子相关的载荷分数由剩余p-d个和通用因子无关的特殊因子构成,如噪声因子第21页,共39页,2023年,2月20日,星期五模式识别与分类FA目标转换因子分析TargetTransformationFA变换矩阵抽象载荷目标预测目标均值相对偏差
relativedeviation
估计两者的一致性第22页,共39页,2023年,2月20日,星期五模式识别与分类FA实例TTFA多环芳烃HPLC-DAD数据有3个重要因子第23页,共39页,2023年,2月20日,星期五模式识别与分类多环芳烃HPLC-DAD数据FA实例TTFA已知4物的纯光谱但仅3个主因子F补一列第24页,共39页,2023年,2月20日,星期五模式识别与分类多环芳烃HPLC-DAD数据FA实例TTFA283.33 1545.9 1126.4 -58.497102.72 120.36 217.71 172.223.665 -106.13 -223.13 -169.66-63.573 -628.81 -435.24 76.663111.23 112.88 282.74 274.6138.036 85.858 73.304 28.34552.663 70.734 15.276 -24.929110.54 32.719 3.9913 10.64514.726 25.212 7.3891 1.377存在不存在第25页,共39页,2023年,2月20日,星期五模式识别与分类聚类分析无监督学习方法根据相似性度量,物以类聚分类方法是把未知对象分配到已存在类中聚类分析步骤n个样本n类计算距离最近的2类合并
继续合并最近的2类经n-1次合并最后成1类第26页,共39页,2023年,2月20日,星期五模式识别与分类聚类分析距离与相似性度量的方法明氏Minkowski距离欧氏Euclidean距离曼哈顿Manhattan距离
city-block距离第27页,共39页,2023年,2月20日,星期五模式识别与分类聚类分析距离与相似性度量的方法马氏Mahalanobis距离基于协方差矩阵C的向量运算基于马氏距离的相似性量度完全相似Sij=1
完全不相似Sij=0马氏距离可避免特征向量的相关性引起的失真
无需对数据进行调整第28页,共39页,2023年,2月20日,星期五模式识别与分类聚类分析实例6个血清样本的分级聚类对象1、2距离最短,聚为新对象1*
设其距离为0
与其余各对象用平均法或新距离第29页,共39页,2023年,2月20日,星期五模式识别与分类聚类分析实例6个血清样本的分级聚类4,6并4*4*,5并5*1*,3并3*第30页,共39页,2023年,2月20日,星期五模式识别与分类聚类分析实例6个血清样本的分级聚类1231234651*3*4*5*欧氏距离6个血清样本实际上可分为两类第31页,共39页,2023年,2月20日,星期五模式识别与分类聚类分析A、B聚后新距离的算法加权均连
weightedaveragelinkage单连法(最近距离)
singlelinkage全连法(最远距离)
completelinkage其他方法第32页,共39页,2023年,2月20日,星期五模式识别与分类线性学习机LLMK最近邻法KFASIMCA法有监督方法第33页,共39页,2023年,2月20日,星期五模式识别与分类LLM11111111122222222判别面以分2类(疾病判断)为例存在一判别面,用垂直的
法线(权)矢量w表示
与类1中任一样本矢量的夹角
,与类2中
线性判别函数s(标量)
,s>0
,s<0第34页,共39页,2023年,2月20日,星期五模式识别与分类LLM步骤已知样本作训练得
法线矢量w未知样本计算s
并预测分类初值w,可随机确定第1个已知样本计算s
不符下一个样本计算s继续调整w
第35页,共39页,2023年,2月20日,星期五模式识别与分类LLM实例数据初值第36页,共39页,2023年,2月20日,星期五模式识别与分类LLM实例修正w不修正须修正以后还需修正1次,最终判别第37页,共39页,2023年,2月20日,星期五模式识别与分类LLM实例程序clear;closeall;Y=load('E:\bk\jshx\jiazx.txt');Y(:,1)=[];[n,p]=size(Y);cluster=Y(:,p);cluster=cluster*(-2)+3*ones(n,1);%letsymboloffirstcluster=1andsecondcluster=-1Y(:,p)=[];Y_std=Y(1:16,:);clu_std=cluster(1:16,:);Y_unk=Y(17:20,:);clu_unk=cluster(17:20,:);[n_std,p]=size(Y_std);[n_unk,p]=size(Y_unk);PartI数据准备w=ones(1,p)*(-1);%给初值,w设为行矢量fori=1:n_stds=w*Y_std(i,:)‘;%s是标量
ifs
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO/IEC 15434:2025 EN Information technology - Automatic identification and data capture techniques - Syntax for high-capacity ADC media
- 购销合同室外灯具购销合同
- 合同终止退款协议
- 大数据运营合作协议
- 合同之自行车棚施工合同
- 影视制作项目委托制作协议
- 翻译服务合同翻译服务合同
- 行政协议行政合同
- 三农村环境整治与改善社区参与方案
- 宾馆承包经营合同
- 2025年益阳医学高等专科学校高职单招职业技能测试近5年常考版参考题库含答案解析
- 医用气体施工方案
- 2024 年陕西公务员考试行测试题(B 类)
- 幼儿园师德师风培训内容
- 住宅小区消防设施检查方案
- 《榜样9》观后感心得体会四
- 沈阳市地图课件
- 人教版小学数学一年级下册教案
- 伯利兹城大蓝洞
- 物权法习题集
- 实训4沥青路面渗水试验
评论
0/150
提交评论