版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
9.1概述9判别分析法判别分析也是一种传统的多元统计分析方法。判别分析属于“模式识别”方法,在人工智能和机器学习领域,判别分析方法属于“监督分类”或“有导师学习”方法。判别分析的任务是在假设研究对象分类情况已知的前提下,判断未知样品属于其中哪一类。判别分析法的一般思路是,利用已知对象(如单元)的观测数据,建立一个判别函数(也称判别模型),经检验认为模型有效后,将未知对象的数据代入该模型,算出未知对象应归属的类别。判别分析法用于矿产预测的基本思路是,假设所有单元可分为不同的类别,如“无矿单元”、“含矿单元”;选择一批控制单元,它们也可分为这两类;根据控制单元中的多变量数据,建立一个判别模型,然后应用该模型,判断任一未知单元属于这些类别中的哪一类。一旦识别了一个未知单元的类别,也就实现了对它是否含矿的预测。以下主要介绍狭义的判别分析,即基于费歇(Fisher)准则的两类判别分析方法。这是一种传统的多元统计分析方法。9.1概述9判别分析法基于费歇准则的两类判别,简称为费歇(Fisher)判别,是假设已知对象分为2类的情况下,判断任一未知对象的类别。(对象=样品)9.2基于费歇准则的两类判别分析9.2.1判别函数与费歇准则设p维变量空间内,已知有A、B两类样品点。为分开这两个类别的样品,需要找到一个投影面R,使两点群投影到R之后达到最大程度的分离,而各群内部离散程度尽量小。R称为判别函数,它是多个变量的线性组合。例如,x1x2R假设只有两个变量(右图),R是一条直线。两点群投影到任一变量轴上不能很好地分离,但投影到R后可以最大限度地分离。A类B类9判别分析法9.2基于费歇准则的两类判别分析判别函数R的表达式可写为其中,是待定的各变量系数。将任一样品的各变量数据代入判别函数R,得到的函数值称为该样品的判别得分。如何确定诸从而得到R?假设R已经得到,并令和分别表示A、B两类判别得分的平均值:这里,和分别为A、B
Eq9-1Eq9-2Eq9-3两类样品各变量的平均值。9判别分析法投影后,两点群中心的”距离”可表示为9.2基于费歇准则的两类判别分析为两类样品数;两点群内部的离散程度可用离差平方和来表征:、,、分别为A、B两类第i样品第
j变量的值。Eq9-4Eq9-5Eq9-6分别为两类样品中第i个样品的判别得分。9判别分析法费歇准则是使投影后的类间距离尽量大、类内离差尽量小的最优化准则,即令9.2基于费歇准则的两类判别分析达到极大值,求出从而获得判别函数。为此需要解方程组该方程组经求导、化简、整理后变为如下方程组:Eq9-79判别分析法其中,9.2基于费歇准则的两类判别分析Eq9-8Eq9-9Eq9-10Eq9-119判别分析法两类离差平方和的和两类离差叉积和的和9.2基于费歇准则的两类判别分析9判别分析法令上页的方程组可写成矩阵形式:解方程组可求出各从而得到判别函数:Eq9-12Eq9-13或Eq9-14(=Eq9-1)9.2.2判别函数的使用9.2基于费歇准则的两类判别分析将任一样品的多变量数据代入判别函数,可求出该样品的判别得分。如果判别函数有效,两类样品的判别得分值大小将会有显著差别,一类较大,另一类较小。所以算出判别得分后就可判断一个样品属于已知分类的哪一类。但需要一个判别临界值,以便归类。判别临界值R0为:即判别临界值是两类样品平均判别得分按样品数加权的平均值。Eq9-159判别分析法判别函数是否有效,可用两种方法进行检验:(1)回判。计算已知样品的判别得分,并据此归类(称回判)。一般来说判对率越高说明判别函数越好。实际中若判对率达到如80%以上,可认为判别函数有效。(2)F-检验。求第一自由度为p,第二自由度为NA+NB-p
-1的F-统计量:9.2.3判别函数的检验9.2基于费歇准则的两类判别分析给定置信度,查F-分布表,若计算值超过表列值,认为判别函数有效。Eq9-169判别分析法一个简单例子,用于说明费歇判别分析应用过程。9.2.4判别分析举例9.2基于费歇准则的两类判别分析控制单元数据如右表类别单元号x1x2x3x4A(有矿)113.854.797.8049.60222.314.6712.3147.80328.824.6316.1862.15415.293.547.5843.20528.294.9016.1258.70B(无矿)62.181.061.2320.5073.850.84.0647.10811.400.003.500.0093.662.422.1415.101012.100.005.680.00下面建立判别函数。9判别分析法9.2.4判别分析举例9.2基于费歇准则的两类判别分析,所以先算出S和D。由Eq9-9计算两类中各变量平均值的差:9判别分析法为获得判别函数,需解方程组9.2.4判别分析举例9.2基于费歇准则的两类判别分析对称矩阵,下三角未列出。由Eq9-10和Eq9-11计算。判别函数为判别临界值为因为所以,判别得分大于临界值的样品都将判为A类。9判别分析法各类判别得分平均值为9.2.4费歇判别分析举例9.2费歇两类判别检验(1)回判正确率100%:(2)计算得F-统计量14.822,查表可知,在0.01置信水平上显著。对未知单元进行判别(例如下表):类别单元号x1x2x3x4得分判别归类未知318.853.285.1726.103.984B(无矿)3228.62.41.2127.029.355A(有矿)类别单元号R回判归类A(有矿)16.008A27.016A38.094A46.946A57.968AB(无矿)62.484B72.692B83.123B92.603B101.141B9判别分析法9.3.1概述9.3基于实例的学习方法9判别分析法基于实例的学习(k-instancebasedlearning)也称k-最近邻法,是一类模式识别方法,能够进行多类判别。该方法的特点是不管已知分类情况如何复杂,都能进行识别;计算过程很简单,且几乎不受数据噪声影响,被称为最稳健的智能化模式识别方法,应用广泛。9.3.1概述9.3基于实例的学习方法9判别分析法在该类方法中,用于建立判别模型的已知样本称为训练样本或训练集(在矿床统计预测中即控制单元)。训练集中可以包含任意多个类别的样品,这些类别的名称可以用文字符号或数字表示,称为类标号(类标签)。根据计算结果不同,该方法有若干种变种,有的只识别类标号,有的可输出定量结果。分别介绍如下。9.3.2输出类标号的k-最近邻法9.3基于实例的学习方法9判别分析法输出类标号的k-最近邻法是k-最近邻法中最简单的一种。计算过程共2步,如下:第1步:列出训练样品数据表。设有n个训练样品。数据表格式为:为类标号(文本变量),共m类。其中为d维实向量(表示有d个变量);所以数据表有n行d+1列。在矿床统计预测中,训练样品就是控制单元。训练样品数据表也称为训练样本表,也就是控制单元数据表。所以数据表有d+1列。式中f(x)称为x的目标函数值,其值是类标号;v是已知类别号,argmax
表示在k个样品类标号中,出现最多的那一个,即v。第2步:识别。给定未知对象,从“训练样本表”中取出k个与距离最近的对象,设为。9.3.2输出类标号的k-最近邻法9.3基于实例的学习方法9判别分析法计算距离的公式:Eq9-17考查所取出的k个对象中都是什么类别,将其中出现最多的类标号,作为的类标号判断结果。用公式表示为:Eq9-189.3.2输出类标号的k-最近邻法9.3基于实例的学习方法9判别分析法示例:设训练样本分2类,分别用+和-表示;共2个变量。若k=5,判别结果为:Xq属于“-”类若k=1,判别结果为:Xq属于“+”类可见,若已知分类情况与变量之间不是线性关系、很复杂,该方法仍能识别未知样品类别。另外,k取多大,无现成规则,需要试验。9.3.2输出类标号的k-最近邻法9.3基于实例的学习方法9判别分析法在矿床统计预测中,地质变量数据应为定量数据,这样才能计算距离(Eq9-17)。预测结果是未知单元的可能归属的类别,如“含矿”、“不含矿”或“含大矿”等。9.3.3输出连续值的k-最近邻法9.3基于实例的学习方法9判别分析法输出连续值是指预测结果不是类标号,而是定量数值,如“找矿有利度”、“资源量”等。为了获得连续值预测结果,训练集中样品的y值也应当是连续值。这时,将前述的识别公式Eq9-18改为即计算所取出k个样品的因变量的平均值作为判别结果。也只需两步就可达到目的。Eq9-199.3.3输出连续值的k-最近邻法——简单例子9.3基于实例的学习方法9判别分析法x1x2颜色表示矿床规模值(数字未写出),k=6。算出圈内6个点的矿床规模平均值作为预测结果。k=12。算出圈内12个点的矿床规模平均值作为预测结果。9.3.4距离加权k-最近邻法9.3基于实例的学习方法9判别分析法在预测未知样品时,上述k-最近邻法将取出的k个训练样本同等对待。距离加权k-最近邻法能够使距较远的训练样本起较小的作用,让较近的起较大作用,通常这样更合理。9.3.4距离加权k-最近邻法9.3基于实例的学习方法9判别分析法其中表示以距离平方的倒数为权系数。这时,表达式(1)输出类标号:只需将Eq9-18作如下改动:Eq9-20Eq9-21会算出一个连续值;Eq9-20表示判别结果取该连续值最大的那个类标号。9.3.4距离加权k-最近邻法9.3基于实例的学习方法9判别分析法(1)输出类标号——简单例子x1x2例如颜色表示不同的类标号。k=4。若不进行距离加权,预测结果为xq属于洋红色类;若距离加权,预测结果可能为:xq属于绿色类。9.3.4距离加权k-最近邻法9.3基于实例的学习方法9判别分析法(2)输出连续值:只需将Eq9-19作如下改动:Eq9-22f(xi)为实连续函数。使用该公式的k最近邻法称为Shepard方法。在实施距离加权k-最近邻法时,可以不先选出k个最近邻样本,而是用所有训练样本都算,这样可省去选择较近样品的步骤,较方便,但如样品数多则会较慢。这时称为全局方法。否则称局部方法。9.3.5应用注意事项9.3基于实例的学习方法9判别分析法因为要用多变量数据计算样品之间的距离,所以,所有的自变量都应当规格化,或做其它类似的变换,以使不同变量统一量纲。控制单元(训练集)和未知单元的数据要统一进行规格化。如果数据没有规格化,则所计算出的距离受那些值域大的变量影响大,而值域小的变量无意间被忽视。9.3.5例9.3基于实例的学习方法9判别分析法训练样本数据:110个样品2个变量3类样品号x1x2类标号9.3基于实例的学习方法9判别分析法1类别23训练样本数据散点图9.3.5例9.3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自媒体短视频制作(山西财贸职业技术学院)知到智慧树答案
- 财务主管的领导能力提升计划
- 人造岗石树脂相关行业投资规划报告
- 井下波速测量仪相关项目投资计划书范本
- 秋季教育资源的优化配置计划
- 高中生素质教育方案计划
- 幼儿教师培训课件:幼儿素质发展课程-美术活动中班
- 《小肠梗阻的诊断与治疗中国专家共识(2023版)》解读
- 博才中学《雨林的毁灭-世界性灾难》课件
- 《解破学生殖系统》课件
- 粮油配送服务方案
- CJJ169-2012城镇道路路面设计规范
- 基于统计学方法的创新思维与实践智慧树知到期末考试答案章节答案2024年西安财经大学
- 美团代运营合同模板
- 农业工程概论智慧树知到期末考试答案章节答案2024年昆明理工大学
- 冀教版(三起)英语六年级上册知识点总结(知识清单)
- MOOC 中国天气-南京信息工程大学 中国大学慕课答案
- 全国养老护理职业技能大赛养老护理员赛项考试题库-上(单选题)
- 仓管员年度述职报告总结
- 口腔科误吞误吸应急处理
- 2024年福建广电网络集团有限公司招聘笔试参考题库附带答案详解
评论
0/150
提交评论