判别分析法预测演示文稿_第1页
判别分析法预测演示文稿_第2页
判别分析法预测演示文稿_第3页
判别分析法预测演示文稿_第4页
判别分析法预测演示文稿_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

判别分析法预测演示文稿当前第1页\共有68页\编于星期三\20点优选判别分析法预测当前第2页\共有68页\编于星期三\20点YOURSITEHERE第一节引言当前第3页\共有68页\编于星期三\20点YOURSITEHERE预处理特征提取桔子橙子训练(学习)这是一个学习和预测的过程。当前第4页\共有68页\编于星期三\20点YOURSITEHERE回归分析——定量预报判别分析——定性预报模式识别在许多自然科学和社会科学问题的研究中,我们所关心的不是样品的某一指标数值的多少,而是其类别、归属。生物学:各类性状→物种类别医学:各类症状→SAS、猪流感地质学:岩石分类、地层时代、断层性质、有矿无矿预测气象学:天气预报是晴、阴、雨?当前第5页\共有68页\编于星期三\20点YOURSITEHERE在地学领域中,经常面临着大量的分类问题,即对一定量的事物(如地质体、样品或变量)按其属性进行归类。由于地质对象的复杂性,单靠定性标志或少数定量标志进行分类,常常不能揭示客观事物内在本质的差别和联系,难以确定地质体本质属性的归属。同时也造成很多分类计算具有很大的主观性和任意性,而且所得的结果因人而异,常不能反映客观实际情况。当前第6页\共有68页\编于星期三\20点YOURSITEHERE在对地质对象的类型研究中,有两大类方法。一类是聚类分析(或称点群分析,群分析)另一类就是判别分析。判别分析的主要思想是用统计方法将待判的未知样品与已知类型的样品进行(定量)类比,以确定待判样品应归属于其中哪一类。当前第7页\共有68页\编于星期三\20点YOURSITEHERE全碱-硅图解(TAS)当前第8页\共有68页\编于星期三\20点YOURSITEHERE当前第9页\共有68页\编于星期三\20点YOURSITEHERE最简单的情形下,单就一个变量的值就可区分不同的类别。但是,通常情况下,一个变量往往难于区分不同的分类,只有利用多个变量,才能比较全面从各个不同的角度刻画个母体间的差异。在传统的地质学研究中,四元以上的系统用几何图形表示变得十分困难。用适当的数学方法从多个变量中提出有关判别分类的有效信息,综合成一个像单变量那样好用的判别标准。当前第10页\共有68页\编于星期三\20点YOURSITEHERE判别分析法所要解决的问题是对样品的分类,其特点为:在已知研究对象的条件下,确定未知对象属于已知分类中的哪一类。在包括矿床预测在内的各类地质研究中,经常遇到这类问题。判别分析中的“类比法”思想与传统地质学中所用类别法的不同:①定量;②综合考虑多种因素或标志;③以某种最优化准则作分类基础当前第11页\共有68页\编于星期三\20点YOURSITEHERE当前第12页\共有68页\编于星期三\20点YOURSITEHERE磁异常指数对数值→x1x2↑训练样本闪长玢岩出露面积比A总体,有矿B总体,无矿有矿否?当前第13页\共有68页\编于星期三\20点YOURSITEHERE磁异常指数对数值闪长玢岩出露面积比→x1x2↑当前第14页\共有68页\编于星期三\20点YOURSITEHERE判别分析也是一种类比法,它是从定量角度,综合考虑多种地质变量或标志,按照某种最优化判别准则作为分类基础,来进行分析的。其判别准则分为两类:费歇准则(,1936)和贝叶斯准则。判别分析特点:定量类比、定性预报当前第15页\共有68页\编于星期三\20点YOURSITEHERE第二节费歇两组判别当前第16页\共有68页\编于星期三\20点YOURSITEHERE费歇判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。费歇判别的基本思想当前第17页\共有68页\编于星期三\20点YOURSITEHERER0寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。所谓Fisher判别法,是一种先投影,后用距离判别的方法。R=c1x1+c2x2当前第18页\共有68页\编于星期三\20点YOURSITEHERE考虑指标与p个自变量有关的两类判别:设指标y按其取值范围只分为A、B两类,对A、B两类分别有nA,nB个样品数据。Fisher提出,建立p个因子的一个线性判别函数其中判别系数cj(j=1,2,..,p)的选择应使得y值满足:(1)A类与B类这两类点群尽可能地远离,即两类点群重心间距离尽可能达到最大;(2)同一类的样品点尽可能集中。[(1)(2)两点统称为Fisher准则]一、费歇准则准则与准则下的两类判别线性模型当前第19页\共有68页\编于星期三\20点YOURSITEHERE其中组间离差平方和(尽可能大)样本总离差平方和(尽可能小)当前第20页\共有68页\编于星期三\20点YOURSITEHERE要同时满足费歇判别准则的两个条件,要求达到最大当前第21页\共有68页\编于星期三\20点YOURSITEHERE二、两类判别函数的参数估计I是y的函数,也是cj的函数。根据极值原理,I取极大值的条件是I对系数cj的偏导数为0,即:(j=1,2,3,…,p)等价于:(因为lnI=lnG

–lnH)当前第22页\共有68页\编于星期三\20点YOURSITEHERE=L-1D

(i,j=1,2,…,p)(j=1,2,3,…p)其中,于是,可得线性判别函数为:当前第23页\共有68页\编于星期三\20点YOURSITEHERE三、确定临界值及对新样品作出判别当判别函数求出后,可进一步求得:类平均值于是,判别临界值可进一步可导出当前第24页\共有68页\编于星期三\20点YOURSITEHERE将新样品的各变量观测值代入判别函数,求得相应的函数值y(判别得分)当前第25页\共有68页\编于星期三\20点YOURSITEHERE四、判别效果的分析和检验所建立的判别函数是否有实际意义,判别效果有无实用价值,准确度如何,同样需用作检验分析。(1)总体差异的显著性检验判别分析中,首先要求假定两类样品来自有显著差异、可区别的总体,两总体的均值应有显著差异。(2)各因子(判别变量)的重要性检验为消除因子量纲的影响,通常在求得判别系数后,可将其标准化后再检验cj*=cj/sj可以通过其两类样本均值之差来衡量当前第26页\共有68页\编于星期三\20点YOURSITEHERE马氏距离(Mahalanobis马哈拉诺比斯距离)设xi,xj是服从均值为μ,协方差为Σ>0的总体Xpx1抽取的样品,则称为p维空间上点xi,xj之间的广义(统计)距离,亦称马氏距离当前第27页\共有68页\编于星期三\20点YOURSITEHERE特别地,当当Σ=Ip,有(方差加权)(欧式距离)当前第28页\共有68页\编于星期三\20点YOURSITEHERE总体差异的显著性检验当前第29页\共有68页\编于星期三\20点YOURSITEHERE用所建立的判别函数对两总体的已知样本进行回判,并将判别结果,与已知结果对比,计算判错率,当判错率<20%,认为判别函数有效。实际中常用回判法来评价判别函数的有效性。误判率(A)=误判率(B)=当前第30页\共有68页\编于星期三\20点YOURSITEHERE实例当前第31页\共有68页\编于星期三\20点当前第32页\共有68页\编于星期三\20点当前第33页\共有68页\编于星期三\20点当前第34页\共有68页\编于星期三\20点YOURSITEHERE基于GIS技术的矿产资源评价分析系统当前第35页\共有68页\编于星期三\20点YOURSITEHEREGIS技术支持下单元划分当前第36页\共有68页\编于星期三\20点YOURSITEHERE对各单元进行编号116234567891011121314151923217177各单元变量取值与处理控制区GIS技术支持下控制区确定、变量取值与处理当前第37页\共有68页\编于星期三\20点YOURSITEHERE自变量:各种控矿地质因素或找矿标志

因变量:矿床值(矿化强度优劣、矿床储量)控制区(模型区)单元预测区单元②建立模型→估算模型参数

→模型检验与修改(包括:a.模型地质意义检验;b.统计上的假设检验和)→预测已知含矿单元已知无矿单元③模型应用①确定目标→设置指标变量→收集数据→对实际问题进行多元统计的建模过程当前第38页\共有68页\编于星期三\20点YOURSITEHERE4.应用实例。研究区:宁芜盆地北段预测对象:玢岩型铁矿。预测比例尺:1:50,000单元划分:全区划分为3×单元100个。(1)根据研究区的地质勘探情况,该区有8个单元为已知有矿单元,14个单元为已知无矿单元,另外78个单元为未知待判单元。因此,令已知有矿单元为A总体,NA=8当前第39页\共有68页\编于星期三\20点YOURSITEHERE

令已知无矿单元为B总体,NB=8,剩余6个作为回判检验.(2)建立数学模型,即判别分析函数,经过控矿地质因素分析,选出7个与成矿关系密切的变量参加建模,

x1——接触带长度,

x2——单元中心与断裂喷发带的距离。

x4——闪长玢岩出露面积,

x5——围岩蚀变组合的相对熵值,

x9——磁异常特征值,当前第40页\共有68页\编于星期三\20点YOURSITEHERE

x10——重力异常特征值,

x12——岩层组合的相对熵。最终建立判别函数:R=0.0247X1-1.2246X2-0.036X4+0.041X5+0.1540X9-0.008X10-0.0267X12(3)确定判别临界值。

A总体的判别得分

B总体的判别得分∴R0=-1.5885当前第41页\共有68页\编于星期三\20点YOURSITEHERE(4)显著性检验。

i)对已知单元进行回判,判对率93.3%,说明R0是显著的,所建立的判别函数有效。

ii)马氏检验。

F=2.833,而∴∴判别函数在α=0.1的显著性水平上有效。当前第42页\共有68页\编于星期三\20点YOURSITEHERE(5)对未知单元进行判别,预测。结果,有22个单元的R>R0,判为A类,为有矿远景单元。(6)对22个有利远景单元的控矿条件和找矿潜力进行评价,分析。通过分析发现,这些单元多数位于NE向断裂和NW向断裂火山喷发带内。而这两个带已被证明是本区重要的成矿条件,另外,这22个单元之中,有的已经发现了矿点,有些在空间上与已知矿床相邻,因而,认为这些单元具有良好的成矿条件和较大的成矿潜力。当前第43页\共有68页\编于星期三\20点多组判别分析问题的提出:实际工作中需要对多种类型的样品进行判别,如:油层、气层、水层、干层等,这就需要多组判别分析来解决了。设有m个总体,第g个总体的样品个数为ng(g=1,2,…,m),每个样品测定了P个指标,此时,可写成:第g类,第j个样品第k个指标的观测值。当前第44页\共有68页\编于星期三\20点总共取了N个样品当前第45页\共有68页\编于星期三\20点仿两组判别,求出判别函数,两组求一个判别函数,三组就要求三个判别函数(即:1~2;2~3;1~3);四组就要求6个,一般地说,若有m组,就要求这样计算量太大,对一个新样品也得计算多个判别值,比较起来,十分困难。因此,求判别函数的方法对多组判别不适用。当前第46页\共有68页\编于星期三\20点

在多组判别分析中,是这样考虑的:在判别中,可能犯这样的错误,即把本应属于g组的样品错分到n组,或者把n组的样品错分到了g组,这种错误是在所难免的,只希望由此造成的平均损失尽可能的小。当前第47页\共有68页\编于星期三\20点YOURSITEHERE第三节贝叶斯多组判别和逐步判别的基本概念当前第48页\共有68页\编于星期三\20点YOURSITEHERE假定为所研究的对象(总体)在抽样前已有一定的认识,常用先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验概率分布,再基于后验概率分布作各种统计推断。贝叶斯统计的基本思想将贝叶斯统计的思想应用于判别分析,就得到贝叶斯判别方法。当前第49页\共有68页\编于星期三\20点YOURSITEHERE费歇准则是对p维空间两点群寻找最优分割面(选择一个适当的投影轴,使多维问题简化为一维问题来处理);而贝叶斯准则是为p维空间两(多个)点群寻找最优的空间划分方法。寻找最优的空间划分方法,实际上也是要建立一个判别函数,但这函数应能满足误判平均损失最小的原则。PatternClassificationByR.O.Duda,etal.当前第50页\共有68页\编于星期三\20点YOURSITEHEREk个p维总体:

G1,G2,…,Gk分别具有不同的p维概率密度函数:

f1(x),f2(x),..,fk(x)。在进行判别之前,确定先验概率分布:q1,q2,…,qk,有误判损失:c(j|i)表示将实际属于Gi的样品判归为Gj所造成的损失度量。误判的损失通常在判别分析前就可以估计。一个合理的判别准则应该考虑到每个总体出现的可能性大小(即先验概率分布),还应考虑误判造成的损失问题。当前第51页\共有68页\编于星期三\20点YOURSITEHERE一个判别准则(对Rp空间的一个划分):D=(D1,D2,…,Dk)。误判概率:P(j|i,D)表示在判别准则D下将事实来自Gi的样品误判为来自Gj的概率。由此误判而造成的损失为c(j|i)(j=1,2,…,k,j≠i)(误判损失),因此,在一个给定的判别准则D之下,对Gi而言所造成的损失,应该误判为G1,…,Gi-1,Gi+1,..,Gk的所有损失。当前第52页\共有68页\编于星期三\20点YOURSITEHERE按照各误判概率加权求和,即在此判别准则D下,将来自Gi的样品错判为其他总体的期望损失为(注意c(i|i)=0)又由于各总体Gi出现的先验概率为qi(i=1,2,…,k),故在判别准则D之下总的期望损失为平均误判损失函数ECM(ExpectedCostofMisclassification)当前第53页\共有68页\编于星期三\20点YOURSITEHERE平均误判损失函数L与判别准则D有关,贝叶斯判别即选择D=(D1,D2,…,Dk),使L达到最小。当前第54页\共有68页\编于星期三\20点YOURSITEHERE将样品空间Rp划分为k个两两互斥的子空间,存在各种划分方法,任何一种划分都可能存在着错分现象,错分就会造成损失。显然,人们希望在某种空间划分下,使总的错分损失最小。在给定母体先验概率时,划分空间使错分平均损失最小的原则。贝叶斯准则又称为以指定具有较高后验概率的母体作为判别个体X归属的准则。贝叶斯准则当前第55页\共有68页\编于星期三\20点YOURSITEHERE两种准则下的判别分析的选择贝叶斯准则费歇准则判别类型多用于多组判别多用于两组判别数学模型所要求条件较严格①各组变量必须服从多维正态分布;②各组方差-协方差矩阵相等;③各组变量的均值有显著的差异;较宽松对判别变量的分布类型并无特定要求,只要求各类总体的二阶矩存在,各组变量的均值有显著的差异当前第56页\共有68页\编于星期三\20点YOURSITEHERE有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量。这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如:Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等检验。这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。(仅仅是在前面的方法中加入变量选择的功能)逐步判别法当前第57页\共有68页\编于星期三\20点YOURSITEHERE一些有关问题(1)建立判别函数时应有足够多的已知样品,并保证其有一定的代表性。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论