




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 绪 论1.1课题背景随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用
2、判别准则对新的观测对象的类别进行判断时,出错的概率很小。而Fisher判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。通常用来判别某观测量是属于哪种类型。在方法的具体实现上,采用国内广泛使用的统计软件SPSS(StatisticalProductandServiceSolutions),它也是美国SPSS公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一1.2 Fisher判别法的概述根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。Fisher判别法是判别分析中的一种,其思想是投影,Fisher判别的基本思路就是投影,针对P维空间中
3、的某点x=(x1,x2,x3,xp)寻找一个能使它降为一维数值的线性函数y(x): 然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。1.3 算法优缺点分析优点:(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分
4、,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。(2)Fisher方法可直接求解权向量;(3)Fisher的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher还可以进一步推广到多类问题中去缺点:(1)如果,则样本线性不可分; ,未必线性可分; 不可逆,未必不可分。(2)对线性不可分的情况,Fisher方法无法确定分类2实验原理2.1 线性投影与Fisher准则函数各类在维特征空间里的样本均值向量:, (2.5-2)通过变换映射到一维特征空间后,各类的平均值为:, (2.5-3)映射后,各类样本“类内离散度”定义为:, (2.5
5、-4)显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher准则函数: (2.5-5)使最大的解就是最佳解向量,也就是Fisher的线性判别式。2.2 求解从的表达式可知,它并非的显函数,必须进一步变换。已知:,, 依次代入(2.5-1)和(2.5-2),有:, (2.5-6)所以: (2.5-7)其中: (2.5-8)是原维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此,越大越容易区分。将(2.5-6)和(2.5-2)代入(2.5-4)式中: (2.5-9)其中:, (2.5-10)因此: (2.5-11)显然
6、: (2.5-12)称为原维特征空间里,样本“类内离散度”矩阵。是样本“类内总离散度”矩阵。为了便于分类,显然越小越好,也就是越小越好。将上述的所有推导结果代入表达式:可以得到:其中,是一个比例因子,不影响的方向,可以删除,从而得到最后解: (2.5-18)就使取得最大值,可使样本由维空间向一维空间映射,其投影方向最好。是一个Fisher线性判断式。这个向量指出了相对于Fisher准则函数最好的投影线方向。2.3 Fisher算法步骤由Fisher线性判别式求解向量的步骤: = 1 * GB3 把来自两类的训练样本集分成和两个子集和。 = 2 * GB3 由,计算。 = 3 * GB3 由计算
7、各类的类内离散度矩阵,。 = 4 * GB3 计算类内总离散度矩阵。 = 5 * GB3 计算的逆矩阵。 = 6 * GB3 由求解。3 实验目的应用统计方法解决模式识别问题的困难之一是维数问题,在低维空间行得通的方法,在高维空间往往行不通。因此,降低维数就成为解决实际问题的关键。Fisher的方法,实际上涉及维数压缩。如果要把模式样本在高维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。问题的关键是投影之后原来线性可分的样本可能变得混杂在一起而无法区分。在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。如何找到最好的直
8、线方向,如何实现向最好方向投影的变换,是Fisher法要解决的基本问题。这个投影变换就是我们寻求的解向量本实验通过编制程序体会Fisher线性判别的基本思路,理解线性判别的基本思想,掌握Fisher线性判别问题的实质。4 实验实例 例题:根据我国东部沿海11个省市城镇居民家庭平均每人全年家庭收入的5个指标(工薪收入、经营净收入、财产性收入和转移性收入)数据将各省市城镇居民家庭分为高收入组和次高收入组,建立判别函数进而判定未分组省市的类别。4.1数据录入 通过国家统计局网站得到我国东部沿海11省市的城镇居民家庭平均每人全年家庭收入的5个指标(工薪收入、经营净收入、财产性收入和转移性收入)数据得到
9、excel表格,并将11个省份划分为高收入组(代号为1)和次高收入组(代号为2),分类如图2-1组别,将其导入spss得到如图4-1所示:4-14.2进行Fisher判别分析在SPSS中进行如下操作:步骤一 在analyze菜单中的classify子菜单中选择discriminant命令如4-2图所示。4-2步骤二 在如图4-3所示的discriminant analyze对话框中,从左侧变量的变量列表中选择“工薪收入”、“经营净收入”、“财产性收入”和“转移性收入”变量,使之添加到independents框中4-3步骤三 选择“组别”变量使之添加到group ariable框中。这时grou
10、p ariable框下的define range按钮变为可用,单击,弹出discriminant analyze:difine对话框如图4-4所示,并在minium中输入1,在maximum中输入2.4-4步骤四 在discriminant analyze对话框中单击statistics按钮,弹出discriminant analyze:statistics对话框,如图4-5所示。4-5步骤五 在discriminant analyze对话框中单击classify按钮弹出discriminant analyze:classification对话框,如图4-6所示4-6步骤六 单击图4-3所示的
11、discriminant analysis对话框中的ok键,完成操作。4.3得到分析结果如表4-1所示可知只有一个判别函数:D1=2.94*城镇居民家庭总收入-1.892*工资性收入+0.943*经营性收入-1.322*财产性收入-1.112*转移性收入标准化的典型判别式函数系数 函数1城镇居民家庭总收入2.940工资性收入-1.892经营性收入.943财产性收入-1.322转移性收入-.112表4-1由分析结果表4-2可知高收入组的Fisher线性判别函数为:F1=0.025*城镇居民家庭总收入-0.018*工资性收入+0.014*经营性收入-0.064*财产性收入-0.009*转移性收入-
12、105.381次高收入组的Fisher判别函数为:F2=0.021*城镇居民家庭总收入-0.015*工资性收入+0.009*经营性收入-0.05*财产性收入-0.009*转移性收入-55.554。分类函数系数组别高收入次高收入城镇居民家庭总收入.025.021工资性收入-.018-.015经营性收入.014.009财产性收入-.064-.050转移性收入-.009-.009(常量)-105.381-55.554Fisher 的线性判别式函数表4-2将初始数据代入判别函数可得到表4-3,可知判别函数对初始分组案例100%的进行了正确分类。4.4应用Fisher判别方程对未分组省份进行分组由分析可
13、知判别函数(其中分别代表城镇居民家庭总收入、工资性收入、经营性收入、财产性收入、转移性收入)又有高收入组各项指标的均值= (24632.8,18453.4,1826.2,703.4,6592.4) 次高收入组各项指标的均值= (16178.16667,11553.66667,1480.333333,489.5,4210.666667) 代入判别函数可得=30968.06 , =21770.85进而可得=25951.4将剩余的省份代入判别函数如表4-4所示地区城镇居民家庭人均可支配收入工资性收入经营性收入财产性收入转移性收入判别函数值河北省147189831977194467420138.023
14、山西省139979741944252404518780.216内蒙古自治区15849112671737364358322451.383吉林省1400694821307146422019584.545黑龙江省125668357122489402017698.93安徽省14086103621023273403317927.023江西省1402297901153240386419175.231河南省1437299101203165413019827.699湖北省14367103321232297383819192.122湖南省1508498541744419406022279.146重庆市15749
15、118241019254389420226.053四川省13839101321132305375418006.734贵州省1286390061135134351817759.009云南省14424964210921044390219474.46西藏自治区1354413326378218105613500.554陕西省1412910775544152383917196.04甘肃省11930918269059298614954.096青海省12692934183546392815999.965宁夏回族自治区1402595972036281363620581.21新疆维吾尔自治区1225810233975116227914909.509表4-4 根据表4-4判别函数值列与临界值25951.4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金融机构布线系统施工质量保障措施
- 北仑路面施工方案
- 托班语言发展促进计划
- 小学三年级历史故事阅读计划
- 2025年初中语文家长沟通计划
- 公立卫生院护理工作年度总结与计划
- 高二语文备课组教师培训计划
- 三年级语文下册第六单元知识点总结计划
- 颅内感染护理学习
- 矿业企业环境保护管理措施
- 生鲜电商物流配送模式分析及优化策略-以京东为例
- 湛江市2025届高三10月调研测试 语文试卷(含答案详解)
- 超星尔雅学习通《当代大学生国家安全教育》章节测试答案
- 中国诗词线索题
- GB/T 10433-2024紧固件电弧螺柱焊用螺柱和瓷环
- 数学家华罗庚课件
- 《人工智能基础》课件-AI的前世今生:她从哪里来
- 透析器首次使用综合征
- 数独题目高级50题(后附答案)
- 下肢静脉曲张的静脉内射频消融术
- 2024至2030年中国冷镦钢行业市场全景分析及投资前景展望报告
评论
0/150
提交评论