版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学建模竞赛培训
—统计分析(2)
多元统计分析2023/1/163一、聚类分析
聚类分析的基本思想
我们所研究样品或指标之间存在程度不同的相似性(亲疏关系—以样品间的聚类衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或者指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较高的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,直到把所有的样品聚合完毕。通常聚类分析按对象分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。按类型分为:系统聚类、有序样品聚类、模糊聚类法、动态聚类法(k-means)、基于密度的方法、图论聚类法等工业控制技术研究所应用聚类分析的例子市场销售:
帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用:
在一个陆地观察数据库中标识那些土地使用相似的地区;保险:
对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:
根据类型、价格、地理位置等来划分不同类型的住宅;地震研究:
根据地质断层的特点把已观察到的地震中心分成不同的类;1、系统聚类的基本思想系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n
1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n
2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。。2023/1/166系统聚类例1,设抽取五个样本,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(1)定义样品间距离采用绝对值距离|xi-xj|,得距离矩阵D(0)2023/1/167聚类分析2023/1/168系统聚类2023/1/169系统聚类2023/1/1610系统聚类
利用matlab进行系统聚类分析2023/1/1611系统聚类画聚类谱系图2023/1/1612聚类分析例:我们对苏州所辖张家港市2003年七条河流中主要污染因子(指标)即CODmn,BOD5,非离子氨,氨氮,挥发酚,石油类共6个变量进行聚类分析.2023/1/1613系统聚类2023/1/1614聚类分析
K均值聚类分析系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,而K—均值法是一种快速聚类法,采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用广泛。K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:
1.将所有的样品分成K个初始类;
2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;
3.重复步骤2,直到所有的样品都不能再分配时为止。一、基本思想选择凝聚点分类修改分类分类是否合理分类结束YesNo
模糊聚类法
在日常生活中有许多概念不是很严格的,而是模糊的。例如“年老”就是一个模糊概念,不大好用一个具体数字来划分年老的界限。又例如说一个人很“漂亮”,这也是一个模糊概念,不仅很难给出一个严格的数量界限,而且看法也会因人而异。为了处理现实生活和科学研究中的这些模糊概念,就产生了模糊集理论(1965年由L.A.Zadeh首先提出)。把模糊集理论应用于聚类分析,就产生了模糊聚类法。二、判别分析在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法,使得对于一个新的病人,当测得这些症状指标数据时,能够判定其患有哪种病。又如,在天气预报中,我们有一段较长时间关于某地区每天气象的记录资料(晴阴雨、气温、气压、湿度等),现在想建立一种用连续五天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。2023/1/1619二、判别分析1.判别分析的意义与功能
判别分析的意义在于根据已知样本的分类情况来判断未知的样本的归属问题。2.基本思想
首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类得重心距离最近,就认为它来自第i类。3、判别分析的分类
判别分析内容很丰富,方法很多。判断分析按判别的总体数来区分,有两个总体判别分析和多总体判别分析;按区分不同总体所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,常见几种判别分析方法:距离判别法、Fisher判别法、Bayes判别法和逐步判别法。2023/1/1621二、判别分析例1.我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的15个大气取样点,每日4次同时抽取大气样品,测定其中含有的6种气体浓度,前后共4天,每个取样点每种气体实测16次。计算每个取样点每种气体的平均浓度,数据如表所示,气体数据对应的污染地区分类如表中最后一列所示,2023/1/1622二、判别分析2023/1/1623二、判别分析现有两个取自该地区的4个气体样本,气体指标如下表所示,试判别4个样品的污染分类。解法:2023/1/1624二、判别分析利用matlab工具箱函数求解函数名称:classify调用格式[class,err]=classify(sample,training,group)注意:sample与training具有相同的列数;group与training具有相同的行数返回:class:样品分类结果;err:误差待判样品训练样本分类变量2023/1/1625二、判别分析2023/1/1626二、判别分析2023/1/1627三、主成分分析1.降维思想
主成分分析是一种处理高维数据的方法,在实际问题的研究中,往往涉及众多有关的变量,但是变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般来说,虽然每个变量都提供了一定的信息,但其重要性不同,变量之间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以”改造“,用极少的互补相关的新变量来反映原变量所提供的绝大部分信息。2023/1/1628三、主成分分析2.主成分分析的基本思想
主成分分析是采取以一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使得这些综合变量能尽可能代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法叫做主成分分析或主分量分析。•••••••••••••••••••••••••
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年开发商与购房者长租公寓买卖合同范本3篇
- 二零二五年度餐饮服务业劳动合同模板及食品安全3篇
- 二零二五版特种动物繁育与购销一体化服务合同3篇
- 二零二五年教育机构教学资源整合合同书3篇
- 二零二五年空压机租赁与应急响应服务合同3篇
- 二零二五年教育培训机构代理招生合同模板3篇
- 二零二五版未成年人抚养权变更合同3篇
- 二零二五年度财务风险控制合同3篇
- 二零二五年度钢材采购与智能制造合作合同3篇
- 二零二五版豪华游轮包船旅游运输服务合同参考模板2篇
- 2024版个人私有房屋购买合同
- 2025年山东光明电力服务公司招聘笔试参考题库含答案解析
- 《神经发展障碍 儿童社交沟通障碍康复规范》
- 2025年中建六局二级子企业总经理岗位公开招聘高频重点提升(共500题)附带答案详解
- 2024年5月江苏省事业单位招聘考试【综合知识与能力素质】真题及答案解析(管理类和其他类)
- 注浆工安全技术措施
- 2024年世界职业院校技能大赛“食品安全与质量检测组”参考试题库(含答案)
- 3-9年级信息技术(人教版、清华版)教科书资源下载
- 上海牛津版三年级英语3B期末试卷及答案(共5页)
- 行为疼痛量表BPS
- 小学生必背古诗词80首(硬笔书法田字格)
评论
0/150
提交评论