版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
随机数学模型第1页,共28页,2023年,2月20日,星期日一、引例
1981年生物学家格若根(W.Grogan)和维什(W.Wirth)发现了两类蚊子(或飞蠓midges).他们测量了这两类蚊子每个个体的翼长和触角长,数据如下:翼长触角长类别
1.641.38Af1.821.38Af1.901.38Af1.701.40Af1.821.48Af1.821.54Af2.081.56Af翼长触角长类别1.781.14Apf1.961.18Apf1.861.20Apf1.721.24Af2.001.26Apf2.001.28Apf1.961.30Apf1.741.36Af数学模型第2页,共28页,2023年,2月20日,星期日问:如果抓到三只新的蚊子,它们的触角长和翼长分别为(l.24,1.80);
(l.28,1.84);(1.40,2.04).问它们应分别属于哪一个种类?
解法一:把翼长作纵坐标,触角长作横坐标;那么每个蚊子的翼长和触角决定了坐标平面的一个点.其中6个蚊子属于APf类;用黑点“·”表示;9个蚊子属Af类;用小圆圈“。”表示.得到的结果见图1图1飞蠓的触角长和翼长数学模型第3页,共28页,2023年,2月20日,星期日思路:作一直线将两类飞蠓分开
例如;取A=(1.44,2.10)和B=(1.10,1.16),过AB两点作一条直线:
y=1.47x-0.017其中X表示触角长;y表示翼长.
分类规则:设一个蚊子的数据为(x,y)如果y≥1.47x-0.017,则判断蚊子属Apf类;
如果y<1.47x-0.017;则判断蚊子属Af类.
数学模型第4页,共28页,2023年,2月20日,星期日分类结果:(1.24,1.80),(1.28,1.84)属于Af类;(1.40,2.04)属于Apf类.图2分类直线图
数学模型第5页,共28页,2023年,2月20日,星期日•缺陷:根据什么原则确定分类直线?
若取A=(1.46,2.10),B=(1.1,1.6)不变,则分类直线变为y=1.39x+0.071分类结果变为:
(1.24,1.80),
(1.40,2.04)属于Apf类;
(1.28,1.84)属于Af类
哪一分类直线才是正确的呢?
因此如何来确定这个判别直线是一个值得研究的问题.一般地讲,应该充分利用已知的数据信息来确定判别直线.数学模型第6页,共28页,2023年,2月20日,星期日再如,如下的情形已经不能用分类直线的办法:
数学模型第7页,共28页,2023年,2月20日,星期日第8页,共28页,2023年,2月20日,星期日1.距离判别法1.1欧氏Euclideandistance距离判别法1.2马氏
(P.C.Mahalanobis)距离判别法1.3海明Hamming距离判别法两个合法代码对应位上编码不同的位数称为海明距离。
第9页,共28页,2023年,2月20日,星期日合理的距离如果用dij表示第i个样品和第j个样品之间的距离,那么对于一切i,j和k,dij应该满足如下三个条件:
①dij≥0,当且仅当i=j时,dij=0(非负性)②dij=dji(对称性)③dij≤dik+dkj(三角不等式)
显然,欧氏距离满足以上三个条件。第10页,共28页,2023年,2月20日,星期日欧氏距离的缺点欧氏距离虽然简单,但也有明显的缺点。它将样本的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。第11页,共28页,2023年,2月20日,星期日马氏距离优缺点1)马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;2)在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。3)还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵不可逆,比如三个样本点(3,4),(5,6)和(7,8),这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下,也采用欧式距离计算。4)在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的,而所有样本点出现3)中所描述的情况是很少出现的,所以在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算不稳定,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。优点:
不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;
由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。
缺点:
夸大了变化微小的变量的作用。第12页,共28页,2023年,2月20日,星期日2.Fisher判别法Fisher~判别的基本思想是将k个总体的所有p维空间的样本点投影到一维空间上,使投影后组与组之间尽可能的分开,然后利用方差分析的方法推出判别函数。为了简单起见,通常利用线性的判别函数
u(x)=aTx.寻找一个最恰当的方向a,使在这个方向上,组间方差与组内方差的商最大第13页,共28页,2023年,2月20日,星期日求解最优判别方向等价于求解带约束函数优化问题可以证明:第14页,共28页,2023年,2月20日,星期日
第15页,共28页,2023年,2月20日,星期日Fisher判别法根据各个样本均值在最优方向上的投影值从小到大将样本集重新编号,假设序号仍然为G1~Gk。定出Gj和Gj+1的分界值uj,j=1~k-1,比如:确定样本类别:第16页,共28页,2023年,2月20日,星期日Bayes判别法距离判别法虽然简单,便于使用。但是该方法也有它明显的不足之处。 第一,判别方法与总体各自出现的概率的大小无关; 第二,判别方法与错判之后所造成的损失无关。Bayes判别法就是为了解决这些问题而提出的一种判别方法。第17页,共28页,2023年,2月20日,星期日一、Bayes判别的基本思想第18页,共28页,2023年,2月20日,星期日第19页,共28页,2023年,2月20日,星期日第20页,共28页,2023年,2月20日,星期日第21页,共28页,2023年,2月20日,星期日Bayes判别的基本方法
如果已知样品X来自总体Gi的先验概率为qi,,则在规则R下,由(4.12)式知,误判的总平均损失为第22页,共28页,2023年,2月20日,星期日第23页,共2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2016年河北省中考真题语文试题(解析版)
- 机器人系统讲解课程设计
- 机器人分类 课程设计
- 机制阶梯轴课程设计
- 2024年公共交通运营合同
- 2024年出租车行业车辆责任保险合同
- 2024至2030年调温多用电热锅项目投资价值分析报告
- 2024至2030年螺杆式空压机节电器项目投资价值分析报告
- 2024至2030年脉冲超短波电疗机项目投资价值分析报告
- 2024至2030年电子数显扭力起子项目投资价值分析报告
- 玻璃制造中的能源消耗与节能技术研究
- 岗台总校后勤管理参观考察心得体会
- 物业管理职业生涯规划书
- 第6课+三国两晋南北朝政权更迭与民族交融(教学设计)【中职专用】《中国历史》(高教版2023基础模块)
- 化工行业仓库管理与供应链优化方案
- 慢性伤口护理健康宣教课件
- 中国居民膳食指南(全)
- 建筑施工电动运输车辆进场验收表
- 《团队管理课件:如何建立高绩效团队》
- 数字化药房系统新趋势及优势
- XX元器件选用报告
评论
0/150
提交评论