版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、用身高体重数据进行性别分类实验一一.题目要求:1 用 dataset1.txt 作为训练样本,用dataset2.txt 作为测试样本,采用身高和体重数据为特征,在正态分布假设下估计概率密度(只用训练样本),建立最小错误率贝叶斯分类器,写出所用的密度估计方法和得到的决策规则,将该分类器分别应用到训练集和测试集,考察训练错误率和测试错误率。将分类器应用到dataset3 上,考察测试错误率的情况。(在分类器设计时可以尝试采用不同先验概率,考查对决策和错误率的影响。)2 自行给出一个决策表,采用最小风险贝叶斯决策重复上面的实验。二.数据文件:1.dataset1.txt- 328 个同学的身高、体
2、重、性别数据(78 个女生、250 个男生)(datasetf1:女生、datasetm1:男生)2.dataset2.txt -124 个同学的数据(40 女、84 男)3.dataset3.txt- 90 个同学的数据(16 女,74 男)三.题目分析: 要估计正态分布下的概率密度函数,假设身高随机变量为X,体重随机变量为Y,二维随机变量(X,Y)的联合概率密度函数是:px,y=12121-2exp-121-2x-1212-2x-1y-212+(y-2)222其中-x,y+;-1,20;-11. 并其1,2分别是X与Y的均值,12,22,分别是X与Y的方差,是X与Y的相关系数。运用最大似然
3、估计求取概率密度函数,设样本集中包含N个样本,即X=x1,x2,xN,其中xk是列向量。根据教材中公式,令=(1,2)T,则=1Nk=1Nxk;协方差矩阵=12121222,那么=1Nk=1N(xk-)(xk-)T。 采用最小错误率贝叶斯分类器,设一个身高体重二维向量为x,女生类为1,男生类为2,决策规则如下:x1,当P1x)P(2|x)2,当P2x)P(1|x)。概率P可以通过贝叶斯公式求解,采用和不同的先验概率,其结果也会有相应不同。然后逐一对样本数据进行检验,就可以分别得到各个训练集和测试集的错误率。采用最小风险贝叶斯决策,首先在前面最小错误率贝叶斯分类器的基础上计算出P1x),然后自己
4、设定一个主观的决策表,接着根据教材上的公式计算条件风险值,然后逐一比较风险值,找出条件风险最小的决策(也就是分为哪一类)。四.MATLAB程序实现:用最大似然估计求取概率密度函数Step1:获取样本数据,存储为矩阵A;Step2:对矩阵的每一行求和,并除以样本总数N,得到平均值向量;Step3:应用公式 =1Nk=1N(xk-)(xk-)T采用矩阵运算和循环控制语句求得协方差矩阵;Step4:通过协方差矩阵求得方差和相关系数,从而得到概率密度函数。Matlab程序文件名:readdata.m极大似然法求均值和方差(程序名:likelihood.m)readdata.m运行结果五.实验结果分析和
5、讨论: 在datasetf1.txt文件中,女生有78名,程序求解有其身高体重平均值分别是162.3205和51.4038.而协方差矩阵为=20.91018.30008.300026.7760。在datasetm1.txt中,男生有250人,平均身高体重分别是174.9960和67.2340,协方差矩阵为=28.314022.648922.648997.9862。所以女生的1=4.5728,2=5.1746,=0.3508,男生的1=5.3211,2=9.8988,=0.4300,所以女生和男生的概率密度函数分别是:p(x,y)=1139.2270exp-11.7539x-162.320522
6、0.9101-x-162.3205y-51.403833.7263+(y-51.4038)226.7760p(x,y)=1289.7922exp-11.6302x-174.9960228.3140-x-174.9960y-67.234061.2470+(y-67.2340)297.9862假设男女类别的先验概率用实际样本数据中男女的比例来近似,在datasetf1.txt文件中,运用最小错误率贝叶斯分类器,总共有12个女生被错误判断为男生,在datasetm1.txt文件中,有11个男生被错误判断为女生,总的错误为7%。(如下图)而dataset2.txt文件中, 4个女生判错,4个男生判错,总错误率3.4%,而在dataset3.txt文件中,2个女生判错,2个男生判错,2个女生判错,总错误率4.4%。(如下图)根据遗传学定律,男女比例近似1:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件单元测试计划
- 《同步电机励磁控制》课件
- 关于艾滋病的电影
- 《塑料发泡成型技术》课件
- 《连读与不完全爆破》课件
- 个体化药物治疗
- 《启科技公司简介》课件
- 现代办公事务处理值班表的编制
- 物理因子疗法及康复护理低频电疗
- 低血糖昏迷的应急预案
- 2023-2024学年高中主题班会 200天大有作为-高考倒计时200天主题班会课件
- 《C语言程序设计(第2版)》课后习题参考答案
- 办公家具投标方案
- 第六章 1弯曲变形课件
- 先进生产(工作者)申-报-表
- 《师生情谊》的主题班会
- 第三单元名著导读《红星照耀中国》领袖人物和红军将领的革命之路课件(共39张)语文八年级上册
- 小学几何解题全套43大定理
- 《创新创业基础-理论、案例与训练》教案 第8课 市场调查与分析目标市场
- 二级学院就业实施方案
- 特种设备事故隐患台账
评论
0/150
提交评论