




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章组合分类器主要内容6.1组合分类器的设计6.2Bagging算法6.3随机森林6.4Boosting算法6.5组合分类的实例输入样本个体分类器1个体分类器2
个体分类器M组合分类输出结果6.1组合分类器的设计(1)基本概念组合分类器:构建一组单独的分类器(个体),整合各个体分类器决策结果,以获得更好的性能。组合分类器示意图6.1组合分类器的设计个体分类器为同一种称为同质,反之称为异质要求:多样性,不同个体分类器间的分类结果具有差异性准确性,个体分类器具有较好的分类性能设计要点:个体分类器的差异设计分类器性能度量组合策略(1)基本概念(2)个体分类器的差异设计6.1组合分类器的设计数据样本扰动留出法获取不同的训练样本集,设计多个个体分类器将数据集X
划分为两个互斥子集,分别作为训练集和测试集,多次随机划分,用不同的训练集训练个体分类器。6.1组合分类器的设计交叉验证法
自举法可重复采样在数据集较小、难以有效划分时很有用,但是新的数据集改变了初始数据集的分布,会引入估计偏差6.1组合分类器的设计样本属性扰动随机选择训练样本部分维的数据,构成若干属性子集,基于每个属性子集训练个体分类器。属性个数减少而降低计算量,节省时间开销。由于属性间的冗余性,减少一些属性后依然能保证分类器的性能。如果数据本身属性较少,或者冗余性低,则不适合采用这种方法。特点6.1组合分类器的设计参数扰动通过随机设置分类器的参数,产生差异性较大的个体分类器。(3)分类器性能度量6.1组合分类器的设计真实状态决策结果正例负例正例真正例(TP)假负例(FN)负例假正例(FP)真负例(TN)二分类时状态与决策的可能关系正确率:错误率:6.1组合分类器的设计查准率、查全率及相关性能度量查准率:查全率:真实状态决策结果正例负例正例真正例(TP)假负例(FN)负例假正例(FP)真负例(TN)查准率(Precision)和查全率(Recall)相互矛盾,不能同时得到最优值,往往查全率越高,查准率越低;查全越低,查准率越高。PR曲线和RP图:取不同阈值,得多组R、P值,以R作横轴,以P为纵轴,作图,越靠右上方,性能越好AP:RP曲线下的面积6.1组合分类器的设计F1度量:
0和1之间,越大性能越好
ROC曲线及相关性能度量6.1组合分类器的设计真正例率假正例率真实状态决策结果正例负例正例真正例(TP)假负例(FN)负例假正例(FP)真负例(TN)ROC(ReceiverOperatingCharacteristic)曲线:取不同阈值,得多组TPR、FPR值,以FPR作横轴,以TPR为纵轴,作图,越靠左上方,性能越好AUC:ROC曲线下的相对面积其他性能度量6.1组合分类器的设计决策错误带来的损失,称为代价矩阵。计算复杂度,一般通过比较分类器在执行过程中耗费的CPU总数来实现。分类器的鲁棒性:能否处理含有噪声的或不完整的数据。使用不同的性能度量评价不同的方面,但不能简单地定义分类器的好坏,需要根据具体的任务需求、数据分布特点等,选择合适的分类器。(4)组合策略6.1组合分类器的设计采用一定的方式将不同分类器的输出组合,常用的有平均规则、投票规则、加权处理等方法。平均规则或者
6.1组合分类器的设计投票规则绝对多数投票法:
6.1组合分类器的设计投票规则相对多数投票法:加权投票法:6.1组合分类器的设计基于贝叶斯决策思路的组合策略样本x在分类器的输入:不同类型的分类器输出的类概率值不能直接进行比较,可以转化为类标记输出进行投票6.2Bagging算法BootstrapAggregating,多次采样同一数据集得到多组数据,分别进行训练得到若干弱分类器,再通过对弱分类器结果投票得到强分类器特点:并行(1)基本概念例6-5:有12个血压数据,如表所示,用三个最小距离分类器设计Bagging组合分类器。
6.2Bagging算法序号123456血压(100,70)(119,80)(99,78)(105,75)(125,82)(123,85)是否高血压否否否否否否序号789101112血压(145,76)(123,92)(115,98)(150,80)(138,100)(144,97)是否高血压是是是是是是(2)例题设计一设计最小距离分类器一
决策抽样6.2Bagging算法随机自举采样,两类各自抽取4个样本,序号为6、6、5、2、10、7、9、8
设计二设计最小距离分类器二决策抽样随机自举采样,两类各自抽取4个样本,序号为1、2、3、1、10、9、11、116.2Bagging算法
设计三设计最小距离分类器三决策抽样随机自举采样,两类各自抽取4个样本,序号为4、6、4、6、8、11、8、116.2Bagging算法投票表决序号123456789101112-1-1-1-1-1-11-1-1111-1-1-1-111111111-1-1-1-1-1-1111111投票结果-1-1-1-1-1-11111116.2Bagging算法程序clc,clear,closeall;X1=[10070;11980;9978;10575;12582;12385];X2=[13576;12390;11598;13480;138100;14497];[N,n]=size(X1);result=zeros(2*N,1);M=3;form=1:Mmout=mdc(X1,X2,N);result=result+mout;endresult(result<0)=-1;result(result>0)=1;6.2Bagging算法functionout=mdc(in1,in2,N)
%最小距离分类器sampling1=randi(N,1,floor(N/2)+1);sampling2=randi(N,1,floor(N/2)+1);X1=in1(sampling1,:);
X2=in2(sampling2,:);m1=mean(X1);
m2=mean(X2);out1=ones(N,1);
out2=ones(N,1);
out1(pdist2(in1(1:N,:),m1)<pdist2(in1(1:N,:),m2))=-1;out2(pdist2(in2(1:N,:),m1)<pdist2(in2(1:N,:),m2))=-1;out=[out1;out2];end6.2Bagging算法6.3随机森林训练中的数据集只是所有可能的数据中的一次随机抽样,训练得到的分类器也具有一定的偶然性,是基于数据的模式识别方法都面临的一个共同问题决策树方法中构建决策树的过程是根据每个节点下局部的划分准则进行的,受样本随机性的影响可能更明显一些,容易导致过学习随机森林(RandomForest,RF):建立很多决策树,组成一个决策树的“森林”,通过多棵树投票来进行决策,能有效地提高对新样本的分类准确度RF除了样本扰动,还增加了属性扰动(1)基本概念6.3随机森林
增加样本和属性扰动,生成多棵决策树,对样本进行决策并投票。MATLAB中TreeBagger类使用TreeBagger函数创建,实现随机森林算法。(2)例题设计思路6.3随机森林程序clc,clear,closeall;loadfisheririsrng(1);Mdl=TreeBagger(30,meas,species)
view(Mdl.Trees{1},'Mode','graph')view(Mdl.Trees{2},'Mode','graph')view(Mdl.Trees{3},'Mode','graph')pattern=[5.7,2.6,3.5,1];label1=predict(Mdl,pattern,'Trees',2);label2=predict(Mdl,pattern,'Trees',[1,2,3]);label=predict(Mdl,pattern);6.3随机森林仿真结果lable1、label2、label均为1×1的元胞数组,取值均为'versicolor'(1)AdaBoost算法融合多个分类器进行决策的方法;不是简单地对多个分类器的输出进行投票决策,而是通过一个迭代过程对分类器的输入和输出进行加权处理。
基本思路6.4Boosting算法
初始化
分类器目标函数中各样本对应的项进行加权,具体问题具体分析6.4Boosting算法算法步骤6.4Boosting算法
例题6.4Boosting算法例6-7:有12个血压数据,如表所示,采用AdaBoost算法设计组合分类器。序号123456血压(100,70)(119,80)(99,78)(105,75)(125,82)(123,85)是否高血压否否否否否否序号789101112血压(145,76)(123,92)(115,98)(150,80)(138,100)(144,97)是否高血压是是是是是是采用最小距离分类器初始化进行分类设计最小距离分类器一
决策
错误率正确率:91.67%6.4Boosting算法
修改权系数
设计最小距离分类器二
决策
错误率6.4Boosting算法
修改权系数
设计最小距离分类器三
决策
错误率6.4Boosting算法
修改权系数
组合分类器
决策正确率:100%
6.4Boosting算法程序clc,clear,closeall;X=[10070;11980;9978;10575;12582;12385;...
14576;12392;11598;15080;138100;14497];[N,n]=size(X);y=ones(N,1);y(1:N/2)=-1;figure,gscatter(X(:,1),X(:,2),y,'rg','x*',8)xlabel('收缩压');ylabel('舒张压');holdonbeta=ones(N,1)/N;M=3;alpha=zeros(1,M);g=zeros(N,M);[~,~,result1]=mdc(X,y,beta,N);plot(X(result1~=y,1),X(result1~=y,2),'bo','MarkerSize',10);6.4Boosting算法准备工作form=1:M[beta,alpha(m),g(:,m)]=mdc(X,y,beta,N);ifalpha(m)==0break;endendresult2=alpha.*g;result2=sum(result2,2);result2=sign(result2);plot(X(result2~=y,1),X(result2~=y,2),'m>','MarkerSize',14);legend('第一类','第二类','弱分类错分样本',
'组合分类错分样本','Location','NW');holdoffratio1=sum(result1==y)/N;ratio2=sum(result2==y)/N;6.4Boosting算法设计组合分类器function[xcoef,alpha,g]=mdc(in,y,xcoef,N)temp=in.*xcoef;m1=sum(temp(y<0,:))/sum(xcoef(y<0));m2=sum(temp(y>0,:))/sum(xcoef(y>0));g=ones(N,1);dist1=pdist2(in,m1);dist2=pdist2(in,m2);g(dist1<dist2)=-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年天津市滨海新区天津开发区第一中学物理高二下期末教学质量检测试题含解析
- 工业厂房设备租赁合同
- 福建省泉州市南安市侨光中学2025届高二物理第二学期期末统考模拟试题含解析
- 山西省孝义市实验中学2025届物理高一下期末质量检测模拟试题含解析
- 2025版生物科技项目策划与研发委托合同
- 二零二五年度高空电梯安装工程劳务分包合同示例
- 2025版碧桂园特色小镇建设项目总承包施工合同书
- 2025版安能物流月结服务企业升级版合同
- 二零二五年度金融科技领域人才聘用合同
- 2025版拆墙工程施工人员管理协议书合同范本
- 核级设备设计制造规范ASME介绍
- 最简单封阳台安全免责协议书
- (正式版)JBT 3300-2024 平衡重式叉车 整机试验方法
- 咸阳市三原县社工招聘笔试真题
- 夏季高温期间建筑施工安全注意事项
- 甲型流感培训课件
- 双人徒手心肺复苏培训
- 康复医学科常用技术操作规范
- 《金融反欺诈与大数据风控研究报告(2023)》
- 传播学概论课件
- 中小学生天文知识竞赛(129题含答案)
评论
0/150
提交评论