基于三支决策理论的半监督学习_第1页
基于三支决策理论的半监督学习_第2页
基于三支决策理论的半监督学习_第3页
基于三支决策理论的半监督学习_第4页
基于三支决策理论的半监督学习_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于三支决策理论的半监督学习主讲人:付慧琳目录2.4基于三支决策粗糙集的办监督学习.基于三支决策理论的半监督学习2.5实验分析.2.3基于互信息的属性约约简.2.1引言.2.2问题描述及相相关工作.2.6结论.

引言

发现数据属性和类别属性之间的关联模式。并通过利用这些模式用来预测未知数据实例的类别属性。

利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。正如人们通过已知病例学习诊断技术那样,计算机要通过学习才能具有识别各种事物和现象的能力。用来进行学习的材料就是与被识别对象属于同类的有限数量样本。监督学习中在给予计算机学习样本的同时,还告诉计算各个样本所属的类别。监督学习名词解释数据没有目标属性,发现数据中存在的内在结构。

我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。也就是说根据类别未知(没有标记)的训练样本解决模式识别中的各种问题,如聚类,特征分析等。无监督学习名词解释

半监督学习(Semi-supervisedLearning)是监督学习与无监督学习相结合的一种学习方法。是近年来模式识别和机器学习领域研究的重点问题,它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。

半监督学习名词解释2.1引言:半监督学习的意义

传统机器学习问题主要包括有标记数据的分类和无标记数据的聚类,而在较多现实问题中(如垃圾邮件处理、网页分类和入侵检测等),由于获取数据标记的代价昂贵,以致有类别标记的数据较为稀少,而无标记的数据获取则相对容易,往往有大量无类别信息的数据可供使用。如果仅在有标记数据上通过约简而产生相应的分类器,其分类预测效果可能不理想。而不利用稀有的有标记数据进行聚类亦造成了重要信息的损失。因此,研究如何综合利用有标记和无标记数据(部分标记数据)进行有效的学习具有重要的意义。2.1引言:半监督分类的主要研究各模型的构造机理上可看出,其本质差别在于无标记数据选择和利用方式,其效果将直接影响半监督学习的性能。半监督分类大体上分为自训练、生成式模型、直推式支持向量机、多视图学习、图模型等方法。2.1引言:粗糙集理论

粗糙集理论作为处理不精确、不一致和不完备信息的有效方法。通过不可分辨关系对对象空间进行划分,运用上下近似算子来刻画不确定知识。但其本身对数据的要求过于严格,缺乏柔性或鲁棒性。决策粗糙集模型是三支决策理论典型范例,,由Yao于1989年提出。决策粗糙集模型是经典Pawlak粗糙集理论的概率拓展模型,该理论的核心内容是通过分析比较各种决策的风险损失,找出最小风险损失的决策,以此作为把对象划分到正域、负域和边界区域的依据。决策粗糙集将贝叶斯风险分析和概率型包含关系引入到粗糙集理论中,因此它在涉及风险决策的数据挖掘问题中具有很好的实用性。2.1引言本章针对部分标记数据属性约简问题,提出了基于最大相关最小冗余度的互信息半监督约简模型。基于该算法,提取两个差异性较大的属性子空间构成协同训练模型。然后运用决策粗糙集理论选择较优的无标记样本使两分类器交互学习,以增加有标记数据方式提升各分类器的性能。问题描述及相关工作在半监督分类问题中,待处理的数据对象仅有少量样本具有标记信息,而大量样本由于标记代价较大而无类别标记。半监督分类的目的是设计有效的学习模型,利用无标记数据的内在有用信息提升分类学习的性能。该问题可以形式化描述如下:给定一个来自未知分布的m维数据,其中l个具有标记信息,表示第i数据,表示的类别标号,共有K个类别,而n-l个样本无类别标记信息。半监督分类的目标是在数据U寻找目标函数,使其在样本空间中的判别能力达到最优。2.2问题描述及相关工作问题描述

Blum和Mitchell提出的协同训练(Co-training)是一种典型的半监督学习算法。算法假设部分标记数据的条件属性能自然地分割成两个充分且冗余的视图(属性子集),在两个视图上利用有标记数据分别训练初始分类器,然后在无标记数据上相互标记一些置信度较高的样本作为另一分类器的训练集,重复迭代直到满足某个停止条件2.2问题描述及相关工作Co-training半监督学习模型

充分冗余视图

Contents

两个满足下述条件的属性集:第一,每个属性集都足以描述该问题,也就是说,如果训练例足够,在每个属性集上都足以学得一个强学习器;第二,在给定标记时,每个属性集都条件独立于另一个属性集。例如,在一些网页分类问题上,既可以根据网页本身包含的信息来对网页进行正确分类,也可以利用链接到该网页的超链接所包含的信息来进行正确分类,这样的网页数据就有两个充分冗余视图,刻画网页本身包含的信息的属性集构成第一个视图,而刻画超链接所包含的信息的属性集构成第二个视图。2.2问题描述及相关工作首先:给出一些粗糙集理论的基本概念2.2问题描述及相关工作(决策粗糙集理论)定义2.12.2问题描述及相关工作2.2问题描述及相关工作定义2.22.2问题描述及相关工作定义2.32.2问题描述及相关工作定义2.42.2问题描述及相关工作定义2.52.2问题描述及相关工作定义2.62.2问题描述及相关工作1.1引言:三支决策的理论

aPaBaNXλPPλBPλNPXCλPNλBNλNN表2.1:不同决策方案在不同状态小的风险代价1.4三支决策与粗糙集

根据贝叶斯最小风险决策原则可以得到如下形式的决策规则:1.4三支决策与粗糙集

基于互信息的属性约简2.3基于互信息的属性约简

在高维数据中,许多特征可能是不相关或冗余的。此类特征存在可能误导学习算法,降低算法的学习速度及效率属性约简(特征选择)尝试从高维数据中去除不相关和冗余的特征,同时保持学习器的性能。属性约简是机器学习、模式识别和数据挖掘的重要数据处理过程,近年来已提出了许多高效算法。针对部分标记数据,研究学者提出了一些半监督属性约简的模型和算法。本章将互信息引入半监督属性约简,提出了一种新的半监督属性约简算法

。首先:给出一些相关基本概念及定义2.3基于互信息的属性约简定义2.72.3基于互信息的属性约简定义2.82.3基于互信息的属性约简定义2.92.3基于互信息的属性约简定义2.102.3基于互信息的属性约简互信息

互信息(MutualInformation)是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性。两个事件X和Y的互信息定义为:I(X,Y)=H(X)+H(Y)-H(X,Y)其中H(X,Y)是联合熵2.3.1基于互信息的半监督属性约简互信息是一种度量变量相关性的有效测度,相关学者已提出多个基于互信息的属性约简算法但已有算法仅限于处理有标记数据,也即算法都为有监督学习算法。半监督降维是传统有监督和无监督降维方法的有效综合,它既像监督降维方法那样利用数据标号,又类似无监督降维方法那样利用数据的某种结构信息,如数据的全局方差、局部结构等。2.3.1基于互信息的半监督属性约简2.3.1基于互信息的半监督属性约简在有标记

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论