智能决策理论与方法讲义和企业分配决策_第1页
智能决策理论与方法讲义和企业分配决策_第2页
智能决策理论与方法讲义和企业分配决策_第3页
智能决策理论与方法讲义和企业分配决策_第4页
智能决策理论与方法讲义和企业分配决策_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

决策理论与方法(4)

——智能决策理论与方法(1)合肥工业大学管理学院Tuesday,May30,2023不确定性决策不确定性决策:指难以获得各种状态发生的概率,甚至对未来状态都难以把握的决策问题。特点:状态的不确定性。不确定性:不确定性来自人类的主观认识与客观实际之间存在的差异。事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性,都反映了这种差异,都会带来不确定性。不确定性就造成了具有相同描述信息的对象可能属于不同概念。解决问题的主要理论方法:人工智能与不确定性理论决策理论与方法-智能决策理论与方法智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习决策理论与方法-智能决策理论与方法智能决策理论与方法—形成背景人类面临越来越复杂的决策任务和决策环境:决策问题所涉及的变量规模越来越大;决策所依赖的信息具有不完备性、模糊性、不确定性等特点,使得决策问题难以全部定量化地表示出来;某些决策问题及其目标可能是模糊的、不确定的,使得决策者对自己的偏好难以明确,随着决策分析的深入,对决策问题的认知加深,自己原有的偏好/倾向得到不断地修正,使得决策过程出现不断调整的情况,这时,传统的决策数学模型已经难以胜任求解复杂度过高的决策问题、含有不确定性的决策问题以及半结构化、非结构化的决策问题,因而产生了智能决策理论、方法及技术。决策理论与方法-智能决策理论与方法智能决策理论与方法—AI的应用模式智能决策方法是应用人工智能(ArtificialIntelligence,AI)相关理论方法,融合传统的决策数学模型和方法而产生的具有智能化推理和求解的决策方法,其典型特征是能够在不确定、不完备、模糊的信息环境下,通过应用符号推理、定性推理等方法,对复杂决策问题进行建模、推理和求解。AI应用于决策科学主要有两种模式:针对可建立精确数学模型的决策问题,由于问题的复杂性,如组合爆炸、参数过多等而无法获得问题的解析解,需要借助AI中的智能搜索算法获得问题的数值解;针对无法建立精确数学模型的不确定性决策问题、半结构化或非结构化决策问题,需要借助AI方法建立相应的决策模型并获得问题的近似解。决策理论与方法-智能决策理论与方法智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习决策理论与方法-智能决策理论与方法知识发现—动机智能决策的核心是如何获取支持决策的信息和知识。问题知识获取是基于知识的系统(KBS)的最大瓶颈推理机知识工程师领域专家决策者知识库问题请求推理结果决策理论与方法-智能决策理论与方法知识发现—动机问题推理规则的获取与KBS中知识获取一样难,因而基于案例推理(Case-BasedReasoning)渐渐变成基于案例检索(Case-BasedRetrieving)。推理机决策者案例库问题请求推理结果规则库知识工程师领域专家决策理论与方法-智能决策理论与方法知识发现—动机决策者数据分析师数据中心不一定满意的决策决策支持查询查询结果问题数据分析师与决策者之间对问题的理解存在偏差缺少有创造性的决策建议技术问题:如查询效率(RDBMS)决策理论与方法-智能决策理论与方法知识发现—动机推理机数据挖掘工具数据中心决策者知识库问题请求推理结果背景知识领域专家优点知识独立于问题本身知识的获取主要通过数据挖掘实现有创造性收获决策理论与方法-智能决策理论与方法知识发现—动机KDD带来的新问题知识发现问题:如何从数据中将知识挖掘出来?面临许多技术问题:如数据异构问题、数据具有噪音且信息不完整、使用什么样的挖掘算法、知识如何表示等知识评价问题:数据本身具有权威性、客观性,但知识不具备。知识如何评价?决策理论与方法-智能决策理论与方法知识发现—基本概念知识发现(KnowledgeDiscoveryinDatabases,KDD):从大量数据中提取隐含的(预先未知、新颖)、有潜在应用价值的(可信、有效)并最终能被人理解的模式的非平凡过程。也称为数据挖掘(DataMining)。此过程主要包含三个阶段:数据准备阶段、数据挖掘阶段、解释评价阶段。抽样预处理数据挖掘解释/评价数据中心样本集预处理结果变换结果挖掘结果知识任务描述变换决策理论与方法-智能决策理论与方法知识发现—基本概念数据准备阶段一般包含数据选取、预处理和数据变换等任务:数据选取:根据用户的需要从原始数据集中抽取一组样本数据确定挖掘任务的操作对象。常见数据源:关系型数据库数据:如营销数据库文本数据:内容挖掘(如Web内容挖掘,寻找相似页面)Web数据:站点结构数据(如Web结构挖掘,优化站点设计,站点导航,自适应站点);站点使用数据或点击流数据(如Web使用挖掘,用户聚类、页面聚类,个性化推荐等)空间数据、图像数据、视频数据等。决策理论与方法-智能决策理论与方法知识发现—基本概念数据预处理:噪音数据处理、空值处理、属性类型转化噪音数据处理:噪音数据往往是因输入错误而导致的、或受某种外界因素干扰而有意识提供的错误数据。如何剔除噪音数据?噪音数据与系统中的一些小概率数据统称为“异常数据(Outlier)”,如何区分噪音数据和小概率数据?空值处理:有些数据由于“不重要”、不知道或“不愿意”而没有获得,引起某些属性值未知,称此类值为空值。如何处理这些缺失值?属性类型转化:连续属性离散化或将离散属性拟合成连续属性等。决策理论与方法-智能决策理论与方法知识发现—基本概念数据变换(数据约简):通过某种方法降低算法的搜索空间。垂直约简(也称特征选择、属性约简):使用降维或变换方法减少变量数目,是典型的组合优化问题。水平约简是通过对对象的分析(包括离散化、泛化等),合并具有相同属性值的对象,减少对象数目。决策理论与方法-智能决策理论与方法知识发现—基本概念数据挖掘阶段:应用相关算法从准备好的数据中寻找数据中隐含的对信息利用如预测、决策等有价值的模式。需要考虑的问题:任务的确定:分类、聚类、关联规则发现等。方法的选择:统计方法、机器学习方法、不确定性方法、数据库技术等。是知识发现的核心,也是被研究最广泛的内容。数据挖掘方法很多,需要我们对它们的适用条件、前提假设有充分的了解。运行效率分析:不同的算法其效率存在很大差异。算法设计与选择往往就是精度与效率之间的权衡。决策理论与方法-智能决策理论与方法知识发现—基本概念数据挖掘任务及常采用的方法:归纳总结:从泛化的角度总结数据,即从低层次数据抽象出高层次的描述的过程。主要方法:归纳学习。发现关联规则:关联规则的形式为A→B,A为前件,B为后件。(Day=Friday)and(Product=Nappies)→(Product=Beer)为一典型关联规则A为满足前件的对象集,B为满足后件的对象,N为全部对象集。典型方法:Apriori算法。决策理论与方法-智能决策理论与方法知识发现—基本概念分类(等价关系,判别):按类标签(为数据库中的某属性集,一般仅包含一个属性)对数据库中的对象进行分类,具有相同标签值或标签值在指定区间内的对象属于同类。分类规则是判断某个对象属于某类的充分条件即对象具有某类的属性时则表示该对象属于该类。其规则形式一般为IFLogicExpThenA类ElseB类。主要方法:逻辑回归、判别分析、决策树、ANN、粗糙集、SVM等。聚类(相容关系):聚类也叫分段,就是将数据库中的实体分成若干组或簇,每簇内的实体是相似的。规则形式为IFO1与O2相似ThenO1、O2在同一簇。对象相似的判断方法有多种如距离法。典型方法:K-means决策理论与方法-智能决策理论与方法知识发现—基本概念发现特征规则:特征规则是刻划某个概念的特征的断言,它相当于分类规则的逆命题。例如病症是某种疾病的特征。规则一般形式是:IFA类Then特征表达式。序列模式发现:它与关联规则相似,不同之处在于事件的发生有前后顺序,该规则一般形式为:At(i)→Bt(j)其中t(i)<t(j)。例如序贯规则JacketandTie→Shoes表示客户在买了“夹克”和“领带”之后就会买“鞋”。决策理论与方法-智能决策理论与方法知识发现—基本概念偏离探测:探测测量值与期望值之间的差别并对其进行解释。常有三种偏离类型:随时间偏离(以历史值为期望值)、与标准偏离(以标准值为期望值)、与预测偏离(以预测值为期望值)。回归:根据历史数据拟合一函数将属性集映射到相应的值集。回归可以看作一种分类,区别是分类的类标签值是离散的,而回归是连续的。决策理论与方法-智能决策理论与方法知识发现—基本概念neurallinerprofit010005000mins回归模型m-male,f-femalemfmmmmmmmfmmmmmmmmmffmmmmmmmmmmmfmmmmmmmmmmmmmmmmmmmf16K64K32K20304050ageincome聚类模型决策理论与方法-智能决策理论与方法知识发现—基本概念数据挖掘方法DataMining统计方法·相关分析·线性回归·主成分分析·聚类分析数据库技术·面向数据集方法·面向属性归纳·数据库统计机器学习·规则归纳·基于案例推理·遗传算法·神经网络不确定性理论·贝叶斯网络·模糊逻辑·粗糙集理论·证据理论可视化技术决策理论与方法-智能决策理论与方法知识发现—基本概念解释与评价阶段:结果筛选:过滤(移去)不感兴趣的或显而易见的模式。利用描述规则特征的数值如信度、支持度或兴趣度等,定义某个阈值,对规则进行筛选;指定语义约束,规则的前件或后件只包含感兴趣的属性,或者指定属性间的依赖性约束;完全依靠用户对处理结果进行筛选。决策理论与方法-智能决策理论与方法知识发现—基本概念结果评价:确定所发现模式的可信度。基本方法是将样本数据集分成二部分,一部分是训练集用来发现模式,另一部分是测试集,分析结果的可信度。处理结果维护:信息处理所涉及的样本数据集常常是动态变化的,因此需要对所处理的结果进行维护以保证结果与数据的变化相一致。维护可以对数据变化引起的特殊问题重新应用所建立的处理方法,或者应用某种增量处理算法。决策理论与方法-智能决策理论与方法知识发现—空值估算空值是指属性值未知且不可用、与其它任何值都不相同的符号。在样本数据集中,空值在所有非主码属性中都可能出现。空值出现的主要原因:在信息收集时忽略了一些认为不重要的数据或信息提供者不愿意提供,而这些数据对以后的信息处理可能是有用的;某些属性值未知;数据模型的限制。决策理论与方法-智能决策理论与方法知识发现—空值估算空值处理的常用方法:从训练集中移去含未知值的实例;用某个最可能的值进行替换;基于样本中其它属性的取值和分类信息,构造规则来预测丢失的数据,并用预测结果“填补”丢失值;应用贝叶斯公式确定未知值的概率分布,选择一最可能的值填补空值或根据概率分布用不同值填补空值形成多个对象;将含有未知值的一个给定样本数据集转换成一个新的、可能不相容的但每个属性值均已知的数据集,方法是将某个属性的未知值用所有该属性的可能值替换形成多个数据集。决策理论与方法-智能决策理论与方法知识发现—连续属性离散化问题描述

设为一样本数据集,为非空有限集合,C是条件属性集,D是决策属性集。假设对于任意有,R是实数集,则为连续属性。设是上的分割点集合,记为其中,为一整数,表示离散化程度,可以看作按属性将论域中的对象分成类。3kiki-121……决策理论与方法-智能决策理论与方法知识发现—连续属性离散化对于需要离散化的连续属性集,其分割点集合记为将ci属性的连续取值映射到离散空间,即对于任意若其属性ci的取值在区间内,则将属性值重新标记为j。这样就把原来含有连续属性的样本数据集A转换成离散化的数据集。因此离散化问题本质上可归结为利用选取的分割点对属性的值域空间进行划分的问题。决策理论与方法-智能决策理论与方法知识发现—连续属性离散化离散化方法典型的有等区间方法、等信息量方法、基于信息熵的方法、Holte的1R离散化方法、统计试验方法、超平面搜索方法以及用户自定义区间等。应用不同的准则可将现有的离散化方法分为局部与全局方法(论域空间)、静态与动态方法(属性空间)和有导师与无导师方法(是否依赖决策属性)。(1)等区间离散化方法等区间分割是将连续属性的值域等分成()个区间,一般由用户确定。决策理论与方法-智能决策理论与方法知识发现—连续属性离散化假设某个属性的最大属性值为xmax,最小属性值为xmin,用户给定的分割点参数为k,则分割点间隔为δ=(xmax-xmin)/k,所得到的属性分割点为xmin+i,i=1,2,…,k。(2)等信息量离散化方法等信息量分割首先将测量值进行排序,然后将属性值域分成k个区间,每个区间包含相同数量的测量值。假设某个属性的最大属性值为xmax,最小属性值为xmin,用户给定的分割点参数为k,样本集中的对象个数为n,则需要将样本集中的对象按该属性的取值从小到大排列,然后按对象数平均划分为k段即得到分割点集,每两个相邻分割点之间的对象数均为n/k。决策理论与方法-智能决策理论与方法知识发现—连续属性离散化(3)统计试验方法统计试验方法根据决策属性分析区间划分之间的独立程度,确定分割点的有效性。对于任意分割点,均可将分成2个区间和,两区间的独立程度为:其中:r是决策类数目nij是在第l区间中属于第j决策类的对象数决策理论与方法-智能决策理论与方法知识发现—连续属性离散化若,则取基于统计试验的离散化方法是将值较大的分割点作为有效分割点。决策理论与方法-智能决策理论与方法知识发现—关联规则发现(Apriori算法)TheApriorimethod:ProposedbyAgrawal&Srikant1994Majoridea:AsubsetofafrequentitemsetmustbefrequentE.g.,if{beer,diaper,nuts}isfrequent,{beer,diaper}mustbe.Anyoneisinfrequent,itssupersetcannotbe!Apowerful,scalablecandidatesetpruningtechnique:Itreducescandidatek-itemsetsdramatically(fork>2)决策理论与方法-智能决策理论与方法知识发现—关联规则发现(Apriori算法)关联规则的例子ForruleA

C:support=support({A

C})=50%confidence=support({A

C})/support({A})=66.6%TheAprioriprinciple:Anysubsetofafrequentitemsetmustbefrequent.Min.support50%Min.confidence50%决策理论与方法-智能决策理论与方法知识发现—关联规则发现(Apriori算法)ProcedureFindthefrequentitemsets:thesetsofitemsthathaveminimumsupport(Apriori)Asubsetofafrequentitemsetmustalsobeafrequentitemset,i.e.,if{A

B}is

afrequentitemset,both{A}and{B}shouldbeafrequentitemsetIterativelyfindfrequentitemsetswithcardinalityfrom1tok(k-itemset)Usethefrequentitemsetstogenerateassociationrules.决策理论与方法-智能决策理论与方法知识发现—关联规则发现(Apriori算法)AlgorithmJoinStepCk

isgeneratedbyjoiningLk-1withitselfPruneStepAny(k-1)-itemsetthatisnotfrequentcannotbeasubsetofafrequentk-itemset,henceshouldberemoved.(Ck:Candidateitemsetofsizek)(Lk:frequentitemsetofsizek)决策理论与方法-智能决策理论与方法知识发现—关联规则发现(Apriori算法)Pseuode(正式代码见附件1)Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for(k=1;Lk!=;k++)dobegin

Ck+1=candidatesgeneratedfromLk;

foreachtransactiontindatabasedo

incrementthecountofallcandidatesinCk+1thatarecontainedint

Lk+1=candidatesinCk+1withminsupport

endreturn

k

Lk;决策理论与方法-智能决策理论与方法知识发现—关联规则发现(Apriori算法)DatabaseDScanDC1L1L2C2C2ScanDC3L3ScanD决策理论与方法-智能决策理论与方法知识发现—聚类(K-means算法)聚类分析是把研究对象按照一定的规则分成若干类别,并使类之间的差别尽可能地大,类内的差别尽可能地小,换句话说,使类间的相似性最小、而类内的相似性最大。聚类方法的核心问题是样品间的相似性度量,通常用距离来度量。决策理论与方法-智能决策理论与方法知识发现—聚类(K-means算法)聚类分析中的常用距离(1)欧氏(Euclidean)距离(2)绝对距离(3)Minkowski距离显然当m=1时就是绝对距离,m=2时就是欧氏距离。在实际应用时常分析两个样品之间的相对距离,这时需要对样品数据进行标准化处理,然后用标准化数据计算距离。决策理论与方法-智能决策理论与方法知识发现—聚类(K-means算法)对于给定的n个样品,先粗略地形成k(k≤n)个分割,使得每个分割对应一个类、每个类至少有一个样品并且每个样品精确地属于一个类,然后按照某种原则进行修正,直至分类比较合理为止。具体步骤如下:(1)聚点的选择:聚点是一批有代表性的样品,它的选择决定了初始分类。首先确定分类数k,然后选择k个有代表性的样品作为每个类的初始元素即聚点。聚点可由用户根据经验选择,也可将全部样品人为地或随机地分成k类,以每类的重心作为聚点。决策理论与方法-智能决策理论与方法知识发现—聚类(K-means算法)聚点的最小最大原则选择法:①设将n个样品分成k类,先选择所有样品中相距最远的两个样品为前两个聚点,因此有②设已经找到了l个(2≤l<k)聚点,则第l+1个聚点的选择方法是使得与前l个聚点的距离最小者等于所有其余的与前l个聚点的较小距离的最大者,直至选定k个聚点,即将所获得的k个聚点的集合记为决策理论与方法-智能决策理论与方法知识发现—聚类(K-means算法)(2)初始聚类有了聚点集合后,可根据下列最靠近原则实现初始分类:若对于某样品x出现,则x任意归于Gi(0)或Gj(0)类。这样就得到了样品空间的初始分类:决策理论与方法-智能决策理论与方法知识发现—聚类(K-means算法)(3)迭代过程设聚类形成的一个分类为则可从G(m)出发计算新的聚点集合L(m+1)。一般可以以G(m)中各类的重心作为新的聚点。其中根据新的聚点集,对样品空间重新聚类,形成新的分类:其中决策理论与方法-智能决策理论与方法知识发现—聚类(K-means算法)(4)迭代终止随着m的增大,分类趋于稳定。当G(m+1)=G(m)或在一定的精度范围内近似有G(m+1)=G(m),则递推过程结束。决策理论与方法-智能决策理论与方法智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习决策理论与方法-智能决策理论与方法预备知识——相关名词解释论域:研究对象的全体成员构成的集合,一般用字母U表示;若XU,则称X是U的子集隶属度:描述一个对象x与某个子集X之间的隶属程度,一般用符号表示,若xX,则=1;若,则=0;其他:0<<1;(常用某个函数加以描述,称为隶属度函数)高斯函数粗糙集理论(RoughSetTheory)预备知识——相关名词解释等价关系:R是U上的一个等价关系,当且仅当对于任意xU,均有xRx(自反性)对于任意x,yU,xRy↔yRx(对称性)对于任意x,y,zU,xRy∧yRz→xRz(传递性)等价类:若R是U上的一个等价关系,对于任意xU,称集合[x]={y|yRx,yU}为U关于R的一个等价类,记为[x]R。设X1,X2,…,Xn是U关于R的所有等价类,则有:Xi∩Xj=φ(i≠j,i,j=1,2,…,n)X1∪X2∪…∪Xn=U划分:所有等价类的集合称为U关于R的商集,它构成了U的一个划分,记为U/R。概念:具有相同特征值的一群对象称为一个概念(一个等价类就是一个概念)粗糙集理论(RoughSetTheory)预备知识——相关名词解释piT1pjiffv(pi,T1)=v(pj,T1),则T1是U上的一个等价关系(类似地可以定义T2,T3,E)X1=[p1]=[p4]=[p6]={p1,p4,p6}为U关于T1的一个等价类X2=[p2]=[p3]=[p5]={p2,p3,p5}为U关于T1的另一个等价类(T1有多少种取值就有多少个等价类)显然X1∩X2=φ;X1∪X2=U商集U/T1={X1,X2}UT1

T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY粗糙集理论(RoughSetTheory)预备知识——成员集合成员:明确的隶属关系模糊成员:概念模糊(如青年)导致成员模糊粗糙成员:概念清晰(如感冒),成员模糊(是否感冒不清楚),具有概率特征(隶属函数),但不是概率问题,只是由于根据可用知识无法得到准确结论。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——RST的提出粗糙集理论由Pawlak提出[1982,1991]。粗糙集理论反映了人们以不完全信息或知识去处理一些不可分辨现象的能力,或依据观察、度量到某些不精确的结果而进行分类数据的能力。PawlakZ.,Roughsets.InternationalJournalofComputerandInformationSciences,1982(11):341-356PawlakZ.,Roughset—TheoreticalAspectsofReasoningaboutData,Dordrecht,Boston,London:KluwerAcademicPublishers,1991粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——基本思想知识是主体对论域中的客体进行分类的能力,分类能力越强,主体所具备知识的可靠度越高

分类能力受主体分辨能力的影响,因此分类具有近似性

(粗糙集)影响分类能力的因素(在信息系统中常描述为属性)很多,不同的因素重要程度不同,其中某些因素起决定性作用

(属性重要性:属性约简)具有相同属性的实体,属性取值的不同对分类能力也产生影响

(值重要性:值约简)属性之间存在某种依赖关系(决策规则)粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——信息系统与知识信息系统I可以定义为四元组<U,A,V,f>,其中有限非空集合U是论域,A为关于U的属性集,,Va表示属性a的值域,映射f:U×A→V表示对xU,aA,有:f(x,a)V。决策表:若属性集合A可进一步分为两个属性子集的并:条件属性集C和决策属性集D,A=C∪D,C∩D=φ,则信息系统也被称为决策表。UT1

T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——信息系统与知识A的任何一个子集B确定一个U上的二元关系IND(B):对于任意aB,xIND(B)ya(x)=a(y);x,yU;a(x)表示对象x的a属性值。则称IND(B)为不可分辨关系(?)。IND(B)是等价关系,IND(B)的所有等价类的集合记为U/B(称为知识B),含有元素x的等价类记为B(x)或[x]B,同一等价类中的元素是不可分辨的,称IND(B)等价类为初等集(范畴),它是知识库的基本结构单元即概念。设R是由属性集A的子集诱导的论域U上的等价关系族,则称R为U上的一个知识库,记为K=(U,R)。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——粗糙集与近似对于U的任意子集X,若X恰能由知识R的若干个初等集的并构成,则称X为R-精确集,否则为R-粗糙集。每个粗糙集X都可用两个与之相关的精确集近似表示即X的上近似和下近似,他们是粗糙集理论的两个最基本运算。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——粗糙集与近似下近似由所有包含于X的初等集合的并构成,X的下近似中的元素一定属于X。上近似由与X的交为非空的初等集合的并构成,而上近似中的元素可能属于X。上近似与下近似的差为边界域,粗糙集的边界域为非空,否则为精确集。边界域中的元素根据可用知识没有确定的分类,即它既不能划分到X中也不能划分到X的补集中。正域与负域粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——经典粗糙集模型论域U粗糙集X粗糙集X粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——经典粗糙集模型R1={T1}:U/R1={{p2,p3,p5},{p1,p4,p6}};R2={T2,T1}:U/R2={{p1,p4,p6},{p2,p5},{p3}};R3={T1,T2,T3}:U/R3=({p1},{p3},{p6},{p2,p5},{p4}};F={E}:U/F={{p1,p2,p3,p6},{p4,p5}}X1={p1,p2,p3,p6}是R3粗糙集,X1的R3下近似是{p1,p3,p6},R3上近似是{p1,p2,p3,p5,p6},边界域为{p2,p5};X2={p4,p5}也是R3粗糙集,X2的R3下近似是{p4},X2的R3上近似是{p2,p4,p5},而边界域是{p2,p5}。T1

T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——粗糙集数字特征精度:X的R精度反映了我们对于了解集合X的知识的完全程度。αR(X)=1为精确集,0≤αR(X)<1为粗糙集。粗糙度:X的R粗糙度反映了我们对于了解集合X的知识的不完全程度。(精度与概率或隶属度的区别)隶属度:是根据可用知识R,对象x隶属于概念X的条件概率。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——粗糙集数字特征设F={X1,X2,…,Xn}是论域U上的一个划分,那么根据知识R,F的分类精度如何?F的近似精度:分类的近似精度给出了根据现有知识对对象进行分类时可能正确的决策的百分数。F的近似质量:近似质量给出了能正确分类的百分数。这是一个非常重要的特征数字,它反映了两种分类F和R之间的关系。如果将R看作决策表中的条件属性集,F看成决策属性集,近似质量反映了两者之间的依赖关系。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——粗糙集数字特征知识R={T1,T2,T3}:U/R=({p1},{p3},{p6},{p2,p5},{p4}};分类F={E}:U/F={{p1,p2,p3,p6},{p4,p5}}X1={p1,p2,p3,p6}是R粗糙集,X1的R下近似是{p1,p3,p6},R上近似是{p1,p2,p3,p5,p6},R精度为0.6;R粗糙度为0.4;

X2={p4,p5}也是R粗糙集,X2的R下近似是{p4},X2的R上近似是{p2,p4,p5},R精度为0.333;R粗糙度为0.667;p2隶属于X1的隶属度为0.25。T1

T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——粗糙集数字特征知识R={T1,T2,T3}:U/R=({p1},{p3},{p6},{p2,p5},{p4}};分类F={E}:U/F={{p1,p2,p3,p6},{p4,p5}}X1={p1,p2,p3,p6}是R粗糙集,X1的R下近似是{p1,p3,p6},R上近似是{p1,p2,p3,p5,p6};

X2={p4,p5}也是R粗糙集,X2的R下近似是{p4},X2的R上近似是{p2,p4,p5};F的近似精度为0.5;F的近似质量为0.667。T1

T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——知识依赖为了寻找“IF……THEN”形式的推理规则,在粗糙集理论体系中所采用的方法是从一个给定的知识,推导另一个知识。如果知识D的所有初等范畴都能用知识C的某些初等范畴来定义,则称知识D可由知识C推得,也称D完全依赖于C,记为CD。设信息系统I=<U,A,V,f>,A=C∪D,BC,则D的B正域定义为:D的B正域表示利用知识B,能正确地划分到U/D各等价类中的所有对象的集合粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——知识依赖设信息系统I=<U,C∪D,V,f>,①D完全依赖于C当且仅当②D等价于C当且仅当(CD)(DC);③D独立于C当且仅当(CD)(DC)。如果知识D的部分初等范畴能用知识C的某些初等范畴来定义,称知识D部分依赖于知识C。设信息系统I=<U,C∪D,V,f>,有:则称D是k(0k1)度依赖于C,记为CkD。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——知识依赖R1={T1}:U/R1={{p2,p3,p5},{p1,p4,p6}};R2={T2,T1}:U/R2={{p1,p4,p6},{p2,p5},{p3}};R3={T1,T2,T3}:U/R3=({p1},{p3},{p6},{p2,p5},{p4}};F={E}:U/F={{p1,p2,p3,p6},{p4,p5}}X1={p1,p2,p3,p6}是R3粗糙集,X1的R3下近似是{p1,p3,p6},R3上近似是{p1,p2,p3,p5,p6};X2={p4,p5}也是R3粗糙集,X2的R3下近似是{p4},X2的R3上近似是{p2,p4,p5}。F的R3正域是{p1,p3,p4,p6},所以F对R3的依赖度是2/3。T1

T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY条件属性子集{T1}{T2}{T3}{T1,T2}{T1,T3}{T2,T3}{T1,T2,T3}依赖度k001/21/62/32/32/3粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——知识约简为什么要约简知识?判别:根据条件属性取值确定对象所属的类。实际:确定对象所属的类只需其中几个属性甚至一个属性,而不需要知道对象所有的属性,这与人类对实体的识别是一致的。表明:不同属性在分类时所起的作用是不同的。什么是知识约简?将知识库中某些不必要的等价关系(知识)移去的过程。设信息系统I=<U,C∪D,V,f>,BC,若C(D)=B(D)且B是D独立的,则B为C的D约简,记为REDD(C)。C的D约简是不含任何冗余知识且与C具有相同分类能力的子集(用知识C将对象划分到知识D的初等范畴中的能力)。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——属性重要性与属性核在确定某个决策目标时,不同属性的重要性是不同的,在一般分析中常用事先假设的权重来描述。粗糙集理论并不使用事先假设的信息,而是根据各属性的分类能力不同,确定该属性的重要性。处理方法是将该属性从信息表中移去,分析其对分类能力的影响,影响越大,属性越重要。设信息系统I=<U,C∪D,V,f>,对于C的非空子集B,其重要度为若B的重要度为0,则表示B可以从C中移去,也即B是冗余的。重要度可理解为移去B时所产生的分类误差。设信息系统I=<U,C∪D,V,f>,C中所有D不可省略的元素构成的集合称为C的D核,记作CoreD(C)。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——知识约简算法基于属性依赖度的属性约简:设决策表T=<U,CUD,V,f>,C,D分别为条件属性和决策属性,B是C的任一非空子集,对于粗糙集的VP-MD模型,D对B的依赖度为:则在B中增加某个属性pC-B所引起的k的变化大小为:γp(D|B)=γB∪{p}(D)-γB(D)γp(D|B)越大,说明在已知属性B的条件下,p对决策D越重要。基于属性依赖度的属性约简算法就是将γp(D|B)作为寻找最小属性约简的启发式信息。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——值约简为什么要约简属性值?在判断某个对象属于某类时,某个属性的取值不同,对分类产生的影响也不相同。例如,判断人的体形(瘦、中、胖)时,体重是重要属性。但若体重属性值为60Kg时,此人的体形要结合其身高、性别才能确定,但若体重属性值为150Kg时,我们几乎肯定他是个胖子,这时身高、性别已不重要,也就是说身高、性别的属性值是冗余的。什么是值约简?值约简就是移去对分类没有实际价值的冗余的属性值。粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——约简示例IF(T1,No)AND(T3,Normal)THEN(E,Yes)IF(T1,Yes)AND(T3,Normal)THEN(E,Yes)IF(T3,High)THEN(E,Yes)IF(T3,Low)THEN(E,No)IF(T1,Yes)AND(T3,Normal)THEN(E,No)IF(T3,High)THEN(E,Yes)条件属性子集{T1}{T2}{T3}{T1,T2}{T1,T3}{T2,T3}{T1,T2,T3}依赖度k001/21/62/32/32/3T1

T3Ep1NNormalYp2YNormalYp3-HighYp4-LowNp5YNormalNp6-HighY粗糙集理论(RoughSetTheory)粗糙集理论的经典模型——约简示例IF(T2,Yes)AND(T3,Normal)THEN(E,Yes)IF(T2,No)AND(T3,Normal)THEN(E,Yes)IF(T3,High)THEN(E,Yes)IF(T3,Low)THEN(E,No)IF(T2,No)AND(T3,Normal)THEN(E,No)IF(T3,High)THEN(E,Yes)T2T3Ep1YNormalYp2NNormalYp3-HighYp4-LowNp5NNormalNp6-HighY粗糙集理论(RoughSetTheory)企业分配决策

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论