第04讲智能决策理论与方法-176和科学决策与信息分析_第1页
第04讲智能决策理论与方法-176和科学决策与信息分析_第2页
第04讲智能决策理论与方法-176和科学决策与信息分析_第3页
第04讲智能决策理论与方法-176和科学决策与信息分析_第4页
第04讲智能决策理论与方法-176和科学决策与信息分析_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

决策理论与方法

——智能决策理论与方法(1)合肥工业大学管理学院Wednesday,May24,2023不确定性决策不确定性决策:指难以获得各种状态发生的概率,甚至对未来状态都难以把握的决策问题。特点:状态的不确定性。不确定性:不确定性来自人类的主观认识与客观实际之间存在的差异。事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性,都反映了这种差异,都会带来不确定性。不确定性就造成了具有相同描述信息的对象可能属于不同概念。解决问题的主要理论方法:人工智能与不确定性理论决策理论与方法-智能决策理论与方法智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习决策理论与方法-智能决策理论与方法智能决策理论与方法—形成背景人类面临越来越复杂的决策任务和决策环境:决策问题所涉及的变量规模越来越大;决策所依赖的信息具有不完备性、模糊性、不确定性等特点,使得决策问题难以全部定量化地表示出来;某些决策问题及其目标可能是模糊的、不确定的,使得决策者对自己的偏好难以明确,随着决策分析的深入,对决策问题的认知加深,自己原有的偏好/倾向得到不断地修正,使得决策过程出现不断调整的情况,这时,传统的决策数学模型已经难以胜任求解复杂度过高的决策问题、含有不确定性的决策问题以及半结构化、非结构化的决策问题,因而产生了智能决策理论、方法及技术。决策理论与方法-智能决策理论与方法智能决策理论与方法—AI的应用模式智能决策方法是应用人工智能(ArtificialIntelligence,AI)相关理论方法,融合传统的决策数学模型和方法而产生的具有智能化推理和求解的决策方法,其典型特征是能够在不确定、不完备、模糊的信息环境下,通过应用符号推理、定性推理等方法,对复杂决策问题进行建模、推理和求解。AI应用于决策科学主要有两种模式:针对可建立精确数学模型的决策问题,由于问题的复杂性,如组合爆炸、参数过多等而无法获得问题的解析解,需要借助AI中的智能搜索算法获得问题的数值解;针对无法建立精确数学模型的不确定性决策问题、半结构化或非结构化决策问题,需要借助AI方法建立相应的决策模型并获得问题的近似解。决策理论与方法-智能决策理论与方法智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习决策理论与方法-智能决策理论与方法知识发现—动机智能决策的核心是如何获取支持决策的信息和知识。问题知识获取是基于知识的系统(KBS)的最大瓶颈推理机知识工程师领域专家决策者知识库问题请求推理结果决策理论与方法-智能决策理论与方法知识发现—动机问题推理规则的获取与KBS中知识获取一样难,因而基于案例推理(Case-BasedReasoning)渐渐变成基于案例检索(Case-BasedRetrieving)。推理机决策者案例库问题请求推理结果规则库知识工程师领域专家决策理论与方法-智能决策理论与方法知识发现—动机决策者数据分析师数据中心不一定满意的决策决策支持查询查询结果问题数据分析师与决策者之间对问题的理解存在偏差缺少有创造性的决策建议技术问题:如查询效率(RDBMS)决策理论与方法-智能决策理论与方法知识发现—动机推理机数据挖掘工具数据中心决策者知识库问题请求推理结果背景知识领域专家优点知识独立于问题本身知识的获取主要通过数据挖掘实现有创造性收获决策理论与方法-智能决策理论与方法DataMiningwithintheDSS决策理论与方法-智能决策理论与方法知识发现—动机KDD带来的新问题知识发现问题:如何从数据中将知识挖掘出来?面临许多技术问题:如数据异构问题、数据具有噪音且信息不完整、使用什么样的挖掘算法、知识如何表示等知识评价问题:数据本身具有权威性、客观性,但知识不具备。知识如何评价?决策理论与方法-智能决策理论与方法参考书推荐决策理论与方法-智能决策理论与方法为什么要开展数据挖掘?信息技术的广泛应用产生了大量的数据:流数据(生产数据、监控数据、传感数据)各种(时间)序列数据(证券交易,基因序列)对象关系数据(社交网络,分子结构)管理数据(MIS,ERP:财务、人力资源、客户关系)空间数据(GIS、GPS)多媒体数据(视频监控,视频分享)文本数据(学术论文,新闻,微博,博客)万维网数据(内容,结构,使用,交易数据)……决策理论与方法-智能决策理论与方法为什么要开展数据挖掘?BigData——大数据时代第一,数据体量(Volume)巨大。从TB级别,跃升到PB级别。第二,数据类型繁多(Variety)。网络日志、视频、图片、地理位置信息等等。第三,价值(Value)密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度(Velocity)快。1秒定律。Wearedrowningindata,butstarvingforknowledge!

决策理论与方法-智能决策理论与方法Wednesday,May24,2023电子商务新进展:数据挖掘KDD&DM知识发现(KnowledgeDiscoveryinDatabases,KDD)是指从大量数据中提取有用的(useful)、新颖的(novel)、有效的(valid)并最终能被人理解(understandable)的模式(patterns)的处理过程(process)。

数据挖掘(DataMining,DM)是KDD的核心阶段,通过实施相关算法获得期望的模式。决策理论与方法-智能决策理论与方法KDD过程理解、定义用户的目标和KDD运行的环境。决策理论与方法-智能决策理论与方法KDD过程(1)选取可用的数据;(2)定义附加的、必须的数据,如领域知识;(3)数据集成为一个数据集,供KDD使用。决策理论与方法-智能决策理论与方法KDD过程(1)缺失值处理(2)剔除噪声或异常数据决策理论与方法-智能决策理论与方法KDD过程(1)维数约简(特征选择与抽取,数据采样)(2)属性转换(离散化和泛化)(3)数据编码决策理论与方法-智能决策理论与方法KDD过程(1)确定数据挖掘类型,如分类、聚类、回归;(2)选择特定的方法;(3)执行数据挖掘算法。决策理论与方法-智能决策理论与方法KDD过程评估和解释所挖掘的模式,重点是可理解性、有用性.决策理论与方法-智能决策理论与方法KDD过程与原有知识系统合并。挑战:动态与增量挖掘问题。决策理论与方法-智能决策理论与方法数据预处理—空值估算空值是指属性值未知且不可用、与其它任何值都不相同的符号。在样本数据集中,空值在所有非主码属性中都可能出现。空值出现的主要原因:在信息收集时忽略了一些认为不重要的数据或信息提供者不愿意提供,而这些数据对以后的信息处理可能是有用的;某些属性值未知;数据模型的限制。决策理论与方法-智能决策理论与方法数据预处理—空值估算空值处理的常用方法:从训练集中移去含未知值的实例;用某个最可能的值进行替换;基于样本中其它属性的取值和分类信息,构造规则来预测丢失的数据,并用预测结果“填补”丢失值;应用贝叶斯公式确定未知值的概率分布,选择一最可能的值填补空值或根据概率分布用不同值填补空值形成多个对象;将含有未知值的一个给定样本数据集转换成一个新的、可能不相容的但每个属性值均已知的数据集,方法是将某个属性的未知值用所有该属性的可能值替换形成多个数据集。决策理论与方法-智能决策理论与方法数据预处理—连续属性离散化问题描述

设为一样本数据集,为非空有限集合,C是条件属性集,D是决策属性集。假设对于任意有,R是实数集,则为连续属性。设是上的分割点集合,记为其中,为一整数,表示离散化程度,可以看作按属性将论域中的对象分成类。3kiki-121……决策理论与方法-智能决策理论与方法数据预处理—连续属性离散化对于需要离散化的连续属性集,其分割点集合记为将ci属性的连续取值映射到离散空间,即对于任意若其属性ci的取值在区间内,则将属性值重新标记为j。这样就把原来含有连续属性的样本数据集A转换成离散化的数据集。因此离散化问题本质上可归结为利用选取的分割点对属性的值域空间进行划分的问题。决策理论与方法-智能决策理论与方法数据预处理—连续属性离散化离散化方法典型的有等区间方法、等信息量方法、基于信息熵的方法、Holte的1R离散化方法、统计试验方法、超平面搜索方法以及用户自定义区间等。应用不同的准则可将现有的离散化方法分为局部与全局方法(论域空间)、静态与动态方法(属性空间)和有导师与无导师方法(是否依赖决策属性)。(1)等区间离散化方法等区间分割是将连续属性的值域等分成()个区间,一般由用户确定。决策理论与方法-智能决策理论与方法数据预处理—连续属性离散化假设某个属性的最大属性值为xmax,最小属性值为xmin,用户给定的分割点参数为k,则分割点间隔为δ=(xmax-xmin)/k,所得到的属性分割点为xmin+i,i=1,2,…,k。(2)等信息量离散化方法等信息量分割首先将测量值进行排序,然后将属性值域分成k个区间,每个区间包含相同数量的测量值。假设某个属性的最大属性值为xmax,最小属性值为xmin,用户给定的分割点参数为k,样本集中的对象个数为n,则需要将样本集中的对象按该属性的取值从小到大排列,然后按对象数平均划分为k段即得到分割点集,每两个相邻分割点之间的对象数均为n/k。决策理论与方法-智能决策理论与方法数据预处理—连续属性离散化(3)统计试验方法统计试验方法根据决策属性分析区间划分之间的独立程度,确定分割点的有效性。对于任意分割点,均可将分成2个区间和,两区间的独立程度为:其中:r是决策类数目nij是在第l区间中属于第j决策类的对象数决策理论与方法-智能决策理论与方法数据预处理—连续属性离散化若,则取基于统计试验的离散化方法是将值较大的分割点作为有效分割点。决策理论与方法-智能决策理论与方法TaxonomyofDataMiningMethods决策理论与方法-智能决策理论与方法TaxonomyofDataMiningMethodsVerification-oriented(thesystemverifiestheuser‘shypothesis):includingthemostcommonmethodsoftraditionalstatistics,likegoodnessoffit(拟合优度)test,testsofhypotheses(假设检验,e.g.,t-testofmeans),andanalysisofvariance(ANOVA,方差分析或F-检验).Discovery-oriented(thesystemfindsnewrulesandpatternsautonomously):predictionmethodsVSdescriptionmethods;supervisedlearning(有导师学习)VSunsupervisedlearning决策理论与方法-智能决策理论与方法KDDGoals&Methods归纳总结(Induction&Summarization):从泛化的角度总结数据,即从低层次数据抽象出高层次的描述的过程。主要方法:归纳、泛化。泛化(Generalization)是用来扩展一假设的语义信息,使其能够包含更多的正例,应用于更多的对象。动物哺乳类鸟类企鹅食肉类蹄类飞禽类走禽类虎印度豹长颈鹿斑马信天翁鹰驼鸟动物世界概念树第1层第2层第3层第4层决策理论与方法-智能决策理论与方法KDDGoals&Methods关联规则(AssociationRules):关联规则的形式为A→B,A为前件,B为后件。(Day=Friday)and(Product=Diaper)→(Product=Beer)为一典型关联规则A为满足前件的对象集,B为满足后件的对象,N为全部对象集。典型方法:Apriori算法。决策理论与方法-智能决策理论与方法关联规则发现(Apriori算法)Apriori算法由Agrawal&Srikant在1994年提出主要思想:一个频繁项集(支持度超过给定值的项集)的子集一定是频繁的例如,若{beer,diaper,nuts}是频繁的,那么{beer,diaper}一定是频繁的.

任一项是非频繁的,则包含该项的超集一定是不频繁的。例如,若{beer,diaper}是不频繁的,那么{beer,diaper,nuts}一定是不频繁的.决策理论与方法-智能决策理论与方法关联规则发现(Apriori算法)ProcedureFindthefrequentitemsets:thesetsofitemsthathaveminimumsupport(Apriori)Asubsetofafrequentitemsetmustalsobeafrequentitemset,i.e.,if{A

B}is

afrequentitemset,both{A}and{B}shouldbeafrequentitemsetIterativelyfindfrequentitemsetswithcardinalityfrom1tok(k-itemset)Usethefrequentitemsetstogenerateassociationrules.决策理论与方法-智能决策理论与方法关联规则发现(Apriori算法)DatabaseDScanDC1L1L2C2C2ScanDC3L3ScanD决策理论与方法-智能决策理论与方法KDDGoals&Methods分类(Classification,等价关系,判别):按类标签(为数据库中的某属性集,一般仅包含一个属性)对数据库中的对象进行分类,具有相同标签值或标签值在指定区间内的对象属于同类。分类规则是判断某个对象属于某类的充分条件即对象具有某类的属性时则表示该对象属于该类。其规则形式一般为IFLogicExpThenA类ElseB类。主要方法:决策树、ANN、粗糙集、SVM等。(分别介绍)决策理论与方法-智能决策理论与方法KDDGoals&Methods聚类(Clustering,相容关系):聚类也叫分段,就是将数据库中的实体分成若干组或簇,簇内实体相似性最大,簇间相似性最小。对象相似的判断方法有多种如距离法。典型方法:K-means聚类方法的核心问题是样品间的相似性度量,通常用距离来度量。决策理论与方法-智能决策理论与方法聚类(K-means算法)聚类分析中的常用距离(1)欧氏(Euclidean)距离(2)绝对距离在实际应用时常分析两个样品之间的相对距离,这时需要对样品数据进行标准化处理,然后用标准化数据计算距离。决策理论与方法-智能决策理论与方法聚类(K-means算法)对于给定的n个样品,先粗略地形成k(k≤n)个分割,使得每个分割对应一个类、每个类至少有一个样品并且每个样品精确地属于一个类,然后按照某种原则进行修正,直至分类比较合理为止。具体步骤如下:(1)聚点的选择:聚点是一批有代表性的样品,它的选择决定了初始分类。首先确定分类数k,然后选择k个有代表性的样品作为每个类的初始元素即聚点。聚点可由用户根据经验选择,也可随机选择,或将全部样品人为地或随机地分成k类,以每类的重心作为聚点。决策理论与方法-智能决策理论与方法聚类(K-means算法)(2)初始聚类有了聚点集合后,可根据下列最靠近原则实现初始分类:若对于某样品x出现,则x任意归于Gi(0)或Gj(0)类。这样就得到了样品空间的初始分类:决策理论与方法-智能决策理论与方法聚类(K-means算法)(3)迭代过程设聚类形成的一个分类为则可从G(m)出发计算新的聚点集合L(m+1)。一般可以以G(m)中各类的重心作为新的聚点。其中根据新的聚点集,对样品空间重新聚类,形成新的分类:其中决策理论与方法-智能决策理论与方法聚类(K-means算法)(4)迭代终止随着m的增大,分类趋于稳定。当G(m+1)=G(m)或在一定的精度范围内近似有G(m+1)=G(m),则递推过程结束。决策理论与方法-智能决策理论与方法聚类(K-means算法)m-male,f-femalemfmmmmmmmfmmmmmmmmmffmmmmmmmmmmmfmmmmmmmmmmmmmmmmmmmf16K64K32K20304050ageincome聚类模型决策理论与方法-智能决策理论与方法KDDGoals&Methods回归(Regression):根据历史数据拟合一函数将属性集映射到相应的值集。回归可以看作一种分类,区别是分类的类标签值是离散的,而回归是连续的。neurallinerprofit010005000mins回归模型决策理论与方法-智能决策理论与方法KDDGoals&MethodsSequence,trendandevolutionanalysisTrend,time-series,anddeviationanalysis:e.g.,regressionandvaluepredictionSequentialpatternmininge.g.,firstbuydigitalcamera,thenbuylargeSDmemorycardsPeriodicityanalysisMotifsandbiologicalsequenceanalysisApproximateandconsecutivemotifsSimilarity-basedanalysisMiningdatastreamsOrdered,time-varying,potentiallyinfinite,datastreams决策理论与方法-智能决策理论与方法KDDGoals&Methods异常探测(OutlierDetection):Outlier:AdataobjectthatdoesnotcomplywiththegeneralbehaviorofthedataNoiseorexception?―Oneperson’sgarbagecouldbeanotherperson’streasureMethods:byproductofclusteringorregressionanalysis,…Usefulinfrauddetection,rareeventsanalysis决策理论与方法-智能决策理论与方法KDDGoals&MethodsStructureandNetworkAnalysisGraphmining:Findingfrequentsubgraphs,trees,substructuresInformationnetworkanalysis:SocialnetworksMultipleheterogeneousnetworks:friends,family,classmates,…Linkscarryalotofsemanticinformation:LinkminingWebminingWebisabiginformationnetwork:fromPageRanktoGoogleAnalysisofWebinformationnetworks,Webcommunitydiscovery,opinionmining,usagemining,…决策理论与方法-智能决策理论与方法智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习决策理论与方法-智能决策理论与方法预备知识——相关名词解释论域:研究对象的全体成员构成的集合,一般用字母U表示;若XU,则称X是U的子集隶属度:描述一个对象x与某个子集X之间的隶属程度,一般用符号表示,若xX,则=1;若,则=0;其他:0<<1(常用某个函数加以描述,称为隶属度函数)决策理论与方法-智能决策理论与方法预备知识——相关名词解释等价关系:R是U上的一个等价关系,当且仅当对于任意xU,均有xRx(自反性)对于任意x,yU,xRy↔yRx(对称性)对于任意x,y,zU,xRy∧yRz→xRz(传递性)等价类:若R是U上的一个等价关系,对于任意xU,称集合[x]={y|yRx,yU}为U关于R的一个等价类,记为[x]R。设X1,X2,…,Xn是U关于R的所有等价类,则有:Xi∩Xj=φ(i≠j,i,j=1,2,…,n)X1∪X2∪…∪Xn=U划分:所有等价类的集合称为U关于R的商集,它构成了U的一个划分,记为U/R。概念:具有相同特征值的一群对象称为一个概念(一个等价类就是一个概念)决策理论与方法-智能决策理论与方法预备知识——相关名词解释piT1pjiffv(pi,T1)=v(pj,T1),则T1是U上的一个等价关系(类似地可以定义T2,T3,E)X1=[p1]=[p4]=[p6]={p1,p4,p6}为U关于T1的一个等价类X2=[p2]=[p3]=[p5]={p2,p3,p5}为U关于T1的另一个等价类(T1有多少种取值就有多少个等价类)显然X1∩X2=φ;X1∪X2=U商集U/T1={X1,X2}UT1

T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY决策理论与方法-智能决策理论与方法预备知识——成员集合成员:明确的隶属关系模糊成员:概念模糊(如青年)导致成员模糊粗糙成员:概念清晰(如感冒),成员模糊(是否感冒不清楚),具有概率特征(隶属函数),但不是概率问题,只是由于根据可用知识无法得到准确结论。决策理论与方法-智能决策理论与方法粗糙集理论的提出粗糙集理论由Pawlak提出[1982,1991]。粗糙集理论反映了人们以不完全信息或知识去处理一些不可分辨现象的能力,或依据观察、度量到某些不精确的结果而进行分类数据的能力。PawlakZ.,Roughsets.InternationalJournalofComputerandInformationSciences,1982(11):341-356PawlakZ.,Roughset—TheoreticalAspectsofReasoningaboutData,Dordrecht,Boston,London:KluwerAcademicPublishers,1991决策理论与方法-智能决策理论与方法基本思想知识是主体对论域中的客体进行分类的能力,分类能力越强,主体所具备知识的可靠度越高

分类能力受主体分辨能力的影响,因此分类具有近似性

(粗糙集)影响分类能力的因素(在信息系统中常描述为属性)很多,不同的因素重要程度不同,其中某些因素起决定性作用

(属性重要性:属性约简)具有相同属性的实体,属性取值的不同对分类能力也产生影响

(值重要性:值约简)属性之间存在某种依赖关系(决策规则)决策理论与方法-智能决策理论与方法信息系统与知识信息系统I可以定义为四元组<U,A,V,f>,其中有限非空集合U是论域,A为关于U的属性集,,Va表示属性a的值域,映射f:U×A→V表示对xU,aA,有:

f(x,a)V。决策表:若属性集合A可进一步分为两个属性子集的并:条件属性集C和决策属性集D,A=C∪D,C∩D=φ,则信息系统也被称为决策表。UT1

T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY决策理论与方法-智能决策理论与方法信息系统与知识A的任何一个子集B确定一个U上的二元关系IND(B):对于任意aB,xIND(B)ya(x)=a(y);x,yU;a(x)表示对象x的a属性值。则称IND(B)为不可分辨关系。IND(B)是等价关系,IND(B)的所有等价类的集合记为U/B(称为知识B),含有元素x的等价类记为B(x)或[x]B,同一等价类中的元素是不可分辨的,称IND(B)等价类为初等集(范畴),它是知识库的基本结构单元即概念。设R是由属性集A的子集诱导的论域U上的等价关系族,则称R为U上的一个知识库,记为K=(U,R)。决策理论与方法-智能决策理论与方法粗糙集与近似对于U的任意子集X,若X恰能由知识R的若干个初等集的并构成,则称X为R-精确集,否则为R-粗糙集。每个粗糙集X都可用两个与之相关的精确集近似表示即X的上近似和下近似,他们是粗糙集理论的两个最基本运算。决策理论与方法-智能决策理论与方法粗糙集与近似下近似由所有包含于X的初等集合的并构成,X的下近似中的元素一定属于X。上近似由与X的交为非空的初等集合的并构成,而上近似中的元素可能属于X。上近似与下近似的差为边界域,粗糙集的边界域为非空,否则为精确集。边界域中的元素根据可用知识没有确定的分类,即它既不能划分到X中也不能划分到X的补集中。正域与负域决策理论与方法-智能决策理论与方法经典粗糙集模型论域U粗糙集X粗糙集X决策理论与方法-智能决策理论与方法经典粗糙集模型R1={T1}:U/R1={{p2,p3,p5},{p1,p4,p6}};R2={T2,T1}:U/R2={{p1,p4,p6},{p2,p5},{p3}};R={T1,T2,T3}:U/R=({p1},{p3},{p6},{p2,p5},{p4}};F={E}:U/F={{p1,p2,p3,p6},{p4,p5}}X1={p1,p2,p3,p6}是R粗糙集,X1的R下近似是{p1,p3,p6},R上近似是{p1,p2,p3,p5,p6},边界域为{p2,p5};X2={p4,p5}也是R粗糙集,X2的R下近似是{p4},X2的R上近似是{p2,p4,p5},而边界域是{p2,p5}。决策理论与方法-智能决策理论与方法粗糙集数字特征精度:X的R精度反映了我们对于了解集合X的知识的完全程度。αR(X)=1为精确集,0≤αR(X)<1为粗糙集。粗糙度:X的R粗糙度反映了我们对于了解集合X的知识的不完全程度。(精度与概率或隶属度的区别)隶属度:是根据可用知识R,对象x隶属于概念X的条件概率。决策理论与方法-智能决策理论与方法粗糙集数字特征知识R={T1,T2,T3}:U/R=({p1},{p3},{p6},{p2,p5},{p4}};分类F={E}:U/F={{p1,p2,p3,p6},{p4,p5}}X1={p1,p2,p3,p6}是R粗糙集,X1的R下近似是{p1,p3,p6},R上近似是{p1,p2,p3,p5,p6},R精度为0.6;R粗糙度为0.4;

X2={p4,p5}也是R粗糙集,X2的R下近似是{p4},X2的R上近似是{p2,p4,p5},R精度为0.333;R粗糙度为0.667;p2隶属于X1的隶属度为0.25。决策理论与方法-智能决策理论与方法粗糙集数字特征设F={X1,X2,…,Xn}是论域U上的一个划分,那么根据知识R,F的分类精度如何?F的近似精度:分类的近似精度给出了根据现有知识对对象进行分类时可能正确的决策的百分数。F的近似质量:近似质量给出了能正确分类的百分数。这是一个非常重要的特征数字,它反映了两种分类F和R之间的关系。如果将R看作决策表中的条件属性集,F看成决策属性集,近似质量反映了两者之间的依赖关系。决策理论与方法-智能决策理论与方法粗糙集数字特征知识R={T1,T2,T3}:U/R=({p1},{p3},{p6},{p2,p5},{p4}};分类F={E}:U/F={{p1,p2,p3,p6},{p4,p5}}X1={p1,p2,p3,p6}是R粗糙集,X1的R下近似是{p1,p3,p6},R上近似是{p1,p2,p3,p5,p6};

X2={p4,p5}也是R粗糙集,X2的R下近似是{p4},X2的R上近似是{p2,p4,p5};F的近似精度为0.5;F的近似质量为0.667。决策理论与方法-智能决策理论与方法知识依赖为了寻找“IF……THEN”形式的推理规则,在粗糙集理论体系中所采用的方法是从一个给定的知识,推导另一个知识。如果知识D的所有初等范畴都能用知识C的某些初等范畴来定义,则称知识D可由知识C推得,也称D完全依赖于C,记为CD。设信息系统I=<U,A,V,f>,A=C∪D,BC,则D的B正域定义为:D的B正域表示:利用知识B,能正确地划分到U/D各等价类中的所有对象的集合决策理论与方法-智能决策理论与方法知识依赖设信息系统I=<U,C∪D,V,f>,①D完全依赖于C当且仅当②D等价于C当且仅当(CD)(DC);③D独立于C当且仅当(CD)(DC)。如果知识D的部分初等范畴能用知识C的某些初等范畴来定义,称知识D部分依赖于知识C。设信息系统I=<U,C∪D,V,f>,有:则称D是k(0k1)度依赖于C,记为CkD。决策理论与方法-智能决策理论与方法知识依赖R1={T1}:U/R1={{p2,p3,p5},{p1,p4,p6}};R2={T2,T1}:U/R2={{p1,p4,p6},{p2,p5},{p3}};R3={T1,T2,T3}:U/R3=({p1},{p3},{p6},{p2,p5},{p4}};F={E}:U/F={{p1,p2,p3,p6},{p4,p5}}X1={p1,p2,p3,p6}是R3粗糙集,X1的R3下近似是{p1,p3,p6},R3上近似是{p1,p2,p3,p5,p6};X2={p4,p5}也是R3粗糙集,X2的R3下近似是{p4},X2的R3上近似是{p2,p4,p5}。F的R3正域是{p1,p3,p4,p6},所以F对R3的依赖度是2/3。条件属性子集{T1}{T2}{T3}{T1,T2}{T1,T3}{T2,T3}{T1,T2,T3}依赖度k001/21/62/32/32/3决策理论与方法-智能决策理论与方法知识约简为什么要约简知识?判别:根据条件属性取值确定对象所属的类。实际:确定对象所属的类只需其中几个属性甚至一个属性,而不需要知道对象所有的属性,这与人类对实体的识别是一致的。表明:不同属性在分类时所起的作用是不同的。什么是知识约简?将知识库中某些不必要的等价关系(知识)移去的过程。设信息系统I=<U,C∪D,V,f>,BC,若C(D)=B(D)且B是D独立的,则B为C的D约简,记为REDD(C)。C的D约简是不含任何冗余知识且与C具有相同分类能力的子集(用知识C将对象划分到知识D的初等范畴中的能力)。决策理论与方法-智能决策理论与方法属性重要性与属性核在确定某个决策目标时,不同属性的重要性是不同的,在一般分析中常用事先假设的权重来描述。粗糙集理论并不使用事先假设的信息,而是根据各属性的分类能力不同,确定该属性的重要性。处理方法是将该属性从信息表中移去,分析其对分类能力的影响,影响越大,属性越重要。设信息系统I=<U,C∪D,V,f>,对于C的非空子集B,其重要度为若B的重要度为0,则表示B可以从C中移去,也即B是冗余的。重要度可理解为移去B时所产生的分类误差。设信息系统I=<U,C∪D,V,f>,C中所有D不可省略的元素构成的集合称为C的D核,记作CoreD(C)。决策理论与方法-智能决策理论与方法知识约简算法基于属性依赖度的属性约简:设决策表T=<U,CUD,V,f>,C,D分别为条件属性和决策属性,B是C的任一非空子集,对于粗糙集的VP-MD模型,D对B的依赖度为:则在B中增加某个属性pC-B所引起的k的变化大小为:γp(D|B)=γB∪{p}(D)-γB(D)γp(D|B)越大,说明在已知属性B的条件下,p对决策D越重要。基于属性依赖度的属性约简算法就是将γp(D|B)作为寻找最小属性约简的启发式信息。决策理论与方法-智能决策理论与方法值约简为什么要约简属性值?在判断某个对象属于某类时,某个属性的取值不同,对分类产生的影响也不相同。例如,判断人的体形(瘦、中、胖)时,体重是重要属性。但若体重属性值为60Kg时,此人的体形要结合其身高、性别才能确定,但若体重属性值为150Kg时,我们几乎肯定他是个胖子,这时身高、性别已不重要,也就是说身高、性别的属性值是冗余的。什么是值约简?值约简就是移去对分类没有实际价值的冗余的属性值。决策理论与方法-智能决策理论与方法约简示例IF(T1,No)AND(T3,Normal)THEN(E,Yes)IF(T1,Yes)AND(T3,Normal)THEN(E,Yes)IF(T3,High)THEN(E,Yes)IF(T3,Low)THEN(E,No)IF(T1,Yes)AND(T3,Normal)THEN(E,No)IF(T3,High)THEN(E,Yes)条件属性子集{T1}{T2}{T3}{T1,T2}{T1,T3}{T2,T3}{T1,T2,T3}依赖度k001/21/62/32/32/3T1

T3Ep1NNormalYp2YNormalYp3-HighYp4-LowNp5YNormalNp6-HighY决策理论与方法-智能决策理论与方法约简示例IF(T2,Yes)AND(T3,Normal)THEN(E,Yes)IF(T2,No)AND(T3,Normal)THEN(E,Yes)IF(T3,High)THEN(E,Yes)IF(T3,Low)THEN(E,No)IF(T2,No)AND(T3,Normal)THEN(E,No)IF(T3,High)THEN(E,Ye

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论