智能决策理论与方法PPT课件_第1页
智能决策理论与方法PPT课件_第2页
智能决策理论与方法PPT课件_第3页
智能决策理论与方法PPT课件_第4页
智能决策理论与方法PPT课件_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021年11月2日4时53分不确定性决策 不确定性决策:指难以获得各种状态发生的概率,甚至对未来状态都难以把握的决策问题。 特点:状态的不确定性。 不确定性:不确定性来自人类的主观认识与客观实际之间存在的差异。事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性,都反映了这种差异,都会带来不确定性。不确定性就造成了具有相同描述信息的对象可能属于不同概念。 解决问题的主要理论方法:人工智能与不确定性理论第1页/共76页2021年11月2日4时53分智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习第2页/共76页2021年

2、11月2日4时53分智能决策理论与方法形成背景 人类面临越来越复杂的决策任务和决策环境: 决策问题所涉及的变量规模越来越大; 决策所依赖的信息具有不完备性、模糊性、不确定性等特点,使得决策问题难以全部定量化地表示出来; 某些决策问题及其目标可能是模糊的、不确定的,使得决策者对自己的偏好难以明确,随着决策分析的深入,对决策问题的认知加深,自己原有的偏好/倾向得到不断地修正,使得决策过程出现不断调整的情况, 这时,传统的决策数学模型已经难以胜任求解复杂度过高的决策问题、含有不确定性的决策问题以及半结构化、非结构化的决策问题,因而产生了智能决策理论、方法及技术。第3页/共76页2021年11月2日4

3、时53分智能决策理论与方法AI的应用模式 智能决策方法是应用人工智能(Artificial Intelligence, AI)相关理论方法,融合传统的决策数学模型和方法而产生的具有智能化推理和求解的决策方法,其典型特征是能够在不确定、不完备、模糊的信息环境下,通过应用符号推理、定性推理等方法,对复杂决策问题进行建模、推理和求解。AI应用于决策科学主要有两种模式: 针对可建立精确数学模型的决策问题,由于问题的复杂性,如组合爆炸、参数过多等而无法获得问题的解析解,需要借助AI中的智能搜索算法获得问题的数值解; 针对无法建立精确数学模型的不确定性决策问题、半结构化或非结构化决策问题,需要借助AI方法

4、建立相应的决策模型并获得问题的近似解。第4页/共76页2021年11月2日4时53分智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习第5页/共76页2021年11月2日4时53分知识发现动机 智能决策的核心是如何获取支持决策的信息和知识。第6页/共76页2021年11月2日4时53分知识发现动机第7页/共76页2021年11月2日4时53分知识发现动机第8页/共76页2021年11月2日4时53分知识发现动机第9页/共76页2021年11月2日4时53分Data Mining within the DSS第10页/共76页2021年11月2日4时53分知识发现

5、动机 KDD带来的新问题 知识发现问题:如何从数据中将知识挖掘出来?面临许多技术问题:如数据异构问题、数据具有噪音且信息不完整、使用什么样的挖掘算法、知识如何表示等 知识评价问题:数据本身具有权威性、客观性,但知识不具备。知识如何评价?第11页/共76页2021年11月2日4时53分参考书推荐第12页/共76页2021年11月2日4时53分为什么要开展数据挖掘? 信息技术的广泛应用产生了大量的数据: 流数据(生产数据、监控数据、传感数据) 各种(时间)序列数据(证券交易,基因序列) 对象关系数据(社交网络,分子结构) 管理数据(MIS,ERP:财务、人力资源、客户关系) 空间数据(GIS、GP

6、S) 多媒体数据(视频监控,视频分享) 文本数据(学术论文,新闻,微博,博客) 万维网数据(内容,结构,使用,交易数据) 第13页/共76页2021年11月2日4时53分为什么要开展数据挖掘? Big Data大数据时代 第一,数据体量(Volume)巨大 。从TB级别,跃升到PB级别。 第二,数据类型繁多(Variety) 。网络日志、视频、图片、地理位置信息等等。 第三,价值(Value)密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。 第四,处理速度(Velocity)快。1秒定律。We are drowning in data, but starving for

7、knowledge! 第14页/共76页2021年11月2日4时53分KDD & DM 知识发现(Knowledge Discovery in Databases ,KDD) 是指从大量数据中提取有用的(useful)、新颖的(novel)、有效的(valid)并最终能被人理解(understandable)的模式(patterns)的处理过程(process)。 数据挖掘(Data Mining,DM) 是KDD的核心阶段, 通过实施相关算法获得期望的模式。第15页/共76页2021年11月2日4时53分KDD过程第16页/共76页2021年11月2日4时53分KDD过程第17页/共

8、76页2021年11月2日4时53分KDD过程第18页/共76页2021年11月2日4时53分KDD过程第19页/共76页2021年11月2日4时53分KDD过程第20页/共76页2021年11月2日4时53分KDD过程第21页/共76页2021年11月2日4时53分KDD过程第22页/共76页2021年11月2日4时53分数据预处理空值估算 空值是指属性值未知且不可用、与其它任何值都不相同的符号。在样本数据集中,空值在所有非主码属性中都可能出现。空值出现的主要原因: 在信息收集时忽略了一些认为不重要的数据或信息提供者不愿意提供,而这些数据对以后的信息处理可能是有用的; 某些属性值未知; 数据

9、模型的限制。第23页/共76页2021年11月2日4时53分数据预处理空值估算 空值处理的常用方法: 从训练集中移去含未知值的实例; 用某个最可能的值进行替换; 基于样本中其它属性的取值和分类信息,构造规则来预测丢失的数据,并用预测结果“填补”丢失值; 应用贝叶斯公式确定未知值的概率分布,选择一最可能的值填补空值或根据概率分布用不同值填补空值形成多个对象; 将含有未知值的一个给定样本数据集转换成一个新的、可能不相容的但每个属性值均已知的数据集,方法是将某个属性的未知值用所有该属性的可能值替换形成多个数据集。第24页/共76页2021年11月2日4时53分数据预处理连续属性离散化问题描述问题描述

10、 设设 为一样本数据集,为一样本数据集, 为非空有限为非空有限集合,集合,C是条件属性集,是条件属性集,D是决策属性集。假设对于任意是决策属性集。假设对于任意有有 , R是实数集,则是实数集,则 为连续属性。设为连续属性。设 是是 上上的分割点集合,记为的分割点集合,记为其中其中 , 为一整数,表示离散为一整数,表示离散化程度,可以看作按属性将论域中的对象分成化程度,可以看作按属性将论域中的对象分成 类。类。3kik ki i-121iikeciikic1ic2ic1iics0DCUA,21nxxxUCciR),iiiesViciPiV,10ikiiiicccPiikiiiieccccsi21

11、0ikik第25页/共76页2021年11月2日4时53分数据预处理连续属性离散化CC ),( ,),(),(),(PcP210iikiiiiiiiCciCciiicccccccc), 2 , 1(nkUxk), 2 , 1 ()(,1iijijkjccPA第26页/共76页2021年11月2日4时53分数据预处理连续属性离散化Nkiik第27页/共76页2021年11月2日4时53分数据预处理连续属性离散化 假设某个属性的最大属性值为xmax,最小属性值为xmin,用户给定的分割点参数为k,则分割点间隔为=(xmax-xmin)/k, 所得到的属性分割点为xmin+i,i=1,2,k。(2)

12、等信息量离散化方法 等信息量分割首先将测量值进行排序,然后将属性值域分成k个区间,每个区间包含相同数量的测量值。假设某个属性的最大属性值为xmax ,最小属性值为xmin ,用户给定的分割点参数为k,样本集中的对象个数为n,则需要将样本集中的对象按该属性的取值从小到大排列,然后按对象数平均划分为k段即得到分割点集,每两个相邻分割点之间的对象数均为n/k。 第28页/共76页2021年11月2日4时53分数据预处理连续属性离散化)0(iiijkjPc),iies),ijiccsL ),(iijcecR 21122)(lrjljljljEEn第29页/共76页2021年11月2日4时53分数据预处

13、理连续属性离散化211121krmkmrkkkjlkljnnnE0ljE1 . 0ljE2第30页/共76页2021年11月2日4时53分Taxonomy of Data Mining Methods第31页/共76页2021年11月2日4时53分Taxonomy of Data Mining Methods Verification-oriented (the system verifies the users hypothesis): including the most common methods of traditional statistics, like goodness of

14、fit(拟合优度) test, tests of hypotheses (假设检验,e.g., t-test of means), and analysis of variance (ANOVA,方差分析或F-检验). Discovery-oriented (the system finds new rules and patterns autonomously): prediction methods VS description methods;supervised learning(有导师学习) VS unsupervised learning第32页/共76页2021年11月2日4时5

15、3分KDD Goals & Methods 归纳总结(Induction & Summarization):从泛化的角度总结数据,即从低层次数据抽象出高层次的描述的过程。主要方法:归纳、泛化。 泛化(Generalization)是用来扩展一假设的语义信息,使其能够包含更多的正例,应用于更多的对象。动物动物哺乳类哺乳类鸟类鸟类企鹅企鹅食肉类食肉类蹄类蹄类飞禽类飞禽类走禽类走禽类虎虎印度豹印度豹长颈鹿长颈鹿斑马斑马信天翁信天翁鹰鹰驼鸟驼鸟动物世界概念树动物世界概念树第第1 1层层第第2 2层层第第3 3层层第第4 4层层第33页/共76页2021年11月2日4时53分KDD Go

16、als & Methods 关联规则(Association Rules):关联规则的形式为AB,A为前件,B为后件。 (Day=Friday) and (Product= Diaper) (Product=Beer)为一典型关联规则 A为满足前件的对象集,B为满足后件的对象,N为全部对象集。典型方法:Apriori算法。NBASupport|ABAConfidence第34页/共76页2021年11月2日4时53分关联规则发现(Apriori算法) Apriori算法由Agrawal & Srikant在1994年提出 主要思想: 一个频繁项集(支持度超过给定值的项集)的子集

17、一定是频繁的 例如, 若beer, diaper, nuts是频繁的, 那么beer, diaper 一定是频繁的. 任一项是非频繁的,则包含该项的超集一定是不频繁的。 例如, 若beer, diaper是不频繁的, 那么 beer, diaper, nuts一定是不频繁的.第35页/共76页2021年11月2日4时53分关联规则发现(Apriori算法)Procedure Find the frequent itemsets: the sets of items that have minimum support (Apriori)uA subset of a frequent itemse

18、t must also be a frequent itemset, i.e., if A B is a frequent itemset, both A and B should be a frequent itemsetuIteratively find frequent itemsets with cardinality from 1 to k (k-itemset) Use the frequent itemsets to generate association rules.第36页/共76页2021年11月2日4时53分关联规则发现(Apriori算法)TID Items100 1

19、 3 4200 2 3 5300 1 2 3 5400 2 5itemset sup.1223334153itemset sup.12233353itemset1 21 31 52 32 53 5itemset sup1 211 321 512 322 533 52itemset sup1 322 322 533 52itemset2 3 5itemset sup2 3 52第37页/共76页2021年11月2日4时53分KDD Goals & Methods 分类(Classification,等价关系,判别):按类标签(为数据库中的某属性集,一般仅包含一个属性)对数据库中的对象进行

20、分类,具有相同标签值或标签值在指定区间内的对象属于同类。分类规则是判断某个对象属于某类的充分条件即对象具有某类的属性时则表示该对象属于该类。其规则形式一般为IF LogicExp Then A类 Else B类。主要方法:决策树、ANN、粗糙集、SVM等。(分别介绍)第38页/共76页2021年11月2日4时53分KDD Goals & Methods 聚类(Clustering,相容关系):聚类也叫分段,就是将数据库中的实体分成若干组或簇,簇内实体相似性最大,簇间相似性最小。对象相似的判断方法有多种如距离法。典型方法:K-means 聚类方法的核心问题是样品间的相似性度量,通常用距离

21、来度量。第39页/共76页2021年11月2日4时53分聚类(K-means算法)聚类分析中的常用距离(1)欧氏(Euclidean)距离(2)绝对距离 在实际应用时常分析两个样品之间的相对距离,这时需要对样品数据进行标准化处理,然后用标准化数据计算距离。2112)(),(pkjkikjixxxxdpkjkikjixxxxd1|),(第40页/共76页2021年11月2日4时53分聚类(K-means算法) 对于给定的n个样品,先粗略地形成k(kn)个分割,使得每个分割对应一个类、每个类至少有一个样品并且每个样品精确地属于一个类,然后按照某种原则进行修正,直至分类比较合理为止。具体步骤如下:(

22、1)聚点的选择:聚点是一批有代表性的样品,它的选择决定了初始分类。首先确定分类数k,然后选择k个有代表性的样品作为每个类的初始元素即聚点。聚点可由用户根据经验选择,也可随机选择,或将全部样品人为地或随机地分成k类,以每类的重心作为聚点。第41页/共76页2021年11月2日4时53分聚类(K-means算法)(2)初始聚类kiijkjxxdxxdxGjii, 2 , 1,;, 2 , 1),(),(:)0()0()0(),(),()0()0(jixxdxxd,)0()0(2)0(1)0(kGGGG第42页/共76页2021年11月2日4时53分聚类(K-means算法)(3)迭代过程设聚类形成

23、的一个分类为则可从G(m)出发计算新的聚点集合L(m+1)。,)1()1(2)1(1)1(mkmmmxxxLkixGcardxmilGxlmimi, 2 , 1,)(1)()()1(0,)1()1(2)1(1)1(mGGGGmkmmmkiijkjxxdxxdxGmjmimi, 2 , 1,;, 2 , 1),(),(:)1()1()1(0,)()(2)(1)(mGGGGmkmmm第43页/共76页2021年11月2日4时53分聚类(K-means算法)(4)迭代终止 随着m的增大,分类趋于稳定。当G(m+1)=G(m)或在一定的精度范围内近似有G(m+1)=G(m),则递推过程结束。第44页/

24、共76页2021年11月2日4时53分聚类(K-means算法)第45页/共76页2021年11月2日4时53分KDD Goals & Methods 回归(Regression):根据历史数据拟合一函数将属性集映射到相应的值集。回归可以看作一种分类,区别是分类的类标签值是离散的,而回归是连续的。第46页/共76页2021年11月2日4时53分KDD Goals & Methods Sequence, trend and evolution analysis Trend, time-series, and deviation analysis: e.g., regression

25、 and value prediction Sequential pattern mining e.g., first buy digital camera, then buy large SD memory cards Periodicity analysis Motifs and biological sequence analysis Approximate and consecutive motifs Similarity-based analysis Mining data streams Ordered, time-varying, potentially infinite, da

26、ta streams第47页/共76页2021年11月2日4时53分KDD Goals & Methods 异常探测(Outlier Detection): Outlier: A data object that does not comply with the general behavior of the data Noise or exception? One persons garbage could be another persons treasure Methods: by product of clustering or regression analysis, Use

27、ful in fraud detection, rare events analysis第48页/共76页2021年11月2日4时53分KDD Goals & Methods Structure and Network Analysis Graph mining:Finding frequent subgraphs, trees, substructures Information network analysis: Social networks Multiple heterogeneous networks: friends, family, classmates, Links c

28、arry a lot of semantic information: Link mining Web mining Web is a big information network: from PageRank to Google Analysis of Web information networks,Web community discovery, opinion mining, usage mining, 第49页/共76页2021年11月2日4时53分智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习第50页/共76页2021年11月2日4时53分预备

29、知识相关名词解释 论域:研究对象的全体成员构成的集合,一般用字母U表示;若XU,则称X是U的子集 隶属度:描述一个对象x与某个子集X之间的隶属程度,一般用符号表示, 若xX, 则=1; 若 ,则=0; 其他: 01(常用某个函数加以描述,称为隶属度函数)Xx第51页/共76页2021年11月2日4时53分预备知识相关名词解释 等价关系:R是U上的一个等价关系,当且仅当 对于任意xU,均有x R x(自反性) 对于任意x, yU,x R yy R x(对称性) 对于任意x, y, zU,x R y y R zx R z(传递性) 等价类:若R是U上的一个等价关系,对于任意xU,称集合x=y| y

30、 R x, y U为U关于R的一个等价类,记为xR。设X1, X2, , Xn是U关于R的所有等价类,则有: XiXj=(ij,i, j=1,2,n) X1X2Xn=U 划分:所有等价类的集合称为U关于R的商集,它构成了U的一个划分,记为U/R。 概念:具有相同特征值的一群对象称为一个概念(一个等价类就是一个概念)第52页/共76页2021年11月2日4时53分预备知识相关名词解释 pi T1 pj iff v(pi, T1)=v(pj, T1),则T1是U上的一个等价关系(类似地可以定义T2, T3, E) X1=p1=p4=p6=p1, p4, p6为U关于T1的一个等价类 X2=p2=p

31、3=p5=p2, p3, p5为U关于T1的另一个等价类(T1有多少种取值就有多少个等价类) 显然 X1X2=; X1X2=U 商集U/T1=X1, X2第53页/共76页2021年11月2日4时53分预备知识成员 集合成员:明确的隶属关系 模糊成员:概念模糊(如青年)导致成员模糊 粗糙成员:概念清晰(如感冒),成员模糊(是否感冒不清楚),具有概率特征(隶属函数),但不是概率问题,只是由于根据可用知识无法得到准确结论。第54页/共76页2021年11月2日4时53分粗糙集理论的提出 粗糙集理论由Pawlak提出1982,1991。粗糙集理论反映了人们以不完全信息或知识去处理一些不可分辨现象的能

32、力,或依据观察、度量到某些不精确的结果而进行分类数据的能力。 Pawlak Z., Rough sets. International Journal of Computer and Information Sciences, 1982(11): 341-356 Pawlak Z., Rough setTheoretical Aspects of Reasoning about Data, Dordrecht, Boston, London: Kluwer Academic Publishers,1991第55页/共76页2021年11月2日4时53分第56页/共76页2021年11月2日4时

33、53分信息系统与知识 信息系统I可以定义为四元组,其中有限非空集合U是论域,A为关于U的属性集, ,Va表示属性a的值域,映射f: UAV表示对xU,aA,有: f(x, a)V。 决策表:若属性集合A可进一步分为两个属性子集的并:条件属性集C和决策属性集D,A=CD,CD=,则信息系统也被称为决策表。aAaVV 第57页/共76页2021年11月2日4时53分信息系统与知识 A的任何一个子集B确定一个U上的二元关系IND(B):对于任意aB,xIND(B)ya(x)=a(y);x, yU;a(x)表示对象x的a属性值。则称IND(B)为不可分辨关系。 IND(B)是等价关系,IND(B)的所

34、有等价类的集合记为U/B(称为知识B),含有元素x的等价类记为B(x)或xB,同一等价类中的元素是不可分辨的,称IND(B)等价类为初等集(范畴),它是知识库的基本结构单元即概念。 设R是由属性集A的子集诱导的论域U上的等价关系族,则称R为U上的一个知识库,记为K=(U, R)。第58页/共76页2021年11月2日4时53分粗糙集与近似 对于U的任意子集X,若X恰能由知识R的若干个初等集的并构成,则称X为R-精确集,否则为R-粗糙集。 每个粗糙集X都可用两个与之相关的精确集近似表示即X的上近似和下近似,他们是粗糙集理论的两个最基本运算。第59页/共76页2021年11月2日4时53分粗糙集与

35、近似 下近似 由所有包含于X的初等集合的并构成, X的下近似中的元素一定属于X。 上近似 由与X的交为非空的初等集合的并构成,而上近似中的元素可能属于X。 上近似与下近似的差为边界域,粗糙集的边界域为非空,否则为精确集。边界域中的元素根据可用知识没有确定的分类,即它既不能划分到X中也不能划分到X的补集中。 正域与负域YXxUxXRXYRUYR)()/( :YXxUxXRXYRUYR)()/( :XRXPOSR)(XRUXNegR)(第60页/共76页2021年11月2日4时53分粗糙集X粗糙集X第61页/共76页2021年11月2日4时53分经典粗糙集模型 R1=T1:U/R1=p2, p3,

36、 p5,p1, p4, p6; R2=T2,T1:U/R2=p1, p4, p6, p2, p5, p3; R=T1, T2, T3:U/R=(p1, p3, p6, p2, p5,p4; F=E:U/F=p1, p2, p3, p6, p4, p5 X1=p1, p2, p3, p6是R粗糙集,X1的R下近似是p1, p3, p6,R上近似是p1, p2, p3, p5, p6,边界域为p2, p5; X2=p4, p5也是R粗糙集,X2的R下近似是p4,X2的R上近似是p2, p4, p5,而边界域是p2, p5。第62页/共76页2021年11月2日4时53分粗糙集数字特征 精度: X的

37、R精度反映了我们对于了解集合X的知识的完全程度。R(X)=1为精确集, 0R(X)1为粗糙集。 粗糙度:X的R粗糙度反映了我们对于了解集合X的知识的不完全程度。(精度与概率或隶属度的区别) 隶属度:是根据可用知识R,对象x隶属于概念X的条件概率。)()()()(XXRCardXRCardXR)(1)(XXRR|( )|( )|X|RXR xXx第63页/共76页2021年11月2日4时53分粗糙集数字特征 知识R=T1, T2, T3:U/R=(p1, p3, p6, p2, p5,p4; 分类F=E:U/F=p1, p2, p3, p6, p4, p5 X1=p1, p2, p3, p6是R

38、粗糙集,X1的R下近似是p1, p3, p6,R上近似是p1, p2, p3, p5, p6,R精度为0.6;R粗糙度为0.4; X2=p4, p5也是R粗糙集,X2的R下近似是p4,X2的R上近似是p2, p4, p5, R精度为0.333;R粗糙度为0.667; p2隶属于X1的隶属度为0.25。第64页/共76页2021年11月2日4时53分粗糙集数字特征 设F=X1,X2,Xn是论域U上的一个划分,那么根据知识R,F的分类精度如何? F的近似精度:分类的近似精度给出了根据现有知识对对象进行分类时可能正确的决策的百分数。 F的近似质量:近似质量给出了能正确分类的百分数。这是一个非常重要的

39、特征数字,它反映了两种分类F和R之间的关系。如果将R看作决策表中的条件属性集,F看成决策属性集,近似质量反映了两者之间的依赖关系。CardUXRCardFniiR1)(niiniiRXRCardXRCardF11)(第65页/共76页2021年11月2日4时53分粗糙集数字特征 知识R=T1, T2, T3:U/R=(p1, p3, p6, p2, p5,p4; 分类F=E:U/F=p1, p2, p3, p6, p4, p5 X1=p1, p2, p3, p6是R粗糙集,X1的R下近似是p1, p3, p6,R上近似是p1, p2, p3, p5, p6 ; X2=p4, p5也是R粗糙集,

40、X2的R下近似是p4,X2的R上近似是p2, p4, p5; F的近似精度为0.5; F的近似质量为0.667。第66页/共76页2021年11月2日4时53分知识依赖 为了寻找“IFTHEN”形式的推理规则,在粗糙集理论体系中所采用的方法是从一个给定的知识,推导另一个知识。如果知识D的所有初等范畴都能用知识C的某些初等范畴来定义,则称知识D可由知识C推得,也称D完全依赖于C,记为CD。 设信息系统I=,A=CD,BC,则D的B正域定义为: D的B正域表示:利用知识B,能正确地划分到U/D各等价类中的所有对象的集合 XBDPOSDUXB/)(第67页/共76页2021年11月2日4时53分知识

41、依赖 设信息系统I=,D完全依赖于C当且仅当 D等价于C当且仅当(CD) (DC);D独立于C当且仅当(CD) (DC)。 如果知识D的部分初等范畴能用知识C的某些初等范畴来定义,称知识D部分依赖于知识C。 设信息系统I=,有: 则称D是k(0k1)度依赖于C,记为CkD。 DUCU/)()()(UCardDPOSCardDkCC第68页/共76页2021年11月2日4时53分知识依赖 R1=T1:U/R1=p2, p3, p5,p1, p4, p6; R2=T2,T1:U/R2=p1, p4, p6, p2, p5, p3; R3=T1, T2, T3:U/R3=(p1, p3, p6, p

42、2, p5,p4; F=E:U/F=p1, p2, p3, p6, p4, p5 X1=p1, p2, p3, p6是R3粗糙集,X1的R3下近似是p1, p3, p6,R3上近似是p1, p2, p3, p5, p6 ; X2=p4, p5也是R3粗糙集,X2的R3下近似是p4,X2的R3上近似是p2, p4, p5 。 F的R3正域是p1, p3, p4, p6, 所以F对R3的依赖度是2/3。第69页/共76页2021年11月2日4时53分知识约简 为什么要约简知识? 判别:根据条件属性取值确定对象所属的类。 实际:确定对象所属的类只需其中几个属性甚至一个属性,而不需要知道对象所有的属性,这与人类对实体的识别是一致的。 表明:不同属性在分类时所起的作用是不同的。 什么是知识约简? 将知识库中某些不必要的等价关系(知识)移去的过程。 设信息系统I=,BC,若C(D)=B(D)且B是D独立的,则B为C的D约简,记为REDD(C)。 C的D约简是不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论