版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、粗糙集理论及其应用2022/7/191主要内容 粗糙集发展历程 粗糙集的基本理论介绍粗糙集对集合理论的扩展 粗糙集的属性约简算法研究2022/7/192粗糙集发展历程1970s,Pawlak和波兰科学院、华沙大学的一些逻辑学家,在研究信息系统逻辑特性的基础上,提出了粗糙集理论的思想。在最初的几年里,由于大多数研究论文是用波兰文发表的,所以未引起国际计算机界的重视,研究地域仅限于东欧各国。1982年,Pawlak发表经典论文Rough sets,标志着该理论正式诞生。1991年,Pawlak的第一本关于粗糙集理论的专著Rough sets: theoretical aspects of reas
2、oning about data;2022/7/193粗糙集发展历程1992年,Slowinski主编的Intelligence decision support: handbook of applications and advances of rough sets theory的出版,奠定了粗糙集理论的基础,有力地推动了国际粗糙集理论与应用的深入研究。1992年,在波兰召开了第一届国际粗糙集理论研讨会,有15篇论文发表在1993年第18卷的 Foundation of computingand decision sciences上。2019年,Pawlak等人在ACM Communicat
3、ions上发表“Rough sets”,极大地扩大了该理论的国际影响。2022/7/194粗糙集发展历程 20192019年,分别在日本、美国、美国、日本召开了第4-7届粗糙集理论国际研讨会。 20192019,中国分别在重庆、苏州召开第一、二届粗糙集与软计算学术会议。 2019年至今,每年召开CRSSC。 2019年,在重庆召开粗糙集与软计算国际研讨会。 2019年,在瑞典召开RSCTC国际会议(偶数年会) 。 2019年,在加拿大召开RSFDGrC国际会议(奇数年会)。 2019年至今,每年召开RSKT。 2022/7/195主要内容 粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简
4、算法研究2022/7/196粗糙集的基本理论介绍 1980年,德国数学家克莱因在数学:确定性的丧失中指出:数学也存在不确定性问题。确定问题的研究经典的数学工具,如集合论不确定问题的研究拓展的数学工具,如概率论、模糊集、粗糙集等2022/7/197粗糙集的基本理论介绍不确定性随机性模糊性不完整性不稳定性不一致性主要的特性2022/7/198粗糙集的基本理论介绍随机性:由于条件不能决定结果而表现出来的不确定性,反映了因果律的问题。解决随机性问题的典型数学方法是概率论。模糊性:由于概念外延边界的不清晰而表现出的不确定性,反映了排中律的问题。解决模糊性的典型数学方法是模糊集理论。2022/7/199粗
5、糙集的基本理论介绍自然界中大部分事物所呈现的信息都是:不完整的、不精确的、模糊的、含糊不清的经典集合论和逻辑方法无法准确的描述和解决这些问题。粗糙集理论的提出,主要是为了描述并处理“含糊”信息2022/7/1910粗糙集的基本理论介绍(1)经典集合特点:集合的边界没有宽度 每个元素要么属于S,要么不属于,具有确定性。2022/7/1911粗糙集的基本理论介绍(2)“含糊”问题的提出1904年,谓词逻辑创始人G. Frege 首次提出将含糊性归结到“边界线区域”在论域上存在一些个体,既不能被分到某一子集上,也不能被分到该子集的补集上。2022/7/1912粗糙集的基本理论介绍(3)模糊集合的提出
6、1965年,美国Zadeh教授首次提出个体x与集合S的关系x以一定的程度属于S。2022/7/1913粗糙集的基本理论介绍模糊集虽然解决了边界域元素的“亦此亦彼”的现象,但:未给出计算含糊元素数目的数学公式未给出描述含糊元素隶属度的形式化方法隶属度函数本身不确定2022/7/1914粗糙集的基本理论介绍粗糙集运用集合论中的“等价关系(不可区分关系)”,将边界线区域定义为“上相似集”与“下相似集”的差集在“真”、“假”二值之间的“含糊度”可计算给出了含糊元素数目的计算公式2022/7/1915粗糙集的基本理论介绍边界线的不确定性模糊集用隶属度(非精确方法)来描述粗糙集用精确的边界线(上、下近似集
7、)来描述相互补充2022/7/1916粗糙集的基本理论介绍 主要优点除数据集之外,无需任何先验知识(或信息)对不确定性的描述与处理相对客观用于分类,发现不准确数据或噪声数据内的结构联系【说明】:Bayes理论(先验分布 )、证据理论(隶属度函数)等都需要先验知识,具有很大的主观性。2022/7/1917粗糙集理论在知识发现中的作用 在数据预处理过程中,粗糙集理论可以用于对特征更准确的提取 在数据准备过程中,利用粗糙集理论的数据约简特性,对数据集进行降维操作。 在数据挖掘阶段,可将粗糙集理论用于分类规则的发现。 在解释与评估过程中,粗糙集理论可用于对所得到的结果进行统计评估。2022/7/191
8、8粗糙集理论的基本概念“知识”的定义使用等价关系集R对离散表示的空间U进行划分,知识就是R对U划分的结果。“知识库”的形式化定义等价关系集R中所有可能的关系对U的划分表示为:K = (U, R)2022/7/1919粗糙集理论的基本概念“信息系统”的形式化定义S = U, A, V, f,U:对象的有限集A:属性的有限集,A=CD,C是条件属性子集,D是决策属性子集V: , Vp是属性P的域f:U A V是总函数,使得 对每个xi U, q A, 有f(xi, q) Vq一个关系数据库可看作一个信息系统,其“列”为“属性”,“行”为“对象”。2022/7/1920粗糙集理论的基本概念 设PA,
9、 xi, xj U, 定义二元关系INDP称为等价关系: 称xi, xj在S中关于属性集P是等价的,当且仅当p(xi)=p(xj)对所有的pP 成立,即xi, xj不能用P 中的属性加以区别。2022/7/1921等价关系示例:factweatherroadtimeaccident1mistyicydayyes2foggyicynightyes3mistynot icynightyes4sunnyicydayno5foggynot icyduskyes6mistynot icynightno2022/7/1922等价关系示例:可知,U = 1, 2, 3, 4, 5, 6R = 2 weath
10、er, road, time, accident 若P = weather, road,则x IND(P) = x INDweather x INProad = 1, 3, 6, 2, 5, 4 1, 2, 4, 3, 5, 6 = 1, 2, 4, 3, 6, 5 2022/7/1923集合的上近似 & 下近似 在信息系统S = U, A, V, f中,设XU是个体全域上的子集,PA,则X的下和上近似集及边界区域分别为: X是XU上必然被分类的那些元素的集合,即包含在X内的最大可定义集; X是U上可能被分类的那些元素的集合,即包含X的最小可定义集。,则X是可定义的,否则是不可定义的,即粗糙的
11、若2022/7/1924集合的上近似 & 下近似上、下近似集将论域U划分成三个区域:正域、边界域和负域,其定义如下:BndP(X)是既不能在XU上被分类,又不能在U-X上被分类的那些元素的集合。2022/7/1925集合的上、下近似概念示意图X2022/7/1926上、下近似关系举例: X1 = u | Flu(u) = yes = u2, u3, u6, u7 RX1 = u2, u3 = u2, u3, u6, u7, u5, u8X2 = u | Flu(u) = no = u1, u4, u5, u8RX2 = u1, u4 = u1, u4, u5, u8, u6, u7由R = H
12、eadache, Temp. 划分出来的等价类有:u1, u2, u3, u4, u5, u7, u6, u8.2022/7/1927近似精度 & 分类质量 设S = U, A, V, f为一信息系统,且XU, PA,则S上X的近似精度为: 注:card(X) 表示集合X中元素个数 设S为一信息系统,PA,且令=X1,X2, , Xn是U的一个分类(子集族),其中XiU,则的P-下近似和 P-上近似分别表示为:2022/7/1928近似精度 & 分类质量由属性子集PA确定的分类的分类质量为 : 分类质量表示通过属性子集P正确分类的对象数与信息系统中所有对象数的比值。这是评价属性子集P的重要性的
13、关键指标之一。 2022/7/1929属性约简 & “核” 属性约简(Attribute Reduction):在一个信息系统S中,设是S上的一个分类,经约简后的最小属性子集具有同原始属性集相同的分类质量,即存在RPQ,使得R() =P() ,称之为属性集P的-约简,记作REDU(P) 。 所有-约简的交集称为-核,即CORE(P) = REDU(P),核是信息系统中一系列最重要的属性之一。 【说明】:在大多数情况下,分类是由几个甚至一个属性来决定的,而不是由关系数据库中的所有属性的微小差异来决定。属性约简及核的概念为提取系统中重要属性及其值提供了有力的数学工具,而且这种约简是本着不破坏原始数
14、据集的分类质量的,通俗地说,它是完全“保真”的。 2022/7/1930主要内容 粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究2022/7/1931利用启发式搜索进行属性约简几个概念:正区域:在信息系统S=(U, CD, V, f)中,设D*= X1,X2,Xm,属性子集PC关于决策属性D的“正区域”定义为: P关于D的正区域表示那些根据属性子集P就能分入正确类别的所有对象。2022/7/1932利用启发式搜索进行属性约简相关程度: 条件属性子集PC与决策属性D的相关程度(也称依赖程度)定义为: 显然,0 k(P, D) 1。k(P, D)为计算条件属性子集P与决策属性D之间
15、的相关程度提供了非常有力的手段。2022/7/1933利用启发式搜索进行属性约简有效值: 一个属性pPC的有效值(significant value)定义为:【说明】:属性p的有效值越大,说明其对条件属性与决策属性之间的影响越大,即其重要性也越大。 2022/7/1934利用启发式搜索进行属性约简算法步骤: 第1步. a A: 计算邻域关系a ; 第2步. 将 赋给red ; 第3步. 对任意aiA-red , 计算 /此处定义K(D) = 0 第4步. 如果SIG(ak,red,D) 0 ,将red U ak 赋给red , 返回第3步; 否则,返回red,结束。观看演示2022/7/193
16、5利用启发式搜索进行属性约简2022/7/1936利用启发式搜索进行属性约简第1步. a A: 计算邻域关系a ;在决策表中设置A=a1,a2,a3,a4,a5,a6,a7,a8,其中C=头痛,胸口痛,体温,D=流感那么,就可以设置C1=头痛,C2=胸口痛,C3=体温,所以 A/C1=a1,a2,a3,a4,a5,a6,a7,a8 (头痛分类)A/C2=a1,a2,a3,a4,a6,a8,a5,a7 (胸口痛分类)A/C3=a1,a4,a2,a5,a7,a3,a6,a8 (体温分类)2022/7/1937利用启发式搜索进行属性约简 第2步. 将 赋给red ; 第3步. 对任意aiA-red
17、, 计算 /此处定义K(D) = 0 (A-C3): A/C1,C2=a1,a2,a3,a4,a6,a8,a5,a7(头疼与胸口疼的分类并集)(A-C2): A/C1,C3=a1,a2,a3,a4,a5,a7,a6,a8(A-C1): A/C2,C3=a1,a4,a2,a5,a7,a3,a6,a8 A/C=a1,a2,a3,a4,a5,a7,a6,a8A/D=a1,a4,a5,a8,a2,a3,a6,a7 Pos _c (D)=a1Ua2Ua3Ua4 /C的正域2022/7/1938利用启发式搜索进行属性约简 第2步. 将 赋给red ; 第3步. 对任意aiA-red , 计算 /此处定义K
18、(D) = 0K(C,D)=Pos_c(D)/U=4/8=0.5 /C的依赖程度 (A-C1): A/C2,C3=a1,a4,a2,a5,a7,a3,a6,a8A/D=a1,a4,a5,a8,a2,a3,a6,a7Pos_(c-c1)D=a1,a2,a4!=Pos_c(D)K(C-C1,D)=Pos_c-c1(D)/U=3/8 /C-C1的依赖程度 SGF(c1,C,D)= K(C,D)- K(C-C1,D)=1/8 /C1的有效值2022/7/1939利用启发式搜索进行属性约简第4步. 如果SIG(ak,red,D) 0 ,将red U ak 赋给red , 返回第3步;SGF(c1,C,D)= K(C,D)- K(C-C1,D)=1/8 0/C1的有效值将c1加入到red集合中red=c1(A-C2): A/C1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度储油罐采购合同版B版
- 2024年度电商行业安全标准制定与推广协议3篇
- 儿童娱乐中心商铺租赁合同
- 历史院墙施工合同
- 2024年太阳能光伏系统采购及安装协议3篇
- 二零二四年度货物买卖合同(国内)6篇
- 2024年合伙人解除合伙协议3篇
- 家电行业律师助理招聘合同
- 2024年度艺术品展览策划与承办协议版B版
- 建筑物拆除工程合同模板
- 冲击波球囊治疗冠脉
- 泛血管疾病抗栓治疗中国专家共识2024版解读课件
- 新高考选课指导手册
- 履职能力提升培训方案
- 2024年高考数学模拟卷(新高考Ⅰ卷专用)
- 腹腔镜手术后恢复期的护理
- 第九节明清沉暮与开新
- 创新技术对智能仓储与配送的影响
- 妊娠合并甲亢护理查房
- 优化营商环境重点知识讲座
- 运维人员安全意识培训内容
评论
0/150
提交评论