(管理科学与工程专业论文)杂合粗糙集方法及应用研究.pdf_第1页
(管理科学与工程专业论文)杂合粗糙集方法及应用研究.pdf_第2页
(管理科学与工程专业论文)杂合粗糙集方法及应用研究.pdf_第3页
(管理科学与工程专业论文)杂合粗糙集方法及应用研究.pdf_第4页
(管理科学与工程专业论文)杂合粗糙集方法及应用研究.pdf_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 由于每一种方法都有其适用范围,没有一种方法对于所有的问题都是最好的。为了 处理现实世界的复杂问题,常将几个技术合并起来构造一个“杂合”的方法,以克服单 个技术的限制。粗糙集理论( r o u g hs e tt h e o r y ,r s t ) 与人工神经网络、概率统计、模 糊集合等理论有较强的互补性,本文在综述论文研究的背景、意义及国内外研究现状的 基础上,较系统深入地研究了粗糙集( r o u g hs e t s r s ) 技术与这些领域技术进行杂合的 方法,主要研究内容如下: ( 1 ) 介绍了精糙集理论的基本概念,并将r s t 应用于我国上市公司失败( s t 公司 或p t 公司) 预测,提出了预测公司失败的一个系统的方法;较深入地研究了变精度租 糙集( v a r i a b l ep r e c i s i o nr o u g hs e t s ,v p r s ) 模型中的置信闽值参数b ,及v p r s 中 的一些集合理论性质,通过算例给出了信息系统中基于变精度粗糙集的概率决策规则获 取方法。讨论了知识粒度与近似和分类质量的关系,在此基础上提出了基于变精度粗糙 集的分层知识粒度构造方法,给出了相应的算法,并用一个实例构造了分层知识粒度图; 提出了新的概率与粗糙集的杂合模型,该模型包括三个参数:最小的支持度、分类规则 必须满足的一致度、覆盖度,且仅推导出满足参数要求的规则,并给出了实现算法。 ( 2 ) 概述了基于优势关系的r s ,该方法主要用于从包含偏好信息的决策表中获取决 策规则。由于噪声是在所难免的,为了从多标准决策表中获取由偏好对象组成的概率决 策规则,提出了基于优势关系多标准概率决策分析的扩展v p r s 模型,该模型能够处理多 标准决策表中可能的不相容性。 ( 3 ) 介绍了模糊集的基本概念及r s 与模糊集的杂合方法,提出了v p r s 中知识的一种 模糊表示方法,对这种方法的一些性质进行了研究,并用该模糊度量方法描述了近似算 子。用模糊不可分辨关系代替等价关系,提出了变精度粗糙集的模糊扩展模型,讨论了 其中的一些性质,并对输出类别的模糊性给出了两种模糊度量方法。 ( 4 ) 概述了神经网络的一般结构和模型,介绍了b p 神经网络、r d f 神经网络及概率 神经网络的体系结构及算法实现,研究了基于杂合v p r s 与神经网络方法的知识发现及预 测方法,该方法包括两个阶段:第一个阶段应用v p r s 方法约简信息系统获取一个最小的 t 查堕查堂竖主堂垡堡苎 知识表示,这是由于v p r s 对噪声数据有一定的相容性,第二个阶段由d 一约简数据集训 练网络进行分类及预测。最后通过一个具体的算例分析了变精度粗糙集与不同类型神经 网络杂合方法的分类及预测精度。 ( 5 ) 将杂合r s 方法应用于供应链中的运输决策问题。比较了在不考虑偏好信息与考 虑偏好信息的条件下,分别应用不同的杂合r s 方法获得的概率分类结果。 关键词:粗糙集:概率;变精度粗糙集;模糊集:优势关系;神经网络;杂合粗糙 集方法;供应链 i i a b s t r a c t a b s t r a c t a s i n g et e c h n i q u e i s a p p l i c a b l et oap a r t i c u l a ra p p l i c a t i o n h o w e v e rn om e t h o di s a p p r o p r i a t ef o re v e r yp r o b l e m i no r d e rt od e a lw i t hc o m p l e xr e a lw o r l dp r o b l e m s ,s e v e r a l d i f f e r e n tt e c h n i q u e sa r eo f t e nc o m b i n e dt oc o n s t r u c tah y b r i da p p r o a c h t h eh y b r i d a p p r o a c h c a na v o i dt h ed i s a d v a n t a g e so ft h ee x s i t i n gm e t h o d sw h e n t h e ya r eu s e ds e p a r a t e l y r o u g h s e tt h e o r ya r ec o m p l e m e n t a r yt oa r t i f i c i a ln e u r a ln e t ,p r o b a b i l i t ya n df u z z ys e t b a s e do nt h e b a c k g r o u n d ,s i g n i f i c a n c em a d t h ec u r r e n ts i t u a t i o no fr e l a t e dr e s e a r c h t h ep a p e rh a sad e e p a n ds y s t e m a t i cs t u d yo nt h eh y b r i dm e t h o d so fr o u g hs e tc o m b i n e dt h et e c h n i q u e si nt h e d o m a i n s t h em a i nc o n t e n t so f t h e p a d e r a r ea sf o l l o w s ( 1 ) t h eb a s i cc o n c e p t so fr o u g hs e tt h e o r ya r ei n t r o d u c e d r o u g hs e tt h e o r yi st h e na p p l i e d t oc h i n e s es h a r e h o l d e rc o r p o r a t ef a i l u r ep r e d i c t i o n ,a n das y s t e m a t i cp r e d i c t i o na p p r o a c hi s p r e s e n t e d 。c o n f i d e n tt h r e s h o l dv a l u ef o r j sd is c u s s e da n ds o m e p r o p e r t i e so f t h em e a s u r ea r ea d d r e s s e d b a s e do n t h e s e ,t h em e t h o d f o r e x t r a c t i n g p r o b a b i i i s t i cd e c i s i o nr u l e sf r o ma ni n f o r m a t i o ns y s t e mi sg i v e nw i t ha ne x a m p l e g r a n u l a r i t yo fk n o w l e d g ei nc o n n e c t i o nw i t ha p p r o x i m a t i o na n dq u a l i t yo fc l a s s i f i c a t i o ni s d i s c u s s e d ,a n da na p p r o a c hi sp r e s e n t e dt oc o n s t r u c tah i e r a r c h i c a lg r a n u l a t i o n b a s e do nv p r s a na l g o r it h mi s p u tf o r w a r d ,a n da f i g u r e o fh i e r a r c h i c a l g r a n u l a t i o n i s g i v e nw i t h a n e x a m p l e an e wh y b r i dm o d e lo fr o u g hs e ta n d p r o b a b i l i t y i s p r o p o s e d w h e r et h ec l a s s i f i c a t i o nr u l e s t h a t s a t i s f y t h e r e q u i r e m e n t sa r ei n d u c e d ,w h i c hi n c l u d e st h r e ep a r a m e t e r s ,s t r e n g t h ,c o n s i s t e n c y a n dc o v e r a g e ,a n da na l g o rit h misg i v e n ( 2 ) r o u g hs e tt h e o r yb a s e dd o m i n a n c er e l a t i o ni sg i v e n ,w h i c hi sm a i n l y a p p li e d t oo b t a i nd e c i s i o nr u l e sf r o mt h ed e c i s i o nt a b l e sw i t h p r e f e r e n c e i n f o r m a t i o n i no r d e rt oo b t a i np r o b a b i1 i s t i cd e c i s i o nr u l e sf r o mm u l t i c r i t e r i a d e c i s i o nt a b l e s ,a ne x t e n s i o no fv a r i a b l ep r e c i s i o n r o u g h s e tm o d e li sp r o p o s e db yd o m i n a n c e r e l a t i o n ,w h i c hc a l ld e r i v ep r o b a b i l i s t i cr u l e sf r o mm u l t i c r i t e r i ad e c i s i o nt a b l e sm a d e u po f p r e f e r e n c ea c t i o n s t h em o d e l c a l ld e a lw i t l lp o s s i b l ei n c o n s i s t e n c i e si nm u l t i c r i t e r i ad e c i s i o n t a b l e s , ( 3 ) b a s i cc o n c e p t so ff u z z ys e t sa n dah y b r i dm e t h o do fr o u g hs e t sa n df u z z ys e t sa r e g i v e n a na p p r o a c ht of u z z ye x p r e s s i o no fk n o w l e d g ei st h e np u tf o r w a r dt h r o u g h h t , 东南大学博士学位论文 a p p l y i n gv p r st of u z z ys e t s ,w h e r es o m ep r o p e r t i e sa r ed i s c u s s e d ,a n dt h ep a i r o fl o w e ra n du p p e ra p p r o x i m a t i o no p e r a t o r si nf u z z ys e t sa r ed e s c r i b e d af u z z y e x t e n d e dm o d e lo fv p r sisp r o p o s e db yt h ef u z z yi n d i s c e r n i b i l i t yr e l a t i o ni n s t e a do ft h e i n d i s c e r n i b i l i t yr e l a t i o n ,a n d s o m e p r o p e r t i e sa r ea d d r e s s e d t h ea m b i g u i t yw i t ha g i v e no u t p u tc l a s si se s t i m a t e di nt w om e a s u r e s ( 4 ) t h eg e n e r a ls t r u c t u r ea n dt h em o d e lo fn e u r a ln e t w o r ki ss u m m a r i z e d t h es t r u c t u r e a n da r i t h m e t i co fb pn e t w o r k ,r d fn e t w o r ka n dp n na r et h e ni n t r o d u c e d t h eh y b r i d a p p r o a c ho f v a r i a b l ep r e c i s i o nr o u g hs e t sa n dn e u r nn e t w o r ki sd i s c u s s e d ,w h i c hi sc o m p o s e d o ft w op r o c e s s g i v e nac o n f i d e n tt h r e s h o l dv a l u e0 r e d u n d a n ta t t r i b u t e sa r ee l i m i n a t e d f r o mi n f o r m a t i o n s y s t e m ,a n d am i m m mk n o w l e d g er e p r e s e n t a t i o ni sd e d u c t e dt h r o u g h v a r i a b l ep r e c i s i o nr o u g hs e t sm o d e l s u b s e q u e n t l y , t h er e d u c e di n f o r m a t i o nt a b l ei sf o r w a r d e d t on e u r a ln e t w o r k sf o rc l a s s i f i c a t i o na n dp r e d i c t i o n t h ea c c u r a c yo fc l a s s i f i c a t i o na n d p r e d i c t i o ni sa n a l y z e dt h r o u g h a n e x a m p l e ( 5 ) d i f f e r e n th y b r i dm e t h o d sa p p l i e dt oat r a n s p o r td e c i s i o np r o b l e mi ns u p p l yc h a i n , p r o b a b i l i s t i c c l a s s i f i c a t i o ni s a n a l y s e d i nt h es i t u a t i o nw h e r e p r e f e r e n c e i n f o r m a t i o ni s c o n s i d e r e do rn o t k e yw o r d s :r o u g hs e t ;v a r i a b l ep r e c i s i o nr o u g hs e t ;f u z z ys e t ;d o m i n a n c er e l a t i o n s ; n e u r a l n e t w o r k ;a p p r o a c h t oh y b r i d r o u g hs e t ;s u p p l y c h a i n i v 东南大学博士学位论文 东南大学学位论文 独创性声明及使用授权声明文本 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生虢聋。纠橥日 研究生签名:笪。互型望日 东南大学学位论文使用授权声明 期: 垫旦生笙 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学 位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许 论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布 ( 包括刊登) 授权东南大学研究生院办理。 研究生签名:导师签名:期: 第一章绪论 第一章绪论 1 1 研究的背景和意义 随着大型数据库的广泛使用和i n t e r a c t 的迅猛发展,数据库中存储的数据量以惊人 的速度在增加,庞大的数据量渗透到社会生活和生产的各个领域,其结果导致传统的统 计技术及数据管理工具不再适用于分析这些巨量的数据集。海量的数据被描述为“丰富 的数据,贫乏的知识”。人们需要采用自动化程度更高、效率更高的数据处理方法来处 理大量数据,并提供有用的知识。从金融业到制造业,越来越多的公司正依赖于巨量数 据的分析获得竞争优势,知识己成为社会生活和生产的第一推动力。为了帮助人们智能 化地分析海量数据,自动地分析一些事例,出现了新一代的技术和工具,这些技术和工 具主要用于数据挖掘( d a t a m i n i n g ,d m ) 和知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e , k d d ) 领域。k d d 指从大型数据库中自动提取知识,目标是发现数据中隐藏的、以前未知 的、潜在有用的知识,本质上是在大的数据集合中寻找数据间的规则及普遍模式。数据 挖掘可以视为用来发现这些规则和模式的方法”。k d d 一词首先出现在1 9 8 9 年8 月在 美国底特律举行的第十一届国际联合人工智能学术会议上,随后在1 9 9 1 年、1 9 9 3 年和 1 9 9 4 年都举行k d d 专题讨论会,汇集了来自各个领域的研究人员和应用开发者,集中 讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。k i ) d 组委会于1 9 9 5 年把专题讨论会更名为国际会议,并在加拿大蒙特利尔召开第一次k d d 国际会议。1 9 9 8 年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并 且有3 0 多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得 到应用。k d d 和数据挖掘方法已成为当前人工智能和数据库技术的一个活跃的研究领域, 一些研究结果已被直接转换成商业计划,极大地改善了公司的决策质量。不同的数据挖 掘方法有不同的且标,总的来说,可以分为两类:验证和发现。验证限于证明用户的假 设,发现用于搜寻新的模式。发现又可分为预测和描述,通过系统发现的预测模式有助 于指导未来的行为,描述是为了以一种可理解的形式将模式提供给用户。k d d 属于典型 交叉学科领域。在k d d 中需要计算机科学、统计、认知科学等相关领域的知识。 在许多k 叻问题中,学习分类是受到广泛研究的一类问题,p a w l a k 于1 9 8 2 年提出 的r s t ( r o u g hs e tt h e o r y ) ”1 是关于数据推理的一个强大工具,r s t 是一种刻划不完整性 1 查堕查兰堂垡堡兰 和不确定性的数学理论,能有效地分析不精确、不一致、不完整等各种不完备的信息。 基于粗糙集学习系统的一个本质原理是发现分类问题给定属性闻的冗余及依赖。r s t 建 立在这样的假设上,论域中的每一对象与一些信息相联系,被同样数量信息描述的对象 是不可分辨的。以这种方式生成的不可分辨关系是r s t 的数学基础。r s t 的主要概念是 近似空间、上近似、下近似。近似空间是将感兴趣的域值划分为不相连接类别的一种分 类,类别规范地表达了域值范围内的知识,这里的知识可被理解为描述所在类别分类特 性的能力,例如,根据对象的域值特征,不可区分的对象属于同样的类别。这意味着, 沦域中任意子集的隶属关系不可能总是能被清晰地定义。粗糙集使用下近似和上近似来 近似一个给定的概念,下近似是肯定属于某一子集的对象集合,而上近似是可能属于某 一子集的那些对象的集合。由下近似和上近似定义的任何子集称为粗糙集,且可以从决 策表中获得形为“i f t h e n ”的规则。r s 方法已被成功地应用于机器学习、知识获取、 决策分析、知识发现、模式识别、专家系统和决策支持系统等领域“5 。“7 “”1 。有趣的结 果已激励各个领域的专家研究r s t 及它的应用。它的成功是由于具有如下优点:仅依赖 于原始数据,而不需要任何外部信息;r s 方法不仅适用于分析质量属性而且适用于分析 数量属性;约简冗余的属性,且约简算法较为简单,由r s 模型导出的决策规则集给出了 最小的知识表示;不修正不一致性,将生成的不一致规则划分为确定性规则和可能性规 则;由r s 方法导出的结果易于理解。r s t 和k d d 关系密切,它为k d d 提供了一种新的 方法和工具,理由如下: ( 1 ) k d d 研究的实施对象多为关系数据库,关系表可被看作为r s t 中的决策表,这 给r s 方法的应用带来极大的方便; ( 2 ) 现实世界中规则有确定性的,也有不确定性的。从数据库中发现不确定性的知 识,为r s 方法提供了用武之地: ( 3 ) 从数据中发现异常,排除知识发现过程中的噪声干扰也是r s 方法的特长: ( 4 ) 运用r s 方法得到的知识发现算法有利于并行执行,可以极大地提高发现效率。 对于大规模数据库中的知识发现来说,这是非常重要的; ( 5 ) 利用r s 方法进行预处理,去掉多余属性,可提高发现效率,降低错误率; ( 6 ) 与模糊集方法或神经网络方法相比,由r s 方法得到的决策规则及推理过程更易 于被证实和解释。 由现实世界采集到的数据可能包含各种噪声,存在许多不确定因素和不完全信息有 待处理。传统的不确定信息处理方法,如模糊集理论、证据理论和概率统计理论等因需 2 第一章绪论 要数据的附加信息或先验知识,在处理大数据量的数据库方面显得力不从心。作为一种 软计算方法,r s t 与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问 题所需处理的数据集合之外的任何先验信息,如统计学中的概率分布、模糊集理论中的 隶属度等,所以对问题的不确定性的描述或处理可以说是比较客观的。目前,国外已开 发了不少基于粗糙集的知识发现系统,其中具有代表性的有美国k a n s a s 大学开发的l e r s ( 1 e a r n i n gf r o me x a m p l e sb a s e do nr o u g hs e t s ,l e r s ) “,在该系统中有两种不同 的方法用于规则获取,一种是使用机器学习方法计算足够多的规则集,另一种是由知识 获取方法计算所有的规则集;波兰p o z n a n 工业大学计算科学研究所智能决策支持系统实 验室研制的r o s e 系统“,该系统除了提供r s t 所有基础的运算外,还提供了避免数据 离散的几种近似技术,如相似关系和优势关系,这些技术可以被用户简单地控制;此外 还有加拿大r e g i n a 大学研制的k d d r 系统、挪威t r o l ld a t ai n c 公司开发的r o u g h e n o u g h 系统及r o s s e t 系统等。 尽管粗糙集理论与其他处理不确定性的理论相比,具有不可替代的优越性,但是仍 然存在着某些片面性与不足之处。如由于对数据的过拟合而使其对新对象的预测能力大 为降低;不能处理多标准决策分类问题;对于粗糙集边界区域的刻画比较简单,如基于 等价关系的粗糙集的分类是确定的,而没有一定程度的属于或包含;不能识别仅由少数 事例支持的随机规则:不能识别包含偏好信息的属性间的不相容性;对原始数据本身的 模糊性缺乏相应的处理方法等。据概率统计,没有一种方法对于所有的问题都是最好的。 每一种方法都有其适用范围,在实践应用中,常将几个技术合并起来构造一个“杂合” 的方法,文中“杂合”意思为合并现存方法许多优点的方法,以便优势互补,克服单个 技术的限制,避免现存方法被分别使用时的缺点或弱势,这样的一个杂合系统优于单个 方法的使用。r s t 与人工神经网络、概率理论、模糊集合理论、遗传算法等理论有较强 的互补性。许多学者探讨了将逻辑、人工神经网络、概率理论、模糊集合理论、粗糙集 理论、遗传算法等两个或多个技术杂合在一起的方法【1 1 , 1 2 , 1 3 , 1 4 。在决策类的粗糙近似中, 用优势关系代替不可分辨关系,c r e c o 等人提出了粗糙集的一个扩展【”】,将粗糙集扩展 为处理多标准决策分析问题的方法。杂合的另一个用途是展示一个体系结构中的多种信 息处理,多种方法的杂合是k d d 及数据挖掘的一个有前途的发展方向。 1 2 本文主要研究内容 1 粗糙集与概率的杂合 1 查塑查堂兰垡堡墨 在信息系统中,知识库中知识的类型一般有两类:一类库中所有对象的描述是完全已 知的,p a w l a k 粗糙集模型就是属于这一种;另一类库中对象的描述只有部分是已知的, 即知识库中的知识是不确定的,它只能通过训练样本所提供的信息来描述概念。为了使从 训练样本获得的规则适合整个论域的对象,在抽取样本时应符合统计规律性,粗糙集理 论不管这一类工作,因此概率统计作为研究自然界,人类社会及技术过程中大量随机现 象规律性的一门学科,它与粗糙集理论的结合就显得非常自然。将概率与粗糙集模型进 行杂合,可以扩展粗糙集方法的功能,并可由存在噪声的数据中获取概率决策规则。 2 粗糙集与优势关系杂合 经典的粗糙集方法不能够发现与偏好属性相关的不一致性,如投资回报、市场股份 和负债率等。粗糙集中的属性不考虑偏好信息。用优势关系代替不可分辨关系重构粗糙 集模型,可将粗糙集模型扩展为处理多标准决策分析问题的方法,这样的杂合模型不仅 具有经典粗糙集模型的最好性质,而且对于用户来说,给出了更易理解的规则。此外, 基于优势关系的规则比基于不可分辨关系的规则更适合于新对象的分类,由于在经济及 金融决策问题中经常会遇到偏好信息,粗糙集与优势关系的杂合将拓宽粗集模型在经济 及金融决策领域中的应用。 3 粗糙集与模糊集的杂合 模糊集和粗糙集理论在处理不确定性和不精确性问题方面都推广了经典集合论。虽 有一定的相容性和相似性,然而它们的侧重面不同。从知识的“粒度”的描述上来看, 模糊集是通过对象关于集合的隶属程度来近似描述的,而粗糙集是通过一个集合关于某 个可利用的知识表示系统的一对上、下近似来描述的;从集合对象间的关系来看,模糊集 强调的是集合边界的病态定义,即边界的不分明性,而粗糙集强调的是对象间的不可分 辨性;从研究的对象来看,模糊集研究的是属于同一类的不同对象间的隶属关系,重在 隶属程度,而租糙集研究的是不同类中的对象组成的集合关系,重在分类。虽然模糊集 的隶属函数和粗糙集的粗糙隶属函数都反映了概念的模糊性,直观上有一定的相似性, 但是模糊集的隶属函数大多是专家凭经验给出的,因此往往带有较强烈的主观性,而粗 糙集的粗糙隶属函数的计算是从被分析的数据中直接获得的,比较客观。在模糊、不确 定及不完备信息系统的应用中,这两类技术既不竞争也不相同,相反它们自然互补,将 粗糙集理论和模糊集理论进行某些“杂合”来描述知识的不确定性和不精确性,可显示 出更强的功能。 4 粗糙集与神经网络的杂合 4 第一章绪论 粗糙集对噪声数据敏感且泛化能力弱,神经网络方法具有较强的适应能力、容错能 力及泛化能力,可以弥补粗糙集的不足;神经网络无法确定相对重要的属性组合,网络 结构的构造缺乏通用的方法,推理过程不透明,且缺乏解释能力,这些弱势可以用粗糙 集方法的优势来辅助。粗糙集方法和神经网络的杂合实质上是人类两种思维方式一逻辑 思维和形象思维的结合。这样的杂合方法可以从模糊的、不完备的且有噪声的数据库中 发现知识及预测,并将结构知识包含在系统中。这个能力对于商业中的数据分析是特别 重要的,商业领域中的许多数据是不完全的,需要从大量的输入噪声数据中过滤出有用 的信息,然而,一旦将网络应用于实践,收集不必要的数据有时是昂贵的,且这些不必 要的数据甚至干扰了网络对最终预测结果的解释。 1 3 论文的结构安排 本文在前人工作的基础上,进一步研究了粗糙集与概率、粗糙集与模糊集、粗糙集 与优势关系、及粗糙集与神经网络等的杂合方法及其应用。论文的结构安排如下: 第一章介绍了本文的研究背景、研究意义及研究现状,并概括了论文的主要内容和 结构。 第二章介绍了粗糙集的基本概念,并将其应用于我国上市公司失败预测中;进一步 研究了粗糙集与概率的杂合模型一变精度粗糙集模型及其应用;并提出了获取概率决策 规则的新的杂合模型。 第三章介绍了g r e c o 的基于优势关系的粗糙集理论,用优势关系代替不可分辨关系, 提出了一个扩展的变精度粗糙集模型,将变精度粗糙集模型扩展为能够从多标准决策表 中获取概率决策规则的方法,以便根据概率决策规则,由包含噪声数据的事例决策系统 中导出偏好模型。 第四章给出了粗糙模糊集的近似定义及模糊粗糙集的近似定义;提出了变精度粗糙 集合中知识的一种模糊表示方法,并讨论了其中的一些性质;提出了变精度粗糙集的模 糊扩展模型及其度量方法。 第五章介绍了b p 神经网络、r d f 神经网络及概率神经网络,提出了一种变精度粗糙 集与神经网络的杂合方法;将变精度粗糙集模型分别与b p 神经网络、r d f 神经网络及概 率神经网络等三类神经网络杂合后应用于预测企业失败的一个实例中,对其分类结果及 仿真结果进行了分析比较。 5 东南大学学位论文 第六章将一些杂合粗糙集方法应用于供应链中的运输方案的选择决策问题,并对分 类结果进行了分板。 第七章总结了论文的主要创新之处,并讨论了进一步的研究方向。 6 - 第二章粗糙集与概率的杂合 第二章粗糙集与概率的杂合 经典粗糙集模型所处理的分类必须是完全正确的或肯定的,因为它是严格按照等价 类来分类的,因而它的分类是精确的,亦即“属于”或“不属于”,而没有某种程度上的 “属于”或“包含”。这种形式不能够识别非决策关系,如可能以小于1 的概率推导出预 测规则。在实际应用中,知识库中的数据往往是由于随机原因或经统计得到的,即知识 库中的数据很可能存在噪声和某种程度的不完整性,从而造成分类模式的交迭,不能够 产生强的决策规则。概率作为随机事件的一种度量,它反映了一种不确定性,它在不确 定的推理中有重要的应用。概率有两种理解,一种理解为信任的程度,它反映了人们的 经验和知识,称之为主观概率,另一种理解为随机事件在大量重复试验中试验结果出现 的相对频率,称之为客观概率。无论是主观概率还是客观概率,都能反映符合某种统计 的规律性,均具有客观性。因此概率是对不确定的随机事件的一种客观的反映。粗糙集 讨论粗的非交迭概念,粗糙性不依赖于事件的发生:然而概率却依赖于事件的发生,将 概率与粗糙集模型进行杂合,可以在存在噪声的数据中导出用于概率决策估计的强的非 决策规则。已提出的概率与粗糙集的杂合模型有变精度粗糙集模型。该模型通过引入一 个置信度,从而具有一定的容错性。 本章介绍粗糙集理论( 2 1 节) 和贝叶斯概率( 2 - 2 节) ,较深入地研究了概率与粗糙 集的一种杂合模型一变精度粗糙集模型的一些性质( 2 3 节) ,在此基础上提出了基于变 精度粗糙集的分层知识粒度( 2 4 节) ,提出了新的概率与粗糙集的杂合模型( 2 5 节) , 最后对本章进行小结( 2 6 节) 。 2 1 粗糙集 2 1 1 知识表示系统 定义2 1 设乒似爿,“刀为一个信息系统,也称为知识表示系统。其中, 泸 “,必,- ,口为有限非空集合,称为论域对象空间:肛 h i ,龟,a i a i ) 为属性的非空 有限集合。若中的属性又可分为两个不相交的子集,即条件属性集f 和决策属性集口 a = c u 口c n 肛庐,则s 也称为决策表。降u 唁其中a e a ,咯为属性口的值域;正u 4 一v 为信息函数,对于v a g a 、执u ,他圪,它指定了u 中每一对象的属性 7 东南大学学位论文 值。 2 1 2 不可分辨关系 定义2 2 令v a g a ,v x eu ,m 彬圪;对于任一子集毋p 爿,在上的不可 分辨关系定义为:二 伍u x u :舷砂可孤圳v q p ) 若 力厶则称j 和y 是不可分辨的。显然,这样定义的不可分辨关系是一个等价关系, 包含对象x 的等价类记为埘。等价类与知识粒度的表达相对应,它是粗糙集主要概念, 如近似、依赖及约简等定义的基础。 2 1 3 近似集合 定义2 3 给定一个知识表示系统乒( “爿,k 力,a = - c u 口j j , x u ,集合工关 于,的下近似、上近似、负区及边界区分别定义为: 曼世( 劢= u xe u :l ( x ) 量x ) ( 2 1 ) a p r ( 肋= u x u :,( x ) n r 庐) ( 2 2 ) h o g ( 彤= u 工u :i ( x ) n x = ) ( 2 3 ) b n d ( y ) = 印r ( 肋一旦色f ( 肋 ( 2 4 ) 集合石的下近似实际上是由那些根据已有知识判断肯定属于x 的对象所组成的最大 的集合,也称为工的正区,记作p o s ( 加;集合j 的负区力锣( 为根据已有知识判断肯定 不属于的对象组成的集合;集合x 的上近似a p r ( 由所有与x 相交非空的等价类的 并集组成,即那些可能属于x 的对象组成的最小集合,显然,u = a p t ( 劢un e g ( ,集 合爿的边界区幻烈为集合x 的上近似与下近似之差,如果b n d ( 是空集,则称x 关 于,是清晰的;反之如果幻以不是空集,则称集合x 关于是粗糙的。粗糙集概念示 意图如图2 1 所示,由图2 1 可以看出,粗糙集的下近似、上近似及边界区等概念刻划了 一个不能精确定义集合的近似特性。 i i 掣xa p t ( x ) 圈0 l 相祷鼻慨念示删 - b - 第二章粗糙集与概率的杂含 2 1 4 近似精度与近似质量 定义2 4 尸c _ a ,的近似精度定义为 口p ( x ) = i a p r ( x ) i la p r ( x ) j ( 2 5 ) 近似精度反映了根据现有知识对的了解程度。显然,o a ,( x ) 1 ,若口,( 爿) = 1 , 则称集合x 相对于,是清晰的;若口,( ) 1 ,则称集合x 相对于,是粗糙的。 定义2 5 令片( 石,点,五) 为的一个划分,其中丑,r 1 ,2 ,7 ,为的一个 类别,p 巴则j 的近似质量定义为 x ) :薹l 兰型 ( 2 6 ) ,( ) 2 盟可丌一 6 ) 其中,1 i 表示基,近似质量7 ,( ) 表示由属性集尸正确分类的对象数与系统中所有对象 数的比率。 2 1 5 数据离散 粗糙集理论分析要求,数据必须以类别的形式出现。因此,连续数据必须首先进行 离散化处理,离散的结果可能会减小原始数据的精度,但将会提高它的一般性。数据离 散问题是一个n p 完全问题,数据离散可分为专家离散与自动离散。专家离散指由某一 领域的专家根据他的判断或使用该领域确定的标准进行的离散;自动离散指按自动定义 的方式进行的离散【1 3 1 。自动离散方法又可分为有监督离散法和无监督自动离散法【1 9 0 0 1 , 无监督离散法可视为一个简单的聚类过程,如等频率区间法、等大小宽度区间法。有监 督的离散化方法又可分为两类,全局离散方法与局部离散方法。局部离散方法仅考虑决 策表的予区域,且通常一次包括一个连续条件属性变量的离散,如将c h i 平方统计变量 作为适合性度量的c h i 合并方法【2 ”及c h i 2 方法等。两全局离散方法在离散过程中考虑条 件属性组。显然专家的经验比自动化离散方法更能给出合理的分割点,但是,有时由于 缺乏专家的监督,或者在该模型中包含更新的指示因子,必须借助于自动离散方法。然 而,如何最优化地离散属性值仍没解决。这是一个仍需继续研究的问题。 2 1 6 属性依赖、属性约简与核 实际应用中的一个非常重要的概念是属性依赖。直观地说,若口中的所有属性值唯 一地由c 中的属性值决定,则口完全依赖于& 若口中仅有一些值由c 中的值决定,则 称为部分函数依赖。函数依赖在某种程度上揭示了d 中的知识粒度结构能够用c 中相关 至妻奎兰兰堡垒苎 的知识粒度结构表示的程度。不同级别的信息泛化可以有不同的依赖,高级别的知识粒 度中的强函数依赖隐含着低级别的函数依赖。属性依赖的问题已被许多学者独立研究过 “”“,本文特指使用一些粗糙集方法发现函数依赖及部分函数依赖。在粗糙集方法中, 发现依赖对于知识分析、数据开采及更一般的数据推理是至关重要的,r s t 中的另个 重要的概念是属性约简,约简的属性集的分类质量与原属性集的分类质量相同。若最小 的属性子集尸c 一,满足,( x ) = y 。:( z ) ,则集合尸称为c 的一个约简,记为脚( 厅。 简单地说,约简是不含多余属性并保证正确分类的最小条件属性子集。属性问依藏的发 现导致生成与原始属性集具有相同分类质量的最小属性子集约简的生成。 信息系统可能有不只一个约简,所有约筒的交称为信息系统的核,表示为: c o r e ( 0 2 n r , 卢1 ,2 ,( 2 7 ) 咒e m ( p ) 核是信息系统最重要的属性集,它也可能是空集。 2 1 7 决策规则 论域中所有条件元素的集合,称为s 中的条件类,由五( 卢1 ,2 ,k ) 表示:论域中 所有决策元素的集合,称为s 中的决策类,用巧( 户l ,2 ,亩表示,z n 驴庐,则 r :d e s c ( x i ) jd 酗d ( ) ( 2 8 ) 称为( c 伪的决策规则,表示为( o ,) ,对于v l 若石r , - ,则规则如在s 中是决策 的,否则为非决策的。规则的语法表示如下: i f 氕x , q i l a z x , q 2 ) 雄八八舷,q 萨r q p t h e n x e :弓l v 场v v 强 其中, 譬l ,啦,铷) s & c r q ,r q z ,气p ) t x x x v 口 若结果一致,则k = - i ,那么规则是确切的,否则规则为近似的。 由决策表生成决策规则是一个复杂的任务,已提出了许多解决方法【4 7 , 4 8 , 9 6 - 1 0 2 1 ,目前 的归纳算法通常使用下列策略之一: ( 1 ) 生成覆盖决策表所有对象的最小规则集; ( 2 ) 生成由决策表中所有可能规则组成的全部规则集; ( 3 ) 生成“强”的决策规则集,甚至是部分可区分的规则集,其中,每一个规则覆 盖相对多的对象,但不一定覆盖决策表中所有的对象。 2 1 8 基于毂糙集的我国上市公司失败预澍实例 公司失败是一个世界性的闯题,公司失败的预测长期以来一直是理论界及实业界的 1 0 第二章耜糙集与概率的杂台 一个主要的研究领域1 4 “1 4 3 1 ,它对公司的投资人、债权人、雇员及经理等显然是非常重 要的。公司失败是一个通用的术语,公司失败的个极端的定义为清算,另一个极端 的定义仅为报告的利润数字比预期的低。在此二者之间有各种可能的精确定义。显然, 公司失败包括公司破产,对于一个公司公司破产意味着债权人的清算或指定接收者。 然而,公司失败更广泛地包括财务困难这样的情况,结合我国的实际情况,将上市公 司中的s t 公司及p t 公司视为公司失败。s t ( 特别处理) 制度于1 9 9 8 年正式应用于 我国股市,s t 公司是指财务状况异常的公司,即公司连续两年出现亏损或公司净资产 低于公司股票面值。p t ( 特别转让) 公司可以看作是公司经营失败的极端体现。2 0 0 1 年2 月,中国证监会发布了亏损上市公司暂停上市和终止上市实施办法,取消p t 制度,若公司连续三年亏损其股票即暂停上市。 笔者将粗糙集应用于我国上市公司失败预测中”o 】。应用基于熵的启发式函数对连 续型数据进行自动离散,解决了在缺少专家的情况下的数据离散问题。因为使用专家分 类有时是不现实的、相对昂贵的且可能会对数据引入超出误差级别的主观偏差。应用快 速约简算法对离散的训练样本集搜寻约简,并生成相应的规则集,最后用仿真样本对分 类规则进行了验证。 1 数据采集与变量选择 数据来源于2 0 0 1 年深、沪两市上市公司的年报。截至2 0 0 1 年底,两市共有a 股上 市公司1 1 1 5 家,其中,s t 公司或p t 公司共有6 3 家。从中随机抽取3 0 家失败公司( s t 公司或p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论