




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、收稿日期:2003-09-281作者简介:郭秀娟(1961 , 女, 吉林省德惠市人, 副教授, 在读博士研究生.文章编号:100920185(2004 0120049205数据挖掘方法综述郭秀娟(, 摘要:数据挖掘方法结合了数据库技术. 数据挖掘技术的常见方法, 、遗传算法和统计分析方法被应用到各个领域, .关键词:; ; ; 挖掘理论中图分类号:N 37文献标识码:A数据挖掘(Data Mining 是从大量的、不完全的、有噪声的、模糊的和随机的数据中, 提取隐含在其中的、人们事先不知道的, 但又是潜在有用的信息和知识的过程1-2. 人们把原始数据看作是形成知识的源泉, 就像从矿石中采矿一
2、样, 原始数据可以是结构化的, 如关系数据库中的数据, 也可以是半结构化的, 如文本、图形、图像数据, 甚至是分布在网络上的异构型数据. 发现知识的方法可以是数学的, 可以是非数学的, 也可以是演绎的或是归纳的. 发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等, 还可以用于数据自身的维护. 可以说数据挖掘是一门很广义的交叉学科, 它汇聚了不同领域的研究者, 尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员2.数据挖掘技术从一开始就是面向应用领域, 它不仅是面向特定数据库的简单检索查询调用, 而且, 要对数据进行微观、中观乃至宏观的统计、分析、综合和推
3、理, 以指定实际问题的求解, 企图发现事件间的相互关联, 甚至利用已有的数据对未来的活动进行预测.1数据挖掘的方法研究的对象是大量的隐藏在数据内部的有用信息, 如何获取信息是我们所要解决的问题. 数据挖掘从一个新的角度把数据库技术、人工智能、统计学等领域结合起来, 从更深层次发掘存在于数据内部新颖、有效、具有潜在效用的乃至最终可理解的模式. 在数据挖掘中, 数据分为训练数据、测试数据和应用数据3部分. 数据挖掘的关键是在训练数据中发现事实, 以测试数据作为检验和修正理论的依据, 把知识应用到数据中. 数据挖掘利用了分类、关联规则、序列分析、群体分析、机器学习、知识发现及其他统计方法, 能够通过
4、数据的分析, 预测未来. 数据挖掘有以下几种常用方法:111关联规则挖掘1993年, R 1Agrawal 等人首先提出了关联规则挖掘问题, 他描述的是数据库中一组数据项之间某种潜在关联关系的规则. 一个典型的例子是:在超市中, 90%的顾客在购买面包和黄油的同时, 也会购买牛奶. 直观的意义是:顾客在购买某种商品时有多大的倾向会购买另外一些商品. 找出所有类似的关联规则, 对于企业确定生产销售、产品分类设计、市场分析等多方面是有价值的.关联规则是数据挖掘研究的主要模式之一, 侧重于确定数据中不同领域之间的关系, 找出满足给定条件下的多个域间的依赖关系. 关联规则挖掘对象一般是大型数据库(Tr
5、ansactional Database , 该规则一般表示式为:A 1A 2A m =>B 1B 2B m , 其中, A k (k =1, 2, , m , B j (j =1, 2, , n 是数据库中的数据项. 有Support (A =>B =P (A B , Confidence (A =>B =P (A|B 1数据项之间的第21卷第1期2004年3月吉林建筑工程学院学报Journal of Jilin Architectural and Civil Engineering Institute Vol. 21No. 1Mar 12004关联, 即根据一个事务中某些
6、数据项的出现可以导出另一些数据项在同一事务中的出现3-4.在关联规则挖掘法的研究中, 算法的效率是核心问题, 如何提高算法的效率是所要解决的关键. 最有影响的是Apriori 算法, 它探查逐级挖掘, Apriori 的性质是频繁项集的所有非空子集都必须是频繁的. 112决策树方法决策树(decision tree 根据不同的特征, 以树型结构表示分类或决策集合, . 利用信息论中的互信息(信息增益 , , 再根据字段的不同取值建立树的分枝. 在每个分枝子集中, , 即可建立决策树.决策树起源于概念学习系统S , , , 然后对每一个子集递归调用分枝过程, . 最后得到的决策树能对新的例子进行
7、分类. CL S 的不足是它处为此, Quinlan 提出了著名的ID3学习算法6, 通过选择窗口来形成决策树.从示例学习最优化的角度分析, 理想的决策树分为3种:叶子数最少; 叶子结点深度最小; 叶结点数最少且叶子结点深度最小. 寻优最优决策树已被证明是N P 困难问题. ID3算法借用信息论中的互信息(信息增益 , 从单一属性分辨能力的度量, 试图减少树的平均深度, 却忽略了叶子数目的研究. 其启发式函数并不是最优的, 存在的主要问题有:(1 互信息的计算依赖于属性取值的数目多少, 而属性取值较多的属性并不一定最优.(2 ID3是非递增学习算法.(3 ID3决策树是单变量决策树(在分枝结点
8、上只考虑单个属性 , 许多复杂概念表达困难, 属性间的相互关系强调不够, 容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次.(4 抗噪声性差, 训练例子中, 正例和反例的比例较难控制.针对上述问题, 出现许多较好的改进算法, 刘晓虎等在选择一个新属性时, 并不仅仅计算该属性引起的信息增益, 而是同时考虑树的两层结点, 即选择该属性后继续选择属性带来的信息增益. Schlimmer 和Fisher 设计了ID4递增式算法, 通过修改ID3算法, 在每个可能的决策树结点创建一系列表, 每个表由未检测属性值及其示例组成, 当处理新例时, 每个属性值的正例和反例递增计量. 在ID4的
9、基础上, Utgoff 提出了ID5算法, 它抛弃了旧的检测属性下面的子树, 从下面选择属性构造树. 此外, 还有许多算法使 用了多变量决策树的形式, 著名的C415系统也是基于决策树的.113神经网络方法模拟人脑神经元方法, 以MP 模型和HEBB 学习规则为基础, 建立了3大类多种神经网络模型, 即前馈式网络、反馈式网络、自组织网络. 它是一种通过训练来学习的非线性预测模型, 可以完成分类、聚类等多种数据挖掘任务.神经网络(neural network 是由大量的简单神经元, 通过极其丰富和完善的连接而构成的自适应非线性动态系统, 并具有分布存储、联想记忆、大规模并行处理、自组织、自学习、
10、自适应等功能7. 网络能够模拟人类大脑的结构和功能, 采用某种学习算法从训练样本中学习, 并将获取的知识存储于网络各单元之间的连接权中, 神经网络和基于符号的传统A I 技术相比, 具有直观性、并行性和抗噪声性. 目前, 已出现了许多网络模型和学习算法, 主要用于分类、优化、模式识别、预测和控制等领域. 在数据挖掘领域, 主要采用前向神经网络提取分类规则.神经网络模拟人的形象直觉思维, 其中, 最大的缺点是“黑箱”性, 人们难以理解网络的学习和决策过程. 因此, 有必要建立“白化”机制, 用规则解释网络的权值矩阵, 为决策支持和数据挖掘提供说明, 使从网络中提取知识成为自动获取的手段. 通常有
11、两种解决方案:建立一个基于规则的系统辅助. 神经网络运行的同时, 将其输入和输出模式给基于规则的系统, 然后用反向关联规则完成网络的推理过程. 这种方法把网络的运行过程和解释过程用两套系统实现, 开销大, 不够灵活; 直接从训练好的网络中提取(分类 规则. 这是当前数据挖掘使用得比较多的方法.05吉林建筑工程学院学报第21卷从网络中采掘规则, 主要有以下倾向:(1 网络结构分解的规则提取. 它以神经网络的隐层结点和输出层结点为研究对象, 把整个网络分解为许多单层子网的组合. 这样研究较简单的子网, 便于从中挖掘知识. Fu 的KT 算法和Towell 的MofM 算法是有代表性的方法. KT
12、方法的缺点是通用性差, 且当网络比较复杂时, 要对网络进行结构的剪枝和删除冗余结点等预处理工作.(2 神经网络的非线性映射关系提取规则. , 不考虑网络的隐层结构, . 以及CSW 算法(将网络输入扩展到连续取值 , , 存在许多问题, , 研究提取, 以及及时修正神经网络并提高神经网络性能等, .114粗集方法粗集(rough set 理论的特点是不需要预先给定某些特征或属性的数量描述4,8, 如统计学中的概率分布, 模糊集理论中的隶属度或隶属函数等, 而是直接从给定问题出发, 通过不可分辨关系和不可分辨类确定问题的近似域, 从而找出该问题中的内在规律. 粗集理论同模糊集、神经网络、证据理论
13、等其它理论均成为不确定性计算的一个重要分支.粗集理论是根据目前已有的给定问题的知识, 将问题的论域进行划分, 然后对划分后的每一个组成部分确定其对某一概念的支持度, 即肯定支持此概念或不支持此概念. 在粗集理论中, 上述情况分别用3个近似集合来表示正域、负域和边界.在数据挖掘中, 从实际系统采集到的数据可能包含各种噪声, 存在许多不确定的因素和不完全信息有待处理. 传统的不确定信息处理方法, 如模糊集理论、证据理论和概率统计理论等, 因需要数据的附加信息或先验知识(难以得到 , 有时在处理大量数据的数据库方面无能为力. 粗集作为一种软计算方法, 可以克服传统不确定处理方法的不足, 并且和它们有
14、机结合, 可望进一步增强对不确定、不完全信息的处理能力.粗集理论中, 知识被定义为对事物的分类能力. 这种能力由上近似集、下近似集、等价关系等概念体现. 因为粗集处理的对象是类似二维关系表的信息表(决策表 . 目前, 成熟的关系数据库管理系统和新发展起来的数据仓库管理系统, 为粗集的数据挖掘奠定了坚实的基础.粗集从决策表挖掘规则, 辅助决策, 其关键步骤是求值约简或数据浓缩, 包括属性约简Wong SK 和Ziarko W 已经证明求最小约简是一个N P hard 问题9. 最小约简的求解需要属性约简和值约简两个过程, 决策表约简涉及到核和差别矩阵两个重要概念. 一般来讲, 决策表的相对约简有
15、许多, 最小约简(含有最小属性 是人们期望的. 另一方面, 决策表的核是唯一的, 它定义为所有约简的交集, 所以, 核可以作为求解最小约简的起点. 差别矩阵突出属性的分辨能力, 从中可以求出决策表的核, 以及约简规则. 借助启发式搜索解决, 苗夺谦等人从信息论的角度对属性的重要性作了定义, 并在此基础上提出了一种新的知识约简算法M IBAR K , 但其对最小约简都是不完备的. 此外, 上述方法还只局限于完全决策表. Marzena K 应用差别矩阵, 推广了等价关系(相似关系 、集合近似等概念, 研究了不完全决策表(属性的取值含有空值的情况 的规则的发展问题, 从而为粗集的实用化迈出了可喜的
16、一步. Marzena K 还比较了几种不完全系统的分析方法, 得出如下结论:一个规则是确定的, 如果此规则在原不完全系统的每个完全拓展中是确定的; 删除从不完全决策表包含空值的对象后, 采掘的知识可能成为伪规则.粗集的数学基础是集合论, 难以直接处理连续的属性. 而现实决策表中连续属性是普遍存在的, 因此, 连续属性的离散化是制约粗集理论实用化的难点之一, 这个问题一直是人工智能界关注的焦点. 连续属性的离散化的根本出发点, 是在尽量减少决策表信息损失的前提下(保持决策表不同类对象的可分辨关系 , 得到简化和浓缩的决策表, 以便用粗集理论分析, 获得决策所需要的知识. 最优离散化问题(离散的
17、切点数最少 已被证明是N P -hard 问题, 利用一些启发式算法可以得到满意的结果. 总体上讲, 现有15第1期郭秀娟:数据挖掘方法综述离散化方法主要分为非监督离散化和监督离散化. 前者包括等宽度(将连续值属性的值域等份 和等频率离散化(每个离散化区间所含的对象相同 . 非监督离散化方法简单, 它忽略了对象的类别信息, 只能用在属性具有特殊分布的情况. 针对上述问题, 监督离散化方法考虑了分类信息, 提高了离散效果. 目前, 比较有代表性的监督离散化方法有以下几种:Holte 提出了一种贪婪的单规则离散器(one rule dis 2cretizer 方法; 统计检验方法; 信息熵方法等.
18、 这些方法各有特点, , 即每个属性的离散化过程是相互独立的, 忽略了属性之间的关联, 点. 针对这个问题, , 点和归纳规则数, 而且提高了分类精度. , 即当新的对象加入决策表时, . Mohua Banerjee 等利用集理论获得初始规则集, 然后, (规则的置信度对应网络的连接权 10, 训练后可得到精化的知识. 目前, 基于粗集的数据挖掘在以下方面有待深化.(1粗集和其它软计算方法的进一步结合问题; (2粗集知识采掘的递增算法; (3 粗集基本运算的并行算法及硬件实现, 将大幅度改善数据挖掘的效率. 已有的粗集软件适用范围还很有限. 决策表中的实例数量和属性数量受限制. 面对大量的数
19、据, 有必要设计高效的启发式简化算法或研究实时性较好的并行算法;(4 扩大处理属性的类型范围, 实际数据库的属性类型是多样的, 既有离散属性, 也有连续属性; 既有字符属性, 也有数值属性. 粗集理论只能处理离散属性, 因此, 需要设计连续值的离散算法. 115遗传算法遗传算法(G A :genetic algorithms 是模拟生物进化过程, 利用复制(选择 、交叉(重组 和变异(突变 3个基本算子优化求解的技术. 遗传算法类似统计学, 模型的形式必须预先确定, 在算法实施的过程中, 首先对求解的问题进行编码, 产生初始群体, 然后计算个体的适应度, 再进行染色体的复制、交换、突变等操作,
20、 优胜劣汰, 适者生存, 直到最佳方案出现为止.遗传算法在执行过程中, 每一代都有许多不同的种群个体同时存在, 这些染色体中个体的保留与否取决于它们对环境的适应能力, 适应性强的有更多的机会保留下来, 适应性强弱是由计算适应性函数f (x 的值决定的, 这个值称为适应值(fitness . 适应函数f (x 的构成与目标函数有密切的关系, 这个函数基本上是目标函数的变种.应用遗传算法解决实际问题, 存在以下几方面的问题:(1 编码. 把问题参数按某种形式进行编码形成个体, 一组个体构成一个种群, 编码是一项有创造性的工作, 也是遗传算法应用的关键.(2 适应值函数. 适应值是对种群中每个个体的
21、评价. 它涉及到的问题包括:问题的目标函数的确定、目标函数到适应值函数的映射、适应值函数调整等.(3 交叉. 以一定概率P c , 对两个个体进行交叉. 好的交叉策略能够使种群迅速收敛到最优解. (4 变异. 以一定概率P c , 对个体上的某种基因(对应于位串上的某位 进行改变. 变异是使当前种群进化的必不可少的条件.遗传算法的研究方向遗传算法是多学科结合与渗透的产物, 它已发展成为一种自组织、自适应的综合技术, 广泛应用在计算机科学、工程技术和社会科学等领域11. 它的研究工作主要集中在以下几个方面:(1 基础理论. 包括进一步发展遗传算法理论的数学基础, 从理论和试验方面研究它们的计算复
22、杂性. 怎样阻止过早收敛也是人们正在研究的问题之一.(2 分布并行遗传算法. 遗传算法在操作上具有高度的并行性, 许多研究人员都在探索在并行机和分25吉林建筑工程学院学报第21卷布式系统上高效执行遗传算法的策略.(3 分类系统. 分类系统是基于遗传算法的机器学习中的一类, 它包括一个简单的基于串规则的并行生成子系统、规则评价子系统和遗传算法子系统. 分类系统正在被人们越来越多地应用于科学、工程和经济领域中, 是目前遗传算法研究领域中一个非常活跃的领域12.(4 遗传神经网络. 它包括联接权、网络结构和学习规则的进化. , 成功地从时间序列分析来进行财政预算. Muhienbein 络将会是遗传
23、神经网络.(5 进化算法. .除上述方法外, 、统计分析方法、云模型方2结语数据挖掘算法是对上述挖掘方法的具体体现. 数据挖掘研究具有广泛的应用前景, 它既可应用于决策支持, 也可应用于数据库管理系统(DBMS 中. 数据挖掘作为决策支持和分析的工具, 可以用于构造知识库, 在DBMS 中, 数据挖掘可以用于语义查询优化、完整性约束和不一致检验.参考文献1Han J , K ambr M. Data Mining :Concepts and Techniques M . Beijing Higher Education Press , 2001.2张伟, 廖晓峰, 吴中福1一种基于遗传算法的聚
24、类新方法J 1计算机科学, 2002, 29(6 :114-11613Agrawal R , Mannila H , Srikant R , et al. Fast discovery of association rules :Advances in knowledge discovery and data mining M . California :MIT Press , 1996:307-328.4Sanjay Soni Unisys , Zhaohui Tang Microsoft Corporation , Jim Y ang Microsoft Corporation Perfo
25、rmance Study of Microsoft Data Mining Algorithms August , 2001.5唐华松, 姚耀文1数据挖掘中决策树算法的探讨J 1计算机应用研究, 2001, (8 :18-2216李德仁, 王树良, 李德毅, 王新洲1论空间数据挖掘和知识发现的理论与方法J 1武汉大学学报信息科学版, 2002(6 :221-23317周志华, 陈世福1神经网络集成J 1计算机学报, 2002(6 :587-59018李永敏, 朱善君等1基于粗糙理论的数据挖掘模型J 1清华大学学报(自然科学版 , 1999, 39(1 :110-11319Pawlak Z. Rough Set Theory and its Applications to Data Analysi J . Cybernetics and syst , 1998, 29(7 :661-688.10Tsumoto S. Automated discovery of positive and negative knowledge in clinical database based on rough set model J . IEEE EMB Mag 2azine , 2000, 19(4 :415-422.11糜元根1数据挖掘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 荆州理工职业学院《大学生职业生涯发展与规划》2023-2024学年第一学期期末试卷
- 开封职业学院《学术英语(人文)》2023-2024学年第一学期期末试卷
- 北京电子科技学院《商务数据分析与应用》2023-2024学年第一学期期末试卷
- 贵州航天职业技术学院《统计学原理实验》2023-2024学年第二学期期末试卷
- 河北科技学院《科技前沿讲座》2023-2024学年第二学期期末试卷
- 平凉市静宁县2025年数学五下期末达标检测模拟试题含答案
- 黑龙江工商学院《道路勘测设计课程设计》2023-2024学年第一学期期末试卷
- 供应商绩效评审流程
- 房架钢结构施工方案
- 2025年创新药发展趋势:市场表现与未来机遇-基于数据的深度解析
- 2024年全国财会知识竞赛考试题库(浓缩500题)
- 数据标注工程-概念、方法、工具与案例 课件 第6章 文本数据标注
- 2024年江西旅游商贸职业学院单招职业适应性测试题库及参考答案
- 江苏南京邮电大学教务处校内招考聘用工作人员公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- JJG 393-2018便携式X、γ辐射周围剂量当量(率)仪和监测仪
- 建筑物电子信息系统防雷技术规范(局部修订条文)
- 《护士条例》全文
- 华住会酒店员工手册
- 铁岭卫生职业学院单招参考试题库(含答案)
- 塔斯汀营销分析
- 市纪委跟班学习工作总结
评论
0/150
提交评论