下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘种新型数据分析技术摘要:首先介绍了数据挖掘的体系结构,并在此基础上提出了数据挖掘工程的一般方法和步骤, 最后介绍了数据挖掘的应用前景。a novel data analysis tcchnology:data miningabstract:in this paper the architecture of data mining is outlined and the general methods andprocedure of data mining engineering is presented at last, the future application of datami
2、ning is introduced.key words:data miningj; data warehouse; knowledge discovery0引言随着世界上信息总量的不断增加,迫切需要有效的信息分析工具,它们能发现人量数据间 隐藏的依赖关系,它们能从大量数据中抽取有用的信息或知识。尽管很早就出现了简单的数 据统计技术,但先进的智能数据分析工具尚未成熟。因此,在数据生成和数据理解z间存在很 大的差距。数据挖掘就是为解决这一矛盾而出现的一种新型数据分析技术。数据挖掘旨在能 从人型数据库中捉取隐藏的预测性倍息,是构建高效数据仓库的基木操作,乂称知识发现。它 能发掘数据间潜在的模式,找
3、出金业经营者可能忽视的信息,以便于理解和观察的形式反映给 用户,并为企业作出前摄的、基于知识的决策参考意见。日前国际上在该领域的研究相当活 跃,无论在理论上,还是实用技术上都取得了喜人的成果,同时也开发出了各种专用或通用的 商业数据挖掘软件。1数据挖掘的体系结构从广义上讲,数据挖掘分为三种类型:全自动、半自动和全交互式。 对于全自动技术,一旦系统被创建,无需人的任何干预,它能在后台自动进行操作;对于半自动 技术,系统或者在麻台操作,或者采用全交互方式;对于全交互式技术,是一种简单的数据挖掘, 它由用户设置每次操作的参数,然后等待相应结果。数据挖掘的体系结构如图1所示:下面对其主耍组成部分分别进
4、行详细说明。1. 数据挖掘算法。这部分是数据挖掘的核心部分。它可以综合利用各种人工智能技术。下而介绍儿种常用 的数据挖掘技术。粗集方法(rough sct)o粗集理论是近年來才兴起的研究不精确、不确定性知识的表达、学习、归纳等方法。粗集方法是模拟人类的抽彖逻辑思维,它以各种更接近人们对事物的描述方式的定性、 定量或者混合信息为输入,输入空间与输出空间的映射关系是通过简单的决策表简化得到的, 它通过考察知识农达屮不同属性的重要性,來确定哪些知识是兀余的,哪些知识是有用的。进 行简化知识表达空间是基丁不可分辨关系的思想和知识简化的方法,从数据屮推理逻辑规则 作为知识系统的模型。它是基于一个机构(或
5、一组机构)关于一些现实的大量数据信息,以对观 察和测量所得数据进行分类的能力为基础,从屮发现、推理知识和分辨系统的某些特点、过 程、对象等。(2) 遗传算法(genetic algorithms) o遗传算法是基于达尔文的进化论屮基因重组、突变和白然选择等概念。这些算法作用于对某一特定问题的一组可能的解法。它们试图通过组合或“繁殖”现存 的最好的解法来产生更好的解法。利用“适者生存”的概念使较差的解法被抛弃,从而导致 解法的集合,即繁殖的结果得到改善。通常,解法的随机突变用來防止算法受阻于好的但非最优的解法。(3) 神经网络(neural networks)o人工神经网络是模拟人类的形象直觉思
6、维、是在生物神经网络研究的基础上,根据生物 神经元和神经网络的特点,通过简化、归纳、提炼总结出来的一类并行处理网络。利用其非 线性映射的思想和并行处理的方法,用神经网络木身结构可以表达输入与输出的关联知识。 它完成输入空间与输出空间的映射关系,是通过网络结构不断学习、调整,最后以网络的特定 结构来表达的,没有显式函数表达。(4) 聚类法(clustering) o聚类算法是通过对变量的比较,把具有相似特征的数据归于一类。因此,通过聚类以后, 数据集就转化为类集,在类集中同一类中数据具有相似的变量值,不同类之间数据的变量值不 具有相似性。区分不同的类是属于数据挖掘过程的一-部分,这些类不是事先定
7、义好的,而是通 过聚类算法采用全白动方式获得。通常,聚类过程是数据挖掘过程的笫一个阶段。它首先把数据区分于不同的类,以便于做 进一步的分析。聚类法大至上可分为两种类型:a. 分层聚类(hierarchical) o分层聚类是基于数学的标准,对数据进行细分或聚合。这种类型适用于数值数据。b. 概念聚类(conceptual)。概念聚类是基于数据的非数值属性,対数据进行细分或聚合。这种类空适用于非数值数 据。(5) 分类法(classification) o分类法是最普通的数据挖掘方法之一。它试图按照事先定义的标准(如:通过检查/没有通 过检查等)对数据进行归类。分类法人至上可分为如下几种类型:a
8、. 决策树归纳法(decision tree induction)o决策树归纳法根据数据的值把数据分层组织成树型结构。在决策树中每一个分支代表一 个了类,树的每一层代表一个概念。b. 规则归纳法(rule induction)o规则归纳法是由一系列的if then规则来对数据进行归类。c. 神经网络法(neural networks)。神经网络法主要是通过训练神经网络使其识别不同的类,再利用神经网络对数据进行归 类。2. 相关技术。这些技术尽管独立丁数据挖掘技术,但同时运川这些技术和数据挖掘技术能提高整个数 据挖掘工程的使用价值。(1) 在线分析处理(on line analytical pr
9、ocessing,olap)在线分析处理技术是-种与数据挖掘技术相似的技术,不同之处在于在线分析处理技术 是一非自动过程,但它能迅速响应用户的请求。在线分析处理工具允许用户观察、操作及分 析所谓的多维数据库。(2) 在线事务处理(on line transaction processing,oltp)。在线事务处理技术主要应用于处理大量用户同是创建、编辑和访问同一记录。(3) 数据仓库(data warehouses) o数据仓库是面向主题的、稳定的、不同时间的数据集合,用以支持经营管理中的决 策制订过程。通常由一些小型数据库构成,它的主体是由关系数据库构成,但某些层次的数据 也可能由其它类型
10、的数据(如多维数据)组成,它兼备数据集成和数据分析的功能。它的作用相 当于-档案室,尽管它的内容允许增加,但一-般不允许更新。在创建数据仓库时,应遵循以卜基 本原则:a. 首次创建时需进行修正。b. 创建时应检查数据以保证没有异常数据。c. 使用前应整理数据。d. 创建一个先导测试系统。e. 制订一个适当的存储规划(数据仓库仅仅是不断的增加)。f. 制订一个适合于不断增加使用的规划。(4) 可视化数据技术(data visualisation) o可视化数据技术是一全交互式技术。它基于“一幅图画值千言”这一事实,它利用 空间和非空间的属性(如:大小、颜色等)把大量的数据以图表的形式在屏幕上呈现
11、给用户,从 而用户能观察数据并在一相当高的层次上找出数据间可能的关系。可视化数据技术可以用于识别那些通过挖掘可能值得进一步观察的数据段。(5) 管理信息系统(management information systems,mis)o管理信息系统通过按一定规则牛成结构化报表来帮助管理金业。它旨在捉供战略上 而不是日常管理金业的信息。2数据挖掘工程的一般方法和步骤数据挖掘工程的特点之一是在真正开始数据挖 掘z前需要做大量预处理工作。这些工作包括:定义问题、获取相关数据和为挖掘准备数据。下面对数据挖掘工程的一般方法和步骤进行具体阐述:1定义问题。这一步的主要目的是确定数据挖掘是否适合解决客八所捉出的问
12、题。其次还要做儿 项相关工作:(1) 需要从客户那里获取哪些数据。(2) 是否有足够的数据支持数据挖掘。(3) 识别那些合法的r可以调整的因素并弄清楚它们对数据挖掘工程的影响。2. 获取数据。这一阶段主要是在企业数据库专家的帮助下理解企业数据库的结构、内容等。3. 整理和初探数据。整理数据阶段主耍是把需要挖掘的数据整理成适合于挖掘的标准格式。对那些丢失 和错误的数据做适当处理。初探数据阶段主要是使川图表和描述性统计技术对数据进行初步处理以获得数据 的大致“轮廓”,从而使得分析员能发现那些有价值和值得进一步分析的数据区域。4. 选择和准备数据。在初步理解数据后,下一步就是选择合适的挖掘工具和挖掘
13、技术。通常(但非必须), 选择数据的了集或样木进行预挖掘,以便较快地确定合适的挖掘工具和挖掘技术。数据样木 的选择可以使用各种统计技术。5. 挖掘数据(mining the data)o这一阶段也称知识发现是整个过程的核心阶段,主要是用选择好的挖掘工具和挖掘 技术对数据进行处理,从而发现规则、模式和趋势等即挖掘知识。在挖掘时,一般把数据分成训练样本集和待测样本集,前者用于构建系统模型,后者 用于测试系统的有效性。首先用数据挖掘技术作用于训练样本集,当系统模型稳定并门产生 了一些有价值的结果(即知识)后,再用待测样木集作用于系统,这时应当产生和似的结果。6. 解释结果。这一-阶段主要是把数据挖掘
14、所得到的知识反馈给用户进行评价。这时可以利用各种 可视化技术使结果更容易理解。7. 运用知识。这一阶段主要是利用数据挖掘获得的知识来解决最初客八所捉出的问题。通过挖掘 所获得的知识的价值在很人程度上取决于它们是否能有效地解决初始问题。数据挖掘可能会 很好地解决初始问题,从而导致建立一个成熟的数据挖掘系统或数据仓库。在最坏情况下,它 也能显示出数据中没有多少有价值的信息。3结束语到冃前为止,数据挖掘工程在很多领域取得了成果。这些成果使得各类机构和组织 能更好地理解它们的组织结构、业务处理过程和顾客。数据挖掘工程通常能够得到很高的投 资收益。在某些情况下,仅仅一小部分数据挖掘所得到的知识就能i叫报
15、最初的投资。数据挖掘是一项较新的技术,同时也是一项具冇诱人前景的技术。尽管在国内尚处 于起步阶段,但在国外已出现了一系列较成功的应用实例,如电子商函、信用卡问题等,在 internet擞字电视系统和工业制造领域洪至在体冇界也显示出很好的应用前景。参考文献:1 michael j.a.berry and gordon linoff.data mining tcchniqucsm.john wilcy&sons,inc,new york, 1997.2 william inmon.building the data warehousem.2d ed, john wiley&sons
16、,inc, new york, 1996.3j david e goldberg genetic algorithms in search, optimization, and machine leamingm. addisonwesley ,1989.4 joseph p bigus.data mining with neural networks: solving business problems from applicationdevelopment to decision supportm. mcgraw hill, new york, 19965j torrnlf mollestad and andrzej skowron. a rough set framework for data mining of propositionaldefault rules a the 9th international symposium on methodologies for intelligent systems,ismis' 96fc. zakopane,poland, 1996,6:913.6 z. pawlak. rough
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 郑州轨道工程职业学院《软装面料再造》2023-2024学年第一学期期末试卷
- 肇庆医学高等专科学校《建筑工程计量与计价》2023-2024学年第一学期期末试卷
- 运城幼儿师范高等专科学校《动画技法》2023-2024学年第一学期期末试卷
- 区块链确保食品追溯透明
- DB2201T 67-2024 架子牛引进质量控制规范
- 数学启蒙游戏课
- 房地产经纪综合能力-《房地产经纪综合能力》点睛提分卷2
- 七夕节的传统与现代模板
- 农学研究答辩模板
- 二零二五年房地产广告策划合同1200字模板2篇
- 课题申报书:大中小学铸牢中华民族共同体意识教育一体化研究
- 岩土工程勘察课件0岩土工程勘察
- 《肾上腺肿瘤》课件
- 2024-2030年中国典当行业发展前景预测及融资策略分析报告
- 《乘用车越野性能主观评价方法》
- 幼师个人成长发展规划
- 2024-2025学年北师大版高二上学期期末英语试题及解答参考
- 批发面包采购合同范本
- 乘风化麟 蛇我其谁 2025XX集团年终总结暨颁奖盛典
- 2024年大数据分析公司与中国政府合作协议
- 一年级数学(上)计算题专项练习汇编
评论
0/150
提交评论