下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、学习数据挖掘技术得到的收获和启发中山大学信科院数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。一、数据挖掘的主要内容(一)数据挖掘的步骤数据挖掘包括四个步骤:(1)确定业务对象;(2)数据准备(包括数据选择,数据预处理,数据转换);(3)数据挖掘(选择合适的数据挖掘算法);(4)结果的解释评估(可视化的表示)。数据预处理:数据预处理要占整个数据挖掘过程的60%的工作量,数据预处理包括:数据清理、数据集成和变换、数
2、据规约。其中:数据清理包括:(1)平滑噪声数据(又称脏数据),包含错误或存在偏离期望的孤立点值(可采用分箱、聚类、回归技术);(2)填写空缺值或不完整数据(有些感兴趣的属性缺少属性值,或仅包含聚类数据)(可采用填充平均值、全局常量或者是采用回归和基于贝叶斯方法的工具来填充);(3)解决数据不一致(对同一属性采用不同的度量单位,比如对于成绩采用百分制或是等级制)(可采用知识工程工具处理)。重复的元组也需要数据清理。数据集成:将数据由多个源合成一致的数据存储,如数据仓库或数据立方体或一般文件。一般需要考虑三个问题:模式的集成,冗余属性的相关性分析,数据值冲突的检测与处理。 模式的集成:也是一个实体
3、识别问题。比如数据分析者或计算机如何确信一个数据库中的customer_id和另一个数据库中的customer_number指的是同一实体。通常,数据库和数据仓库的元数据可以帮助避免这个错误。冗余属性的相关性分析:给定两个属性,根据可用的数据,通过分析可以度量一个属性可以在多大程度上蕴含另一个属性。数据转换:将数据转换成适合挖掘的形式。包括:平滑、聚集、数据概化、规范化和属性构造。数据规约:可以用来得到数据集的规约表示,它比原始数据小得多,但仍接近于保持原始数据的完整性。在规约后的数据集上挖掘将更有效。主要方法有:数据立方体聚簇、维规约、数据压缩、数值压缩、离散化和概念分层。DM的数据源有:关
4、系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(legacy)数据库,以及Web数据源等等。(二)数据挖掘的主要功能和算法1.关联规则:关联规则挖掘是描述两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。2.分类学习:分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描
5、述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有K最近邻居算法(K Nearest Neighbor Algorithm)、决策树算法、贝叶斯分类和支持向量机算法(Support Vector Machine)等等。3.聚类分析:聚类就是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。目前聚类分析的的类型和代表算法主要有:(1) 基于划分的聚类算法:K均值算法。它需要指定聚类个数K和K个
6、初始点,通过平方差指标找出K个聚类,但有时为了减少平方差会将一个大的聚类分裂为几个小的聚类。(2) 自底向上的层次聚类算法:Cure算法。用一定数量的记录来代表一个类,然后将它们缩为类的中心。在每一步,那些有最大相似度的聚类被合并,直到聚类的个数为k。Cure算法能够挖掘任意形状的聚类。(3) 基于密度的聚类算法:Dbscan算法。基本思想是对于一个聚类中的每一个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目,然后对具有密度连接特性的对象进行聚类。一个聚类能够被其中的任意一个核心对象所确定。Dbscan算法可以挖掘任意形状的聚类,对数据输入顺序不敏感,并且具有处理异常数据(噪声
7、)的能力。(4) 基于网格和密度的聚类算法:Clique算法。由于把数据空间划分为网格,所以算法效率高,可以处理高维数据。但在划分网格时没有或者很少考虑数据的分布,而且用一个网格内的统计信息来代替该网格内的所有点,从而降低了聚类质量。4.预测:预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常采用预测方差来度量。预测的主要方法有统计学中的回归分析等等。5.时序模式:时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。6.偏差分析:在偏差中包括很
8、多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别二、学习体会数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反复的过程。该学科应用广泛,当前主要集中应用在电信(客户分析),零售(销售预测),农业(行业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),化工,医药等方面。当前它能解决的问题典型在于:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classifi
9、cation)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等,在许多领域得到了成功的应用。本人在财政部门工作,主要负责预算执行分析工作,经常要统计海量的财政预算收支数据,通过统计结果反映预算执行的状况,为领导提供决策参考。例如在分析预算收入方面需要统计分析各月度各季度收入走势、各种行业收入增减情况、各税种收入变化情况、预算收入与经济运行间的关联情况等,分析预算支出方面需要统计分析预算执行率的快慢、
10、各支出口径增减变化情况、预算支出进度、民生支出基本支出建设支出对社会经济的影响、财政结余资金的构成及其产生的原因等。可以说,统计数据、分析数据、提炼观点贯穿于本人整个工作过程之中。通过学习本课程,给本人工作提供了很大的指导意义,是本人在统计时有了更系统的概念和手段,能解决以前在统计和分析数据时遇到的很多问题。例如,收到税务、经贸、工商等部门提供的数据后,存在大量的噪音数据和冗余数据,很不利于数据的准确分析。因此本人会将各个部门提供的数据合并成一张表把不必要的数据去掉,这个过程就相当于数据清理和数据集成了。然后根据需要统计数据(如统计各种经济指标与财政执行之间的关联等),把统计结果做成更加直观的
11、图表,再综合各种客观情况,评价数据的质量,在此基础上再利用数据起草预算执行报告,这样报告的可靠性和质量会提高很多。数据挖掘技术应用广泛,作用很大,很有发展前景,未来的发展趋势主要有:1.专业开发语言出现(DMQL)。研究专门用于知识发现的数据挖掘语言,并使其走向形式化和标准化。2.寻求数据挖掘过程中更优秀的可视化方法。(EXCEL中的透视图)3.研究基于网络环境下的数据挖掘技术。特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现网络(远程)数据挖掘。(WEB数据挖掘)4.加强对各种非结构化数据的开采(如对图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采)5.挖掘软件的适用性更加灵活。如果一次挖掘不能实现相应的目标,可以进行交互式、动态性、分层挖掘等,即交互挖掘技术的发展。6.出现功能较强大的专用数据挖掘软件。将来的几个热点发展方向包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘等,这些领域具有独特的数据性质,需要由独特的专用软件来支持。7. 空间数据挖掘(Spatial Data Mining)将有所突破。在SDM的理论和方法方面,重要的研究方向有:背景知识概念树的自动生成、不确定性情况下的数据挖掘、递增式数据挖掘、栅格矢量一体化数据挖掘、多分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 5年中考3年模拟试卷初中道德与法治九年级下册03第二单元素养综合检测
- 学校安全隐患排查登记表2
- 第一教学课件网下载
- 人教版六年级音乐下册教案
- 报废车辆废弃物循环利用项目可行性研究报告写作模板-申批备案
- (统考版)2023版高考化学一轮复习第九章有机化合物第2讲乙醇和乙酸基本营养物质学生用书
- 新能源汽车品牌年度跨界活动方案【汽车】【跨界营销】
- 桥梁工程冬季施工方案
- 咖啡豆短途配送协议范本
- 书法教室装修施工合同模板
- HYT 0301-2021 海洋观测数据格式(正式版)
- 2024四川省招聘社区工作者试题完整
- 黑龙江鸡西市(2024年)小学语文部编版小升初真题(疯狂进步)完整试卷(含答案)
- 风温肺热病护理查房
- 2024年中考语文复习专题21:叙事性散文阅读(六)含答案
- 儿科重点专科汇报
- 工艺流程专题复习市公开课一等奖省赛课微课金奖课件
- 《建筑与装饰工程BIM计量》复习备考试题库(含答案)
- 2023年驾驶员酒精测试记录表
- 五懂五会五能培训
- MOOC 现代教育技术-陕西师范大学 中国大学慕课答案
评论
0/150
提交评论