版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第29卷第6期2008年12月华北水利水电学院学报Journal of North China I nstitute of W ater Conservancy and Hydr oelectric PowerVol 129No 16Dec . 2008文章编号:1002-5634(2008 06-0061-03数据挖掘中的数据预处理方法彭高辉, 王志良(华北水利水电学院, 河南摘要:从初始数据源出发, , 提出应把源数据的获取作为数据预处理的一个步骤, , 提出了数据的循环预处理模式, , 保证了预测结果的质量, 为进一步研究挖掘提供了较好的参考模式.关键词:数据挖掘; 数据预处理; 数据
2、分析中图分类号:TP311文献标识码:A统计发现:在整个数据挖掘过程中, 数据预处理 要花费60%左右的时间, 而后的挖掘工作仅占总工1作量的10%左右. 对数据进行预处理, 不但可以节约大量的空间和时间, 而且得到的挖掘结果能更好地起到决策和预测作用.一般将数据预处理分为4个步骤. 笔者把对初始数据源的选择作为数据预处理过程中的一个步骤, 即共分为5个步骤. 因为, 如果在数据获得初期就有一定的指导, 则可以减少数据获取的盲目性以及不必要的噪声引入, 且为后期的工作节约大量的时间和空间. 整个预处理过程如图1所示.数据源的质量引起的. 因此, 原始数据的获取应从源头尽量减少错误和误差, 减少
3、人为误差尤为重要. 首先应了解任务所涉及到的原始数据的属性和数据结构及其代表的意义, 确定所需要的数据项和数据提取原则, 使用合适的手段和严格的操作规范来完成相关数据的获取. 由于这一步骤涉及较多相关专业知识, 可以结合专家和用户论证的方式尽量获取有较高含金量(预测能力 的变量因子. 获取过程中若涉及到多源数据的抽取, 由于运行的软硬件平台不同, 对这些异质异构数据库要注意数据源的连接和数据格式的转换. 若涉及到数据的保密, 则在处理时应多注意此类相关数据的操作, 对相关数据作备注说明以备查用.2数据清理数据清理是数据准备过程中最花费时间、最乏味的, 但也是最重要的一步. 该步骤可以有效地减少
4、学习过程中可能出现相互矛盾的情况. 初始获得的数据主要有以下几种情况需要处理.1. 含噪声数据. 处理此类数据, 目前最广泛的是应用数据平滑技术. 1999年, Pyle 系统归纳了利用数据平滑技术处理噪声数据的方法, 主要有:分图1数据预处理流程1初始数据源的获取研究发现数据挖掘得到错误的结果, 多半是由收稿日期:2008-04-21基金项目:华北水利水电学院青年科研基金项目(HS QJ2005015 ; 河南省高校新世纪优秀人才支持计划(2006HANCET -03 ;省社科联调研项目(SK L -2008-1041 .作者简介:彭高辉(1978 , 男, 河南新乡人, 讲师, 硕士, 主
5、要从事数据挖掘算法的设计及应用软件开发方面的研究. 62华北水利水电学院学报2008年12月箱技术, 检测周围相应属性值进行局部数据平滑; 聚类技术, 根据要求选择模糊聚类分析或灰色聚类分析技术检测孤立点数据, 并进行修正, 还可结合使用灰色数学或粗糙集等数学方法进行相应检测; 利用回归函数或时间序列分析的方法进行修正; 计算机和人工相结合的方式等.对此类数据, 尤其对于孤立点或异常数据, 是不可以随便以删除方式进行处理的. 如文献2通过分析四川木里县地区弯隆体中锰铁铝榴石带在内核通化组不同层位中呈零星孤立点状或不规则带状产出, 表明深部存在不规则热隆, 推测出隐伏岩体的存在. 因此, 对于孤
6、立点应先进入数据库, 何处理. 当然, , 可进行删除处理.2. , 结合数据, 、更改或删除或忽略. 同时也可结合模糊数学的隶属函数寻找约束函数, 根据前一段历史数据趋势对当前数据进行修正.3. 缺失数据. 若数据属于时间局部性缺失, 则可采用近阶段数据的线性插值法进行补缺; 若时间段较长, 则应该采用该时间段的历史数据恢复丢失数据; 若属于数据的空间缺损, 则用其周围数据点的信息来代替, 且对相关数据作备注说明, 以备查用; 使用一个全局常量或属性的平均值填充空缺值; 使用回归的方法或使用基于推导的贝叶斯方法或判定树等来对数据的部分属性进行修复; 忽略元组.4. 冗余数据. 包括属性冗余和
7、属性数据的冗余. 若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策, 可通过用相关数学方法找出具有最大影响属性因子的属性数据即可, 其余属性则可删除. 若某属性的部分数据足以反映该问题的信息, 则其余的可删除. 若经过分析, 这部分冗余数据可能还有他用则先保留并作备注说明.和地理信息系统的相关功能对地学数据进行集成, 构建了相关概念模型, 并对地学数据集成过程中涉及到的问题进行了说明. 文献5讨论了在多种数据库中如何处理属性和元组的冗余并提出了较好的解决方法. 文献6对地图学中常见的3种类型数据的集成和检索进行了详细阐述. 可见此部分应更多地结合数据所涉及到的专业问题的
8、特点来分析, 需要特殊处理对策, . 3. 2”一词(又称信息. 1991年美. 但到, 数据融合尚未有一个统一的定义. 该文所讲的融合仅限于数据层的数据融合, 即把数据融合的思想引入到数据预处理的过程中, 加入数据的智能化合成, 产生比单一信息源更准确、更完全、更可靠的数据进行估计和判断, 然后存入到数据仓库或数据挖掘模块中. 常见的数据融合方法见表1.表1常见数据融合方法数据融合方法分类静态的融合方法动态的融合方法基于统计的融合方法信息论算法模糊集理论/灰色理论具体方法贝叶斯估值, 加权最小平方等递归加权最小平方, 卡尔曼滤波、小波变换的分布式滤波等. 马尔可夫随机场、最大似然法、贝叶斯估
9、值等.聚集分析、自适应神经网络、表决逻辑、信息熵等灰色关联分析、灰色聚类等4数据变换数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据, 消除它们在时间、空间、属性及精度等特征表现方面的差异. 这类方法虽然对原始数据都有一定的损害, 但其结果往往具有更大的实用性. 常见数据变换方法见表2.表2数据变换方法分类数据变换方法分类数据平滑数据聚集数据概化数据规范化属性构造作用去噪, 将连续数据离散化, 增加粒度对数据进行汇总减少数据复杂度, 用高层概念替换使数据按比例缩放, 落入特定区域构造出新的属性3数据集成和数据融合3. 1数据集成数据集成是将多个数据源中的数据(数据库、数据
10、立方体或一般文件 结合起来存放到一个一致的数据存储(如数据仓库 中的一种技术和过程.由于不同学科方面的数据集成涉及到不同的理论依据和规则, 因此, 数据集成可以说是数据预处理中比较困难的一个步骤. 文献3在重大自然灾害集成项目中利用对多种地学数据及非地学数据的集成取得了较好的预测结果. 文献4基于地学知识常用的规范化方法有最小最大规范化、Z score 规范化(零均值规范化 、小数定标规范化等. 文献7提出了一个通用的数据变换维数消减 第29卷第6期彭高辉等:数据挖掘中的数据预处理方法63模型, 给出了应用主成分分析方法计算模型中的数据变换矩阵的方法. 应用实例表明, 通过数据变换可用相当少的
11、变量来捕获原始数据的最大变化. 具体采用哪种变换方法应根据涉及的相关数据的属性特点而定, 根据研究目的可把定性问题定量化, 也可把定量问题定性化.时并不是完全分开的. 另外, 应该针对具体所要研究的问题通过详细分析后再进行预处理方法的选择, 整个预处理过程要尽量人机结合, 尤其要注重和客户以及专家多交流. 预处理后, 若挖掘结果显示和实际差异较大, 在排除源数据的问题后则有必要需要考虑数据的二次预处理, 以修正初次数据预处理中引入的误差或方法的不当, 若二次挖掘结果仍然异常则需要另行斟酌. , . 另外, 对, , 有待于以后参考文献1Han,M icheline Ka mber . Data
12、 M ining:Concep ts and Tech 2niquesM.US A:MorganKauf mann Publishers, 2001. 2刘俊思, 阐泽忠, 秦华中, 等. 四川木里长枪弯隆石英流5数据归约数据经过去噪处理后, 需根据相关要求对数据的属性进行相应处理. 数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性, 始数据小得多的数据, 表示. 3.数据立方体聚集维规约数据压缩数值压缩离散化和概念分层具体方法数据立方体聚集等属性子集选择方法等小波变换、主成分分析、分形技术等回归、直方图、聚类等分箱技术、直方图、基于熵的离散化等体包裹体特征及其地质意义J .四川地质
13、学报, 2005,25(4 :201-202.3池天河. 重大自然灾害遥感监测与评估集成系统M.文献9使用S AS 中称为Pr oc Logistic 的过程对每个变量进行单变量的逻辑回归达到压缩数据的目的. 文献7通过对高维数据集合的研究, 提出了两类维数消减方法:其中一种是从有关变量中消除无关、弱相关或冗余的维, 寻找一个变量子集来构建模型, 即子集选择法. 而对诸如粗糙集这种无法处理连续属性值的数据挖掘方法, 需对数据中包含的连续属性取值进行离散化, 可利用概念层次树, 将数据泛化到更高的层次, 从而可以帮助有效减少地学习过程所涉及的输入、输出操作.北京:中国科学技术出版社, 1995.
14、4李军, 庄大方. 地学数据集成的理论基础与集成体系J .地理科学进展, 2001, 20(2 :137-145.5章建国, 施敏. 利用高分子结构对数据集成的研究J .石家庄职业技术学院学报, 2005, 17(2 :45-50.6邹逸江, 吴金华. 空间数据仓库的结构设计J .长安大学学报(地球科学版 , 2003, 25(1 :66-69.7吴新玲, 毋国庆. 基于数据变换的维数消减方法J .武汉大学学报(理学版 , 2006, 52(1 :73-76.8安淑芝. 数据仓库与数据挖掘M.北京:清华大学出版社, 2005.9David W Hos mer . App lied l ogis
15、tic regressi on M.US A:W iley 2I nterscience Publicati on, 2000.6结语在数据预处理的实际应用过程中, 上述步骤有Research on Da t a Preprocess i n Da t a M i n i n gPENG Gao 2hui, WANG Zhi 2liang(North China I nstitute of W ater Conservancy and Hydr oelectric Power, Zhengzhou 450011, China Abstract:Beginning fr om the initi
16、al data s ource, data p rep r ocess r outine technol ogical p r ocess method is su mmed up, and at the same ti m e, it is put f or ward that, gaining s ource data should be as a step of data p rep r ocess . Datafusi on is br ought int o data p rep r ocess, and the data circulati on p rep r ocess pattern is p r oposed; it is a fairly
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《机械设计基础》-试卷6
- 吉林艺术学院《素描着衣全身像》2021-2022学年第一学期期末试卷
- 吉林艺术学院《风景写生》2021-2022学年第一学期期末试卷
- 2024年公园出租物品合同范本
- 2024年大学生创业基金协议书模板
- 2024年大肉生鲜加盟合同范本
- 2024年大件物流点转让合同范本
- 纳西族财产分割协议书范文模板
- 2022年公务员多省联考《申论》真题(天津市级卷)及答案解析
- 体育赛事垃圾处理与分类总结
- 人工血管动静脉内瘘术后护理课件
- 图书公司仓储物流管理制度及流程
- 危险化学品MSDS(氮气)
- 腹腔镜下子宫切除手术的手术配合课件
- 城镇燃气设计规范
- 清远市城市树木修剪技术指引(试行)
- GB∕T 2980-2018 工程机械轮胎规格、尺寸、气压与负荷
- 总承包管理规划及措施
- 乐器设备供货项目实施方案及售后服务方案
- 蓝色预防养老诈骗宣传教育PPT模板
- 酒店生产安全事故综合应急预案
评论
0/150
提交评论