版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘概述Dr.Qingyuan
BaiSchoolofComputerScienceFacultyofMathematicsandComputerScience,FuzhouUniversityEmail:baiqy@1References1.ProceedingsinVLDB,AAAI,IJCAI,SIGMOD/SIGPODS,ICDE/ICDT.2.Jiawei
Han(/~hanj/)3.DBLP(rmatik.uni-trier.de/~ley/db/index.html)4.国内外相关网站/论坛(1)21世纪人工智能论坛()(2)www.cs.ualberta.ca/~tszhu/webmining/(3)研学论坛(/index.html)(4)数据挖掘讨论组()2数据挖掘数据挖掘是在数据大量积累,数据丰富,而知识贫乏,希望从数据中发现知识的方法。集数据库、统计学、人工智能等技术形成一个新学科可处理杂乱的数据、定性和定量混合数据、模糊数据、不确定数据和不完整的的数据。机器学习、人工智能用各种方法解决了一些方法问题,但实用性不够(仅在小数量数据实验可行)。3
数据挖掘与其他学科的关系
4数据挖掘相关的领域KDD(知识发现)机器学习数据库统计学人工智能模糊逻辑方法和粗糙集方法神经元网络模式识别可视技术5数据挖掘希望回答的问题信贷中信用评估、信用卡评级、信用卡欺诈销售一个产品,广告、材料的邮寄对象保留何种客户、争取潜在客户,交叉销售股票违规操作、欺诈行为
货架货物的摆放国民经济各指标间的关系疾病、症状、药物、疗效之间的关系DNA序列的相似分析导致各种疾病的特定基因序列模式6数据挖掘发展历程从80年代中后期,数据挖掘和知识发现的方法、技术和系统,从不同角度、不同领域和不同学科进行了研究和实践,主要的学科有数据库、统计学和机器学习。由于知识发现和数据挖掘日益成熟和广泛发展,1989年在美国底特律召开的IJCAI会议上,召开KDDworkshop,1991年MIT出版社出版了一本书“KnowledgeDiscoveryinDatabases”。7此后KDD和DM成为研究的热点,并有很大发展和进步,1994年召开了一个国际会议(KDD94),并于1996年由MIT出版社又出版了一本书“AdvancesinKnowledgeDiscoveryandDataMining”。1996年出第一本专著,97年有6-7本,2006年有几百本,中文(翻译,编著)30本以上,国外各大学研究生、大学生均有数据挖掘课程。我国也陆续出书,开设课程。数据挖掘发展历程8从1995年正式召开第一次国际KDD会议(KDD’95)后,每年召一次。前四次均由美国AAAI组织,1999年提到ACM,成立了SIGKDD。使KDD学术上上了一个档次。亚太地区也紧跟世界潮流,1997年在新加坡召开了第一次亚太KDD会议,其中,1999年4月在北京召开了第三届亚太KDD会议(PAKDD99)。第五届PAKDD2001年4月16日在我国香港召开。第十五届(2011)在深圳召开。数据挖掘发展历程9国外有许多研究小组和机构。自1998年开始,我国许多单位的研究小组开展了KDD的研究与开发工作,我国各大科研资助项目(如“国家自然科学基金”,“973”、“863”、“攻关”)都设立了KDD的研究课题。一些企业也有此类项目研制和开发。数据挖掘发展历程10通用工具(非特定领域)SASEnterpriseMinerMinerSPSSClementineSGIMineSetOracleDarwinIBMIntelligentMinerAngoss
KnowledgeSeeker综合工具BusinessObjectCognosScenarioDataMining工具、软件、产品11面向应用的工具(特定领域)KD1(重点在零售业)Options&Choise(重点在保险业)HNC(重点在欺诈行为探查)UnicaModel1(重点在市场)IntelligentMiner(数据挖掘,文本挖掘)MinesetDBminerBODataMining工具、软件、产品12有许多预测机构都看好数据挖掘和KDD技术。权威预测机构Gartner报告中列举了在今后3~5年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。世界有名的GartnerGroup咨询公司预计:不久的将来先进大型企业会设置“统一数据分析专家”,数据仓库和数据挖掘一定会扩展开来!微软专家也认为数据挖掘会成为21世纪的重要技术之一,也有研究小组。在中国微软研究院有相应的研究小组。数据挖掘的前景与趋势13金融业(银行信贷、信用评估、信用卡等级、保险、证卷分析、监管、预警,外汇管理……)电信(各通信公司几乎都启动)商场(客户分析、货物摆放、交叉销售…)地税(异常发现…)医疗(医院在HIS基础上除建立全面的电子病例,就是建立数据挖掘系统)客户关系管理(CRM)国内企业数据挖掘项目14数据挖掘概述1.KDD定义、过程、分类2.成功因素3.数据挖掘技术4.数据挖掘的方法论5.应用情况151KDD定义、过程、分类1/7KDD定义KDD过程KDD分类16KDD
(KnowledgeDiscovery
inDatabase,)定义:2/7
KDD是从数据集
中识别
出有效的、新颖的、潜在有用的,以及最终可理解的
模式的非平凡过程。数据挖掘(DM)是KDD中一个重要环节17数据集:是一组事实F(如关系数据库中的记录);模式:是一个用语言L来表示的一个表达式E,它可用来描述数据集F的某个子集FE,E作为一个模式要求它比对数据子集FE的枚举要简洁(所用的描述信息量要少);过程:是指KDD是一个多阶段的过程,包括数据准备、模式搜索、知识评价,以及上述过程的反复求精;该过程是非平凡的,是指整个过程是自动的、智能的(如计算所有数据的总和、平均值都不能算作是一个KDD过程);KDD定义3/718有效性:是指发现的模式应用于新的数据时要具有一定的可信度;新颖性:要求发现的模式应该是新的、用户未知的或未预料到的;潜在有用性:是指发现的知识将来具有实际效用,如用户根据发现的知识进行商业决策可以产生一定的经济效益;最终可理解性:要求所发现的模式容易被用户理解。KDD
定义4/7
19KDD过程5/7
KDD过程可分为三个阶段:数据准备(datapreparation)、数据挖掘,以及
结果的解释评价(interpretationandevaluation),如图所示。
可视化用户界面
数据库
目标数据
预处理好的数据
转换后数据挖掘出的知识
有用的知识
选择/抽样
预处理
数据转换
数据挖掘
解释评价
20过程6/71.数据的选择与抽样根据用户的需要从数据库中选择或抽样的一部分数据。2.数据预处理(1)数据的过滤:除噪声去冗余(2)数据的添补3.数据转换:数据转换的主要目的是消减数据维数或维数缩减4.数据挖掘:挖掘方法的使用5.结果的评价(1)可视化表示(2)解释(3)知识的使用6.循环21数据挖掘分类7/7(1)根据数据挖掘任务分数据挖掘有如下几种:分类、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系(或依赖模型发现)、异常和趋势发现等等。(2)根据数据挖掘的数据库或数据源分数据挖掘有以下几种:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、以及万维网(WWW)。(3)根据数据挖掘所采用的技术分数据挖掘可大致分为:统计方法、机器学习方法、神经网络方法和数据库方法。222.成功因素1/2(1)问题的明确(2)一定数量和质量的数据(3)领域专家的配合(结果的判断)(4)合适的方法和算法
(5)决策者的决心232.成功因素2/2
问题:1、数据数量与质量(积累、选择、清理)2、解决问题不明确3、领域专家参与不够4、领导决心不够(多人投入,少数人使用)难点:1、数据量大:纪录多、分类多、属性多2、大部分是NP-Hard难解问题3、找出方法,多为启发式方法243.数据挖掘所用的技术1/11数据库技术:1、海量数据的存储2、海量数据的检索统计技术:1、相关分析;2、回归分析(多元回归、自回归等);3、关联规则;4、贝叶斯分析(贝叶斯分类,贝叶斯网络)
5、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)
6、序列分析、时间序列分析253.数据挖掘所用的技术2/11机器学习技术:
1、归纳学习:2、神经网络3、遗传算法4、基于示例的学习(推理)5、聚类数学方法:
1、粗糙集(RoughSets)2、模糊逻辑方法;搜索与检索方法:
1、有效的搜索引擎2、有效的文本(信息)检索可视化技术WebMining(网络挖掘)
TextMining(文本挖掘)
263.数据挖掘技术3/11数据预处理概念描述关联规则分类与预测聚类技术文本挖掘Web挖掘27数据预处理4/11数据清理:缺值、噪声(不是真正的数据)、数据不完整(缺数据)、数据不一致(计量单位不同,符号不同,同义词)、数据冗余、孤立点(例外,特殊值)数据变换:通过平滑、聚集、概化、规范化等将数据转换成适合数据挖掘的形式数据集成:通过数据去重、清理、规范化,按照要求集合成一个新的数据集。数据归约:通过各种方法使数据集变小,有意义。数据离散化:离散化是将连续属性值化为标号使取值数量减少,或用一个区间代替区间内所有可能的值,虽然离散化失去了细节值,但可使概念更清晰。28②概念描述5/11从数据分析角度看,数据挖掘分描述式数据挖掘和预测式数据挖掘。描述式DM:以简洁概要方式描述数据,并给出数据的一般性质。预测式DM:分析数据,建立一个或一组模型,预测新数据行为。概念描述是描述式DM的最基本形式,它以简洁汇总的形式描述给定的任务相关数据集。概念(类)描述由特征化和比较(区分)组成。特征化给出数据汇集的简洁汇总,有基于立方体的OLAP方法和面向属性的归纳方法。对比给出两个或多个数据汇集的比较,是对两组可比较的类进行概化和特征描述,然后进行比较。29③关联规则6/11通过各种方法找出一些事物与另一些事物的关联,这种关联有一定支持度和一定可信度。如:年收入20万,年龄30-40,无房=>
购买汽车,购买房子(s=10,c=70)购买鞋,兰球=>
运动衣,牛奶(s=5,c=50)
X=>Y(s,c)30④分类与预测7/11用特定的方法把一些数据对象归于预先设定的某一类,或预测某对象的未来值或趋势。这些特定方法是通过对样本数据的学习得到模型或函数,样本数据的类是给定的。分类是有指导的学习。分类方法有:决策树,人工神经网络,k-近邻,贝叶斯方法,案例推理,遗传算法,粗糙集方法,模糊方法。预测方法有:回归方法(线性,非线性,二元或多元回归)。31⑤聚类技术8/11按照对象的特点进行归类,归类的过程称聚类,得到的类,称簇,簇内对象相似性大,簇间相异性大。聚类过程不需要训练,即不需要样例,是无指导的学习。聚类的方法有:分划方法,分层方法,基于密度方法基于网格方法基于模型方法孤立点分析32⑥文本挖掘9/11对文本文本分类文本摘要文本信息抽取文本特征抽取文本学习模型文本自动分类系统文本自动摘要系统对中文文本分类:分词问题33⑦Web挖掘10/11基于内容挖掘(WebContentsMining)信息过滤、网页分类、信息抽取(InformationExtraction)基于结构挖掘(WebStructureMining)确定一个网络范围、模式集成/匹配基于使用挖掘(WebUsageMining)个性化服务:信息推荐、用户行为分析/预测文本挖掘是Web挖掘的基础。34WebContentMiningWebcontentminingdescribestheautomaticsearchofinformationresourceavailableonline,andinvolvesminingwebdatacontents.TheaimistofindtheknowledgefromtheunstructureddataresidinginWebdocuments.TheWebdocumentusuallycontainsseveraltypesofdata,suchastext,image,audio,video,metadataandhyperlinks.Theyareeithersemi-structured,orunstructuredtextdata.35WebStructureMiningThegoalofWebstructureminingistogeneratestructuralsummaryabouttheWebsiteandWebpageandtodiscoverthelinkstructureofthehyperlinksattheinter-documentlevel.Webstructureminingcanalsohaveanotherdirection–discoveringthestructureofWebdocumentitself.Thistypeofstructureminingcanbeusedtorevealthestructure(schema)ofWebpages,thiswouldbegoodfornavigationpurposeandmakeitpossibletointegrateWebpageschemes.36WebUsageMiningWebusageminingtriestodiscoverytheusefulinformationfromthesecondarydataderivedfromtheinteractionsoftheuserswhilesurfingontheWeb.ItfocusesonthetechniquesthatcouldpredictuserbehaviorwhiletheuserinteractswithWeb.Predictionoftheuser’sbehaviorwithinthesite;AdjustmentoftheWebsitetotheinterestsofitsusers.373.数据挖掘技术11/11数据挖掘技术的应用同一方法可解决不同问题同一问题可用不同方法解决多种方法的结合、融合(多策略方法)38
4数据挖掘的方法论1/9目前比较流行的数据挖掘方法论1.NCR,SPSS等大公司提出的CRISP-DM(CrossIndustryStandardProcessforDataMining)方法论。2.SAS提出的SEMMA(Sample,Explore,Modify,ModelAccess)方法论3.IBM提出的通用数据挖掘方法(Thegenericdataminingmethod)归纳为:KDD的5(6,7)大步骤39CRISP-DM(跨行业数据挖掘标准)1999年CRISP-DM报告给出下列步骤:
(1)BusinessUnderstanding(2)DataUnderstanding(3)DataPreparation(4)Modeling(5)Evaluation(6)Deployment这是许多KDD开发者遵循的准则之一.40(1)BusinessUnderstanding
企务问题理解在数据挖掘之前收集与该项目有关的信息,确定数据挖掘要解决那类问题。资源的评估:硬件、软件资源、数据资源、人力资源(管理人员、业务人员、技术人员)数据评估:数据数量、数据质量项目成功估计、成功后的效益、相应人员(分析、维护)的增加。41如:一个电信领域的数据挖掘项目问题可为:一些优质客户有什么特征?哪些是不良客户,他们有什么特征?在欠费客户中,哪些是恶意的欠费?哪些是善意的欠费?哪些客户可能会有最好的潜力?通过什么样的标准来细分客户?如何来衡量客户带来的价值?哪些是高价值客户?如何去保住他们。保住一个客户比争取一个客户将花较小的代价。42(2)DataUnderstanding理解数据
从哪里进行数据的收集数据来源有那些各数据源数据描述:格式、含义数据质量外来数据有那些对数据的含义一定要有深刻的理解才有可能从中找出(挖掘)规律和知识。43(3)DataPreparation准备数据数据选择数据清理数据重构数据整合规格化:定出范围标准化:解决不一致数据准备会占用整个项目50%以上时间44(4)Modeling建立模型
各种数据挖掘方法数据汇总概念描述关联规则相关分析分类与预测聚类45挖掘结果(获得知识的)评估挖掘过程的评估来决定是否要反复,KDD是迭代过程(6)Deployment方案实施发布挖掘结果(获得知识的)评估决定实施计划(5)Evaluation方案评估
46CRISP-DM各阶段占用时间和重要性
(取自数据仓库及其在电信领域中的应用段云峰等著)1%10%方案实施2%10%建立模型和模型评估15%50%数据准备3%20%数据理解79%10%问题理解占项目成功的重要性花费时间47
5.应用市场分析、预测和管理行销策略、客户关系管理(CRM)、购货篮分析、市场分割风险分析、预测和管理风险预报、客户挽留、改进的保险业、质量控制、竞争分析欺诈检测和管理证券违规操作、税务偷漏、瞒报、信用卡欺诈行为判断信用评估银行信贷评估、信用卡评估485应用宏观经济(经济指标之间关联,经济指标的预测、预警)电信金融情报(文本挖掘、新闻组、电子邮件、文档)DNA数据分析医疗诊断中药配伍规律零售业科学(天气预报、灾难预测…)495应用情况
银行17%生物/基因8%E商务/Web15%欺诈检测8%保险6%投资/股票4%药品5%零售业6%科学数据8%电信11%其他11%50经常使用的数据挖掘工具调查51从技术看数据挖掘使用技术情况[784votestotal](Feb2005)
DecisionTrees/Rules(107)决策树
14%Clustering(101)聚类
13%Regression(90)回归
11%Statistics(80)统计
10%Visualization(63)可视化
8%NeuralNets(61)神经网络
8%Associationrules(54)关联规则
7%NearestNeighbor(34)最近邻
4%SVM(Supportvectormachine)(31)支持向量机
4%Bayesian(30)贝叶斯
4%Sequence/Timeseriesanalysis(26)序列/时间序列分析
3%Boosting(25)增强
3%Hybridmethods(23)混合方法
3%Bagging(20)袋装
3%Geneticalgorithms(19)遗传算法
2%Other(20)其他
3%52数据挖掘系统的典型架构数据仓库数据清理与数据集成过滤
数据库数据库、数据仓库管理系统数据挖掘引擎模型、模式评价可视化用户界面数据挖掘方法库其它数据源用户知识库53数据挖掘系统的典型架构54SAS提出的数据挖掘方法论
SEMMA(Sample,Explore,Modify,ModelAccess)1.Sample数据取样2.Explore数据特征的探索、分析和预处理3.Modify问题明确化,数据调整和技术选择4.Model模型研发、知识发现5.Assess模型和知识的综合评价55SAS给出数据挖掘项目实施的方法论1.定义业务问题2.系统环境评估3.数据准备4.数据挖掘:应用SEMMA方法论5.模型实施6.回顾与评价56IBM提出的通用数据挖掘方法
(Thegenericdataminingmethod)1.明确地定义商务问题2.确定要使用的数据挖掘模型3.按模型的要求确定数据源并进行数据准备4.评估数据质量5.根据商务或技术问题的性质,选择一种数据挖掘技术或几种数据挖掘技术组合6.理解挖掘结果,并从挖掘结果中检验新模式7.将挖掘结果应用到具体业务中57数据挖掘产品(1)IntelligentMiner(IBM)多种数据挖掘算法较强的伸缩性工具包:神经网络,统计方法,数据准备,和数据可视化工具与IBMDB2关系数据库系统的紧密集成EnterpriseMiner(SAS)各种统计分析工具数据仓库工具和多种挖掘算法Mirosoft
SQLServer2000将DB、OLAP和数据挖掘集成在一起支持OLE-DB58数据挖掘产品(2)MineSet
(SGI)多种数据挖掘算法和高级统计工具先进的可视化工具Clementine(SPSS)为终端用户和开发人员提供了集成的数据挖掘开发环境多种数据挖掘算法和可视化工具DBMiner(DBMinerTechnologyInc.)多个数据挖掘模块:发现驱动的OLAP分析,关联规则,分类和聚类高效的关联规则与序列模式挖掘功能,可视化分类工具能对关系型数据库和数据仓库进行挖掘59数据预处理Dr.Qingyuan
BaiSchoolofComputerScienceFacultyofMathematicsandComputerScience,FuzhouUniversityEmail:baiqy@60我们受噪声数据、空缺数据、不一致数据困扰没有数据的质量就没有挖掘结果的质量就没有信息和知识的质量为提高数据质量我们要研究数据的预处理Motivation:61数据预处理数据表示数据质量不好的原因数据预处理必要性数据预处理的方法62数值型:整数(4,9),实数(3.25)文字型:人名,地名,物品,事物类别型:球类(蓝,排,足,乒乓…),颜色(红,蓝…二值型:性别,通断,(特殊的类别型)连续型:身高(0.5—2.58)离散型:可为类别型,也可为数字型定量型:产品价格(20—100元)
定性型:高,矮周期型:股票每周的走势。非周期型:暴雨的发生一种为可度量:尺寸,面积。一种为不可度量:语义型,标称型(颜色)数据表示数据类型63一个事务往往有多个属性,这样的一个事务称样本样本,有时也称元组/对象/记录由一组特征或属性(变量,域)表示:
X=(x1,x2……xn)xi:可为各种数据类型,可取各种值。如:物品=(编号,名称,产地,型号,价格,库存量)
张三=(身份证号码,性别,年龄,教育程度,职业,收入,有车……)
天气=(温度,湿度,风力,气压,……)数据表示样本的表示样本属性64量大:百万级以上纪录,100GB,TB,PB特征多:千级特征,文本表示类别多:千级(汉字),万级汉字,指纹
了解数据、样本的表示以及数据的规模,处理方法就不一样。选择数据分析和数据挖掘的方法要根据数据情况而定。数据表示大数据集65数据预处理数据表示数据质量不好的原因数据预处理必要性数据预处理的方法66数据质量不好的原因缺值噪声数据不完整数据不一致数据冗余例外数据(孤立点,特殊值)67缺值缺值可能是缺整个对象或对象的属性丢失原始数据就忘掉了输入传输丢失原来认为不重要,后来分析时认为需要68噪声数据不正确,数据属性不正确原因:
收集(录入,设备)错误,设备受干扰,人为录入错误。传输错误。69数据不完整不同时间(时期)的数据如1986年经济指标为100项目,2004年为150项,或100项,已与原来不一样了。数据来源不同
各单位报上的汇总数据不一样。原来的数据用途与现在的用途不一样。收集数据不全面
数据收集时以为不要的数据。在分析阶段觉得非常必要。如:病人诊断数据、经济报表。70数据不一致数据集成自不同的数据源,用的度量不同(米,公分,英尺)不同数据源集成,用的编码不一样如男,女(M,F;1,0)
名称的不一样。计算机,电脑;磁盘(磁碟)71数据冗余数据本身的冗余,记录完全一样。属性冗余:有的样本,有多个属性,一个属性包含另一个属性,有些属性是多余的。无关属性:存在某个属性,但在处理过程中,它不起作用。如分析一个人能力,他的电话号码就没作用。72噪声是孤立点孤立点不是噪声孤立点是真实数据孤立点与常规数据不一样如:股票交易中的违规操作,信用卡消费的异常,医疗诊断数据中异常症状,欺诈行为。这是数据挖掘重要研究课题。例外(孤立点,特殊值)73数据预处理数据表示数据质量不好的原因数据预处理必要性数据预处理的方法74数据预处理必要性不预处理,数据处理时结论会不正确(不准);不预处理,数据占用空间大,处理时间长。75数据预处理数据表示数据收集、传输和处理数据预处理必要性数据预处理的方法76数据预处理方法一数据清理二数据变换三数据集成四数据归约五数据离散化和概念分层77一、数据清理数据清理数据要解决下列问题:1缺值2含噪声(不是真正的数据)3数据不完整(缺数据)4数据不一致(计量单位不同、符号不同、同义词)5数据冗余6孤立点(例外、特殊值)去除由于不同数据源整合,需要对数据进行清理。781缺值解决方法忽略(去掉)缺值的元组人工填补用一个全局性的常数填上用平均值填上用同类元组属性平均值填补用推导方法得到值(回归,贝叶斯方法,决策树,EM算法)//EM(ExpectationMaximization)最大期望方法各种解决缺值的方法虽有一定风险,它利用了已有的知识,是可行的。792解决噪声的方法1)分箱(平滑)用分箱方法,将数据平滑了,用平滑值代替一个箱的值。噪声被平滑掉了或被淹没了。2)聚类用聚类方法对数据聚成多个类,不在类中的数据认为是噪声。3)回归用一个回归方程来平滑数据,把偏得太远的数据校正过来。4)用计算机与人工相结合的方法找出垃圾数据,对数据设限(非限内数据为噪声数据)。801)分箱分箱方法
通过考察“邻居”(即周围的值)来平滑存储数据的值。存储的值被分到一些“桶”或箱中,由于分箱方法参考的是临近的值,称局部平滑。分箱方法要定义深度分箱方法箱里的值用平滑值代替。分箱方法平滑值由许多方法来确定:
平均值方法,中值方法,边界值方法811)分箱一组价格数据排序为:{4,8,9,15,21,21,24,25,26,28,29,34}
分成等深的箱:-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34
用箱平均值平滑:-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29用箱的边界平滑:-箱1:4,4,4,15-箱2:21,21,21,25-箱3:26,26,26,3482
2)聚类
用聚类方法聚了许多簇,簇内的数据为有用数
据,簇外为孤立点或噪声。83
3)回归
回归主要是对数值属性,用一个合适的函数来平滑数据,消除噪声。有线性回归,多元回归。
线性回归
Y=
+X
xyy=x+1X1
y1
y1’用回归方程算出的值来替代原来的值的,如给X1,用Y1’替代Y1.84回归方程系数的计算
线性回归:
Y=+X其中,,称回归系数,可用最小二乘法来求。
=y
–xx=
y=853解决数据不一致在由多数据源集成为统一的数据库和数据仓库时就会出现数据不一致问题和数据冗余。表示不同(不同数据源对同类数据称呼不一样)、度量不同(元,万元)、编码的不同、币制的不同、公制和英制不同……等。解决不一致只能靠元数据,用实体识别方法来处理。如用户名部处样本男女客户名单位事例MF864解决数据冗余数据冗余有的是数据重复,有的是属性多余。前者去掉数据,后者去掉属性。去掉数据冗余方法:可用匹配方法,配合上的数据说明完全一样,是冗余,可去掉一个实体识别方法,由于不同数据源要集成在一起,不同系统一个实体可能表示方式不同,但可能是同一件事情,在集成时要仅保留一个。实体识别一般用元数据或一些知识规则。去掉属性冗余方法:可用相关分析874解决数据冗余有些数据可以通过相关分析,看一个属性在多大程度上蕴含另一属性,可用相关分析,两个正相关性大的属性,可能是一个属性蕴含另一个属性,可以去掉一个。属性A和B相关由下面公式度量:
n是元组的个数分别是A,B的平均值,分别是A,B的标准差A,B的相关性度量88
上式大于0,为正相关,等于0不相关,小于0,是负相关。正相关性越大,一个变化(增大)另一个也跟着变化(增大),一个蕴含另一个可能性大,可能是数据属性的冗余,可去掉一个。如一个是customer_id,另一个属性是cust_number,它们相关性大,确实是冗余。895孤独点问题孤独点我们定义为异常点。可能为噪声,可能为真实值。有时要忽略它,有时要研究它。为此要研究异常点的检测方法。统计方法基于距离的方法基于偏差的方法90二数据变换(1/5)将数据转换成适合数据挖掘的形式,涉及如下内容1平滑:排除数据中的噪声。采用前面的分箱、聚类和回归方法。用分箱的平均数替代整个箱,用聚类值替代实际值。用回归线上数据替代实际值2聚集:对数据进行汇总和聚集,如可聚集日销售量为月销售量、年销售量等,聚集也常用来为多粒度分析构造数据立方体。3概化:用概念分层来对数据进行概化,即用高层次的概念来替代低层次“原始”数据,如:用省名替代许多小地方名,用青年、中年、老年替代具体25,27,31岁,48,51岁,67,75岁
平滑是属于数据清理,聚集和概化属于数据归约。91二数据变换(2/5)4.规范化:将数据按比例缩放,使之落入一个小的特定区间,如[0.0,1.0]区间。方法有:最小-最大规范化零-均值规范化小数定标规范化5.属性/特征构造由给定的属性构造和添加新的属性92二数据变换规范化(3/5)1)最小-最大规范化:对原始数据进行线性的变换。假定minA,maxA分别为属性A的最小、最大值,值区间为[minA,maxA],将A的值映射到新区间[new_minA,new_maxA]中的V’。93二数据变换规范化(3/5)如个人的收入属性income,minA=12000元,
maxA=98000元收入的区间[12000,98000].如某人收入为73000元(V),就难看出其状况。现在我们规范化区间定为[0.0,1.0],用公式计算为:
V’=[(73000-12000)/(98000-12000)](1.0-0.0)=0.716其收入在最高档的71%。另外这种处理会为分析带来方便。94二数据变换规范化(4/5)2)零-均值规范化(z-scorenormalization)属性A的值基于A的平均值和标准差来规范化如的收入属性income,其平均值为54000标准差为16000,如某人收入为v=73000元
V’=(73000-54000)/16000=1.225.95二数据变换规范化(5/5)3)小数定标规范化小数定标规范化是通过移动属性A的小数点的位置进行规范化。小数点的移动位数取决于A的最大值。最大值标规范化后也要小于1。公式中的将j由A的最大值决定。J的选择使Max()<1如A的最大值为678,则j为3,678就规范化为0.678j的选择是取决于A的最大值,大于最大值的最小10的整数幂。96二数据变换属性/特征构造由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解,如我们可能根据高和宽属性而添加面积属性。这有利于分析。属性的构造根据问题和需要而定,不是一个特定的规律。97三数据集成
来自不同数据源,集成为统一的数据库和数据仓库时就会出现:
1.数据不一致
2.数据冗余
3.数据冲突集成过程采用上述方法对不同的数据源进行了数据清理,然后经数据变换后按照要求集成一个新的数据集或数据仓库,供数据挖掘用。98四数据归约是当数据集非常大,在海量数据进行数据分析或数据挖掘时需要非常多的时间,有时不现实,甚至是不可能的。将数据归约成小规模数据集,分析和挖掘都可有效进行。原数据集归约数据集归约方法99四数据归约数据归约必要性:一个数据仓库或一个海量数据集可能存储TG的数据,在这样一个完整的数据集上分析和挖掘将需要很长时间。能否把数据集变小,但仍接近于保持原数据的完整性。用数据归约方法得到数据集的归约表示,它小得多,接近于保持原数据的完整性。在归约后的数据集上进行数据挖掘更有效,并能产生相同(或几乎相同)的分析结果。
100四数据归约归约的策略为数据立方体聚集维归约值归约数据压缩1011数据立方体聚集数据立方体聚集常常为联机分析用,是实际上也可为数据挖掘服务。用聚集的数据代替细节数据,来减少数据量。年=1999年=1998年=1997季度销售额Q1224,000Q2408,000Q3350,000Q4586,000年销售额
1,568,0002,356,0003,594,0001022维(属性,特征)归约
维(也就是属性)有时数据可能包含百计(甚至千计)的属性,但在进行数据挖掘大部分属性与数据挖掘任务无关的,有些是冗余的,有些次要的。利用去掉无关属性和冗余属性来减少数据规模,就是维归约,为了分析一些特定属性对某些事务的影响,去掉非指定的属性。使分析问题更清晰,明了。尽管领域专家可以判断一些无关属性,但这是困难和费时的,必须给出一些方法来判断,来删去一些冗余和无关属性。1032维归约维归约的方法:
1)去冗余属性
2)去无关属性
3)去次要属性
4)决策树方法
5)属性重要性判断方法
6)特征选择方法1041)去冗余属性用前面介绍的相关性分析方法,可能一个属性就另一属性的冗余。1052)去无关属性特征选择方法:基于应用领域的知识和数据挖掘的目标,分析者可选择一个初始特征子集。认为其他属性无关。这种方法有危险性:可能会漏掉潜在有用的属性。1063)去次要属性(找相关特征)用特定方法来判断属性的重要性,来对属性排队,取前面n个属性,后面去掉(可定义阈值,或保留个数)。有一些排队方法和选择策略。1.逐渐向前选择策略(选好策略)
{A1,A2,A3,A4,A5,A6}{}起点{A1}A1最好{A1,A4}{A1,A4,A6}终点,归约属性集。该方法实际上是判断属性好坏计算,并有排序或给出阈值。1073)去次要属性(找相关特征)2.逐渐向后选择策略(去差策略)
{A1,A2,A3,A4,A5,A6}{A1,A2,A3,A4,A5,A6}A2差{A1,A3,A4,A5,A6}{A1,A4,A5,A6}{A1,A4,A6}归约属性集。该方法实际上是判断属性好坏计算,并有排序或给出阈值。1084)决策树
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论