40数据挖掘应用工具与实例_第1页
40数据挖掘应用工具与实例_第2页
40数据挖掘应用工具与实例_第3页
40数据挖掘应用工具与实例_第4页
40数据挖掘应用工具与实例_第5页
已阅读5页,还剩121页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主要内容1.概述2.数据仓库与OLAP技术3.数据挖掘技术4.数据挖掘在电信领域的应用数据挖掘工具6.数据挖掘实例数据挖掘在电信领域的应用4.1CRM与

ERP4.2数据挖掘在电信领域的应用

4.1CRM与ERPCRM

CRM(CustomerRelationshipManagement,客户关系管理),作为一种旨在改善企业与客户之间关系的新型管理机制。

CRM系统以数据仓库技术为基础,数据挖掘技术为核心。

4.1CRM与ERPERPERP(EnterpriseResourcePlanning,即企业资源规划),是前几年国内外兴起的一种企业运作管理软件,它的侧重点是对企业内部的业务流程以及企业的资源进行管理。

解决的是企业内部各环节的协调问题,如财务、生产、采购和仓储等部门间的协调关系。4.1CRM与ERPERP与CRM两者的关系同样作为现代企业的管理软件,ERP与CRM在企业运营过程中,处于不同的位置,担任不同的角色。一个面向后台,一个面向前台。一个保证企业生产出更高质量的产品,而另一个帮助企业理顺与客户的关系,向客户提供最好的服务。这是企业在激烈的市场竞争保证胜利的不可或缺的两个环节。

4.1CRM与ERP

通过ERP与CRM系统的紧密集成,把企业供应商和服务商等都联成一个有机的整体,真正形成一个以客户为核心进行运作的虚拟企业,并最大限度地满足客户需要和最大限度地降低企业成本。CRM的应用

数据挖掘在CRM中的市场营销,业务分析,客户服务等方面都有广泛的应。例如:发展客户、提升客户价值、挽留客户等。CRM的应用发展客户每一个企业都希望能更快地发展新的客户,更多的客户意味着更大的市场占有率和更好的规模效益。数据挖掘技术可以帮助更准确地发现有价值的潜在客户,从而可以显著地降低发展新客户的成本,提高市场拓展的投入产出比(ROI)。

CRM的应用

例如,假设一个电信业务提供商利用邮寄宣传材料开拓市场,一份宣传材料的成本是¥1.00。如果漫无目的地随机分发10000份,将有150人成为该公司用户,而其中能给公司带来利润的仅有100人。也就是说投入¥10000,得到了100个有价值的客户。现在采用数据挖掘技术,根据以前随机分发的数据或者新取样500人分发获取数据而后建立模型,根据该模型,发现前面的10000人中只有5000人值得投资,对此5000人邮寄宣传材料后有95人成为客户,其中90人可带来利润。结果是投入¥5500,获得了90个有价值的客户,显著地提高了投入产出比。CRM的应用挽留客户据一般经验估计,留住一个老客户地成本是发展一个新客户成本的3-5倍。留住有价值的客户保持利润的有力手段。而在电信行业,客户的频繁换网现象(churn)十分严重,留住客户比其它行业更加困难。数据挖掘在此问题上也有较好的应用。

CRM的应用

要挽留客户首先要找出可能离网的客户,因此数据挖掘解决该问题的第一步即是建立离网客户预测模型。该模型可以利用已离网客户的历史资料(包括个人信息、消费行为等)来获得。第二步当然还得判断该客户是否值得挽留,这也用到预测模型,因为有些客户虽然目前是有微弱价值的但是最终毫无价值,有些客户则可能恰恰相反。CRM的应用提升客户价值提升现有客户的价值是提高利润的重要手段。在电信行业,客户价值提升包括交叉销售、增值销售和基本业务价值提升。数据挖掘是发现交叉销售/增值销售机会和分析基本业务价值提升可能性的重要手段。

CRM的应用

发现交叉销售/增值销售机会涉及到两个模型。第一个模型用来确定哪些用户可以进行推销,哪些用户则不希望被打扰。如果多次对第二类用户进行推销,则可能失去该用户。第二个模型则用来发现对特定的用户推销哪些产品。显然,即使不考虑推销成本,多次向客户推销他并不想要的产品肯定会降低他对该企业的满意度。关联规则可能是第二个模型的重要组成部分。CRM的应用

基本业务价值提升要考虑的重要问题是预测用户在企业采取某种措施后其利润的变化情况。例如假设某个电信运营商采取某特定用户群亲友电话费减半的优惠策略来刺激消费,则必须要求这些用户的消费额增加或者能增加市场占有率公司才可能获得效益。4.2电信领域的应用4.2.1客户行为与潜在客户分析

4.2.2用户信用度分析

4.2.3黑名单、红名单

4.2.4优惠策略

4.2.5甄别欺诈

4.2.6趋势预测4.2电信领域的应用目的利用成熟的数据挖掘工具或算法,对用户帐务数据、行为数据、基本信息数据,以及各营业点的销售记录等进行分析挖掘,找出各种数据之间的潜在关系,为企业经营者制定销售策略提供科学依据。

数据源

用户帐务数据库、用户行为数据库(话单数据)、用户基本信息库等。

4.2.1用户行为分析

对于企业的某一类或几类产品/业务来说,大致可将其用户分为四类:(1)潜在用户目前还不是公司任何一项产品/业务的用户,但有使用该产品/业务的潜在趋势,这是市场竞争初期的重要营销对象。(2)增量用户是公司某项产品或业务的使用者,并且有增加使用量的趋势。

4.2.1用户行为分析(3)交叉增量用户是企业某一产品/业务的使用者,并且有使用本公司另一类产品/业务的可能性。(4)挽留客户目前是公司的某一类或几类产品/业务的使用者,但有终止使用或转向别的产品/业务提供者转移的可能性。

4.2.1用户行为分析用户行为分析的基本思想将用户的行为分为若干类别,对具有某一类行为特征的用户,分析其基本信息,以期找出用户行为和客户基本特征两者之间的若干潜在关系。

实现步骤第一步采用聚类算法对用户行为进行分类,根据得到的类别模型与客户行为信息库对个客户行为进行评分,结果写回客用户行为信息库。衡量用户行为的主要特征指标包括:客户ID

时段

工作日性质----工作日和非工作日

消费金额

业务类型(重要指长话,市话等通话业务),

目的(重要指本地,长途,我网他网等信息)

实现步骤第二步统计分析各类别的行为特性,首先按照各行为类别的利润贡献大小对各类别进行排序。例如:类别利润计算公式类别平均利润=∑(各行为消费金额)/类别行为个数

实现步骤

类别行为特性按不同主题有多种考察重点,如某一种业务或业务组合在各类别行为中出现的百分比,各行为的时间段分布情况等;这里得到两类类别统计信息表:按类别组织和按各种主题(如业务类型,业务量)组织。

4.2.1用户行为分析主要包括两方面的分析:群体分析利用聚类或分类算法,将企业客户根据某种规则分为若干群体。行为分析(又称倾向建模)根据客户以前的消费行为,分析某几类有显著特征的行为模式,并据此对客户未来的行为进行预测。

4.2.1用户行为分析

上述两种建模技术均可以被用来提高企业营销目标对象的准确性并提高相应的收益。为达到这个目的,目前有很多的分析工具被应用,如:交叉报表工具基于机器学习的数据挖掘工具工具。如

Minset、IntegentMiner等基于统计学的分析工具,如SAS、SPSS;神经网络4.2.2用户信用度分析

用户信用度等级描述详细描述用户信用度等级的具体含义。

信用等级分布表示客户的利润、客户的基本信息和行为分类如时间段、业务类型等的分布表示。类似于客户行为分析。信用度的相关分析分析影响用户信用度的因素之间的概率依赖关系、强度及其可信度。这一方面用于预测客户信用度的发展趋势,当发生变化时,对其信用等级进行相应的调整。4.2.2用户信用度分析

利用上述分析结果,给出从一个信用度等级到另一个信用度等级变化可能性大的客户。可能决策者主要关心从高等级到低等级(最低等级)和从低等级到最高等级可能性大的用户群。4.2.2用户信用度分析

根据影响用户信用度的主要因素,对用户的帐务数据进行分类,建立分类模型,并对用户进行评分,给出用户的信用度级别(类别)。影响用户信用度的主要因素包括:(1)交费的及时度(2)用户的社会性质(3)用户的通话业务量(4)用户申请的业务数量(5)用户申请的业务种类和用户的投诉情况4.2.2用户信用度分析用户信用度分析的实现

<1>

系统初装时,没有用户的信用度级别信息,这时采用聚类算法,按照用户的帐务行为信息将其分为若干类。在此基础上,依照每类各指标的统计数据和一定的等级评定规则,将各类的信用度赋于高低级别;<2>

在系统运转过程中,用户(指本系统用户)可能会对用户已有信用度级别提出异议,或加以修改,这样,对做了相应级别修正后的用户数据,采用有监督的分类学习,就会得到更为准确的分类模型,而且这个模型也是不断在更新的。相应的,随着用户信用行为特征的变化,其信用级别也会不断变动。

4.2.2用户信用度分析

信用度类别分类依据的用户帐务信息数据包括:开户平均时长欠费次数金额(如本月欠费,则为欠费金额,此值为负,如本月不欠费,则为通话费用,此值非负)

欠费时长帐务人社会性质

步骤1用户信用度初始化数据抽样抽样的原则样本尽量具有代表性,且数据量能保证学习耗时不是太多。例如,可采用一个随机数产生器随机产生要抽取的样本。

数据抽样步骤2信用度模型更新步骤3用户信用度级别更新步骤4新开用户信用度设定

用户的信用度级别设定是由用户的帐务信息决定的,而新开用户没有任何帐务记录,故根据已有的信用度模型没法设置其信用度。考虑到有不同帐务行为的用户有不同的基本信息,即某种信用等级的用户具有相似的基本信息,我们可以分析新开户的基本信息,与各个信用等级的用户基本信息做比较,以确定他属于哪个信用级别,分为以下两步:(1)分类模型确定

(2)新开户信用等级评定

步骤4新开用户信用度设定4.2.3黑名单、红名单

黑名单与红名单管理是在信用度管理的基础上,按照一定的规则,将信用度较高或较低的某些用户列入红名单或黑名单。根据信用度的评定规则可知,红名单中用户交费及时,消费量大,是电信部门保证利润的最重要客源,也是最应该保持的一部分客户;而黑名单上的用户则是对电信部门利润增长贡献较小或最有可能有欺诈行为倾向的用户。黑名单与红名单是优惠策略管理和反欺诈管理的重要依据,并且也是电信部门较为关心的重要信息。

4.2.4优惠策略分析

优惠策略(包括营销优惠策略和话费优惠策略)主要完成:(1)定义优惠规则和优惠方式;(2)用户优惠规则参数化处理;(3)对已有优惠策略的性能分析;(4)优惠套餐的设置;(5)各种优惠和业务、以及其他信息分布关系的展示功能。

4.2.4优惠策略分析优惠规则分为:时段优惠用户可享受国家规定的时段优惠外,系统还应提供有各个公司制定的适用于本地的时段优惠措施总量优惠对用户的业务量达到一定的程度后,给予不同的优惠措施。4.2.4优惠策略分析次数优惠对用户的通话次数达到一定的数量后,给予不同的优惠措施。伙伴电话优惠对用户的通话性质进行区分,对于呼叫某类或某部电话的用户,给予不同的优惠措施。

4.2.4优惠策略分析优惠方式包括:基于客户性质类别的优惠基于呼叫地区类别的优惠基于营业地区类别的优惠基于信用等级的优惠综合的优惠套餐等4.2.4优惠策略分析优惠方式分析对于各种优惠方式(包括优惠套餐),给出其受益客户的类别、信用度类别分布、欺诈情况和投诉类别分布等。例如,优惠策略的行为类别分布及其柱状图和饼状图等。新优惠套餐设置分析。给出新的优惠套餐的设置与客户群的分析及利润分析。(优惠套餐的设置参数必须在以前的优惠策略中出现过),分析优惠套餐使用者的其他各项属性的概率,从而给出这种优惠(资费)的客户群体。同时可以查找最优化的优惠设置。4.2.4优惠策略分析优惠策略或优惠套餐潜在客户分析。优惠策略的性能分析。通过分析优惠策略和业务量和收入之间的关系,给出优惠策略的性能。

4.2.5甄别欺诈

当前恶意欠费客户给电信运营商造成了巨大的利润损失,如何减少欺诈行为带来的损失是每一家电信企业所必须面对的问题。在识别欺诈客户,降低经营风险方面数据挖掘已经不少有了成功的应用案例。

4.2.5甄别欺诈

识别欺诈客户的主要途径:第一是区分用户的信用度,通过建立用户信用打分模型把用户分成不同的信用度等级,给不同的等级确定不同的月高额限制,超出限额的认为是潜在恶意欠费客户。第二是建立恶意欠费客户的消费识别模型,如果某一客户的消费模式吻合欺诈消费模式,则认为是潜在恶意欠费客户。

4.2.5甄别欺诈

甄别欺诈策略分析类似优惠分析,建立在信用度管理的基础之上。分析防欺诈策略的相关变量:高额话费额度、欠费停机额度和用户具有不同的欠费停机额度等。指定防欺诈策略分析信用度、客户的满意程度、高额花费警告额度和停机额度之间的关系。根据分析结果调整用户的基本信息。分析信用度、客户的满意程度和用户催缴周期、催缴频度之间的关系。

4.2.6预测

预测主要指业务预测,是针对电信量发展的短期预测。它建立在对大量数据(业务资料数据、社会基础资料数据、市场调查资料、其他运营者资料数据)统计分析的基础上,通过模型运算、统计分析等数据处理手段,完成对电信业务的业务发展、用户需求数量、用户分布、市场占有率等几方面的预测分析。4.2.6预测

从上面介绍的数据挖掘在电信领域的各种应用可以看出,信用度分析及客户行为分析是其他各种应用的基础。数据挖掘的认识误区u

挖掘出的结果都是正确的数据挖掘得出的结果一般都是经验性的,它并不是一条经过严格数学证明的定理(事实上数据挖掘得出的规则绝大多数不可证明)。例如数据挖掘号称能通过历史数据的分析来预测客户的行为,而事实上客户自己可能都不明确自己下一步要作什么。挖掘算法并不保证结果的完全正确,挖掘出的结果只具有概率上的意义,只具有参考价值。

数据挖掘的认识误区u

挖掘获得的模型可普遍适用数据挖掘仅仅根据它所处理的数据得出结果,结果的适用范围受限于数据的选择。我们不能保证一个在美国运行得非常成功的银行信用卡客户信用评级模型在中国也同样可信;当然我们也不能保证一个零售业的客户利润分析模型同时适用于电信行业。

数据挖掘的认识误区u

数据挖掘可以完全自动化当然数据挖掘可以做到完全的自动化,但是,挖掘结果对商业目标的价值不是挖掘算法所能判断的,用户需要在他们能理解的背景环境中,观察挖掘输出的结果并与之交互。很多时候一个挖掘目标的完成需要多次叠代的挖掘过程才能完成。在一定的意义上,一个半自动的数据挖掘环境可能是更好的。

数据挖掘的认识误区

数据挖掘是一个工具,而不是魔杖。它不会坐在数据库上一直监视着数据库,然后当发现有意义的模型时给管理者发一封电子邮件。它仍然需要了解用户的业务,理解用户的数据,弄清分析方法。数据挖掘只是帮助专业人士更深入、更容易的分析数据。而无法告知某个模型对企业的实际价值。而且数据挖掘中得到的模型必须在现实生活中进行验证。

主要内容1.概述2.数据仓库与OLAP技术3.数据挖掘技术4.数据挖掘在电信领域的应用数据挖掘工具6.数据挖掘实例5数据挖掘工具5.1概述5.2几种数据挖掘工具比较5.3典型工具介绍

5.3.1DBMiner5.3.2Admocs5.3.3Predictive-CRM5.3.4SAS/EM(EnterpriseMiner)

5.3.5Weka5.1概述目前,世界上比较有影响的典型数据挖掘系统包括:EnterpriseMiner(SAS公司)IntelligentMiner(IBM公司)SetMiner(SGI公司)Clementine(SPSS公司)WarehouseStudio(Sybase公司)See5(RuleQuestResearch公司)CoverStoryEXPLORAKnowledgeDiscoveryWorkbenchDBMinerQuest等5.1概述

该网站提供了许多数据挖掘系统和工具的性能测试报告。5.1概述IBMIntelligentMinerAwiderangeofdataminingalgorithmsScalableminingalgorithmsToolkits:neuralnetworkalgorithms,statisticalmethods,datapreparation,anddatavisualizationtoolsTightintegrationwithIBM'sDB2relationaldatabasesystemSASEnterpriseMinerAvarietyofstatisticalanalysistoolsDatawarehousetoolsandmultipledataminingalgorithmsMirosoftSQLServer2000IntegrateDBandOLAPwithminingSupportOLEDBforDMstandard5.1概述SGIMineSetMultipledataminingalgorithmsandadvancedstatisticsAdvancedvisualizationtoolsClementine(SPSS)Anintegrateddataminingdevelopmentenvironmentforend-usersanddevelopersMultipledataminingalgorithmsandvisualizationtoolsDBMiner(DBMinerTechnologyInc.)Multipledataminingmodules:discovery-drivenOLAPanalysis,association,classification,andclusteringEfficient,associationandsequential-patternminingfunctions,andvisualclassificationtoolMiningbothrelationaldatabasesanddatawarehouses5.2几种数据挖掘工具比较产品公司主页版本ClementineIntegralSolutions,Ltd.http://www.isl.co.uk/clem.html4.0DarwinThinkingMachines,Corp./html/products/products.htm3.0.1EnterpriseMinerSASInstitute/software/components/miner.htmlBetaIntelligentMinerIBM/data/iminer/2PRWUnicaTechnologies,Inc./prodinfo.htm2.1ScenarioCognos/busintell/products/index.html2平台和数据库连接方式的比较产品单机版C/S版数据源ClementinePC和UNIX无ODBCDarwin无UnixServer/PCClientODBCEnterpriseMinerPCUnixServer/PCClient和NTServer/PCClientODBC和NativeDatabaseDriversIntelligentMinerPCUnixServer/PCClientNativeDatabaseDriversPRWPC无ODBCScenarioPC无仅支持数据库文件(Debase、excel、csv等)算法方面的比较算法ClementineDarwinEnterpriseMinerIntelligentMinerPRWScenario决策树有有有有无有神经网络有有有有有无回归分析有无有有有无RadialBasisFunctions无有无有有无最近邻无无有无有无最近均值无无无无有无KohonenSelf-OrganizingMaps有无有无无无聚类有无无有有无关联规则有无无有无无比较与分析

在算法参数控制和扩展功能选项方面,对比这些产品可以发现,EnterpriseMiner和PRW对参数控制实现的较好,而IntelligentMiner在这方面较弱。几乎所有的产品都提供对决策树的实数值的处理和图形展示等扩展功能,但只有Clementine和Scenario较好地实现了树的修剪选项功能。此外,神经网络的扩展功能方面也有较大差别。

易用性方面的比较产品数据装载和操纵模型建立模型理解技术支持总体感觉Clementine+++++++++++++++Darwin+++++++++++Enterprise

Miner++++++++++Intelligent

Miner++++++++++PRW+++++++++++++++Scenario+++++++++++++可视化方面的比较IntelligentMiner、EnterpriseMiner和Scenario都有图形化的树展示,而Clementine和Darwin则提供基于文本的规则说明。此外,对于柱状图、饼图和曲线等这些工具的支持程度也各有不同。

挖掘过程自动化的比较产品对自动化的支持Clementine可视化编程和编程语言支持Darwin编程语言支持Enterprise

Miner可视化编程和编程语言支持Intelligent

Miner仅提供向导界面,不支持编程PRW有一个实验管理组件,支持宏Scenario自动化支持较弱,很多过程需手工完成小结

这六种工具都是非常优秀的数据挖掘工具,但每一种可能适用于不同的环境。IBM的IntelligentMiner在市场上比较领先并有良好的技术支持;SAS的EnterpriseMiner明显地偏向统计(因此更适用于适合统计的环境);在不清楚那种算法更好的情况下Unica的PRW是较好的选择,Cognos的Scenario则是其数据仓库系列产品的重要组件…。

如何选择数据挖掘工具商用数据挖掘系统各不相同不同的数据挖掘功能和方法数据集的类型可能完全不同多维视图数据类型关系型的,事务型的,文本的,时间序列,空间的?系统问题支持一种还是多种操作系统?C/S架构?提供Web接口,且允许输入/输出XML数据?如何选择数据挖掘工具数据源ASCII文件、文本文件,多个关系型数据源支持ODBC连接(OLEDB,JDBC)?数据挖掘功能与方法实现多种数据挖掘功能每种功能提供多种实现方法提供更多的数据挖掘功能和实现方法将使用户具有更大的灵活性和更强大的分析能力与数据库或数据仓库的耦合性四种耦合方式:非耦合,松散耦合,半紧密耦合和紧密耦合理想情况下,数据挖掘系统应该与数据库是紧密耦合的如何选择数据挖掘工具可伸缩性Row(ordatabasesize)scalabilityColumn(ordimension)scalabilityCurseofdimensionality:itismuchmorechallengingtomakeasystemcolumnscalablethatrowscalable可视化工具“Apictureisworthathousandwords”Visualizationcategories:datavisualization,miningresultvisualization,miningprocessvisualization,andvisualdatamining数据挖掘查询语言与图形用户界面Easy-to-useandhigh-qualitygraphicaluserinterfaceEssentialforuser-guided,highlyinteractivedataminingDBMiner的主要功能Discovery-driven,OLAP-basedmulti-dimensionalanalysisAssociationandfrequentpatternanalysisClassification(decisiontreeanalysis)Clusteranalysis3-Dcubeviewerandanalyzer其他功能OLAPservice,cubeexploration,statisticalanalysisSequentialpatternanalysis(underdevelopment)Visualclassification(underdevelopment)5.3.1典型工具—DBMinerDBMinerDataandMiningViews(WorkingPanel)OLAP(Summarization)DisplayUsingMS/Excel2000Market-Basket-Analysis(Association)—BallgraphDisplayofAssociationRulesinRulePlaneFormDisplayofDecisionTree(ClassificationResults)DisplayofClustering(Segmentation)Results3DCubeBrowserDBMiner的发展EvolvingfromDBMiner2.0toDBMiner2.5SmoothintegrationofrelationaldatabaseanddatawarehousesystemsSupportMicrosoftOLEDBforDataMiningAddingfastassociationminingandsequentialpatternminingmethodsAddingvisualclassificationmethodsTowardsRetailMiner,WeblogMiner,WebMiner,GeoMiner,MultiMediaMiner,andDNAMiner相关链接访问以下网址可获得DBMiner免费试用(90天)DBMiner2.0isdownloadableat5.3.2典型工具—Amdocs

在多年前电信行业已经开始利用数据挖掘技术进行网络出错预测等方面的工作,而近年来随着CRM理念的盛行,数据挖掘技术开始在市场分析和决策支持等方面得到广泛应用。市场上更出现了针对电信行业的包含数据挖掘功能的软件产品。比较典型的有Amdocs和SlpInfoware。

5.3.2典型工具—AmdocsAmdocs提供了整个电信运营企业的软件支撑平台。在其ClarifyCRM产品组件中,利用数据挖掘技术支持以下应用:客户流失管理(churnmanagement)终身价值分析(lifetimevalueanalysis)产品分析(productanalysis)欺诈甄别(frauddetection)。

Amdocs产品中的数据分析和数据分析应用曾获得三届KDD杯奖。

5.3.3典型工具—PredictiveCRMSlpInfoware开发的PredictiveCRM软件是一个面向电信行业的CRM平台软件,其中应用了大量的数据挖掘和统计学技术。其数据挖掘部分实际上是把SASInstitute、SPSS和UNICA等公司的数据挖掘产品加以二次开发以适应电信行业的需要。数据挖掘在P-CRM中的应用包括客户保持、交叉销售、客户流失管理、欺诈甄别等方面。

5.3.4典型工具—SAS/EM

利用SAS软件技术进行数据挖掘可以有三种方式:

(1)使用SAS软件模块组合进行数据挖掘

(2)将若干SAS软件模块联结成一个适合需求的综合应用软件(3)使用SAS数据挖掘的集成软件工具SAS/EM5.3.4典型工具—SAS/EMSAS/EM是一个图形化界面,菜单驱动的,对用户非常友好且功能强大的数据挖掘集成软件,集成了:

数据获取工具

数据取样工具

数据筛选工具

数据变量转换工具

数据挖掘数据库

数据挖掘过程

多种形式的回归工具

建立决策树的数据剖分工具

决策树浏览工具

人工神经元网络

数据挖掘的评价工具

5.3.4典型工具—SAS/EMSAS/EM-数据获取工具

通过对话框指定要使用的数据集的名称,并指定要在数据挖掘中使用的数据变量。变量分为两类:区间变量(IntervalVariable)是指那些要进行统计处理的变量。对于这样一些变量,在数据输入阶段你就可以指定它们是否要作最大值、最小值、平均值、标准差等的处理。还可给出该变量是否有值的缺漏,缺漏的百分比是多少等。利用这些指定可对输入数据在获取伊始就进行了一次检查,并把结果告诉你,你可初步审视其质量如何。SAS/EM-数据获取工具分类变量(ClassVariable)区间变量以外的变量称之为分类变量。在数据输入阶段将会提供给你每个分类变量共有多少种值可供分类之用。SAS/EM-数据取样工具

对获取的数据,可再从中作取样操作。取样的方式是多种多样的。主要包括:随机取样等距取样分层取样从起始顺序取样分类取样

……SAS/EM-数据取样工具随机取样在采用随机取样方式时,数据集中的每一组观测值都有相同的被取样的概率。如按10%的比例对一个数据集进行随机取样,则每一组观测值都有10%的机会被取到。

等距取样如按5%的比例对一个有100组观测值的数据集进行等距取样,则有:100/5=20,等距取样方式是取第20、40、60、80和第100等五组观测值。

SAS/EM-数据取样工具分层取样在这种取样操作时,首先将样本总体分成若干层次(或者说分成若干个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次你可设定不同的概率。这样的取样结果可能具有更好的代表性,进而使模型具有更好的拟合精度。

从起始顺序取样从输入数据集的起始处开始取样。取样的数量可以给定一个百分比,或者就直接给定选取观测值的组数。

SAS/EM-数据取样工具分类取样在前述几种取样方式中,取样的单位都是一组观测值。分类取样的单位是一类观测值。这里的分类是按观测值的某种属性进行区分。如按客户名称分类、按地址区域分类等。显然在同一类中可能会有多组观测值。分类取样的选取方式就是前面所述的几种方式,只是取样以类为单位。

SAS/EM-数据筛选工具

通过数据筛选工具可从观测值样本中筛选掉不希望包括进来的观测值。对于分类变量可给定某一类的类值说明此类观测值是要排除于取样范围之外的。对于区间变量可指定其值大于或小于某值时的这些组观测值是要排除于取样范围之外的。

通过数据筛选使样本数据更适合数据挖掘的目标。

SAS/EM-数据变量转换工具

利用此工具可将某一个数据进行某种转换操作,然后将转换后的值作为新的变量存放在样本数据中。转换的目的是为了使数据和将来要建立的模型拟合的更好。例如,原来的非线性模型线性化、加强变量的稳定性等。可进行取幂、对数、开方…等转换。当然,也可给定一个公式进行转换。

SAS/EM-建立数据库

在进行数据挖掘分析模型的操作之前,要建立一个数据挖掘的数据库(DMDB),其中放置此次要进行操作的数据。因为此后可能要进行许多复杂的数学运算,在这里建立一个专门的数据集可提高工作效率。在处理之前,可对所选取的各个变量预先进行诸如最大、最小、平均、标准差…等处理。对一些要按其分类的变量的等级也先放入MetaData之中,以利后继操作。总之在这个数据库中为数据挖掘建立一个良好的工作环境。

SAS/EM-为建立决策树的数据剖分工具

对数据集进行聚类、建立决策树,是近来数据处理,进行决策支持常用的方法。在SAS/EM中亦支持这一功能。在建立决策树的过程中可有多种数据聚类、剖分的方法可供选择。SAS/EM-为建立决策树的数据剖分工具图形化界面的交互式操作,可分成六个层:(1)对数据挖掘数据库中选定数据集的操作

(2)对数据集中的变量的处理

(3)聚类、剖分时的基本选择项

(4)聚类、剖分时的进一步操作选择项

(5)模型的初步确定(6)结果的评价SAS/EM-决策树浏览工具

最后作出来满意的决策树可能是个"枝繁叶茂"的架构。SAS/EM提供了可视化的浏览工具。这一点很重要,一个复杂的决策树若难以观察,则会影响实施决策的效率,甚至是有效性。决策树浏览工具包括:

·

决策树基本内容和统计值的汇总表

·

决策树的导航浏览器

·

决策树的图形显示

·

决策树的评价图表SAS/EM-数据挖掘评价工具

在SAS/EM的评价工具中,提供了一个通用的数据挖掘评价的架构,可以比较不同的模型效果;预报各种不同类型分析工具的结果。

在进行了各种比较和预报的评价之后,将给出一系列标准的图表,供用户进行定量评价。可能用户会有自己独特的评价准则,在SAS/EM的评价工具中,还可以进行客户化的工作,对那些标准的评价图表按你的具体要求进行更改。因此,评价工作可能会更有意义。

RandominfoWeka…

WaikatoEnvironmentforKnowledgeAnalysisWeka–nativeNewZealandbirdDevelopedinJava–multi-platformcapabilityUsedforresearch,education,andapplicationshttp://www.cs.waikato.ac.nz/ml/weka/5.3.5典型工具—WekaWekaInterfacesCommand-lineExplorerpreprocessing,attributeselection,learning,visualiationKnowledgeFlowvisualdesignofKDDprocesscapabilities~ExplorerExperimentertestingandevaluatingmachinelearningalgorithmsPreprocessClassifyClusterAssociateSelectattributeVisualiseWeka的功能PreprocessingPreprocessingdatacheckingfiltering,e.g.attribute-based-normalise,discretiseinstance-based–remove,randomiseselecttrainingdataselecttestdataPreprocessingImport

fromfiles:ARFF,CSV,C4.5,binaryImportfromURLoranSQLdatabase(usingJDBC)PreprocessingfiltersAdding/removingattributesAttributevaluesubstitutionDiscretization(MDL,Kononenko,etc.)Timeseriesfilters(delta,shift)Sampling,randomizationMissingvaluemanagementNormalizationandothernumerictransformationsAttributeSelectionVeryflexible:arbitrarycombinationofsearchandevaluationmethodsBothfilteringandwrappingmethodsSearchmethodsbest-firstgeneticranking...EvaluationmeasuresReliefFinformationgaingainratio...Demo:weather_nominal.arff–PCP+rankersearchalgorithm1,rudimentaryrules1R–oneleveldecisiontree–justusingbestfirst-levelrulesalgorithm2,statisticalmodellingNaiveBayes-usespriorprobabilityofclasscombinedwithinstanceprobability–assumesattributesareindependentalgorithm3,decisiontreesID3/C4.5decisiontreeinduction–informationgainorgainratiocalculatedateachnodetodecidewhichbranchtogodown–maximisetheseparationofclassesalgorithm4,coveringrulesrulesfoundtocoverallinstancesofeachclass–attribute-valuepairtomaximisetheclassificationrule–PRISMmethodalgorithm5,associationruleslookingforitemsetswithhighcoverageandspecifiedminimumconfidence–worksfornominalvalues–Apriorialgorithmalgorithm6,linearmodelsnumericprediction–linearregressiontominimisedifferencebetweenactualandpredictedvaluesalgorithm7,instance-basedlearningEuclideandistanceofattributesetsfoundtocalculatethenearestneighbouralgorithm–filteringk-nearestmatchesClassifyingClassifyingalgorithmsrudimentaryrules1R–oneleveldecisiontree–justusingbestfirst-levelrulesstatisticalmodellingNaiveBayes-usespriorprobabilityofclasscombinedwithinstanceprobability–assumesattributesareindependentdecisiontreesID3/C4.5decisiontreeinduction–informationgainorgainratiocalculatedateachnodetodecidewhichbranchtogodown–maximisetheseparationofclassescoveringrulesrulesfoundtocoverallinstancesofeachclass–attribute-valuepairtomaximisetheclassificationrule–PRISMmethodassociationruleslookingforitemsetswithhighcoverageandspecifiedminimumconfidence–worksfornominalvalues–Apriorialgorithmlinearmodelsnumericprediction–linearregressiontominimisedifferencebetweenactualandpredictedvaluesinstance-basedlearningEuclideandistanceofattributesetsfoundtocalculatethenearestneighbouralgorithm–filteringk-nearestmatchesClassificationPredictedattributeiscategoricalImplementedmethodsNaïveBayesdecisiontreesandrulesneuralnetworkssupportvectormachinesinstance-basedclassifiers…Demo:iris.arff,mushroom_simple.arffEvaluationtestsetcrossvalidation...ClusteringClusteringestimationmaximisation(EM)simplekmeanscobwebfarthestfirstClusteringImplementedmethodsk-MeansEMCobwebX-meansFarthestFirst…Clusterscanbevisualizedandcomparedto“true”clusters(ifgiven)RegressionPredictedattributeiscontinuousImplementedmethods(linearregression)neuralnetworksregressiontrees…Demo:goods.arff,cpu.arffAssociationDiscoveryWorksonlywithdiscreteattributesImplementedmethodsAPRIORITERTIUSLimitedcapabilitiesGUHADemo:baskets1n.arffProsextensibilityfeaturesmethodsKDDphasesmultimodaluseandinterfacescriptingfree(GPL)Consdocumentation(kitchensinksyndrome)AssociationsAssociationsaprioritertiusSelectattributesAttributeevaluatore.g.classifiersubsetevaluatorchisquaredattributeevaluatorSearchmethode.g.bestfirstrandomfirstOutputOutputdependsonwhatmethodsusedRulesClassesTrees-visualisedClustersAssociationsErrorchecks-visualisedDemonstrationWekaweatherrelationopenfile/data/weather.arff(numericalandnominaldata)preprocess/colour{outlookplay}/attributes|1..5|classify/choose/trees/j48/(classbyplay)/startclassifieroutput/j48prunedtree/visualizetreeweatherrelationopenfile/weatherNominal.ar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论