数据挖掘概述_第1页
数据挖掘概述_第2页
数据挖掘概述_第3页
数据挖掘概述_第4页
数据挖掘概述_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘概述

IntroductiontoDataMining1内容提纲数据挖掘介绍数据挖掘系统数据挖掘算法2数据挖掘介绍数据挖掘的由来数据挖掘的应用基本概念区分数据挖掘基本内容数据挖掘基本特征数据挖掘的其他主题3数据挖掘的由来

背景网络之后的下一个技术热点数据爆炸但知识贫乏从商业数据到商业信息的进化4背景人类已进入一个崭新的信息时代数据库中存储的数据量急剧膨胀需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(KnowledgeDiscoveryinDatabase),以及相应的数据挖掘(DataMining)理论和技术的研究5随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。”快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。数据矿山信息金块数据挖掘工具6网络之后的下一个技术热点大量信息在给人们带来方便的同时也带来了一大堆问题:信息过量,难以消化信息真假难以辨识信息安全难以保证信息形式不一致,难以统一处理7数据爆炸但知识贫乏

随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。8从商业数据到商业信息的进化

进化阶段商业问题支持技术产品厂家产品特点数据搜集

(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问

(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持

(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘

(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息9数据挖掘数据库技术统计学高性能计算人工智能机器学习可视化数据挖掘是多学科的产物10数据挖掘的应用电信

:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析

(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:

欺诈探测,细分电子商务:

网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:

医疗保健11英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100%电信12GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店13美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务税务局14银行金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。美国商业银行是发达国家商业银行的典范,许多地方值得我国学习和借鉴。15数据挖掘在银行领域的应用美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等16Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。17汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%银行18基本概念区分数据挖掘与知识发现数据挖掘和数据仓库数据挖掘与信息处理数据挖掘与联机分析数据挖掘与人工智能、统计学19数据挖掘和知识发现

数据挖掘(DataMining)从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。

知识发现(KnowledgeDiscoveryinDatabases)是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知识,称为数据库中的知识发现。20数据挖掘和数据仓库大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经解决了。21数据源数据仓库各分公司数据集市分析数据集市数据挖掘数据集市22

数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果数据仓库的计算资源已经很紧张,那么最好还是建立一个单独的数据挖掘库。

当然为了数据挖掘也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在它上面进行数据挖掘。数据源数据挖掘库23数据挖掘与信息处理信息处理 信息处理基于查询,可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式,或隐藏在数据库中的规律。24数据挖掘与联机分析OLAP分析过程在本质上是一个演绎推理的过程,是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(whathappened),OLAP则更进一步告诉你下一步会怎么样(Whatnext)和如果采取这样的措施又会怎么样(Whatif)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。数据挖掘在本质上是一个归纳推理的过程,与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,OLAP工具能起辅助决策作用。而且在知识发现的早期阶段,OLAP工具用来探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都有助于更好地理解数据,加快知识发现的过程。25数据挖掘与人工智能、统计学数据挖掘利用了人工智能和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,它们几乎不需人工干预就能自动完成许多有价值的功能。数据挖掘就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。26数据挖掘与统计学数据挖掘分析海量数据许多数据库都不适合统计学分析需要27数据挖掘基本内容数据挖掘的定义数据挖掘的数据来源数据挖掘的过程数据挖掘的功能数据挖掘的过程模型数据挖掘的分类数据挖掘的主要问题28数据挖掘的定义数据挖掘是从大量数据中提取或“挖掘”知识。与数据挖掘类似但稍有不同含义的术语有:从数据库中发现知识(KnowledgeDiscoveryfrom/inDatabase,KDD)知识提取(Knowledgeextract)数据/模式分析(Data/Modelanalysis)。数据考古数据捕捞技术上的定义商业角度的定义

29技术上的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。30商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

31数据挖掘的定义(续)人们给数据挖掘下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。32数据挖掘的数据来源关系数据库数据仓库事务数据库33高级数据库系统和高级数据库应用面向对象数据库空间数据库时间数据库和时间序列数据库文本数据库和多媒体数据库异种数据库WWW34数据挖掘过程数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。

从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。

35(1)定义商业问题要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么。否则,很难得到正确的结果。(2)建立数据挖掘库

数据准备工作大概要花去整个数据挖掘项目的50%-90%的时间和精力。一般来说,直接在公司的数据仓库上进行数据挖掘是不合适的,最好建立一个独立的数据集。

建立数据挖掘库可分成如下几个部分:a)数据收集b)数据描述c)选择36d)数据质量评估和数据清理e)合并与整合f)构建元数据g)加载数据挖掘库h)维护数据挖掘库(3)分析数据数据分析的目的:是找到对预测输出影响最大的数据字段,并决定是否需要定义导出字段。(4)准备数据这是建立模型之前的最后一步数据准备工作。可分成4个部分:a)选择变量;b)选择记录;c)创建新变量;d)转换变量。37(5)建立模型对建立模型来说要记住的最重要的事是它是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用。为了保证得到的模型具有较好的精确度和健壮性,需要一个定义完善的“训练—验证”协议。有时也称此协议为带指导的学习。验证方法主要分为:a)简单验证法b)交叉验证法:首先把原始数据随机平分成两份,然后用一部分做训练集另一部分做测试集计算错误率,做完之后把两部分数据交换再计算一次,得到另一个错误率,最后再用所有的数据建立一个模型,把上面得到的两个错误率进行平均作为最后用所有数据建立的模型的错误率。c)自举法:是另一种评估模型错误率的技术。在数据量很小时尤其适用。与交叉验证一样模型是用所有的数据建立。38(6)评价和解释

a)模型验证。模型建立好之后,必须评价其结果、解释其价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,随着应用数据的不同,模型的准确率肯定会变化。更重要的是,准确度自身并不一定是选择最好模型的正确评价方法。需要进一步了解错误的类型和由此带来的相关费用的多少。

b)外部验证。无论我们用模拟的方法计算出来的模型的准确率有多高,都不能保证此模型在面对现实世界中真实的数据时能取得好的效果。经验证有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定。例如,在建立用户购买模式的模型时,可能没有考虑通货膨胀的影响,但实施模型时通货膨胀率突然由3%增加为17%,这显然会对人们的购买意向产生重大影响,因此再用原来的模型来预测客户购买情况必然会出现重大失误。39(7)实施

模型建立并经验证之后,可以有两种主要的使用方法:第一种方法,是提供给分析人员做参考,由他通过察看和分析这个模型之后提出行动方案建议。比如可以把模型检测到的聚集、模型中蕴含的规则、或表明模型效果的图表拿给分析人员看。另一种方法:是把此模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一项申请打分等。还可以用模型在数据库中选择符合特定要求的记录,以用OLAP工具做进一步的分析。当提交一个复杂的应用时,数据挖掘可能只是整个产品的一小部分,虽然可能是最关键的一部分。例如,常常把数据挖掘得到的知识与领域专家的知识结合起来,然后应用到数据库中的数据。在欺诈检测系统中可能既包含了数据挖掘发现的规律,也有人们在实践中早已总结出的规律。40数据挖掘功能

数据挖掘任务有两类:第一类是描述性挖掘任务:刻划数据库中数据的一般特性;第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。41概念/类描述:特征化和区分概念/类描述(class/conceptdescription):用汇总的、简洁的、精确的方式描述每个类和概念。数据特征化(datacharacterization):是目标类数据的一般特征或特性的汇总。其中数据特征的输出形式有:饼图、条图、曲线、多维数据立方体、多维表等。数据区分(Datadiscrimination):是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。42关联分析(1)定义:关联分析(associationanalysis):发现关联规则,这些规则展示“属性—值”频繁地在给定数据集中一起出现的条件。关联规则(associationrule):“X

Y”,即A1

A2

AmB1

B2

Bn关联规则分为两类:一类是“多维关联规则”(multi-dimensionalassociationrule);另一类是“单维关联规则”(single-dimensionalassociationrule)。(2)实例age(x,“20..29”)income(X,“20K..29K”)buys(X,“CD_player”)[support=2%,confidence=60%]43(1)定义分类(classification):是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象的过程。注:导出模型(或函数)是基于对训练数据集(即其类标记已知的数据对象)的分析。(2)分类模型的导出方式分类规则(IF-THEN)、决策树、数学公式、神经网络等。(3)相关分析(relevanceanalysis)一般情况下,相关分析需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性,且这些属性应被排除。分类和预测44(1)定义聚类(clustering):与分类和预测不同,它主要分析数据对象,而不考虑已知的类标记。一般情况下,训练数据中不提供类标记,因为不知道从何开始。聚类可以用于产生这种标记。(2)聚类或分组的原则“最大化类内的相似性、最小化类间的相似性”对象的簇(聚类)的形成办法为:使得在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类,由它可以导出规则。聚类分析45(1)定义孤立点(outlier):数据库中的那些与数据的一般行为或模型不一致的数据对象。大部分数据挖掘方法将孤立点视为噪声或异常而将其丢弃,然而,在一些实际应用中(如欺骗检测、军事情报分析等),罕见点事件可能比正常出现的那些更有趣。孤立点数据分析称为孤立点挖掘(outliermining)。(2)孤立点的检测方法第一种方法:统计试验检测方法。假定一个数据分布或概率模型,并使用距离度量,到其它聚类的距离很大的对象被视为孤立点。第二种方法:基于偏差点方法。通过考察一群对象主要特征上的差别识别孤立点。孤立点分析46(1)定义数据演变分析(evolutionanalysis):描述行为随时间变化的对象的规律或趋势,并对其建模。演变分析包括时间相关数据的特征化、区分、关联、分类或聚类,最主要有三种演化分析方法: a)时间序列数据分析 b)序列或周期模式匹配 c)基于类似性的数据分析演变分析47数据挖掘过程模型是确保数据挖掘工作顺利进行的关键。典型的过程模型有:(1)SPSS的5A模型——评估(Assess)、访问(Access)、分析(Analyze)、行动(Act)、自动化(Automate)。(2)SAS的SEMMA模型——采样(Sample)、探索(Explore)、修正(Modify)、建模(Model)、评估(Assess)。(3)跨行业数据挖掘过程标准CRISP-DM——目前CRISP-DM仍在建立之中。(4)此外,TwoCrows公司的数据挖掘过程模型,它与正在建立的CRISP-DM有许多相似之处。数据挖掘过程模型48数据挖掘基本特征KDD和数据挖掘可以应用在很多领域中,它们具有如下一些公共特征:

海量数据集数据利用非常不足在开发知识发现系统时,领域专家对该领域的熟悉程度至关重要最终用户专门知识缺乏

49有效的知识发现系统为使知识发现系统更加有效,有几个软、硬件问题需要强调:

为使数据服务更加详尽,必须研究基础的体系结构、算法和数据结构。

解决存储管理中的新问题,开发有效的存储机制。高层次的查询语言成为重要的研究课题。描述多维对象的可视化工具在知识表示中将起重要作用。50数据挖掘的发展趋势视频和音频数据挖掘科学和统计数据挖掘数据挖掘的应用探索可伸缩的数据挖掘方法数据挖掘与数据库系统、数据仓库和Web数据库系统的集成数据挖掘语言的标准化可视化数据挖掘复杂数据类型挖掘的方法Web挖掘数据挖掘中的隐私保护与信息安全51可视化数据挖掘数据可视化数据挖掘结果可视化数据挖掘处理过程可视化交互式的可视化挖掘52数据可视化53数据挖掘结果可视化54数据挖掘过程可视化55数据挖掘系统数据挖掘工具数据挖掘过程数据挖掘系统如何选择数据挖掘系统数据挖掘系统发展趋势56数据挖掘工具目前,世界上比较有影响的典型数据挖掘系统有:SAS公司的EnterpriseMinerIBM公司的IntelligentMinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的WarehouseStudioRuleQuestResearch公司的See5还有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。

57数据挖掘过程步骤步骤名称

描述

1数据仓库DataWarehouse数据仓库管理用于决策支持的数据。在该步骤内,数据从操作型系统以及第三方的数据源聚集、清洗、以及转换到数据仓库中,供决策分析使用。

2数据挖掘DataMining在这个步骤中,数据从数据仓库抽取出来,用来产生预测模型或者规则集。该步骤可以自动化。

3预测模型PredictiveModeling在该步骤内,为了产生一个优化的模型,一个或多个预测模型被选择或者联合。这些预测模型可能从数据挖掘系统产生,也可能从统计模型中产生,或者通过第三方购买。4预测记分PredictiveScoring在这个步骤中,选择的预测模型对操作型数据或者交易数据进行记分(score)

58数据挖掘系统数据挖掘系统介绍数据挖掘系统实施策略数据挖掘系统接口59数据挖掘系统介绍数据挖掘系统结构数据挖掘系统进展60数据挖掘系统结构数据仓库数据清洗和集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评价图形用户接口知识库61数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。62数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。模式评估模块:使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。图形用户界面:在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘具体任务。63数据挖掘系统实施策略第一代数据挖掘系统,直接将需要挖掘的数据一次性调入内存,这些系统的成功依赖于团队和数据的质量如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,因此第二代数据挖掘系统是必须的。不幸的是,目前的数据仓库设计是方便OLAP操作的,而不是数据挖掘应用。这意味着真正的第二代数据挖掘系统必须使用自己专门的数据管理系统,作为弥补目前数据库及数据仓库管理系统的缺陷,直到数据库和数据仓库厂商对合适的数据挖掘原语提供充分的支持。第二代数据挖掘系统应该能够产生PMML或者类似PMML的开放格式,使得挖掘结果能够与操作型系统集成。64实施策略(续)如果使用多个预测模型,或者预测模型需要经常修改,那么应该选择正在出现的第三代数据挖掘系统,以支持这些功能,当然第三代系统也能与数据库或者数据仓库集成。第三代数据挖掘系统和预测模型系统的一个重要的优点是由数据挖掘系统产生的预测模型能够自动地被操作型系统吸收,从而与操作型系统中的预测模块相联合提供决策支持的功能。

目前在公司的日常营运中,移动计算越发显得重要,第四代数据挖掘系统能够在这儿起关键的作用。将数据挖掘和移动计算相结合是当前的一个研究领域。

第一代数据挖掘系统仍然未发展完全,第二代、第三代数据挖掘系统已经出现。目前未见到任何第四代数据挖掘系统的报导。65数据挖掘系统接口第二代数据挖掘系统提供数据仓库和数据挖掘系统之间的有效的接口

第三代系统另外还提供数据挖掘系统和预测模型系统之间的有效的接口

数据管理系统和数据挖掘之间的接口,可以作为如何标记合适的数据挖掘原语的一个研究问题。数据挖掘原语能够在数据仓库或者数据库内部执行以改善数据挖掘系统的性能。PMML是数据挖掘系统与预测模型系统之间的一个标准接口。

66如何选择数据挖掘系统不同的数据挖掘系统相似性较小不同的功能模块和方法处理的数据集不同67如何选择数据挖掘系统(续)数据类型(关系、文本、事务、时间序列、空间)系统问题(运行的操作系统)数据源(ODBC、多关系数据源)数据挖掘的功能和方法数据挖掘系统和数据库或数据仓库系统的结合可伸缩性(数据库的大小和维度)可视化工具数据挖掘查询语言和图形用户接口68数据挖掘系统发展趋势集成第二代、第三代、以及第四代数据挖掘和预测模型系统将与数据仓库合并,以提供一个集成的系统来管理日常的商业过程。

嵌入另一方面,二、三、四代数据挖掘技术将不断发展和成熟,能够和各种应用集成,成为一种嵌入式的技术(embeddedtechnology)。

69数据挖掘算法粗糙集聚类关联规则决策树模糊集神经网络和支持向量机回归分析70聚类(Clustering)

聚类(Clustering)是将物理或抽象的对象集合分成多个组的过程,聚类生成的组称为簇(Cluster),即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。

71聚类分析从统计学的观点看,聚类分析是对数据建模,从而简化数据的一种方法,作为多元统计分析的主要分支之一,聚类分析已被研究了很多年,主要集中在基于距离和基于相似度的聚类方法。

从机器学习的观点看,簇相当于隐藏模式,聚类是搜索簇的无监督学习过程。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。

72聚类分析73数据挖掘中的聚类分析数据挖掘关心聚类算法的如下特性:处理不同类型属性的能力、对大型数据集的可扩展性、处理高维数据的能力、发现任意形状簇的能力、处理孤立点或“噪声”数据的能力、对数据顺序的不敏感性、对先验知识和用户自定义参数的依赖性、聚类结果的可解释性和实用性、基于约束的聚类等。

主要的数据挖掘聚类方法有:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。

741

SQLServer2005中的数据挖掘功能

1创建商业智能应用程序2SQLServer2005数据挖掘功能的优势3SQLServer2005数据挖掘算法4可扩展性5SQLServer2005数据挖掘功能与商业智能集成6使用数据挖掘可以解决的问题7521创建商业智能应用程序创建商业智能应用程序实际是利用数据挖掘的各种优势,将其应用到整个数据输入、集成、分析和报表过程中。数据挖掘并非是最终结果,它是整个过程的一部分,在集成、分析和报表的每个阶段都起到一定的作用。商业智能应用程序的一个主要目标是让每个人都可以使用数据挖掘模型。7631创建商业智能应用程序SQLServer2005平台采用集中的服务器存储数据挖掘模型和结果,该平台有利于创建智能应用程序。这些模型通常具有高度的专用性,且非常机密。SQLServer2005中数据挖掘功能的目标是构建具备以下特征的工具:简单易用可提供一整套的功能可轻松嵌入到产品应用程序中紧密集成其他的SQLServerBI技术能够扩展数据挖掘应用程序的市场7741创建商业智能应用程序数据挖掘的模式:开发模型发现模型预测785

7.2SQLServer2005数据挖掘功能的优势SQLServer2005挖掘功能与所有SQLServer产品实现了集成SQLServer2005数据挖掘工具将数据挖掘功能嵌入到整个过程中,可以实时运行,且结果可以发送到整合过程、分析过程或报表过程。796

2SQLServer2005数据挖掘功能的优势

—易用性通过SQLServer2005,Microsoft努力将数据挖掘从博士们的实验室中搬出来,使得负责设置和运行数据模型的开发人员和DBA、所有分析人员、决策者或者其他使用模型输出的用户都可以使用数据挖掘,而不需要具有任何专业知识。807

2SQLServer2005数据挖掘功能的优势

—APISQLServer2005的数据挖掘功能具有一个API,使得应用程序非常简单。利用API,无需了解每个模型的内部细节和工作原理,可从客户端应用程序调用预测模型。访问数据挖掘结果非常简单,通过使用一种与SQL相似的语言即可(称为DataMiningExtensionstoSQL或DMX)818

2SQLServer2005数据挖掘功能的优势—可伸缩性SQLServer2005中最重要的数据挖掘功能是处理大型数据集的能力。SQLServer2005允许模型对整个数据集运行,从而消除了采样方面的挑战。829

2SQLServer2005数据挖掘功能的优势—数据挖掘算法所有数据挖掘工具(包括MicrosoftSQLServer2005AnalysisServices)都采用了多种算法.AnalysisServices是可扩展的;第三方ISV(独立软件供应商)可以开发算法,并将所开发算法无缝地融入到AnalysisServices数据挖掘框架中。8310

3SQLServer2005数据挖掘算法SQLServer2005中可以使用很多算法:决策树关联规则贝叶斯分类时序聚类时间序列神经网络文本挖掘8411

4可扩展性SQLServer2005包含了大量可以立即使用的算法SQLServer2005所使用的模型允许其他供货商向数据挖掘引擎添加新模型。这些模型将与SQLServer2005提供的模型处于同等位置。8512

5SQLServer2005数据挖掘功能与商业智能集成集成阶段包括从异构数据源收集数据、传输数据并加载到一个或多个数据源中。数据挖掘工具与SQLServerIntegrationServices实现了集成。在数据移动和转换阶段,可以根据数据挖掘模型的预测结果来分析和修改数据。8613

5SQLServer2005数据挖掘功能与商业智能集成---数据分析典型的数据挖掘工具将在构建数据仓库后生成结果,这些结果独立于在数据仓库上完成的其他分析,可单独进行分析并生成预测或标识关系。Microsoft工具与整个过程实现了集成。8714

5SQLServer2005数据挖掘功能与商业智能集成---报表SQLServer2005实现了数据挖掘和报表的集成,可以通过简单灵活并且可伸缩的方式向组织中的任何人提供预测结果。通过充分利用SQLServer2005ReportingServices,预测模型的结果通过将报表嵌入MicrosoftSharePointServices,可以轻松地部署到打印报表、MicrisoftOffice文档或局域网中。8815

6使用数据挖掘可以解决的问题

---构建挖掘模型创建应用程序过程中最为困难的一部分:模型的创建模型的训练测试过程开发数据挖掘模型的最佳人选是同时具备业务和技术技能的人员。作为数据挖掘的初学者,应在构建原型模型的同时,计划花费数周时间来研究数据、工具以及可供选择的算法。8916

6使用数据挖掘可以解决的问题---构建挖掘模型开发数据挖掘模型的过程包括以下内容:输入数据集输入字段数据挖掘算法算法在计算过程中所用到的参数9017

6使用数据挖掘可以解决的问题---构建数据挖掘应用程序构建数据挖掘应用程序包括两个步骤:开发数据挖掘预测查询在数据挖掘应用程序中使用预测查询9118

6使用数据挖掘可以解决的问题

---DMX范例(3个)数据挖掘过程包括三个步骤,分别:创建数据挖掘模型训练模型根据模型预测行为9219

星型模式的例子图2.4:Sales数据仓库的星形模式在星形模式中,每维只用一个表表示,每个表包含一组属性。9320

雪花模式的例子图2.5sales数据仓库的雪花模式9421

星座模式图2.6sales和shipping数据仓库的星座模式9522

定义星型、雪花和星座的实例数据挖掘查询语言(DMQL)可以用于说明数据挖掘任务。DMQL包括定义数据仓库和数据集市的语言原语。说明其它数据挖掘任务的原语,如挖掘概念/类描述、关联、分类等挖掘任务。数据仓库和数据集市可以使用两种原语定义:一种是方定义,一种是维定义。9623

数据挖掘查询语言DMQL:

语言原语方定义(事实表)definecube<cube_name>[<dimension_list>]:<measure_list>维定义(维表)

definedimension<dimension_name>as

(<attribute_or_subdimension_list>)特殊情况(共享维表)

首先进行“立方体定义”

definedimension<dimension_name>as

<dimension_name_first_time>incube

<cube_name_first_time>9724

用DMQL定义星型模式definecubesales_star[time,item,branch,location]:

dollars_sold=sum(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week, mon

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论