大数据时代的数据挖掘与商务智能培训_第1页
大数据时代的数据挖掘与商务智能培训_第2页
大数据时代的数据挖掘与商务智能培训_第3页
大数据时代的数据挖掘与商务智能培训_第4页
大数据时代的数据挖掘与商务智能培训_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1大数据时代(shdi)的数据挖掘与商务智能第一页,共八十二页。2第四局部(jb)数据管理与数据挖掘概论第二页,共八十二页。3数据挖掘概况(gikung)从20世纪80年代中后期,知识发现的方法、技术和系统(xtng),从不同角度、不同领域和不同学科进行了研究和实践,主要的学科有数据库、统计学和机器学习。1989年 在底特律第11届IJCAI会议上的KDD研讨会。 1991年MIT 出版社出版了一本书 “Knowledge Discovery in Databases。1994年召开了一个国际会议(KDD94), 并于1996年由 MIT出版社又出版了一本书 “Advances in Know

2、ledge Discovery and Data Mining。第三页,共八十二页。4数据挖掘概况(gikung)1995年在加拿大的蒙特利尔召开KDD95,作为第一届国际KDD会议,以后(yhu)每年一次,原为AAAI组织,1999年由ACM组织,改为SIGKDD。20*年、第12届在美国费城Philadelphia。20*年在美国加州圣何塞SIGKDD07) 2021年在美国LAS VEGAS(SIGKDD08)。 “Data Mining and Knowledge Discovery 1997年创刊。(Springer,1997,20*。国外相应的研究小组的建立,接着数据挖掘公司风起云

3、涌。一些大公司建立数据挖掘小组和开发各种产品。国内研究小组的建立,一些公司也开始了数据挖掘工程。第四页,共八十二页。5数据挖掘概况(gikung)数据挖掘是20世纪80年代后期开展起来的一种新兴技术。它是商业(shngy)、企业竞争和技术开展的需求的结果,数据挖掘技术是多种学科的交叉的产物。数据挖掘第五页,共八十二页。6数据挖掘任务(rn wu)数据挖掘任务技术分类预测Predication:用历史预测未来描述Description:了解数据中潜在的规律数据挖掘的具体任务关联分析序列(xli)模式分类预测聚集异常检测第六页,共八十二页。7数据挖掘任务(rn wu)描述性分析聚类分析关联(gun

4、lin)分析异常点分析、可视化预测性分析分类离散回归分析连续时间序列分析第七页,共八十二页。8数据挖掘概况(gikung)数据挖掘技术根本内容框架数据预处理 1数据清理 2 数据变换 3数据集成 4数据归约 5数据离散化数据挖掘根本方法 1关联规那么2分类与预测3聚类数据挖掘的深入内容 1时间序列(xli)和序列(xli)2空间数据挖掘 3文本挖掘 4Web挖掘 5多媒体挖掘 6可视化第八页,共八十二页。9数据挖掘概况(gikung)由于任务不同,要求不同,数据不同,没有单一的数据挖掘软件可适用所有的情形。造成了各种方法都在快速(kui s)开展,各种数据挖掘软件不断增多。但商家近年来有逐渐减

5、少的趋势,大公司的介入,一些大的有实力的公司开始更多占领市场。根本方法如上所述。软件功能和性能有很大差异。选软件应考虑的因素很多。第九页,共八十二页。10数据挖掘概况(gikung) 从问题答复的角度:有些问题可明确和准确答复要求(yoqi)这样有些问题是给出可能的答复有些问题可能给出不太明确的答复有些问题可能给出可能错误的答复。这些答复从数据的角度:有些是查询,有些是统计,有些是归纳,有些是推断,有些预测,有些是分析。数据挖掘要答复那些不是简单查询和统计答复问题。第十页,共八十二页。11数据挖掘概况(gikung)无法准确答复的问题信贷中信用(xnyng)评估,信用(xnyng)卡评级,信用

6、(xnyng)卡欺诈销售一个产品 广告 材料 邮寄给谁保存客户, 争取客户交叉销售违规操作,欺诈行为发现,异常发现 货架货物的摆放国民经济各指标间的关系疾病, 病症, 药物, 疗效之间的关系DNA序列的相似分析导致各种疾病的特定基因序列模式凭理论,经验,群体分析,凭数据分析,挖掘第十一页,共八十二页。12数据挖掘概况(gikung)各种部门都面临不同的挑战一些面临竞争的部门与企业: 银行,电信,保险,证券,商场,各种企业。这些企业关心的问题:争取客户,增大销售,提高利润。一些垄断部门与企业: 电力(dinl),税务,社保。面对抱怨,面对抗争,面对欺诈。政府和企业面临科学决策第十二页,共八十二页

7、。13数据挖掘概况(gikung)数据仓库和数据挖掘工程提到日程数据分析、决策支持系统、商业智能BI、 知识管理、客户关系管理(CRM)、物流与供给链管理(SCM)、企业资源方案(ERP)、各种预测。政府、科技部门、大型企业工厂,公司,商场,经济部门、金融机构(jn rn j u)银行、证券、保险、电子商务、电子政务、各种“金 工程。第十三页,共八十二页。14数据挖掘概况(gikung)数据仓库 将不同数据源、多年的数据经“整合 成一个有组织的便于分析的结构化的数据环境。 组织数据方法。数据挖掘: 从数据中找出推出,归纳出,预测、挖掘有用的信息,规律(gul),知识。 分析数据方法。第十四页,

8、共八十二页。15数据库集成:数据仓库技术所有(suyu)的数据在物理上集中在一起 虚拟数据库技术数据外表上或者在逻辑上是集成在一起,然而它们的物理存贮那么是分散在Internet不同的数据效劳器上 数据挖掘概况(gikung)第十五页,共八十二页。16从两种数据库集成技术来看:数据仓库技术实用于数据库变动不太频繁、数据库中数据类型和使用方法比较接近的情况。虚拟(xn)数据库技术实用于数据更新速度快、数据类型和使用方法完全不一样的情况。 数据挖掘概况(gikung)第十六页,共八十二页。17联机分析(fnx)处理60年代,关系数据库之父提出了关系模型,促进了联机事务处理(OLTP)的开展(数据以

9、表格的形式而非文件(wnjin)方式存储)。1993年,提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,提出了多维数据库和多维分析的概念,即OLAP。 OLTP数据 OLAP数据 原始数据 导出数据 细节性数据 综合性和提炼性数据 当前值数据 历史数据 可更新 不可更新,但周期性刷新 一次处理的数据量小 一次处理的数据量大面向应用,事务驱动 面向分析,分析驱动面向操作人员,支持日常操作 面向决策人员,支持管

10、理需要第十七页,共八十二页。18OLAP定义(dngy)OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行(jnxng)快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维这个概念,因此OLAP也可以说是多维数据分析工具的集合。第十八页,共八十二页。19数据仓库与数据挖掘所处地位(dwi)决策支持系统OLAP数据挖掘数 据 仓 库数 据 库各种( zhn)信息系统各种( zhn)

11、管理系统搜索、抽取过滤万维网信息发布信息检索ACRMCRM第十九页,共八十二页。20数据挖掘发现知识(zh shi)类型 广义型知识:反映同类事物共同性质(xngzh)的知识 特征型知识:反映事物各方面特征的的知识 差异型知识:反映不同事物之间属性差异的知识 关联型知识:反映事物之间依赖和关联的知识 偏差型知识:揭示事物偏离常规的异常现象的知识 预测型知识:根据历史与当前数据推测未来数据第二十页,共八十二页。21(B) DataInformation(A) Knowledge(Arrangement)(Transmit)Knowledge transmitted by character, s

12、ign, voice, etc.(B) Data arranged to be useful for decision makingINFORMATION(Recognition)(C) Knowledge(C) Recognition memorized personally or socially(D) Judgment or a system of judgment which has objective validityKNOWLEDGE(D) Knowledge(Judgment)(D) Knowledge(Judgment)What is the energy to bring s

13、uch transformation?(E) Computers ability to judge things automatically (F) Peoples ability to understand and learn thingsINTELLIGENCEInformation ScienceManagement ScienceKnowledge Science+Information, Knowledge, and Intelligence第二十一页,共八十二页。22A theory of organizational knowledge creation, which sugge

14、sts that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization, Externalization, Combination, and Internalization. Shared mental modelsor technical skills1Metaphors, analogies, concepts, hypotheses, or models2Linkingexplicitknowledge3Lea

15、rning by doing4I. Nonaka and H. Takeuchi The Knowledge-Creating Company. How Japanese Companies Create the Dynamics of Innovation. Oxford University Press, 1995.GroupexplicitknowledgeIndividual explicitknowledgeIndividualtacitknowledgeGrouptacitknowledgeCombinationInternalizationSocializationExterna

16、lizationKey Factor in Establishing the SchoolProf. Nonaka第二十二页,共八十二页。23应 用市场分析、预测和管理行销(xngxio)策略, 客户关系管理(CRM), 购货篮分析, 市场分割风险分析、预测和管理风险预警, 客户挽留, 改进的保险业, 质量控制, 竞争分析欺诈检测和管理证券违规操作,税务偷漏,瞒报,信用卡欺诈行为判断信用评估银行信贷评估,信用卡评估第二十三页,共八十二页。24应 用宏观经济(指标之间关联,经济指标的预测,预警)电信客户细分,客户流失,客户挽留金融信用评估(pn ),洗钱,欺诈)情报文本挖掘,新闻组, 电子邮件,

17、 文档)Web 挖掘信息过滤,个性化效劳,异常行为,)DNA 数据分析一些引起疾病的DNA序列,)人力资源配置如何有效进行人力分配医疗诊断中药配伍规律零售业科学天气预报,灾难预测第二十四页,共八十二页。25KDnuggets对数据挖掘各种情况(qngkung)进行了调查从应用领域使用(shyng)工具使用方法数据挖掘组的地位数据库的大小10G以上,100-1000G)数据格式文本和工具特定格式居多第二十五页,共八十二页。26银行 17%生物/基因 8%E商务/Web 15%欺诈检测 8%保险 6%投资/股票 4%药品 5%零售业 6%科学数据 8%电信(dinxn) 11%其他 11%应用领域

18、情况(qngkung)2022第二十六页,共八十二页。27应用领域情况(qngkung) 2 0 0 6第二十七页,共八十二页。28应用领域情况(qngkung)2021170 voters第二十八页,共八十二页。29数据挖掘软件(run jin) (May 2021) 347 voters第二十九页,共八十二页。30数据挖掘软件(run jin) (May 2021) 第三十页,共八十二页。2021年 R以30.7%的得票率荣登榜首31第三十一页,共八十二页。32从技术看数据挖掘使用技术情况784 votes total (Feb 2005) Decision Trees/Rules (10

19、7)决策树 14%Clustering (101)聚类 13%Regression (90)回归 11%Statistics (80)统计 10%Visualization (63)可视化 8%Neural Nets (61)神经网络 8%Association rules (54)关联规则 7%Nearest Neighbor (34)最近邻 4%SVM (Support vector machine) (31)支持向量机 4%Bayesian (30)贝叶斯 4%Sequence/Time series analysis (26)序列/时间序列分析 3%Boosting (25) 增强 3

20、%Hybrid methods (23) 混合方法 3%Bagging (20) 袋装 3%Genetic algorithms (19)遗传算法 2%Other (20) 其他 3%第三十二页,共八十二页。33数据挖掘任务(rn wu)类型 ( Dec 20*) 170 voters第三十三页,共八十二页。34数据类型 ( Sep 2021) 第三十四页,共八十二页。35数据挖掘系统的典型(dinxng)架构数据仓库 数据清理与数据集成过滤 数据库数据库、数据仓库管理系统数据挖掘引擎模型、模式评价可视化用户界面数据挖掘方法库其它数据源用户知识库World-WideWebOther InfoR

21、epositories第三十五页,共八十二页。36各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析WEB挖掘网站结构优化网页推荐商品推荐。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。银行电信零售保险制药生物信息科学研究。相关行业综合(zngh)的数据挖掘解决方案复旦第三十六页,共八十二页。371. 业务分析Data SourceData Source 2. 数据收集与整理3 数据分析与处理4. 财务指标展示6.数据挖掘结果的解释和展示7. 系统建设8. 尝试应

22、用5. 数据挖掘建模商业银行客户违约模型(mxng)建立第三十七页,共八十二页。38数据挖掘在我国的前景(qinjng)国外数据挖掘已相当普遍,各大数据库公司(n s)与典型产品IBM, Oracle, Microsoft) SPSS, SAS, BO国内情况如何:应用普遍性?对其相信程度?制约的因素?市场标准程度? 消费者成熟程度? 人为因素程度? 国内尚处开展阶段,周期长,效益不明显,数据积累不够,人的认识程度,第三十八页,共八十二页。39为什么没有广泛(gungfn)使用?数据挖掘正在快速的开展技术的研究和开发已经走在很前沿的地方数据挖掘应用面已经扩充(kuchng)了很多但是仍然没有希

23、望的高,为什么?希望在多少年内到达数十亿元的盈利?是一种增值效劳Not bread-and-butter不能认为高不可攀,所以不去过问是一门年轻的技术,需要和实际结合,解决现实问题第三十九页,共八十二页。40数据挖掘国内应用存在(cnzi)的问题数据积累不充分、不全面业务模型构建困难(kn nn)缺少有经验的实施者第四十页,共八十二页。41数据挖掘的方法论第四十一页,共八十二页。42知识发现(fxin)KDD的过程第四十二页,共八十二页。431.数据的选择(xunz)与抽样 根据用户的需要从数据库中选择或抽样一局部数据。2.数据预处理1数据的过滤:除噪声去冗余 2数据的添补3数据归约与约简3.

24、数据转换: 数据转换的主要目的是消减数据维数或维数缩减4.数据挖掘:挖掘方法的使用5.结果的评价 1可视化表示2解释3知识的使用6.循环第四十三页,共八十二页。44KDD过程(guchng)数据挖掘: KDD过程(guchng)的核心。Data CleaningData IntegrationDatabasesData WarehouseKnowledgeTask-relevant DataSelectionData MiningPattern Evaluation第四十四页,共八十二页。45数据挖掘的方法论有许多数据挖掘的方法论,比较典型有CRISP-DM Cross Industry St

25、andard Process for Data Mining SAS 提出的数据挖掘方法论SEMMA (Sample,Explore,Modify,Model Access)IBM 提出的通用(tngyng)数据挖掘方法The generic data mining method)第四十五页,共八十二页。46数据挖掘的方法论KDnugets 调查情况:各组织机构、公司、个人进行(jnxng)数据挖掘时使用的方法论(Aug 20*) 第四十六页,共八十二页。47CRISP-DM NCR SPSS等公司提供CRISP-DM跨行业数据挖掘标准数据挖掘方法论实现。主要包括以下(yxi)六个主要环节:

26、问题业务理解(Business Understanding)数据理解(Data Understanding) 数据准备(Data Preparation)建立模型(Modeling )模型评估(Evaluation) 方案实施(Deployment)第四十七页,共八十二页。48CRISP-DM1.业务问题理解Business Understanding要解决哪类问题:在数据挖掘之前,收集与该工程有关的信息,确定数据挖掘要解决哪类问题。并把要解决的问题转化为数据挖掘问题。资源的评估: 硬件资源,软件资源,数据资源, 人力资源管理人员,业务人员,技术人员数据评估:数据数量,数据质量评估。工程成功估

27、计:成功后的效益(xioy),相应人员分 析、维护的增加。第四十八页,共八十二页。49如:一个电信(dinxn)领域的数据挖掘工程问题可为: 一些优质(yuzh)客户有什么特征? 哪些是不良客户,他们有什么特征? 在欠费客户中,哪些是恶意的欠费, 哪些是善意的欠费。 哪些客户可能会有最好的潜力? 通过什么样的标准来细分客户? 如何来衡量客户带来的价值? 哪些是高价值客户?如何去保住他们。第四十九页,共八十二页。50CRISP-DM2. 理解数据 Data Understanding 从哪里进行数据的收集数据来源有那些各数据源数据描述:格式(g shi),含义数据质量外来数据有那些对数据的含义一

28、定要有深刻的理解才有可能从中找出挖掘规律和知识。第五十页,共八十二页。51CRISP-DM3. 准备数据Data Preparation数据选择数据清理数据重构数据整合规格化:定出范围标准化:解决不一致(yzh)数据准备会占用整个工程50%以上时间第五十一页,共八十二页。52CRISP-DM4. 建立模型(mxng)Modeling数据汇总概念描述关联规那么相关分析分类与预测聚类第五十二页,共八十二页。53CRISP-DM5. 方案(fng n)评估Evaluation挖掘结果获得知识的评估挖掘过程的评估来决定是否要反复,KDD是迭代过程第五十三页,共八十二页。54迭代(di di)过程第五十

29、四页,共八十二页。55CRISP-DM6. 方案实施(Deployment)发布挖掘结果获得知识(zh shi)的评估决定实施方案Crisp-DM 1.0CRISP-DM 2.0 SIG WORKSHOP ANNOUNCEDCHICAGO, SEPTEMBER 26, 20* 第五十五页,共八十二页。56CRISP-DM各阶段占用(zhn yn)时间和重要性1%10%方案实施5%10-20%建立模型和模型评估 15%50%数据准备5%10-20%数据理解70%10%问题理解占项目成功的重要性花费时间第五十六页,共八十二页。57数据挖掘需要(xyo)的人员 业务分析人员:要求精通业务,能够解释业

30、务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力(nngl)把业务需求转化为数据挖掘的各步操作,并为每步操作选择适宜的技术。数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 第五十七页,共八十二页。58数据挖掘软件(run jin)第五十八页,共八十二页。59数据挖掘软件(run jin)的现状国外Data Mining / Analytic Software Tools 534 voters (May 20*) 第五十九页,共八十二页。60数据挖掘软件(run jin)的现状国内第六十页,共八十二

31、页。61数据挖掘软件(run jin)的开展代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法 独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预测模型系统集成 多个算法数据管理和预测模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合 多个算法数据管理、预测模型、移动系统移动和各种计算设备普遍存在的计算模型 Robert Grossman的

32、观点(gundin) (National Center for Data Mining, University of Illinois at Chicago)第六十一页,共八十二页。62数据挖掘软件(run jin)的开展第一代数据挖掘软件(run jin)第六十二页,共八十二页。63第一代数据挖掘软件 CBA新加坡国立大学基于(jy)关联规那么的分类算法,能从关系数据或者交易数据挖掘关联规那么,使用关联规那么进行分类和预测第六十三页,共八十二页。64数据挖掘软件(run jin)的开展第二代数据挖掘软件(run jin)特点与数据库管理系统DBMS集成 支持数据库和数据仓库,和它们具有高性能

33、的接口,具有高的可扩展性 能够挖掘(wju)大数据集、以及更复杂的数据集 通过支持数据挖掘模式data mining schema和数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发第六十四页,共八十二页。65数据挖掘软件(run jin)的开展第二代数据挖掘软件(run jin) DBMiner第六十五页,共八十二页。66数据挖掘软件(run jin)的开展第二代软件(run jin) SAS Enterprise Miner第六十六页,共八十二页。67数据挖掘软件(run

34、 jin)的开展第三代数据挖掘软件(run jin)特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作(cozu)型系统吸收,从而与操作(cozu)型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下Internet/Extranet的分布式和高度异质的数据,并且能够有效地和操作型系统集成 缺陷不能支持移动环境第六十七页,共八十二页。68数据挖掘软件(run jin)的开展第三代软件(run jin) SPSS Clementine以PMML的格式(g shi)提供与预言模型系统的接口第六

35、十八页,共八十二页。69数据挖掘软件(run jin)的开展第四代数据挖掘软件(run jin)特点目前(mqin)移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在ubiquitous计算设备产生的各种类型的数据 第四代数据挖掘原型或商业系统刚刚起步,PKDD2022上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学University of Maryland Baltimore County正在研制的CAREER数据挖掘工程的负责人,该工程研究期限是2022年4月到20*

36、年4月,目的是开发挖掘分布式和异质数据Ubiquitous设备的第四代数据挖掘系统。 第六十九页,共八十二页。70数据挖掘软件(run jin)的开展第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷(quxin) 第三、四代系统强调预言模型的使用和在操作型环境的部署 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,局部第二代系统开发商开始研制相应的第三代数据挖掘系统,比方 IBM Int

37、elligent Score Service。第四代数据挖掘原型或商业系统刚刚起步。第七十页,共八十二页。71数据挖掘软件(run jin)的开展数据挖掘软件开展(kizhn)的三个阶段独立的数据挖掘软件横向的数据挖掘工具集纵向的数据挖掘解决方案Gregory Piatetsky-Shapiro的观点(gundin)the President of KDnuggets 第七十一页,共八十二页。72数据挖掘软件(run jin)的开展独立的数据挖掘软件(run jin)95年以前特点独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术开展(kizhn)早期,研究人员开发出一种新型的数据挖掘算法,

38、就形成一个软件。这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比方C4.5决策树,平行坐标可视化parallel-coordinate visualization。 第七十二页,共八十二页。73横向(hn xin)的数据挖掘工具集95年开始开展原因随着数据挖掘应用的开展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1数据库和数据仓库;2多种类型的数据挖掘算法;3数据清洗、转换等预处理工作。随着数据量的增加,需要利用数据库或者数据仓库技术进行管理(gunl),所以数据挖掘系统与数据库和数据仓库结合是自然的开展。 现实领域的问题是多种多样的,一种或

39、少数数据挖掘算法难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型 第七十三页,共八十二页。74横向(hn xin)的数据挖掘工具集95年开始开展过程随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集的数据挖掘软件特点此类工具集的特点是提供多种数据挖掘算法 包括数据的转换和可视化 由于(yuy)此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖掘工具Horizontal Data Mining Tools 由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具典型的横向工具有IBM I

40、ntelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 第七十四页,共八十二页。75横向(hn xin)的数据挖掘工具集95年开始IBM Intelligent MinerSPSS的ClementineSAS的Enterprise MinerSGI的MineSetOracle Darwin第七十五页,共八十二页。76纵向(zn xin)的数据挖掘解决方案99年开始开展原因随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能(cinng)熟练使用,如果对算法不了解,难以得出好的模型 从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案Vertical Solution,即针对特定的应用提供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中第七十六页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论