




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九章第九章. 数据挖掘语言与工具的选择数据挖掘语言与工具的选择数据挖掘的语言一数据挖掘工具的商业应用和选择三数据挖掘的研究热点二技术革新的背景:数据库技术的成熟和数据应用的普及网络时代各领域数据积累量的指数增长人类“数据丰富而知识贫乏”的问题.需要一种新技术从海量数据中自动、高效提取所需的拥有信息。数据挖掘语言数据挖掘语言 用来说明用户感兴趣的数据集、需要挖掘的知识类型、模式和如何发现等问题的与系统进行沟通的机器语言,使挖掘系统在用户指导下有目的的进行数据挖掘工作。各个机构和相关公司共同研究和开发标准化的数据挖掘语言阶段 代表:DMG提出的PMML 微软BLE DB for data min
2、ing 研究机构和相关公司 自行研究和开发数据 挖掘语言阶段。 代表:DMQL,MSQL, MINE RULE第一阶段第二阶段挖掘语言标准化的重要性挖掘语言标准化的重要性ANSI(美国国家标准局)批准SQL作为关系数据库的美国标准,并公布SQL的文本。厂商纷纷推出支持SQL的软件或接口软件,使SQL突破机器规模和系统成为共同的数据存取语言和标准接口。数据挖掘语言数据挖掘语言数据挖掘查询语言数据挖掘模型语言标准数据挖掘语言出色的数据挖掘查询语言的好处 用户界面的友好性,方便用户使用,不必关心语言是如何实现的; 语言的通用性,方便把数据挖掘平滑地集成到应用系统中; 使用的继承性,方便未来对语言和技
3、术进行改进和调试。 用来支持特殊的和交互的数据挖掘,一组数据挖掘原语数据挖掘原语与挖掘系统进行通信,灵活的和有效的进行知识发现代表性的产品:DMQL(data mining query language)数据挖掘查询语言数据挖掘查询语言五种知识表达:特征规则、辨别规则、关联规则、分类语言、聚集两种背景知识原语:概念层次、数据关系的用户信任度四种兴趣度测量原语:简单性、确定性、效用性和新颖性可视化显示方式:规则、表格、报告、图表、图形、决策树、立方体数据挖掘原语:用来定义一个数据挖掘任务,通过原语来与数据挖掘系统通信,使知识发现更有效。原语类型包括:被挖掘的知识的种类原语任务相关数据原语背景知识
4、原语兴趣度测量原语被发现模式的表示和可视化原语用来说明与任务相关的数据的语法一、与任务相关的数据原语use database/data warehouse -将数据挖掘任务指向说明的DB或DWfrom where -分别制定所涉及的表或数据立方体,定义检索数据的条件概念分层和对数据关系用户信任度的分层 三、用于挖掘过程的背景知识use hierarchyfor -说明概念分层的使用Define hierarchyonas-说明概念分层的定义包括:置信度、支持度、新颖度、噪声度四、评估模式的兴趣度量和阈值withthreshod= -说明模式的兴趣度量及其阈值可视化问题:显示规则、表格、交叉表、
5、饼图、直方图、判定树、立方体、曲线等 五、可视化发现模式额期望表示 display as-说明挖掘模式的期望表示 公司A 的数据库为Acompany_db,包括:customer (cust_ID, name, address, age, income,credit_info,),item(item_ID, name, brand,),employee(empl_ID, name, category,),purchase(trans_ID, cust_ID, empl_ID,),branch (branch_ID, name, address),items_sold (trans_ID, it
6、em_ID, qty),works_at (empl_ID,branch_ID )希望了解购买商品价格不低于100元的顾客的年龄、所购商品类型、商品产地。针对每一个特征希望以百分比的形式展现特别的,要求canada顾客,用AmEx信用卡付款的情况。结果用表的形式表现出来实例 use database Acompany_db use hierarchy location_hierarchy for B.address mine characteristics as customerPurchasing analyze count% in relevance to C.age, I.type, I
7、.place_made from customer C, item I, purchases P, items_sold S, works_at W, branch Bwhere I.item_ID=S.item_ID and S.trans_ID=P.trans_ID andP.cust_ID=C.cust_IDand P.method_paid=/AmEx0and P.empl_ID=W.empl_IDand I.price=100and W.branch_ID=B.branch_ID and B.address=/Canada0 with noise threshold=5% displ
8、ay as tableMSQL:该语言采用类SQL语言的语法,使用了包含排序、分组和其他原语在内的SQL语言原语。MINE RULE:同样采取类似SQL的语法,用于挖掘关联规则数据挖掘查询语言数据挖掘查询语言PMML(predictive model markup language)预言模型标记语言基于XML语言的,对数据挖掘模型进行描述和定义,提供模型共享的一种快速简便方式。开发机构:DMG 数据挖掘协会,目前已经开发的语言模型的开放标准:PMML1.0 PMML1.1 PMML2.0(最新)数据挖掘模型语言数据挖掘模型语言特点: 允许应用程序和OLAP工具从数据挖掘系统中获得模型,不用独自
9、开发数据挖掘模块; 收集大量潜在使用的模型,使ISV独立软件供应商的系统间可以共享模型。 方便数据挖掘系统在模型定义和描述方面有标准可循,系统之间就可以共享模型。 可以解决数据挖掘系统的封闭性问题,方便其在其他应用系统中嵌入数据挖掘模型。 使用XML解析器对PMML进行解析,应用程序能够决定模型输入和输出的数据类型、模型格式,并按标准的数据挖掘术语来解释结果。 CWM (common warehouse metamodel)公共仓库元模型 在异构环境下,帮助不同的数据挖掘工具、平台和元数据知识库进行元数据交换,为数据挖掘和商务智能工具之间进行共享元数据制定了一套关于语法和语义的规范。提出机构:
10、OMG 对象管理组织基于三个工业标准:OMG的建模标准UML,利用它对CWM进行建模OMG的元模型和元数据存储标准MOF,提供易购环境下对元数据知识库的访问接口OMG的元数据交换标准XML,实现OMG数据以XML文件方式进行交换数据挖掘模型语言数据挖掘模型语言 对上述两者的结合,既有定义模型的功能,又能作为查询语言与DMS通信,进行交互和特殊的挖掘。代表性的产品:微软OLE DB for DM通用数据挖掘语言通用数据挖掘语言消费者应用和提供者应用提供了基于API的数据挖掘实现途径,包括创建原语及dm模型的定义和使用 基于SQL语言的协议,提供开放接口,任何组织可以用简单且容易实现的方式 ,将模
11、型与自己构建的应用相结合。特别适用于电子商务网站的站点个性化设计和购物篮分析。 数据挖掘的语言一数据挖掘工具的商业应用和选择三数据挖掘的研究热点二发现语言的形式化描述,专门用于知识发现的数据挖掘语言 数据挖掘过程中的可视化 网络环境下的数据挖掘技术,在英特网上建立数据挖掘服务器,与数据库服务器配合,实现web mining 加强对各种非结构化数据的采集,如:图形、视频图像、音频和多媒体数据的采集研究热点研究热点数据挖掘的语言一数据挖掘工具的商业应用和选择三数据挖掘的研究热点二 采用人工智能的技术,包括决策树、规则归纳、神经元网络、可视化、模糊建模、簇聚和传统的统计方法。 这些数据采掘工具差别很
12、大,不仅体现在关健技术上,还体现在运行平台、数据存取、价格等方面,出现在早期,单独的数据挖掘算法即成为一个软件。要求用户对具体的算法和技术有熟悉的了解。eg:C4.5决策树、平行坐标可视化独立数据挖掘软件独立数据挖掘软件横向数据挖掘工具集横向数据挖掘工具集提供多种数据挖掘算法,包括数据的转换和可视化。未面向特定应用,是通用的算法集合,通用的处理模式eg IBM intelligence Miner,Oralce Darwin纵向数据挖掘解决方案纵向数据挖掘解决方案针对特定的应用提供完整的数据挖掘方案,多用于解决特定的难题,而嵌入应用系统中。eg KDI(零售业) HNC(欺诈行为监测)数据挖掘
13、的技术基于不同的,相互独立的模型和技术,技术边界明显缺少简明精确的问题描述方法,挖掘语义主要是由实现方法决定在嵌入大型应用或商用活动上仍难以实现数据挖掘引擎和数据库系统是松散耦合 现有的数据挖掘行业是高度分散的,公司和研究机构独立开发挖掘系统和平台,没有形成开放性的标准和原语。存在的问题 a 数据准备:数据的净化、描述、变换和抽样;b 数据访问:即访问不同数据源的能力。工具必须支持开放数据库结构,并能有效支持其他类型数据的数据源;c 算法与建模:优秀的工具应当包含多种算法以处理不同的需求,同时要求如算法的稳定性、收敛性和对噪声的敏感程度;d 模型的评价与解释:能够提供多样的,易于理解的解释和评
14、价;e 用户界面:部分工具应提供可嵌入编程语言中的应用编程接口API和CUI接口评价的指标PA是Megaputer Intelligence 1994年推出的数据挖掘软件,对数据进行预处理和挖掘,完成规则归纳、分类、聚类、建模和预测。主要应用于金融、市场、制药、电信等行业。功能:集成数据处理和表达:查看、抽样、分割、逻辑运算提供可视化呈现:直方图、二维图、三维图、蛇形图强大的扩展功能:.scv 可从多种数据导入和输出提供的是一整套而非一两条数据挖掘算法,实现多策略挖掘multi-DM1.PolyAnalyst PA的算法不是多种算法的简单堆积,而是对传统算法进行了优化和创新;作为一个层次化的体
15、系,强调在不同的阶段使用不同的算法强大的结果解释功能,支持SRL(symbolic rule language)符号化规则语言,可表示数学公式和函数,可读性能好。李建,刘红星.新的数据挖掘工具-Poly Analyst.计算机应用PolyAnalyst IBM公司开发的用于处理结构化(数据库表、数据库视图和平面文件)和非结构化(顾客信件、在线服务、传真和电子邮件、网页)的嵌入式挖掘工具包括:intelligent Miner Modeling,提供数据挖掘建模的各种函数与集成开发API Intelligent Miner Scoring,提供了对于输入数据测试、打分功能; Intelligen
16、t Miner Visualization 提供了数据挖掘模型的可视化功能;允许企业从文本信息中获取有价值的客户信息,文本数据源允许多种格式 2.Intelligent Miner 实例:银行应用场景银行拥有的很多客户数据:客户 ID、年龄、性别、婚姻状况、职业、账龄、储蓄存款户头、是否使用信用卡、平均余额、信用交易数量、借记交易数量.How 细分客户,找出其中最有价值的客户?现有客户对银行具有哪些潜在的风险?那些客户存在商机?哪些客户是潜在的信用卡客户?.1.数据准备过程在DB2创建BANK数据库和银行客户信息表db2 create db BANK ; create table bank.c
17、ustomers ( CLIENT_ID CHAR(9), AGE REAL, GENDER CHAR(2), MARITAL_STATUS CHAR(12), PROFESSION CHAR(24), NBR_YEARS_CLI REAL, SAVINGS_ACCOUNT CHAR(3), INT_CREDITCARD CHAR(3), AVERAGE_BALANCE DECIMAL(10,2), NO_CRED_TRANS REAL, NO_DEBIT_TRANS REAL ) not logged initially; import from customers.csv of del m
18、odified by CHARDEL COLDEL, DECPT. insert into bank.customers; 方法:数据挖掘中的分群、预测和孤立点识别的方法2.对数据库BANK进行数据挖掘idmenabledb BANK fenced dbcfg; 3.Design Studio挖掘建模将海量顾客分成有限群体,刻画不同群体特征,MARITAL_STATUS 主要为 single,INT_CREDITCARD 主要为 NO,PROFESSION 主要为 inactive,NO_DEBIT_TRANS 为低,NO_CRED_TRANS 为中,SAVINGS_ACCOUNT 主要为 N
19、O,AVERAGE_BALANCE 为中,NBR_YEARS_CLI 主要为 1.0,AGE 主要为 24.0,GENDER 主要为 M 集成SAS的统计模块和图形用户界面GUI,使用SEMMA方法学提供一个能支持包括关联、聚类、决策树、神经元网络和统计回归在内的广阔范围的模型数据挖掘工具。SAS数据挖掘方法论-SEMMA方法:抽样sample(重视数据质量)探索explore(数据特征探索、分析和预处理)修改modify (问题明确化,数据调整和技术选择)建模model (模型的开发,知识的发现)评价assess (模型和知识的综合解释和评价)3. SAS Enterprise Miner通
20、用的在线分析挖掘(on-line analysis mining,OLAM)用于在大型关系数据库和数据仓库内交互地挖掘多层次的知识,多任务数据挖掘系统 。特点:对关系数据、多维数据的强大在线分析挖掘功能;通过OLE DB和RDBMS 可以连接到多种数据源;关联和时序算法对挖掘大数据集上频繁,连续的模式表现出卓越性能;集成了数据源、挖掘任务和挖掘应用;多维利润分析技术;用户自定义参数和可视化分类;分析关系数据和多维数据,界面友好;OLAP探测功能强,导航功能强杨杰等. DBMiner数据挖掘平台及其应用. 系统仿真学报4. DBMiner 作为开源数据挖掘软件,提供丰富的可扩展性,具备GUI特性
21、,适用于数据挖掘的初学者。数据挖掘流程用XML文件描述;通过GUI界面显示;100%用JAVA编程语言编写;集成WEKA的学习器和评估方法BLOG: show RapidMiner数据挖掘入门数据挖掘入门 5. RapidMiner 承担国家863项目系统原型数据挖掘工具,其主要功能主要包括:数据预处理 数据获取、取样、筛选和数据转换四个部分数据取样: 随机取样- 每一组观测值中都有相同的被取样的概率 等距取样-对数据编号,取样的观测值之间的距离相等 分层取样-将样本总体分层若干层次,每个层次中的观测值有相同被选用概率,不同层次之间的概率可不同,是模型具有较好的拟合度。 起始顺序取样-从输入数
22、据的起始位置开始取样,对取样数量预先规定 分类取样-按观测值的某种属性分类,取样以类为单位数据筛选:通过数据筛选选调不希望包括进来的观测值数据转换:将数据与将来要建立的模型拟合得更好数据挖掘数据评价5.复旦ARminer 传统的数据挖掘套件(Classic suites) SAS Enterprise Miner 5.3SPSS Clementine 12 开源数据挖掘软件(Open Source) RapidMiner 、JHepwork、orangeKNIME Weka 专门化的数据挖掘软件(Specialized) Viscovery SOMiner 5.0prudsys Discove
23、ry 5.5 / Basket Analyzer 5.2Bissantz Delta Master 5.3.6BI内置的数据挖掘软件(BI Vendors) SAP NetWear 7.0 Data Mining WorkbenchOracle 11g Data MiningMicrosoft SQL Server 2005 Analysis Services 数据挖掘软件分类基于组件的数据挖掘和机器学习软件套装 ,基绑定了Python以进行脚本开发 其是一个给机器学习和数据挖掘和分析的试验环境,同时用于研究了真实世界数据挖掘 知名机器学机软件,其支持几种经典的数据挖掘任务,显著的数据预处理,
24、集群,分类,回归,虚拟化,以及功能选择 科学家,工程师和学生所设计,是一个免费的开源数据分析框架,开源库来创建一个数据分析环境,并提供了丰富的用户接口,以此来和那些收费的的软件竞争 用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台,JAVA编程 SAS公司的 Enterprise Miner IBM公司的 Intelligent Miner SPSS公司的 Clementine Statsoft公司的Statistica Data Miner DB Miner公司的 DBMiner NCR公司的Teradata Warehouse Miner Unica公司的Affinium Model Insightful公司的Insightful Miner Data Miner 公司的RIK, EDM and
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年薯条型无灯相机项目投资价值分析报告
- 2025至2030年胫腓骨夹板项目投资价值分析报告
- 配置管理重要性
- 电击伤的急诊急救与护理
- 2025至2030年熟食制品行业深度研究报告
- 2025至2030年深海鳕鱼排项目投资价值分析报告
- 2025至2030年汽配模锻件项目投资价值分析报告
- 运动的相对性课程讲解
- 2025至2030年嫩白补水洁面乳项目投资价值分析报告
- 四川省泸州市泸县第五中学2024-2025学年高三下学期三诊模拟考试(一)物理试题 含解析
- 2025陕西核工业工程勘察院有限公司招聘(21人)笔试参考题库附带答案详解
- 2025年山东、湖北部分重点中学高中毕业班第二次模拟考试数学试题含解析
- 湖北省孝感市高新区2023-2024学年七年级下学期数学期中考试试卷(含答案)
- 8.2 诚信经营 依法纳税课件-高中政治统编版选择性必修二法律与生活
- 领导带班及24小时值班制度
- DB32T 5076-2025 奶牛规模化养殖设施设备配置技术规范
- 肿瘤患者的血栓预防及护理
- 毕业论文基于web的工资管理系统设计与实现
- 压水堆核电厂二回路热力系统
- 财务管理专业培养方案调研报告
- 《个人信息保护法》全文学习PPT课件(带内容)
评论
0/150
提交评论