基于clementine的数据挖掘第一讲_第1页
基于clementine的数据挖掘第一讲_第2页
基于clementine的数据挖掘第一讲_第3页
基于clementine的数据挖掘第一讲_第4页
基于clementine的数据挖掘第一讲_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、商务智能申贵成北京物资学院信息学院课程主要内容数据挖掘和Clementine概述Clementine的数据读入和数据集成Clementine的数据理解Clementine的数据准备Clementine的基本分析Clementine的数据精简分类预测方法:决策树分类预测方法:神经网络分类预测方法:支持向量机分类预测方法:贝叶斯网络数据结构分析:聚类数据结构分析:关联规则主要参考文献薛薇,Clementine数据挖掘方法及应用,电子工业出版社SPSS Inc, Clementine 12.0 Node Reference, Integral Solutions Limited, 2007SPSS

2、Inc, Clementine 12.0 Algorithms Guide, Integral Solutions Limited, 2007SPSS Inc, Clementine 12.0 Applications Guide, Integral Solutions Limited, 2007参考文献Ian H, Witten, Eibe Frank, DATA MINING: Practical Machine Learning Tools and Techniques, Second Edition, Morgan Kaufmann Publishers, Inc. 2005Mehme

3、d Kantardzic, DATA MINING: Concepts, Models, Methods, and Algorithms, IEEE Press, 2002David Hand, Principles of Data Mining, MIT Press,2001Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, Inc. 2001Thuraisingham, Bhavani M. Data mining: technologies, tec

4、hniques, tools and trends, CRC Press, 1999数据挖掘和Clementine综述数据挖掘的产生背景什么是数据挖掘数据挖掘和数据库中的知识发现数据挖掘方法论数据挖掘的任务和应用数据挖掘得到的知识形式数据挖掘算法的分类Clementine软件概述数据挖掘产生的背景从数据分析看数据挖掘政治算术、概率论与数理统计、数据挖掘两个主要原因催生数据挖掘海量数据的分析需求应用对理论的挑战海量数据的分析需求微观管理层面,以商业领域为例:美国某著名连锁超市,数据库中已积累了TB级以上的顾客购买行为数据和其他销售数据。互联网和电子商务的普及,网上商城、网上书店和营业厅积累的We

5、b点击流存储容量多达GB级。国内的一些知名电子商务平台,全国注册用户高达几亿,日交易量超过几百万笔,日交易数据量至两位TB级海量数据的分析需求2011年,全球著名数据挖掘咨询公司KDnuggets的调查显示,被调查的148家公司中,大约35.4%公司处理和分析的最大数据量超过100GB,21.4%的超过1T,而这两个指标2010年分别为32.2%和18.3%。海量数据的分析需求著名的数据仓库专家Ralph Kimball:“我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。”数据仓库行业最主要的开拓者海量数据的分析需求海量数据分析中的问题:“信息爆炸”、“数据多但知识少”辅

6、助决策的数据大多来自企业不同业务处理系统实施定量分析需要深厚的专业知识,更需要有效的分析工具数据仓库和数据挖掘的产生和发展,使得当今的计算机网络应用体系从业务管理层逐步跃升到决策支持层应用对理论的挑战:数据仓库数据库与数据仓库、人工智能与机器学习、统计学等理论的应用是数据挖掘诞生发展的理论基础数据库与数据仓库“是否存在更有效的存储模式实现高维海量数据的存储管理?”“数据库中的数据处理能力仅仅局限在简单的查询和汇总层面上吗?”数据仓库技术已成为一种有效的面向分析主题的数据整合、数据清洗和数据存储管理集成工具大量基于数据仓库的数据挖掘工具大行其道公司:Sql Server、IBM方法:OLAP、B

7、I应用对理论的挑战:人工智能人工智能和机器学习理论如何利用计算机模拟人脑的部分思维,如何利用计算机进行实际问题的求解和优化等典型系统:专家系统:知识表示、100万条常识博弈系统:1997年,IBM“深蓝”与国际象棋大师卡斯帕罗夫的比赛自然语言的理解:2011年,IBM“沃森”与人类选手在“危险边缘”的比赛“这个被信赖的朋友是一种非奶制的奶末”情感理解困难应用对理论的挑战:统计学海量数据和数据类型多样化带来的挑战例如:总体和样本验证驱动型分析和数据驱动型分析“干净”数据和“脏”数据过去在统计应用视野之外的数据存储和组织问题,与数据库技术相结合什么是数据挖掘:概念数据挖掘和数据库中的知识发现199

8、5年,在加拿大蒙特利尔召开第一届知识发现KDD和数据挖掘DM国际学术会议什么是数据挖掘:理解数据挖掘是一个利用各种方法,从海量的有噪声的凌乱数据中,提取隐含和潜在的,对决策有用的信息和模式的过程“海量”:样本量庞大、样本量不大但数据维度很高、样本量庞大且数据维度很高特色:分布特征未知条件下的,高维非线性的,归纳型的分析方法信息:用于数据的分类预测模式:用于数据特征和关联性的刻画什么是数据挖掘:研究特点交叉学科数据挖掘方法论数据挖掘方法论是数据挖掘实施的总体指导方案CRISP-DM( Cross Industry Standard Process of Data Mining )业务理解数据理解

9、数据准备建立模型方案评估方案实施数据数据挖掘的任务数据总结分类和回归聚类分析关联分析数据挖掘得到的知识形式浓缩数据:原始数据的精练统计报表销售产品销售地区1月 2月 3月 销售时间(月)A产品B产品北京销售额(万元)数据挖掘得到的知识形式浓缩数据:原始数据的精练数据挖掘得到的知识形式图形数据挖掘得到的知识形式规则:一种逻辑表达形式IF(消费频率=经常)(消费频率=偶尔)(收入水平=高收入中收入) THEN 打算购买数学模型数据挖掘的算法分类从算法分析数据的方式划分假设检验型算法:自顶向下(Top-Down)型一般原理推出个别结论的验证型演绎方法知识发现型算法:自底向上(Bottom-Up)型从

10、个别数据中归纳出一般性结论的归纳分析方法尿布和啤酒数据挖掘的算法分类从算法来自的学科类型划分机器学习算法和统计学算法20世纪80年代中期,Leo Breiman等分类和回归树和机器学习专家J.Ross Quinlin的ID3算法机器学习的核心:通过对数据集n维属性空间的搜索,找到数据属性特征的恰当概括任务是通过对有限的系统输入输出分析,估计输入输出的相关性并进行分类预测,或揭示系统的内在结构特征数据挖掘的算法分类机器学习学习机的任务是从其所支持的函数集f(X,W)中,选择一个一般化的与系统输入和输出关系最近似的函数f(X,w),并给出预测值y选择近似函数的依据是损失函数L(e(y,f(X,w)

11、,是误差函数e的函数输入发生器学习机系统Xyy=f(X,w)数据挖掘的算法分类机器学习较多集中在模型搜索和参数优化方面数据挖掘的算法分类从学习过程的类型划分有指导的学习算法无指导的学习算法Clementine软件概述Clementine(IBM SPSS Modeler)最早属英国ISL(Integral Solutions Limited)公司的产品,后被SPSS公司收购2009年,SPSS被IBM公式收购,V14版自2000年以来,KDnuggets公司面向全球开展“最近12个月你使用的数据挖掘工具”的跟踪调查,Clementine一直列居首位Clementine软件概述Clementin

12、e的操作与数据分析的一般流程相吻合Clementine形象地将各个环节表示成若干个节点,将数据分析过程看作是数据在各个节点之间的流动,并通过图形化的“数据流”方式,直观表示整个数据挖掘操作使用Clementine的目标:建立数据流,即根据数据挖掘的实际需要,选择节点,依次连接节点建立数据流,不断修改和调整流中节点的参数,执行数据流,最终完成相应的数据挖掘任务Clementine软件概述数据流的建立遵循数据挖掘方法论读入数据浏览数据Source选项卡Output选项卡观察单变量分布特点观察多变量相关性Graphs选项卡Output选项卡评估数据质量数据转换和派生数据精简Field Ops选项卡R

13、ecord Ops选项卡建立多个模型评价选择模型Modeling选项卡建立数据源数据理解数据准备建立模型集成数据基本分析深入分析数据筛选Clementine的窗口Clementine的主要窗口数据流编辑区节点工具箱窗口流管理窗口Streams中,文件扩展名.strOutputs中,文件扩展名.couModels中,文件扩展名.gm项目管理窗口项目文件的扩展名.cpj数据流的基本管理数据流的基本管理:第一,选择和管理节点第二,建立和调整节点间的连接第三,设置节点参数第四,执行数据流缓冲节点和超节点缓冲节点:点具有数据缓冲的作用,即可在某个节点上建立一个数据缓冲区,存放数据流执行至此的中间结果,并

14、可保存到磁盘文件中建立缓冲节点保存缓冲区内容清空缓冲区加载缓冲数据撤销节点缓冲缓冲节点和超节点超节点:多个节点集成在一个节点,便于数据流的浏览和管理建立超节点查看超节点取消超节点Clementine使用示例案例数据:药物(Drug:Drug A、Drug B、Drug C、Drug X、Drug Y)、血压(BP,High、Normal、Low)、胆固醇(Cholesterol,Normal、High)、唾液中钠元素(Na)和钾元素(K)含量,病人年龄(Age)、性别(Sex,M、F)Clementine使用示例第一,将数据到Clementine中第二,浏览数据内容第三,观察各个变量的数据分布

15、特征第四,观察服用不同药物的病人唾液中钠元素和钾元素的含量单纯K含量较低的病人选用DrugY应比较理想第五,观察服用不同药物病人唾液中钠元素和钾元素的浓度比值Na/K比值高水平的病人,DrugY是理想选择第六,不同血压特征病人的药物选择第七,全面分析决定药物选择的其他影响因素第八,模型预测精度的评价案例数据以往有大批患有同种疾病的不同病人,服用五中药物中的一种(Drug,分为drugA, drugB, DrugC, drugX,drugY)之后取得了同样的效果血压(BP, 分为高血压High, 正常Normal,低血压Low)胆固醇(Cholesterol,分为正常Normal和高胆固醇Hig

16、h)唾液中钠元素(NA)和钾元素(K)含量病人年龄(Age)性别(Sex, 包括男M和女F)导入数据选择源选项卡中可变文件节点设置节点参数,选择drug.txt读入浏览数据,在输出选项卡中选择表节点,添加到数据流,执行该节点观察各个变量的数据分布特征,在输出选项卡中选择数据审核节点,添加到数据流中,执行该节点观察服用不同药物的病人唾液中呐元素和钾元素的含量输入数据显示数据观察数据分布特征观察数据分布特征观察Na和钾元素观察Na和钾元素观察结果用DrugY的病人比较多可以看到用DrugY的人主要集中在下面有一个明确的分界线这个分界线几乎就是直线观察服用不同药物的病人兔爷中钠元素和钾元素的浓度比值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论