数据分析和挖掘_第1页
数据分析和挖掘_第2页
数据分析和挖掘_第3页
数据分析和挖掘_第4页
数据分析和挖掘_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第18章 数据分析与挖掘1、决议支持系统2、数据分析和联机分析处理(OLAP)3、数据仓库工程4、数据挖掘10/10/1数据分析和挖掘第1页数据分析与挖掘社会需求 数据挖掘数据库越来越大有价值知识可怕数据10/10/2数据分析和挖掘第2页数据分析与挖掘社会需求 苦恼: 淹没在数据中 ; 不能制订适当决议! 数据知识决议模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售地理位置金融经济政府POS.人口统计生命周期10/10/3数据分析和挖掘第3页1、决议支持系统数据库应用系统可广义地划分为事务处理系统和决议支持系统事务处理系统用来统计相关事务信息系统决议支持系统是从事务处理

2、系统存放细节信息中提取出高层次信息10/10/4数据分析和挖掘第4页2.数据分析和联机分析处理伴随数据库技术发展和应用,数据库存放数据量从20世纪80年代兆(M)字节及千兆(G)字节过渡到现在兆兆(T)字节和千兆兆(P)字节,同时,用户查询需求也越来越复杂,包括已不但是查询或操纵一张关系表中一条或几条统计,而且要对多张表中千万条统计数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。10/10/5数据分析和挖掘第5页什么是OLAP联机分析处理(Online Analytical Processing) 是共享多维信息、针对特定问题联机数据访问和分析快速软件技术。它经过对信息各种可

3、能观察形式进行快速、稳定一致和交互性存取,允许管理决议人员对数据进行深入观察。OLAP=多维数据库?10/10/6数据分析和挖掘第6页OLTP联机事务处理传统关系型数据库主要应用侧重于日常商务操作专门为了实时数据操作而设计 支持数据快速插入和修改 提供单个纪录查询 支持数千个并发用户 10/10/7数据分析和挖掘第7页OLAP是数据仓库关键部心,数据仓库系统主要应用,支持复杂分析操作,侧重决议支持,而且提供直观易懂查询结果。提供数据挖掘,发觉数据间潜在联络 从各个不一样视觉察看数据10/10/8数据分析和挖掘第8页 OLTP vs OLAP10/10/9数据分析和挖掘第9页OLAP是多维(多维

4、数据库有层次概念)“嘿4月份我在北京卖掉了价值十万美元可乐”维度层次概念:产品类别产品名称地域国家省市时间年季度月日10/10/10数据分析和挖掘第10页维度和量度10/10/11数据分析和挖掘第11页3、数据仓库数据仓库介绍数据仓库与数据库区分怎样建设数据仓库10/10/12数据分析和挖掘第12页数据仓库介绍数据仓库(data warehouse)是从多个源中搜集一个信息仓储(或归档),在同一个位置用唯一模式存放。长时间存放单独统一数据接口10/10/13数据分析和挖掘第13页数据仓库与数据库区分数据仓库是对于大量已经由OLTP形成数据一个分析型数据库,用于处理商业智能、决议支持等主要决议信

5、息;数据仓库是在数据库应用到一定程度之后而对历史数据加工与分析;是处理两种不一样用途工具而已。10/10/14数据分析和挖掘第14页数据仓库建设(1)10/10/15数据分析和挖掘第15页设计数据仓库一个数据仓库包含了 一个中央事实表Fact table 多个维表10/10/16数据分析和挖掘第16页数据仓库星型结构10/10/17数据分析和挖掘第17页数据仓库建设(2)10/10/18数据分析和挖掘第18页ETL:数据提取与转换10/10/19数据分析和挖掘第19页数据仓库建设(3)10/10/20数据分析和挖掘第20页数据仓库建设(4)10/10/21数据分析和挖掘第21页四、数据挖掘1、

6、数据挖掘介绍2、数据挖掘系统特征3、数据挖掘技术10/10/22数据分析和挖掘第22页1、数据挖掘介绍基本知识数据挖掘与OLAP比较数据挖掘与KDD比较数据挖掘流程10/10/23数据分析和挖掘第23页数据挖掘介绍1、数据挖掘是怎样一个过程呢? 从海量数据中,提取隐含在其中、人们事先不知道但又可能有用信息和知识过程。2、数据挖掘特征? 数据挖掘是从数据中自动地抽取模式、关联、改变、异常和有意义结构; 数据挖掘大部分价值在于利用数据挖掘技术改进预测模型。10/10/24数据分析和挖掘第24页数据挖掘系统代特征数据挖掘算法集成分布计算模型数据模型第一代数据挖掘作为一个独立应用支持一个或者多个算法

7、独立系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存数据数据管理系统,包含数据库和数据仓库同质/局部区域计算机群集有些系统支持对象、文本、和连续媒体数据第三代和预言模型系统集成 多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算数据联合 多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在计算模型10/10/25数据分析和挖掘第25页数据挖掘与OLAP比较(1)功效不一样 数据挖掘DM功效在于知识发觉。如:数据挖掘DM中“分类”包含:贝叶斯分类、粗糙集分类、决议树分类等,是

8、从数据中发觉知识规则 而联机分析OLAP是一个自上而下、不停深入分析工具:用户提出问题或假设,OLAP负责从上至下深入地提取出关于该问题详细信息,并以可视化方式展现给用户。 用户先入为主不足可能会限制问题和假设范围,从而影响最终结论。10/10/26数据分析和挖掘第26页 (2)数据组成不一样数据挖是从混沌、含有巨大噪声数据中提炼知识规则;而联机分析OLAP只是从已经规范化、纯净关系数据库中组织数据。(3)知识与数据关系不一样数据挖掘DM是从数据中发觉知识KDD;而联机分析OLAP是利用人已知知识来有意识地组织和使用数据。10/10/27数据分析和挖掘第27页数据挖掘与KDD知识发觉(KD)输

9、出是规则 数据挖掘(DM)输出是模型 共同点两种方法输入都是学习集(learning sets) 目标都是尽可能多自动化数据挖掘过程 数据挖掘过程并不能完全自动化,只能半自动化 10/10/28数据分析和挖掘第28页SQL Server 数据挖掘处理流程10/10/29数据分析和挖掘第29页2、数据挖掘系统特征 矿山(数据)挖掘工具(算法)金子(知识)数据特征知识特征算法特征10/10/30数据分析和挖掘第30页数据特征大容量POS数据(某个超市天天要处理高达万笔交易)卫星图象(NASA地球观察卫星以每小时50GB速度发回数据)互联网数据含噪音(不完全、不正确)异质数据(各种数据类型混合数据源

10、,来自互联网数据是经典例子)10/10/31数据分析和挖掘第31页系统特征知识发觉系统需要一个前处理过程数据抽取数据清洗数据选择数据转换知识发觉系统是一个自动/半自动过程知识发觉系统要有很好性能10/10/32数据分析和挖掘第32页知识特征知识发觉系统能够发觉什么知识?计算学习理论COLT(Computational Learning Theory)以FOL为基础以发觉关系为目标归纳逻辑程序设计现行知识发觉系统只能发觉特定模式知识规则分类关联10/10/33数据分析和挖掘第33页算法特征组成数据挖掘算法三要素模式记述语言:反应了算法能够发觉什么样知识模式评价:反应了什么样模式能够称为知识模式探

11、索:包含针对某一特定模式对参数空间探索和对模式空间探索10/10/34数据分析和挖掘第34页3、数据挖掘技术技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在规律数据挖掘技术分类关联规则聚集时间序列10/10/35数据分析和挖掘第35页决议树算法基本介绍 依据数据源,找到决定预测目标原因主要关系登记以及程度。 把已知条件自动分解为多个离散类别 初始状态是一个大空间,挖掘过程是递归分 区不停分割。10/10/36数据分析和挖掘第36页案例我们有大量客户 年纪在20-60岁 月薪在08000元55%被我们认可为好客户里边潜在规律是什么?10/10/

12、37数据分析和挖掘第37页谁是我们有价值客户呢?10/10/38数据分析和挖掘第38页谁是我们有价值客户呢?10/10/39数据分析和挖掘第39页谁是我们有价值客户呢?10/10/40数据分析和挖掘第40页决议树算法经典应用 一个或多个变量预测目标,变量对目标主要程序。 预测客户是否会购置某种产品,预测潜在客户。 评定客户风险 找到决议规则10/10/41数据分析和挖掘第41页关联规则算法基本介绍 分析发觉数据库中不一样变量或个体间之间关系程度,用这些规则找出用户购置行为模式。 关联规则算法能够处理异常大目录,经过了包含超出五千万种商品目录测试。10/10/42数据分析和挖掘第42页关联规则算

13、法经典应用购物篮物品关联度货物摆放捆绑销售网站内容关联个性化促销网上书店关联销售10/10/43数据分析和挖掘第43页聚类算法基本介绍 将相同事物归类 最大期望方法 K-Means10/10/44数据分析和挖掘第44页聚类算法经典应用分类和预测、客户价值度分析经典问题 寻找有价值客户群体 寻找欺诈群体10/10/45数据分析和挖掘第45页数据挖掘算法 分类 10/10/46数据分析和挖掘第46页分类 VS 预测分类:预测项目所属类依据已经有训练数据集和所属类,构建模型来分类现有数据,并用来分类新数据预测:是结构和使用模型评定无样本类,或评定给定样本可能含有属性或值空间。建立连续函数值模型,比如

14、预测空缺值10/10/47数据分析和挖掘第47页预测和分类异同相同点二者都需要构建模型都用模型来预计未知值预测当中主要预计方法是回归分析线性回归和多元回归非线性回归不一样点分类法主要是用来预测类标号(分类属性值)预测法主要是用来预计连续值(量化属性值)10/10/48数据分析和挖掘第48页第一步:建立模型训练数据集分类算法IF rank = professorOR years 6THEN tenured = yes 分类规则10/10/49数据分析和挖掘第49页第二步:用模型进行分类分类规则测试集未知数据(Jeff, Professor, 4)Tenured?注:测试集要独立于训练样本集,不然

15、会出现“过分适应数据”情况10/10/50数据分析和挖掘第50页分类前期工作:准备数据经过对数据进行预处理,能够提升分类和预测过程准确性、有效性和可伸缩性数据清理消除或降低噪声,处理空缺值。相关性分析数据中有些属性可能与当前任务不相关;也有些属性可能是冗余;数据变换能够将数据概化到较高层概念,或将数据进行规范化10/10/51数据分析和挖掘第51页比较分类方法使用以下标准比较分类和预测方法预测准确率:模型正确预测新数据类编号能力速度:产生和使用模型计算花销鲁棒性:给定噪声数据或有空缺值数据,模型正确预测能力可伸缩性:对大量数据,有效构建模型能力可解释性:学习模型提供了解和洞察层次10/10/5

16、2数据分析和挖掘第52页用判定树归纳分类什么是判定树?类似于流程图树结构每个内部节点表示在一个属性上测试每个分枝代表一个测试输出每个树叶节点代表类或类分布判定树生成由两个阶段组成判定树构建开始时,全部训练样本都在根节点递归经过选定属性,来划分样本 (必须是离散值)树剪枝许多分枝反应是训练数据中噪声和孤立点,树剪枝试图检测和剪去这种分枝判定树使用:对未知样本进行分类经过将样本属性值与判定树相比较10/10/53数据分析和挖掘第53页判定归纳树算法判定归纳树算法(一个贪心算法)自顶向下分治方式结构判定树树以代表训练样本单个根节点开始使用分类属性(假如是量化属性,则需先进行离散化)递归经过选择对应测

17、试属性,来划分样本,一旦一个属性出现在一个节点上,就不在该节点任何后代上出现测试属性是依据某种启发信息或者是统计信息来进行选择(如:信息增益)注:属性选择递归划分步骤停顿条件给定节点全部样本属于同一类没有剩下属性能够用来深入划分样本使用多数表决没有剩下样本10/10/54数据分析和挖掘第54页贝叶斯分类贝叶斯分类利用统计学中贝叶斯定理,来预测类组员概率,即给定一个样本,计算该样本属于一个特定类概率。朴素贝叶斯分类:假设每个属性之间都是相互独立,而且每个属性对非类问题产生影响都是一样。10/10/55数据分析和挖掘第55页提升分类法准确性Bagging技术和boosting技术都经过将T个学习得

18、到分类法C1,C2CT组合起来,从而创造一个改进分类法C*Bagging技术对训练集S进行T次迭代,每次经过放回取样选取样本集St,经过学习St得到分类法Ct对于未知样本X,每个分类法返回其类预测,作为一票C*统计得票,并将得票最高预测赋予XBoosting技术每个训练样本赋予一个权值Ct权值取决于其错误率10/10/56数据分析和挖掘第56页数据挖掘算法 关联10/10/57数据分析和挖掘第57页什么是关联挖掘?关联规则挖掘:在交易数据、关系数据或其它信息载体中,查找存在于项目集合或对象集合之间频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计等。举例: 规则形式:

19、 “Body Head support, confidence”.buys(x, “diapers”) buys(x, “beers”) 0.5%, 60%10/10/58数据分析和挖掘第58页规则度量:支持度与可信度查找全部规则 X & Y Z 含有最小支持度和可信度支持度, s, 一次交易中包含X 、 Y 、 Z可能性可信度, c, 包含X 、 Y交易中也包含Z条件概率注:可信度A C (50%, 66.6%)C A (50%, 100%)买尿布客户二者都买客户买啤酒客户10/10/59数据分析和挖掘第59页关联规则挖掘:不一样类型关联布尔 vs. 定量 关联 (基于 处理数据类型)buy

20、s(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60%age(x, “30.39”) income(x, “42.48K”) buys(x, “PC”) 1%, 75%单维 vs. 多维 关联 (例子同上)单层 vs. 多层 分析那个品种牌子啤酒与那个牌子尿布相关系?各种扩展相关性、因果分析关联并不一定意味着相关或因果添加约束如, 哪些“小东西”销售促发了“大家伙”买卖?10/10/60数据分析和挖掘第60页关联规则挖掘一个例子对于 A C:support = support(A 、C) = 50%confidence

21、= support(A 、C)/support(A) = 66.6%最小值尺度 50%最小可信度 50%10/10/61数据分析和挖掘第61页关键步骤:挖掘频繁集Apriori基本思想:频繁项集任何子集也一定是频繁频繁集:是指满足最小支持度项目集合频繁集子集也一定是频繁如, 假如AB 是频繁集,则 A B 也一定是频繁集从1到k(k-频繁集)递归查找频繁集用得到频繁集生成关联规则10/10/62数据分析和挖掘第62页多层关联规则项通常含有层次底层项通常支持度也低一些特定层规则可能更有意义交易数据库能够按照维或层编码能够进行共享多维挖掘食品面包牛奶脱脂奶光明统一酸奶白黄10/10/63数据分析和

22、挖掘第63页挖掘多层关联规则自上而下,深度优先方法:先找高层“强”规则:牛奶 面包 20%, 60%.再找他们底层“弱”规则:酸奶 黄面包 6%, 50%.10/10/64数据分析和挖掘第64页多层关联规则支持度不变: 在各层之间使用统一支持度+ 一个最小支持度阈值. 假如一个项集父项集不含有最小支持度,那他本身也不可能满足最小支持度。 底层项不会成为频繁集,假如支持度太高 丢失底层关联规则太低 生成太多高层关联规则支持度递减: 伴随层次降低支持度递减10/10/65数据分析和挖掘第65页支持度不变支持度不变多层挖掘牛奶support = 10%酸奶 support = 6%脱脂奶suppor

23、t = 4%层 1min_sup = 5%层 2min_sup = 5%10/10/66数据分析和挖掘第66页支持度递减支持度递减多层挖掘酸奶 support = 6%脱脂奶 support = 4%层 1min_sup = 5%层 2min_sup = 3%牛奶support = 10%10/10/67数据分析和挖掘第67页多层关联:冗余过滤因为“祖先”关系原因,有些规则可能是多出。例子牛奶 白面包 support = 8%, confidence = 70%酸奶 白面包 support = 2%, confidence = 72%我们称第一个规则是第二个规则祖先参考规则祖先,假如他支持度与

24、我们“预期”支持度近似话,我们就说这条规则是冗余。10/10/68数据分析和挖掘第68页多层挖掘:深度优先自顶向下,深度优先方法:先挖掘高层频繁项: 牛奶 (15%), 面包 (10%)再挖掘他们底层相对较弱频繁项: 酸奶 (5%), 白面包 (4%)跨层时对支持度不一样处理方法,对应了不一样算法:层之间支持度不变:假如t祖先是非频繁,则不用考虑t支持度随层递减:则只考虑那些其祖先是频繁/不可忽略项10/10/69数据分析和挖掘第69页多维关联规则:概念单维规则:buys(X, “milk”) buys(X, “bread”)多维规则: 2个以上维/谓词维间关联规则 (维词不重复)age(X,

25、”19-25”) occupation(X,“student”) buys(X,“coke”)混合维关联规则 (维词重复)age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”)类别属性有限个值, 值之间无次序关系数量属性数字,值之间隐含了次序关系10/10/70数据分析和挖掘第70页挖掘多维关联技术搜索频繁k-维词集合:如: age, occupation, buys 是一个3-维词集合。按照对 age 处理方式不一样,分为:1. 用静态方法把数值属性离散化数值属性可用预定义概念层次加以离散化。2. 带数量关联规则依据数据分布动态把数值属性离散化到不

26、一样“箱”。3. 基于距离关联规则用数据点之间距离动态离散化10/10/71数据分析和挖掘第71页大趋势 BIG DATA10/10/72数据分析和挖掘第72页/10/1073数据分析和挖掘第73页美国大数据战略年3月,美国奥巴马政府宣告投资2亿美元开启“大数据研发计划”,意在提升和改进从海量和复杂数据中获取知识能力,加速美国在科学和工程领域创造步伐,增强国家安全。这是继1993年美国宣告“信息高速公路”计划后又一次重大科技发展布署,由美国国家科学基金会、能源部等6个联邦部门共同投资。/10/1074数据分析和挖掘第74页谷歌盈利在于全部软件应用都是在线。用户在无偿使用这些产品同时,把个人行为、喜好等信息也无偿送给了Google。所以Google产品线越丰富,他对用户了解就越深入,他广告就越精准。广告价值就越高。这是正向循环,谷歌好用、无偿得软件产品,换取对用户了解;经过精准广告,找到生财之道。颠覆了微软卖软件拷贝盈利模式。成为互联网巨头。互联网越来越智能/10/1075数据分析和挖掘第75页马云判断来自于数据分析“初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再取得数据;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论