数据分析和挖掘课件_第1页
数据分析和挖掘课件_第2页
数据分析和挖掘课件_第3页
数据分析和挖掘课件_第4页
数据分析和挖掘课件_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第18章 数据分析与挖掘1、决策支持系统2、数据分析和联机分析处理(OLAP)3、数据仓库工程4、数据挖掘11/13/20231数据分析与挖掘的社会需求数据库越来越大数据挖掘11/13/20232有价值的知识可怕的数据数据分析与挖掘的社会需求苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列11/13/20233目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期1、决策支持系统数据库应用系统可广义地划分为 事务处理系统和决策支持系统事务处理系统用来记录有关事务的信息的系统决策支持系统是从事务处理系统存储的细节信息中提取出高层次的信息11/13/202342.数据分析和联机分析处理随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。11/13/20235什么是OLAP联机分析处理(Online

Analytical

Processing)是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。OLAP=多维数据库??11/13/20236OLTP联机事务处理传统的关系型数据库的主要应用侧重于日常的商务操作专门为了实时的数据操作而设计支持数据的快速插入和修改提供单个纪录的查询支持数千个并发用户11/13/20237OLAP是数据仓库的核心部心,数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

提供数据挖掘,发现数据间潜在的联系从各个不同的视觉察看数据11/13/20238OLTP

vs

OLAP11/13/20239OLAP是多维的(多维数据库有层次概念“嘿…4月份我在北京卖掉了价值十万美元的可乐”维度的层次概念:产品类别产品名称地域国家省市时间年季度月日11/13/202310维度和量度11/13/2023113、数据仓库数据仓库简介数据仓库与数据库的区别如何建设数据仓库11/13/202312数据仓库简介数据仓库(data

warehouse)是从多个源中收集一个信息仓储(或归档),在同一个位置用唯一的模式存储。①长时间存储②单独的统一的数据接口11/13/202313数据仓库与数据库的区别数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息;数据仓库是在数据库应用到一定程度之后而对历史数据的加工与分析;是处理两种不同用途的工具而已。11/13/202314数据仓库的建设(1)11/13/202315设计数据仓库一个数据仓库包括了一个中央事实表Fact

table多个维表11/13/202316数据仓库的星型结构11/13/202317数据仓库的建设(2)11/13/202318ETL:数据的提取与转换11/13/202319数据仓库的建设(3)11/13/202320数据仓库的建设(4)11/13/202321四、数据挖掘11/13/2023221、数据挖掘简介2、数据挖掘系统的特征3、数据挖掘技术1、数据挖掘简介基本知识数据挖掘与OLAP比较数据挖掘与KDD比较数据挖掘的流程11/13/202323数据挖掘简介1、数据挖掘是怎样的一个过程呢?从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。2、数据挖掘特性?数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。11/13/202324数据挖掘系统11/13/202325代特征数据挖掘算法集成分布计算模型数据模型第一代数据挖掘作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质/局部区域的计算机群集有些系统支持对象、文本、和连续的媒体数据第三代和预言模型系统集成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和

web数据第四代和移动数据/各种计算数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型数据挖掘与OLAP比较(1)功能不同数据挖掘DM的功能在于知识发现。如:数据挖掘DM中

的“分类”包括:贝叶斯分类、粗糙集分类、决策树分类等,是从数据中发现知识规则而联机分析OLAP是一种自上而下、不断深入的分析工具:用户提出问题或假设,OLAP负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。11/13/202326数据组成不同数据挖是从混沌的、具有巨大噪声的数据中提炼知识规则;而联机分析OLAP只是从已经规范化的、纯净的关系数据库中组织数据。知识与数据的关系不同数据挖掘DM是从数据中发现知识KDD;而联机分析OLAP是利用人已知的知识来有意识地组织和使用数据。11/13/202327数据挖掘与KDD知识发现(KD)–输出的是规则数据挖掘(DM)–输出的是模型共同点–两种方法输入的都是学习集(learning

sets)–目的都是尽可能多的自动化数据挖掘过程–数据挖掘过程并不能完全自动化,只能半自动化11/13/202328SQL

Server

2005数据挖掘处理流程11/13/2023292、数据挖掘系统的特征矿山(数据) 挖掘工具(算法) 金子(知识)数据的特征知识的特征算法的特征11/13/202330数据的特征11/13/202331大容量POS数据(某个超市每天要处理高达2000万笔交易)卫星图象(NASA的地球观测卫星以每小时50GB的速度发回数据)互联网数据含噪音(不完全、不正确)异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)系统的特征11/13/202332知识发现系统需要一个前处理过程数据抽取数据清洗数据选择数据转换知识发现系统是一个自动/半自动过程知识发现系统要有很好的性能知识的特征11/13/202333知识发现系统能够发现什么知识?计算学习理论COLT(Computational

Learning

Theory)以FOL为基础的以发现关系为目的的归纳逻辑程序设计现行的知识发现系统只能发现特定模式的知识规则分类关联算法的特征11/13/202334构成数据挖掘算法的三要素模式记述语言:反映了算法可以发现什么样的知识模式评价:反映了什么样的模式可以称为知识模式探索:包括针对某一特定模式对参数空间的探索和对模式空间的探索3、数据挖掘技术技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘技术分类关联规则聚集时间序列11/13/202335决策树算法基本介绍根据数据源,找到决定预测目标的因素的重要关系登记以及程度。把已知条件自动分解为多个离散的类别初始状态是一个大的空间,挖掘的过程是递归分区—不断分割。11/13/202336案例我们有大量的客户 年龄在20-60岁

月薪在0—8000元55%的被我们认可为好客户里边潜在的规律是什么?11/13/202337谁是我们的有价值客户呢?11/13/202338谁是我们的有价值客户呢?11/13/202339谁是我们的有价值客户呢?11/13/202340决策树算法典型应用一个或多个变量预测目标,变量对目标的重要程序。预测客户是否会购买某种产品,预测潜在客户。评估客户风险找到决策规则11/13/202341关联规则算法基本介绍分析发现数据库中不同变量或个体间之间的关系程度,用这些规则找出顾客购买行为模式。关联规则算法可以处理异常大的目录,经过了包含超过五千万种商品的目录的测试。11/13/202342关联规则算法典型应用购物篮物品关联度货品摆放捆绑销售网站内容关联个性化促销网上书店关联销售……11/13/202343聚类算法基本介绍将相似的事物归类最大期望方法K-Means11/13/202344聚类算法典型应用分类和预测、客户价值度分析典型问题寻找有价值客户群体寻找欺诈群体11/13/202345数据挖掘算法-分类11/13/202346分类

VS

预测分类:预测项目所属类根据已有训练数据集和所属类,构建模型来分类现有数据,并用来分类新数据预测:是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。建立连续函数值模型,比如预测空缺值11/13/202347预测和分类的异同11/13/202348相同点两者都需要构建模型都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归不同点分类法主要是用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值)第一步:建立模型训练数据集分类算法IF

rank=

‘professor’OR

years

>

6THEN

tenured

=

‘yes’分类规则11/13/202349第二步:用模型进行分类分类规则测试集未知数据(Jeff,

Professor,4)Tenured?11/13/202350注:测试集要独立于训练样本集,否则会出现“过分适应数据”的情况分类前期工作:准备数据通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声,处理空缺值。相关性分析数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;数据变换可以将数据概化到较高层概念,或将数据进行规范化11/13/202351比较分类方法使用下列标准比较分类和预测方法预测的准确率:模型正确预测新数据的类编号的能力速度:产生和使用模型的计算花销鲁棒性:给定噪声数据或有空缺值的数据,模型正确预测的能力可伸缩性:对大量数据,有效的构建模型的能力可解释性:学习模型提供的理解和洞察的层次11/13/202352用判定树归纳分类什么是判定树?类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布判定树的生成由两个阶段组成判定树构建开始时,所有的训练样本都在根节点递归的通过选定的属性,来划分样本(必须是离散值)树剪枝许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝判定树的使用:对未知样本进行分类通过将样本的属性值与判定树相比较11/13/202353判定归纳树算法判定归纳树算法(一个贪心算法)自顶向下的分治方式构造判定树树以代表训练样本的单个根节点开始使用分类属性(如果是量化属性,则需先进行离散化)递归的通过选择相应的测试属性,来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现测试属性是根据某种启发信息或者是统计信息来进行选择(如:信息增益)注:属性的选择递归划分步骤停止的条件给定节点的所有样本属于同一类没有剩余属性可以用来进一步划分样本——使用多数表决没有剩余的样本11/13/202354贝叶斯分类贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。朴素贝叶斯分类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的影响都是一样的。11/13/202355提高分类法的准确性Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2…CT组合起来,从而创造一个改进的分类法C*Bagging技术对训练集S进行T次迭代,每次通过放回取样选取样本集St,通过学习St得到分类法Ct对于未知样本X,每个分类法返回其类预测,作为一票C*统计得票,并将得票最高的预测赋予XBoosting技术每个训练样本赋予一个权值Ct的权值取决于其错误率11/13/202356数据挖掘算法11/13/202357-关联什么是关联挖掘?关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计等。举例:规则形式:“Body

ead[support,confidence]”.buys(x,

“diapers”)

buys(x,

“beers”)

[0.5%,60%]11/13/202358规则度量:支持度与可信度注:可信度–

A⇒

C

(50%,

66.6%)–

C⇒

A

(50%,

100%)二者都买的客户

买尿布的客户买啤酒的客户•查找所有的规则

X

&

Y

Z

具有最小支持度和可信度支持度,s,一次交易中包含{X、Y、Z}的可能性可信度,c,包含{X、Y}的交易中也包含Z的条件概率11/13/202359关联规则挖掘:不同类型的关联布尔vs.定量

关联

(基于处理数据的类型)buys(x,

“SQLServer”)

^

buys(x,

“DMBook”)

buys(x,

“DBMiner”)[0.2%,

60%]age(x,

“30..39”)

^

income(x,

“42..48K”)

buys(x,

“PC”)

[1%,75%]单维vs.多维

关联

(例子同上)单层vs.多层

分析那个品种牌子的啤酒与那个牌子的尿布有关系?各种扩展相关性、因果分析关联并不一定意味着相关或因果添加约束如,哪些“小东西”的销售促发了“大家伙”的买卖?11/13/202360关联规则挖掘—一个例子对于A

C:support=support({A、C})=50%confidence=support({A

、C})/support({A})=66.6%最小值尺度50%最小可信度50%11/13/202361关键步骤:挖掘频繁集11/13/202362Apriori的基本思想:频繁项集的任何子集也一定是频繁的频繁集:是指满足最小支持度的项目集合频繁集的子集也一定是频繁的如,如果{AB}是频繁集,则{A}{B}也一定是频繁集从1到k(k-频繁集)递归查找频繁集用得到的频繁集生成关联规则多层关联规则项通常具有层次底层的项通常支持度也低某些特定层的规则可能更有意义交易数据库可以按照维或层编码可以进行共享的多维挖掘食品面包牛奶脱脂奶光明统一酸奶白黄11/13/202363挖掘多层关联规则11/13/202364自上而下,深度优先的方法:先找高层的“强”规则:牛奶

面包

[20%,60%].再找他们底层的“弱”规则:酸奶

黄面包

[6%,

50%].多层关联规则支持度不变:在各层之间使用统一的支持度–

+一个最小支持度阈值.

如果一个项集的父项集不具有最小支持度,那他本身也不可能满足最小支持度。–底层项不会成为频繁集,如果支持度太高

丢失底层关联规则太低

生成太多的高层关联规则支持度递减:随着层次的降低支持度递减11/13/202365支持度不变支持度不变多层挖掘牛奶[support

=

10%]酸奶[support

=

6%]脱脂奶[support

=

4%]层1min_sup

=

5%11/13/202366层2min_sup

=

5%支持度递减支持度递减多层挖掘酸奶[support

=

6%]脱脂奶[support

=

4%]层1min_sup

=

5%11/13/202367层2min_sup

=

3%牛奶[support

=

10%]多层关联:冗余过滤由于“祖先”关系的原因,有些规则可能是多余的。例子牛奶

白面包

[support

=

8%,

confidence

=

70%]酸奶

白面包[support=2%,confidence=72%]我们称第一个规则是第二个规则的祖先参考规则的祖先,如果他的支持度与我们“预期”的支持度近似的话,我们就说这条规则是冗余的。11/13/202368多层挖掘:深度优先11/13/202369自顶向下,深度优先的方法:先挖掘高层频繁项:牛奶(15%),面包(10%)再挖掘他们底层的相对较弱的频繁项:酸奶(5%),白面包(4%)跨层时对支持度的不同处理方法,对应了不同的算法:层之间支持度不变:如果t的祖先是非频繁的,则不用考虑t支持度随层递减:则只考虑那些其祖先是频繁的/不可忽略的项多维关联规则:概念单维规则:buys(X,

“milk”)

buys(X,

“bread”)多维规则:2个以上维/谓词维间关联规则(维词不重复)age(X,”19-25”)

occupation(X,“student”)

buys(X,“coke”)混合维关联规则(维词重复)age(X,”19-25”)

buys(X,“popcorn”)

buys(X,“coke”)类别属性有限个值,值之间无顺序关系数量属性数字的,值之间隐含了顺序关系11/13/202370挖掘多维关联的技术搜索频繁k-维词集合:如:{age,occupation,buys}是一个3-维词集合。按照对age

处理方式的不同,分为:用静态方法把数值属性离散化数值属性可用预定义的概念层次加以离散化。带数量的关联规则根据数据的分布动态的把数值属性离散化到不同的“箱”。基于距离的关联规则用数据点之间的距离动态的离散化11/13/202371大趋势11/13/202372—BIG

DATA2023/11/1373美国的大数据战略2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”,旨在提高和改进从海量和复杂数据中获取知识的能力,加速美国在科学和工程领域发明的步伐,增强国家安全。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,由美国国家科学基金会、能源部等6个联邦部门共同投资。2023/11/1374谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用

的、免费得软件产品,换取对

用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖

软件拷贝赚钱的模式。成为互联网的巨头。互联网越来越智能2023/11/1375马云的判断来自于数据分析“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论