大数据的统计和挖掘理论_第1页
大数据的统计和挖掘理论_第2页
大数据的统计和挖掘理论_第3页
大数据的统计和挖掘理论_第4页
大数据的统计和挖掘理论_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据统计和挖掘理论第1页数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用第2页统计是什么统计是人类思维一个归纳过程站在一个路口,看到每过去20辆小轿车时,也有100辆自行车经过而且平均每10个轿车载有12个人于是,你认为小汽车和自行车在这个路口运载能力为24:100这是一个经典统计思维过程第3页统计学统计学研究对象是客观事物数量关系和数量特征,是关于数据搜集、整理、归纳和分析方法论科学,是实证研究一个最主要方法。统计方法广泛地用于各个领域,起着信息功效、咨询功效、监督功效、辅助决议功效作用。各个部门要做出决议、执行计划、检验监督、宏观调控等都需要充分、灵通、可靠统计资料为基础。

2、第4页部分统计数字“明天降水概率为40 ”“我冬天去新加坡度假概率为10 ”“该节目收视率是30%” “调查结果表明20%观众喜欢某节目”“抽样调查结果误差为3%” “支持率95置信区间为(25%,30%)”“某学校排名第一”“某县是贫困县”第5页统计分析做法统计能够指导我们搜集数据当拥有来自一些变量(指标)数据或统计,但缺乏模型来描述这些变量之间关系情况下,可用统计方法建立模型在有了一定模型时,统计能够确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测统计直观图表展示,能够使各个领域教授轻易了解第6页数据统计分析方法描述统计:主要指取得数据后,经过分组、相关图表、统计指标等对现

3、象加以描述;推断统计:指经过抽样调查等非全方面调查,在取得样本数据情况下,以概率论和数理统计为依据,对总体情况进行科学判断;建立模型对现象之间联络进行模拟,对未来情况进行预测。第7页总体与样本总体(母体):是指在某一次统计分析中研究对象全体。个体:组成总体每个单元(产品)叫做个体。总体含量(总体大小):总体中所含个体数,惯用N表示。样本容量(样本大小):样本中所含样品数目,惯用n表示。抽样:是指从总体中随机抽取样品组成样本活动过程。随机抽样:是指要使总体中每一个个体(产品)都有同等机会被抽取出来组成样本活动过程。样本(子样):是指从总体中随机抽取出来而且要对它进行详细研究分析一部分个体(产品)

4、;样本是由1个或若干个样品组成。第8页抽样方法简单随机抽样法又叫随机抽样法,是指总体中每个个体被抽到机会是相同。系统抽样法又叫等距抽样法或机械抽样法。分层抽样法也叫类型抽样法。它是从一个能够分成不一样于总体总体(或称为层)中,按要求百分比从不一样层中随机抽取样品(个体)方法。整群抽样法又叫集团抽样法。是将总体分成许多群,每个群由个体按一定方式结合而成,然后随机抽取若干群,并由这些群中全部个体组成样本。第9页抽样例子某种成品零件分装在20个零件箱装,每箱各装50个,总共是1000个。假如想从中取100个零件作为样本进行测试研究。简单随机抽样:将20箱零件倒在一起,混合均匀,并将零件从1 1000

5、编号,然后用查随机数表或抽签方法从中抽出编号毫无规律100个零件组成样本。系统抽样:将20箱零件倒在一起,混合均匀,并将零件从1 1000编号,然后用查随机数表或抽签方法先决定起始编号,按相同尾数抽取100个零件组成样本。分层抽样:20箱零件,每箱都随机抽取5个零件,共100个组成样本。整群抽样:先从20箱零件随机抽出2箱,该2箱零件组成样本。第10页提要数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用第11页什么是数据挖掘数据挖掘是从大量数据(包含文本)中挖掘出隐含、先前未知、对决议有潜在价值关系、模式和趋势,并用这些知识和规则建立用于决议支持模型,提供预测性决议支持方法、工具

6、和过程。第12页什么是数据挖掘大量资料型态或规则里面要有矿!信用卡消费资料:假设每人平都有1.5张信用卡,每个月平均消费10笔,该行约有150万客户。就资料量而言,每个月约有2,250万笔消费统计,每年约有2亿7千万笔消费统计客户消费型态或规则第13页数据挖掘和数据统计分析区分数据挖掘是数据统计分析演化和扩展。数据统计分析侧重于人为被动分析,而数据挖掘侧重于系统依据一些算法主动发觉一些有用相关信息。数据挖掘需要人工智能、数据库、机器语言和统计分析知识等很多跨学科知识。第14页为何需要数据挖掘企业内产生了大量业务数据,这些数据和由此产生信息是企业财富,它如实统计了企业运作本质情况。 数据挖掘有利

7、于企业发觉业务趋势,揭示已知事实, 预测未知结果。 “数据挖掘”已成为企业保持竟争力必要方法。第15页为何需要数据挖掘分析和执行能力远跟不上信息增加第16页提要数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用第17页数据挖掘工业标准CRISP-DM定义企业问题数据了解数据准备模型建立模型评定布署与应用数据源第18页业务了解业务了解(Business Understanding)定义企业目标(Determine Business Objective)评定企业情况(Assess Situation)定义数据挖掘目标(Determine Data Mining Goals)制订项目方案

8、(Produce Project Plan)第19页数据了解数据了解(Data Understanding)搜集数据(Collect Initial Data)描述数据(Describe Data)探索数据(Explore Data)验证数据质量(Verify Data Quality)第20页数据准备数据准备(Data Preparation)数据集(Data Set)选择数据(Select Data)清理数据(Clean Data)结构数据(Construct Data)集成数据(Integrate Data)格式化数据(Format Data)第21页模型建立模型建立(Modeling)

9、选择建模技术(Select Modeling Techniques)DT, NN, NB, TS, SC, CL, AR, LR, LR, Text Mining产生测试方案(Generate Test Design)构建模型(Build Model)评定模型(Assess Model)第22页模型评定模型评定(Evaluation)评定结果(Evaluate Results)回顾数据挖掘过程(Review Process)确定下一步(Determine Next Steps)第23页布署与应用将挖掘分析结果布署到商业模型中,到达自动化预测效果,以提升营运利润、改进商业流程使用对象决议者营销单

10、位财务分析质量保障单位第24页提要数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用第25页数据挖掘任务预测任务使用一些变量预测其它变量未知或者未来变量值描述性任务找出人类能够了解,能描述数据模式第26页数据挖掘基本任务分类 预测聚类 描述回归分析 预测关联规则挖掘 描述第27页分类与预测分类(classification)就是找出一组能够描述数据集合经典特征模型(或函数),方便能够分类识别未知数据归属或类别(class),即将未知事例映射到某种离散类别之一。分类模型(或函数)能够经过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习取得。普通使用分类来表示对有限离散值预测。使

11、用预测(predication)来表示对连续数值预测第28页分类与预测示例一个商场销售主管可能会对影响商品销售主要原因很感兴趣,若将用户对商品感觉分为三类,即:主动、普通和消极。那么利用分类挖掘对商场销售商品情况进行挖掘,就能够取得利用商品特征来预测用户对其感觉分类知识,相关商品特征通常包含:价格、品牌、产地、类型和种类等。而所取得分类规则显然将帮助商场主管更有效开展商品促销活动第29页分类: 应用1直销目标: 识别出可能购置某种新型手机产品用户,从而降低营销成本.方法:使用已经有类似产品数据已知哪些用户购置了,而哪些没有,这个 买, 不买 决议组成了类标签.搜集这些用户各种人口、生活方式和与

12、企业业务相关信息行业类型, 居住地方, 收入等.使用这些信息作为输入属性来学习分类器模型第30页分类: 应用2欺诈检测目标: 预测出信用卡交易中欺诈行为方法:使用信用卡交易和持卡人信息作为属性标注以往交易为正常或者欺诈交易,形成了类别标签针对交易类别学习模型.针对一些信用卡账户交易情况,使用该模型来检测是否欺诈交易第31页聚类分析给定聚类分析数据,以及度量数据对象之间相同度计算公式,对象划分为若干组或簇(clusters),使得:各簇(clusters)内部数据对象间比较相同各簇(clusters)对象间不相同第32页分类与聚类分类预测方法学习获取分类预测模型所使用数据是已知类别归属(clas

13、s-labeled data ),属于有指导学习方法;聚类分析所分析处理数据均是无(事先确定)类别归属,类别归属标志在聚类分析处理数据集中是不存在。所以聚类分析属于无指导学习方法。第33页聚类: 应用1市场细分目标: 将一个市场划分为若干个客户群体,将每个群体分别作为营销目标,使用不一样营销组合伎俩进行营销方法: 搜集客户不一样属性,包含地理信息、生活方式相关信息等找出相同客户群体经过观察并比较相同簇客户购置模式和不一样簇客户购置模式,评价聚类质量第34页聚类: 应用2文档聚类目标: 依据文档中包含主要关键词,将文档集合划分为若干个组.方法: 找出每个文档中频繁出现词,基于词频率,构建相同性度

14、量,使用该相同性度量公式来聚类第35页回归分析: 定义回归分析(regression analysis)是研究变量之间相关关系一个统计方法。普通来说,回归分析是经过要求因变量和自变量来确定变量之间因果关系,建立回归模型,并依据实测数据来求解模型各个参数。通俗地讲,回归分析是研究一个或几个影响原因与结果之间数学关系,即经验公式。比如,人身高和体重之间是否有数学关系,即是否有经验公式?这就是回归分析法。第36页回归分析类型从自变量数量分为:一元回归是指一个能够准确观察或严格控制变量X,即自变量与因变量Y之间回归关系。多元回归统计思想与处理方法与一元回归基本相同,只不过自变量不止一个。从是否满足线性

15、关系分为:假如回归曲线是线性(如y=a*x1+b*x2+c),称为一元线性回归。更复杂回归:有时一元回归曲线不是线性,这时需要用多项式回归或指数回归建立数据模型。第37页回归分析例子一元线性回归方程用一条直线来模拟两个变量间关系第38页关联规则挖掘定义给定一个统计集合,每个统计由若干项(item)组成产生依赖规则,使得依据一些项出现能够预测另一些项出现第39页关联规则挖掘: 应用1市场促销假设发觉一条规则是面包, - 薯条薯条作为后件 = 能够用于确定怎样才能提升其销量面包作为前件 =能够知道假如商店不卖面包话,哪些商品会受到影响面包作为前件,而薯条作为后件= 能够用于确定将什么商品和面包一起销售能够提升薯条销量第40页关联规则挖掘: 应用2超市货架管理目标: 找出被很多用户一起购置商品方法: 对POS数据进行处理,发觉商品之间依赖规则经典规则 -假如一个用户买了尿布和牛奶, 那么他很有可能也会买啤酒智力玩具与减肥药第41页提要数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用第42页数据挖掘在各产业应用金融服务业客户贡献度分析、信用评分、风险评定、客户划分、交叉营销等。保险业用户贡献度分析、信用评分、风险评定、客户划分、交叉营销、客户流失分析和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论