




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据库概论数据仓库与数据挖掘简介目录数据仓库鸟瞰:万川汇海,吐纳丹田数据挖掘算法原理:知其所以然数据挖掘应用示例:知行合一大规模数据分析:九天揽月,五洋捉鳖概念架构建模开发数据仓库简介囚徒困境囚徒乙坦白抵赖囚徒甲坦白(-8,-8)(0,-10)抵赖(-10,0)(-1,-1)titfortatonetitfortwotatstwotitsforonetat博弈智猪博弈小猪按等待大猪按(5,1)(4,4)等待(9,-1)(0,0)博弈决策支持系统正确决策—企业竞争优势错、错、错在错误的时间、错误的地点、同错误的对手打了一场错误的战争噬脐何及合九州六十四县铁,不能铸成此大错也避免三拍决策拍脑袋决策拍巴掌通过拍屁股走人商务智能QueryDataAnalysisInformationDataminingKnowledge从数据到知识WearedrowningindatabutstarvedofinformationBusinessIntelligenceisaprocessofturningdataintoknowledgeandknowledgeintoactionforbusinessgain商务智能标准报告
多少、频率及地点?发生了什么特定报告问题究竟出在哪里?质问、刨根问底警报为什么这件事会发生?需要采取什么行动?统计分析趋势持续下去会怎样?预测、外推下一步将发生什么?预测模型可能发生的最好结果是什么?优化智能程度竞争优势报告型分析型企业活动的层次结构战略计划层管理控制和战术计划层作业计划与控制层决定战略目标资源有效利用完成具体活动安东尼模型面向高层的战略信息哪些客户对我们最有利?如何拓展与他们的联系?哪些客户给我们提供利润?哪些客户使我们遭受损失?根据他们经常光顾的商店,最好的客户居住在哪里?哪些产品和服务能被最有效的进行交叉销售,销售对象是谁?哪些市场营销案例是最成功的?为什么?哪些销售渠道对于哪些产品是最有效的?如何才能改善我们用户的总体经历?战略信息的特征综合性完整性可用性及时性面向高层的战略信息提供战略信息的环境提供全局的、一致的信息视角提供统一的数据分析源满足决策者动态变化的需求能够让决策者亲力亲为必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。数据仓库应运而生为什么需要数据仓库未有……之前搜索特定的数据源生成特定的抽取程序集成数据汇总数据寻找历史数据需求决定服务分工提高效率上帝说:要有光基于数据仓库的战略信息环境提供对企业的综合而完整的概括提供决策所需的当前和历史数据决策处理不妨碍操作型系统提供一个灵活交互的战略信息来源百分百用户驱动非常适合提问-回答-再提问的模式信息的正确性、完备性、简明性+访问的灵活性数据仓库是一个数据集合面向主题的集成的相对稳定的反映历史变化的用于支持管理决策ETL工具中央数据仓库关系数据应用包历史数据外部数据数据仓库的定义数据仓库是一个信息传递环境,使用所有已经存在的数据,通过清洗和转化,提供有用的决策信息
采购数据库销售数据库供应商商品顾客库存数据库数据仓库的定义:面向主题的数据源1数据源2抽取器抽取器合成器数据仓库数据仓库的定义:集成的部门级数据仓库小型的、面向部门或工作组的数据仓库自顶向下vs自底向上是先了解公司整体情况,自顶向下地建立一个全局数据仓库,还是根据部门具体需求,自底向上地建立部门级的数据集市?建设速度、实施风险、投资费用、数据一致、管理控制数据集市眼高手低:全局视角+逐步实施数据仓库体系结构源数据库数据抽取、转换、装载ETL工具数据建模工具中央元数据数据集市数据访问和分析工具终端用户DW工具中央数据仓库中央数据仓库中间层中间层数据集市数据集市局部元数据局部元数据局部元数据元数据交换终端用户DW工具终端用户DW工具多维数据库关系数据应用包历史数据外部数据数据清理工具关系数据库关系数据库DW管理工具获取->存储->传递多维MD体系结构企业信息工厂CIF体系结构独立的数据集市架构联邦式数据仓库架构集中式架构集线器和车轮辐条架构总线架构数据仓库架构类型数据仓库总线结构令人生畏的企业数据仓库规划困境有什么:各种数据源要什么:满足高层需要老死不相往来的独立数据集市灾难不兼容性有损于整体企业视图的一致性独立数据集市的实施妨碍整体数据仓库的开发数据仓库总线:整体视图,逐步实施数据集市:逐步实施的数据仓库一致性维度+标准化事实数据仓库总线结构购买订单商场库存商场营销日期产品存储提升仓库供应商运输商维度建模基本概念ER模型蜘蛛网结构关注局部联系适合部门业务处理爬行路径发现实体间的联系低层信息需求某一订单的顾客是谁?某一订单包括哪些商品?维度建模基本概念顾客订单订单明细雇员货运产品目录供应商人口统计区域维度建模基本概念高层信息需求销售量下降的原因是什么?哪些客户的购物行为相同?金牌客户的特征是什么?多维模型:维+度量对一些统计指标(销售额)从不同角度(维:时间、地区、商品类型、客户)展开分析维度建模基本概念订单产品顾客货运供货商事实表+维表维度建模基本概念事实:业务度量值事实必须是数字类型和可加的事实表:存放大量的业务性能度量值每个商店每种商品每天的销售数量和销售额维:分析的角度礼、义、廉、耻,国之四维四维不张,国乃灭亡天柱折、地维绝维度表:富有意义的文字性描述,提供详细的业务用语属性,查询与报表的来源维度建模基本概念星型模式以事实为依据以法律为准绳维度建模基本概念雪花模式数据仓库项目:开发方法数据库:基于确定的业务处理需求、确定的数据流数据仓库:需求不确切,没有固定模式,用户对分析处理需求不甚明了给我看一下我说我想要的东西,然后我告诉你我真正想要什么既然我看到了我能够做什么,我就能告诉你是真正有用的什么数据库:开始于需求,结束于代码数据仓库:开始于数据,结束于需求数据仓库项目:变革运动超过50%的数据仓库项目是失败的要点:数据仓库项目会带来组织结构上的变化协调部门利益,打破条块分割改革中普遍的人性“曾经阔气的要复古,正在阔气的要保持现状,未曾阔气的要革新,大抵如此,大抵”“他的敌人会坚决报复他,而他的朋友则不会同样热心地保护他”关键:领导者的决心与参与数据仓库项目:指导原则发起者的地位:来自管理者的强有力支持项目经理:应更多地面向用户,而非技术团队角色:对应每个独立的数据仓库项目需求数据质量:质量、质量、第三个质量用户需求:驱动力考虑增长的因素:不断增加的用户和查询及数据规模项目政治影响:会给各个层次的用户带来冲击现实的期望:确立合理的、逐步的、可达的期望维度建模:数据仓库蓝图外部数据:数据仓库必需品培训:数据仓库价值体现在它的使用上数据仓库项目:特别之处数据仓库项目范围更广、更复杂、技术庞杂多请教领域专家要引起对元数据的足够重视重视基础结构的设计和建造让最终用户参与项目的每个阶段并行开发迭代式开发数据仓库项目:团队执行负责人决定方向,支持并仲裁项目经理分配任务,检查并控制进度用户联络经理与用户群合并体系结构总设计设计体系结构基础设施专家设计和建设基础设施商业分析师需求定义数据建模人员相关性和维度建模数据仓库管理员类似数据库管理员的职能数据转换专家数据抽取、整合、转换质量保证分析师数据仓库中的质量控制测试协调员程序、系统和工具测试最终用户应用程序专家数据含义和关系的确认开发程序员内部程序和脚本的编写培训经理协调用户和团队的培训数据仓库项目:准备工作数据仓库项目:起点区分业务需求优先级主题A主题B主题C主题D潜在业务影响可行性高高低低数据仓库项目:起点仪表盘、计分卡是合适的主题吗?包含多个业务过程的关键绩效度量需要从所有业务过程提取数据需要详备的细节数据最大的诱惑,最坏的起点最大风险是不了解数据方面的困难数据仓库项目:ETL数据的抽取、转换、装载数据清洗缺失数据噪音数据不一致数据数据集成ETL占数据仓库项目总工作量的50%到70%超过50%的人认为数据质量是最大的挑战数据仓库项目:维度设计大维度客户维、产品维快速变化维客户人口统计信息蜈蚣状星型模式其他:废弃维度、多角色维度、多层次维度、多对多维度项目规划业务需求定义技术架构设计产品选择与安装维度建模物理设计ETL设计与开发部署维护与增长BI应用程序规范BI应用程序开发项目管理数据仓库开发:业务维生命周期实时数据仓库ODS实时分区面向主题的、集成的、细节的、可变的、当前的。用于支持全局业务处理和日常管理控制操作。延迟:啤酒商游戏主动:所有习惯中最好的那个信用卡欺诈检测呼叫中心进行直接的客户营销商场及时补充特定日期的商品基于客户价值,给予灵活的折扣情境感知商务智能SituationalBusinessIntelligence外部事件和企业业务流程的结合wordofmouse危机公关:谣言止于迅速、坦承敏感事件:受当前风暴影响的保险单有哪些?博客营销:基于京东、淘宝、新浪博客,给出客户对八百万像素且价格低于2000元的数码相机的反应情境感知商务智能Internet的半结构化数据与企业内部结构化数据的融合数据源识别实体抽取模式抽取数据清洗数据融合“水太凉”“头皮痒”联机分析处理数理统计掠影数据挖掘概念、流程关联分析分类决策树最近邻贝叶斯分类神经网络支持向量机聚类数据挖掘算法原理寻找影响指标的背后因素利润率为什么大幅下降?(时间、地区、类别)sumJ1J2J4sum批发…...sum零售时间地区销售渠道J3北京.上海广东All,All,All时间地区销售渠道销售额J1北京批发1200J1北京零售2300J1上海批发1233J1上海零售2122………J2北京批发3312J2上海批发3423………关系表与数据立方体联机分析处理联机分析处理联机分析处理一次分析会话有多个查询步骤一个查询形成下个查询的基础
建立查询执行查询等待查询结果
研究结果建立新查询……只有提供快速灵活的访问性能才能使用户保持这样一个思想队列边思考边分析通过钻取(drilldown)寻找原因立方体的实现方式ROLAP:基于关系MOLAP:多维数组HOLAP:混合式
东北西北华北
冰箱5060100彩电407080空调90120140
产品名称地区销售量冰箱
东北50冰箱西北60冰箱华北100彩电
东北40彩电西北70彩电华北80空调
东北90空调西北120空调华北140MDB中的数据组织RDB中的数据组织联机分析处理MDX查询select {[Measures].[UnitSales], [Measures].[StoreSales]}oncolumns, {[Time].[1997], [Time].[1998]}onrowsfrom Saleswhere ([Store].[USA].[CA])联机分析处理概率问题,了解总体特性而对样本的具体问题给出回答假设北大每年有五分之一的新生会在大二时选择上双学位,那么在校园内随机抽取100人,上双学位的超过20人的可能性有多大?统计问题:了解样本信息而期望对总体特性加以推断假设从校园内随机抽样100人,发现35人读双学位,根据这个样本,我们可以认为北大学生中超过三分之一的人读双学位吗?数理统计掠影tobeornottobe,thatisthequestion未知:最大的希望,最大的恐惧墨菲定律:坏事总会发生,发生的总是坏事数理统计掠影描述性统计中心趋势:算术平均、几何平均、调和平均、众数、中位数离中趋势:方差、标准差、四分位数统计指数拉氏指数、帕氏指数、费雪指数、埃奇沃斯指数、资本加权指数概率分布伯努利分布、帕斯卡分布、正态分布、泊松分布、超几何分布数理统计掠影参数估计在新广告追踪过程中,随机抽取400位观众,有240人记得广告标语,求在95%的置信水平下,记得广告标语占总体比率的估计区间假设检验学生成绩服从正态分布,现从中抽取16名学生,判断能否在0.05的显著性水平下认为所有学生的平均成绩为80?数理统计掠影回归分析确定多个变量间的相互依赖关系,一元与多元,线性与非线性y=ax+b用户满意度和产品质量;消费水平与工资水平、受教育程度、职业、地区、家庭负担相关分析描述多个变量间的关系密切程度,用相关系数衡量出生率与经济水平、营养水平与健康状况、形态指标与机能指标数理统计掠影方差分析分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等组间差异远远大于组内差异,说明样本来自不同的正态总体,说明造成差异的控制变量有统计意义主成份分析主成分分析法是一种降维的统计方法,它借助于一个正交变换,将原来相关的多个指标转化成少量不相关的综合指标数据挖掘:让历史告诉未来数据挖掘人类从历史中学到的唯一不变的东西就是在不断重复过去秦人不暇自哀,而后人哀之;后人哀之而不鉴之,亦使后人而复哀后人也赫鲁晓夫的两个锦囊前事不忘,后事之师
美国加州某个超市连锁店通过数据挖掘从记录着每天销售和顾客基本情况的数据库中发现:
在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。 于是这个连锁店经理当机立断地重新布置了货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放上土豆片之类的佐酒小食品,同时把男士们需要的日常生活用品也就近布置。这样一来,上述几种商品的销量几乎马上成倍增长。一个广为流传的例子数据挖掘是识别数据中有效的新颖的潜在有用的最终可被理解的模式的非平凡过程NeedleInAHaystack数据挖掘啤酒和尿片有效的:该模式具有足够的通用性,即对于新数据,该模式同样适用新颖的:该模式是深层次的,事先无法预料的潜在有用的:该模式可以指导一些有效的行为,不仅仅是检索有效的新颖的模式,可以指导决策人员进行科学决策最终可被理解的:该模式必须简单易懂数据挖掘OLAP:验证型工具在过去3年里谁是我们最好的前100名客户在过去3年里哪些客户拖欠抵押和目标值相比上个季度各个区域的销售情况如何去年哪些商店的销售额超过了其前年的销售额去年哪些客户转向了其他电话公司数据挖掘:预测型工具前100个具有最好利润潜力的客户将是谁哪些客户可能具有坏账风险明年各个地区的预期销售额是多少接下来的两年内哪些商店可能表现得最好明年哪些客户有可能转向竞争对手的怀抱OLAP和数据挖掘将商业问题转换为数据挖掘问题选取合适数据设法理解数据创建模型集修复数据问题转换数据建立模型评估模型部署模型评估结果数据挖掘方法论将商业问题转换为数据挖掘问题挖掘任务分类、关联、预测挖掘结果的应用与交付客户列表、评分程序让商业用户和IT员工参与谁最喜欢酸奶酪分类算法给出按喜欢程度划分的客户列表,但却不能满足需求,因为他们想知道哪些年龄、收入和居住地的人最喜欢,以便进行定向广告。按照购物行为而不是人口统计进行挖掘不能满足需求数据挖掘方法论选取合适数据哪些数据可用:数据仓库是最佳选择多少数据够用:适可而止,观察样本量加倍后的效果。“停在这里最好”需要多少历史数据:需要足够的历史数据揭示周期性事件,但环境条件在变化,太久远的数据反而会干扰挖掘效果。胶柱鼓瑟、刻舟求剑需要多少变量:有些被忽略的变量和其他变量结合,就会非常有预言价值。捧哏的数据必须包含什么:必须至少包含所有可能的有意义的结果的例子数据挖掘方法论设法理解数据
搞清楚所要处理的对象的含义检查分布状况:借助可视化工具比较变量值及其描述:发现业务处理中的不完整数据。商品数量字段存储了商品重量验证假设:借用底层数据验证摘要数据是否正确提问问题:记录下所有与期望或常识不符的数据为什么有很多1911年的客户?为什么某地没有人寿保险业务?活动客户怎么在“取消理由”中有非空值?数据挖掘方法论创建模型集模型集是创建模型的所有数据集合创建平衡样本:不能轻易抛弃奇异点。抽样技术包含多种时间帧:模型应该在任何时候都运转良好,必须基于多个时间段来建立,不能以偏概全(基于复活节前一周的购物数据进行关联分析,得到:袜子->鸡蛋)划分模型集训练集:创建初始模型验证集:调整初始模型,使其更加通用,不过分依赖训练集测试集:测试把模型用到未经训练的数据时的有效性数据挖掘方法论修复数据问题拥有太多数值的分类变量具有倾斜分布和奇异点的数值变量缺失值含义随时间变化的值不一致数据编码数据转换平滑处理:从数据中消除噪音数据聚集操作:对数据进行综合数据概化:用高层次概念代替原始数据数据规范化:将数据集中到一个较小的范围之中数据挖掘方法论数据挖掘任务描述相关技术数据划分聚类分析:在预先没有确定类别的情况下,根据数据的不同属性,将数据分成不同的类别。分类分析:将数据映射到预先定义的数据类别中聚类分析Bayesian分类决策树或分类树人工神经网络依赖分析找出各个属性之间的依赖关系Bayesian网络关联分析奇异点分析找出与一般数据行为不一致的数据项聚类分析奇异点检测趋势检测通常在时间序列上,对数据库中的数据利用线性回归或曲线拟合等方式进行综合分析回归分析序列模式分析数据挖掘的任务与方法关联分析目的:发现数据间的相互关联购物篮分析:给定一组商品,一个交易集合,通过分析交易记录集合,推导出商品间的相关性基本形式给定:一组事务集,每一个事务中包含若干个数据项挖掘:各个数据项之间的关联98%的顾客在购买电动剃须刀的同时会购买一些电池刘德华杨丽娟释永信杨澜方舟子李开复关联分析支持度(Support):在关联分析中表示满足规则的记录数与总记录数的比,它表明了规则的模式在数据库中出现的频度
对于规则:X→Y,其支持度表示为S=总交易数同时购买商品X和Y的交易数购买商品Y的交易同时购买商品X和Y的交易购买商品X的交易关联分析置信度(Confidence),在关联分析中表示为满足规则的记录数与出现被分析数据项的记录数之比
对于规则:X→Y,其支持度表示为C=购买商品X的交易数同时购买商品X和Y的交易数购买商品Y的交易同时购买商品X和Y的交易购买商品X的交易关联分析TID项集1面包,牛奶2面包,啤酒,鸡蛋,尿布3牛奶,啤酒,尿布,可乐4面包,牛奶,啤酒,尿布5面包,牛奶,尿布,可乐尿布→啤酒支持度3/5,置信度3/4啤酒→尿布支持度3/5,置信度3/3关联分析频繁项集:出现频率超过预设支持度的项集关联分析就是发现频繁项集的过程先验(Apriori)法则:一个频繁项集的任何非空子集肯定也是频繁项集{A,B}为频繁项集,那么其子集{A}、{B}也都为频繁项集反单调:一个集合如果不是频繁的,则它的任何超集也不是频繁的由低阶频繁项集构造高阶频繁项集关联分析1阶项计数啤酒3面包4可乐2尿布4牛奶4鸡蛋12阶项计数啤酒,面包2啤酒,尿布3啤酒,牛奶2面包,尿布3面包,牛奶3尿布,牛奶33阶项计数面包,尿布,牛奶3最小支持度为3关联分析面包,尿布→牛奶置信度3/33阶项计数面包,尿布,牛奶3牛奶→面包,尿布置信度3/4关联分析设min_sup=30%,min_conf=60%,将发现规则:游戏→录像 [support=40%,confidence=66%]
实际上购买录象的可能性是75%
所以游戏和录象是负相关的游戏6000录像75004000coorA,B
=P(AB)=0.4/(0.75*0.6)=0.89P(A)P(B)关联分析买HDTV买健身器是否是9981180否5466120153147300{买HDTV=是→买健身器=是}的置信度99/180=55%{买HDTV=否→买健身器=是}的置信度54/120=45%关联分析顾客组买HDTV买健身器是否大学生是1910否43034在职人员是9872170否503686{买HDTV=是→买健身器=是}的置信度1/10=10%{买HDTV=否→买健身器=是}的置信度4/34=11.8%{买HDTV=是→买健身器=是}的置信度98/170=57.7%{买HDTV=否→买健身器=是}的置信度50/86=58.1%大学生在职人员辛普森悖论多层关联分析发现序列模式分析数据间的前后(因果)关系顾客在不同时间购买的商品间的前后(因果)关系序列关联分析支持度S=总组数先购买商品X再购买商品Y的组数支持度S=先购买X的组数先购买商品X再购买商品Y的组数序列关联分析序列关联分析序列关联分析构建模型:对预先确定的类别给出相应的描述先假设一个样本集合中的每一个样本属于预先定义的某一个类别,由一个类标号属性来确定这些元组样本的集合称为训练集,用于构建模型;由于提供了每个训练样本的类标号,称作有指导的学习对同类记录的特征进行描述最终的模型用决策树、分类规则或者数学公式等来表示模型应用:对未知的数据对象进行分类医疗诊断、性能预测、选择购物、信誉证实等分类分析训练数据分类算法IFrank=‘professor’ORyears>6THENtenured=‘yes’
分类器(分类模型)分类分析构建模型分类器测试数据未知数据(Jeff,Professor,4)Tenured?分类分析模型应用决策树体温胎生非哺乳动物哺乳动物非哺乳动物恒温冷血是否界门纲目科属种属性顺序由其信息增益决定鸡蛋编号对着光线照射用手摇晃放在盐水中鸡蛋好坏1透明不摇沉好2透明不摇沉好3透明不摇沉好4透明不摇沉好5透明不摇沉好6浑浊不摇沉好7浑浊不摇沉坏8透明不摇浮坏9浑浊摇浮坏10浑浊摇浮坏决策树利用决策树进行数据分类随机判定分类器鸡蛋好坏的概率分别为6/10,4/10熵为-(6/10*log(6/10)+4/10*log(4/10))选择用手摇晃判定的分类器不摇晃时鸡蛋好坏的概率分别为6/8,2/8摇晃时鸡蛋好坏的概率分别为0/2,2/2熵为-((6/8*log(6/8)+2/8*log(2/8))*8/10+(0/2*log(0/2)+2/2*log(2/2))*2/10)选择盐水判定的分类器沉下时鸡蛋好坏的概率分别为6/7,1/7浮起时鸡蛋好坏的概率分别为0/3,3/3熵为-((6/7*log(6/7)+1/7*log(1/7))*7/10+(0/3*log(0/3)+3/3*log(3/3))*3/10)盐水照射坏蛋坏蛋好蛋沉浮混浊透明决策树自动回归树ALLRose(t-1)>=135Rose(t-1)<135Month>=MarchMonth<MarchRed=942+0.78*Red(t-1)-6.5*Rose(t-1)?K-最近邻投票选举同声相应,同气相求走像鸭子,叫像鸭子,看起来像鸭子,那就是鸭子 P(A)是先验概率,
P(A|B)是后验概率 一座别墅在过去20年里一共发生过2次被盗,别墅的主人有一条狗,狗平均每周晚上叫3次,在盗贼入侵时狗叫的概率为0.9,在狗叫的时候发生入侵的概率是多少?假设A事件为狗在晚上叫,B为盗贼入侵,则P(A)=3/7,P(B)=2/(20·365)=2/7300,P(A|B)=0.9,于是P(B|A)=0.9*(2/7300)*(7/3)=0.00058贝叶斯分类你面前有三个门可选,其中一个门后面是宝马,另两个是空门。现在你选了一个门准备打开,此时主持人打开一个空门。此时你可以继续决定打开你之前选定的门,或者改换另一个门。
问:换还是不换?已知某酒鬼有90%的日子都会出去喝酒,喝酒只去固定三家酒吧。今天警察找了其中两家酒吧都没有找到酒鬼。
问:酒鬼在第三家酒吧的几率?已知某家庭有两个孩子。你打电话到他家里,接电话的是女孩。
问:另外一个也是女孩的几率?
贝叶斯分类贝叶斯分类每个数据样本用一个n维特征向量X表示假定有m个类C1,…Cm。给定一个未知的数据样本X,贝叶斯分类将X分配给具有最高后验概率的类条件独立假设贝叶斯分类贝叶斯分类类标号属性buys_computerC1对应buys_computer=“yes”,C2对应buys_computer=“no”未知样本X=(age=“<=30”,income=“medium”,student=“yes”,credit_rating=“fair”)我们需要最大化P(X|Ci)P(Ci)P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357P(age=“<=30”|buys_computer=“yes”) =2/9=0.222P(age=“<=30”|buys_computer=“no”) =3/5=0.600P(income=“medium”|buys_computer=“yes”) =4/9=0.444P(income=“medium”|buys_computer=“no”) =2/5=0.400贝叶斯分类P(student=“yes”|buys_computer=“yes”) =6/9=0.333P(student=“yes”|buys_computer=“no”) =1/5=0.200P(credit_rating=“fair”|buys_computer=“yes”) =6/9=0.333P(credit_rating=“fair”|buys_computer=“no”) =2/5=0.400P(X|buys_computer=“yes”) =0.044P(X|buys_computer=“no”) =0.019P(X|buys_computer=“yes”)*P(buys_computer=“yes”) =0.028P(X|buys_computer=“no”)*P(buys_computer=“no”) =0.007于是对于样本X,贝叶斯分类预测其buys_computer=“yes”贝叶斯信念网络BBNFamilyHistorySomkerLungCancerEmphysemaPositiveXRayDyspneaFH,SFH,~S~FH,S~FH,~SLC0.1~LC0.9P(LungCancer=“yes”|FamilyHistory=“yes”,Somker=“yes”)=0.8P(LungCancer=“no”|FamilyHistory=“no”,Somker=“no”)=0.8有向无环图+概率表神经网络ANN………输入层隐藏层输出层神经元:聚合和激活∑f神经网络ANN分配初始权值对每个样本基于当前权值计算输出计算输出误差,反向传播过程为每个神经元计算误差,调整权值重复(2),直至满足条件123456123456(1,1,0,1)支持向量机SVM线性支持向量机:最大边缘超平面支持向量机SVM线性支持向量机:软边缘支持向量机SVM非线性支持向量机线性不可分g(x)=(x-a)(x-b)g(x)>=0,属于C1g(x)<0,属于C2ab支持向量机SVM非线性支持向量机非线性变换低维高维聚类把一组对象按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小而不同类别上的个体间的距离尽可能的大无监督学习相似性基于距离基于概率应用场景市场或客户分割、模式识别、基因分类、Web文档分类聚类聚类:基于划分算法:k-平均输入:簇的数目k,包含n个对象的数据库输出:k个簇,使平方误差最小步骤:任意选择k个对象作为初始的簇中心Repeat根据簇中对象的平均值,将每个对象赋给最类似的簇更新簇的平均值,即计算每个簇中对象的平均值Until平方误差小于某个阈值或不再发生变化平方方差函数:++++++++++++聚类:基于划分聚类:基于密度pqMinPts=5Eps=1cmpqp1pqo从q到p是直接密度可达的从q到p是密度可达的q和p是密度相连的DBSCANQMPRSO聚类:基于密度聚类:层次方法Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)层次方法是将数据对象组成一棵聚类的树自底向上的层次树的建立(凝聚的,AGNES算法)自顶向下的层次树的建立(分裂的,DIANA算法)序列聚类序列:DNA、天气预报、点击流根据当前状态预测下一可能的步骤马尔可夫链+EM聚类ShoppingGameMusicShoppingMusicMovie0.490.730.52IBMIntelligentMinerOracleDataminingsuiteSQLServerAnalysisServicesSASEnterpriseMinerSPSSClementine开源软件Weka http://www.cs.waikato.ac.nz/ml/weka/相关工具CREATEMININGSTRUCTURECollegePlan_Structure(StudentId LONGKEY,Gender TEXTDISCRETE,ParentIncome LONGCONTINUOUS,IQ LONGCONTINUOUS,ParentEncouragement TEXTDISCRETE,CollegePlans TEXTDISCRETE)WITHHOLDOUT(10PERCENT)DMX:创建挖掘结构ALTERMININGSTRUCTURECollegePlan_StructureADDMININGMODELCollegePlan(StudentId,Gender,ParentIncome,IQ,ParentEncouragement,CollegePlans PREDICT)USINGMicrosoft_Decision_TreesDMX:添加挖掘模型INSERTINTOCollegePlan_Structure (StudentId,Gender,IQ,ParentEncouragement, ParentIncome,CollegePlans)OPENQUERY(CollegePlans, 'SELECT StudentId,Gender,IQ,ParentEncouragement, ParentIncome,CollegePlans FROMCollegePlans‘)DMX:填充数据SELECT t.StudentID,CollegePlan.CollegePlans, PredictProbability(CollegePlans)AS[Probability]FROM CollegePlanPREDICTIONJOINOPENQUERY(CollegePlans, 'SELECT StudentID,Gender,IQ,ParentEncouragement,ParentIncome FROMNewStudents')AStON CollegePlan.ParentIncome=t.ParentIncomeAND CollegePlan.IQ=t.IQAND CollegePlan.Gender=t.GenderAND CollegePlan.ParentEncouragement=t.ParentEncouragementDMX:预测社交网络网络特征平均路径长度聚类系数:朋友的朋友也是朋友节点重要性中介度:结点的影响力紧密度:结点传播信息的能力无所不在的关系:至简至繁twitter,facebook,微博,航班社交网络小世界高聚类,小的平均路径长度六度分离(sixdegreesofseparation):地球上任意两个人之间的平均距离是6KevinBacon数:与Bacon合作出演电影Erdos数:与Erdos合作著写文章社交网络社交网络细分方法细分基础应用人口统计细分人口统计、生命周期客户获取及保持生活方式细分行为差异、个性、心理特征客户获取及保持,新产品研发行为细分行为模式、行为特征RFM分析业务战略制定、历史数据分析客户价值细分客户生命周期利润资源最优化配置、差别化服务社交网络的客户细分社交网络SoLoMoSocial(社交的)、Local(本地的)、Mobile(移动的)基于社交网络的精准广告读心术:分析用户行为,揣摩用户心理,然后适时为每个独特行为习惯的用户提供更有针对性的服务社交网络的时空分析法一些领袖的兴起和衰落、随时间变化而变化的信任以及特定网络社区人群的迁移和流动。性格透视:某些节点很具有亲和力,能快而有效地形成人际关系,另一些则显得谨慎、被动数据来源通话记录通信记录信用卡记录法院记录工资单和税务单固定资产和租房信息驾驶记录犯罪网络关联类别可信关联:亲缘,同学,战友任务关联:共同旅行,电话通信等经济关联:相互的资金流动目标关联:开会,协商,谈判等犯罪网络关联稀疏平均距离远组内成员甚至无直接联系打击中层效果更佳犯罪网络轨迹数据挖掘人生到处知何似,应似飞鸿踏雪泥世界在移动:RFID,GPS交通管理、天气预报、位置服务、国土安全轨迹数据挖掘热路径:通过该路径的轨迹数量超过阈值轨迹数据挖掘轨迹聚类:在很长一段时间内很接近的对象集轨迹数据挖掘异常轨迹类:与其他轨迹显著不同轨迹数据仓库OLAP移动模式动机--用户日常行为总是表现出一定的规律数据源--移动日志序列模式云计算按列存储流处理统计与数据库MapReduce大规模数据分析当梁山伯遇上祝英台,当潘金莲遇上西门庆,当丘处机路过牛家庄,当凯撒跨过卢比孔,当太祖际会中国革命…历史的机遇:偶然中的必然,必然中的偶然当BigData遇上DeepAnaliticsBigDataPB级LSSTebayfacebookDeepAnalitics数理统计数据挖掘XLDB当BigData遇上DeepAnalitics问题:数据库分析功能有限进出数据库代价较高许多算法受内存限制
重复发明轮子需求:分布式存储:局部性并行计算:负载均衡流处理:低延迟、低IO按列存储:高压缩、高带宽云计算商业模式:效用计算UtilityComputing,Pay-as-you-go,XaaS外观形态:互联网数据中心InternetDataCenter技术关键:高效能计算HighProductivity云计算=(数据+软件+平台+基础设施)×服务Google云计算数据中心云计算WebService移动互动应用程序未来属于那些能向人提供实时响应的服务超级计算计算密集型桌面应用程序的扩展诸如Matlab等进行复杂计算的桌面应用程序可以无缝地扩展到云大规模数据分析数据处理的资源平衡点从事务转向商业分析TB级的数据分析将可以在数小时内完成云计算应用场景天河一号神威蓝光存储墙Waston云汽车提高带宽利用率按列存储时,只有那些被查询访问的属性才会从磁盘读出按行存储时,周围的属性也被一并读出提高数据压缩率将同一个属性域的数据存储在一起,提高了局部性以及压缩比率传输压缩数据同样减少了带宽按列存储的优点MonetDBVerticaSybaseIQ增加了磁盘寻道时间如果需要并行读取多个列,在各个块读之间需要进行磁盘寻道增加插入操作的代价对于插入操作,按列存储的性能很差,因为对每条插入的元组都需要在磁盘的多个不同位置更新增加重构元组的代价按列存储如果想支持标准的关系数据库接口,它们就必须将多个列拼合起来,构成一条元组输出按列存储的缺点数据仓库批量写、高带宽要求、查询计划经常是表扫描宽表按列存储时,如果一个查询访问固定数目的属性,它只会读入需要的这些列进行处理电子商务目录包含2百万个零件,分成500个目录,每个目录包含4000个属性4000列的宽表对于按行存储是性能灾难,为了读取一个所需属性,需要顺带读出周边不需要的3999个属性稀疏表按列存储具有更好的压缩比按列存储适合的场合数据流连续、无界的元组序列数据驱动型处理方式应用场景实时数据流
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论