




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据之数据挖掘技术数据分析微信公众号datadw关注你想了解的,分享你需要的。大数据的核心:数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘,但是我们不关心是什么是数据挖掘,我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西,而我们更关心的是这个过程是什么?如何开始?总结的过程也是一个学习的过程,通过有章节的整理对目前正在的学习的内容做规整。在这个过程中我们会从具体的项目实施中去谈数据挖掘,中间会贯穿很多的概念,算法,业务转换,过程,建模等等。 我们列一下要谈论的话题: 1、什么是数据挖掘及为什么要进行数据挖掘? 2、数据挖掘在营销和CRM中的应用? 3、数
2、据挖掘的过程 4、你应理解的统计学 5、数据描述与预测:剖析与预测建模 6、经典的数据挖掘技术 7、各类算法 8、数据仓库、OLAP、分析沙箱和数据挖掘 9、具体的案例分析什么是数据挖掘? 是知识发现、商业智能、预测分析还是预测建模。其实都可以归为一类:数据挖掘是一项探测大量数据以发现有意义的模式(pattern)和规则(rule)的业务流程。 这里谈到了发现模式与规则,其实就是一项业务流程,为业务服务。而我们要做就是让业务做起来显得更简单,或直接帮助客户如何提升业务。在大量的数据中找到有意义的模式和规则。在大量数据面前,数据的获得不再是一个障碍,而是一个优势。在现在很多的技术在大数据集上比在
3、小数据集上的表现得更好你可以用数据产生智慧, 也可以用计算机来完成其最擅长的工作:提出问题并解决问题。模式和规则的定义:就是发现对业务有益的模式或规则。发现模式就意味着把保留活动的目标定位为 最有可能流失的客户。这就意味着优化客户获取资源,既考虑客户数量上的短期效益,同时也考虑客户价值的中期和长期收益。 而在上面的过程,最重要的一点就是:如何通过数据挖掘技术来维护与客户之间的关系,这就是客户关系管理,CRM。 专注于数据挖掘在营销和客户关系管理方面的应用例如,为交叉销售和向上销售改进推荐,预测未来的用户级别,建模客户生存价值,根据用户行为对客 户进行划分,为访问网站的客户选择最佳登录页面,确定
4、适合列入营销活动的候选者,以及预测哪些客户处于停止使用软件包、服务或药物治疗的风险中。 两种关键技术:生存分析、统计算法。在加上文本挖掘和主成分分析。 经营有方的小店自然地形成与客户之间的学习关系。随着时间的推移,他们对客户的了解也会越来越多,从而可以利用这些知识为他们提供更好的服务。结果是:忠实的顾客和盈利的商店。 但是拥有数十万或数百万客户的大公司,则不能奢望与每个客户形成密切的私人关系。面临这样困境,他们必须要面对的是,学会充分利用所拥有的大量信息几乎是每次与客户交互产生的数据。这就是如何将客户数据转换成客户知识的分析技术。 数据挖掘是一项与业务流程交互的业务流程。数据挖掘以数据作为开始
5、,通过分析来启动或激励行为,这些行为反过来又将创建更多需要数据挖掘的数据。 因此,对于那些充分利用数据来改善业务的公司来说,不应仅仅把数据挖掘看作是细枝末节。相反,在业务策略上必须包含:1、数据收集。2、为长期利益分析数据。3、针对分析结果做出分析。 CRM(客户关系管理系统)。在各行各业中,高瞻远瞩的公司的目标都是理解每个客户,并通过利用这种理解,使得客户与他们做生意更加容易。同样要学 习分析每个客户的价值,清楚哪些客户值得投资和努力来保留,哪些准许流失。把一个产品为中心的企业转变成以客户为中心的企业的代价超过了数据挖掘。假设数 据挖掘的结果是像一个用户推荐一个小首饰而不是一个小发明,但是如
6、果经理的奖金取决于小发明的季度销售量而不是小首饰的销售量(即便后者更为有利可图或者 收获长期盈利更多的客户),那么数据挖掘的结果就会被忽视,这就导致挖掘结果不能产生决策。 我们要学会:从记录的内容中学习。 为什么是现在要学会:数据正在产生,不断的产生,不断的更新数据正在存储在数据仓库中数据仓库以一个共同的格式汇集许多不同来源的数据,具有一致格式的关键字和字段定义。业务系统旨在快速向终端提供结果,就对数据的格式和字段有额外的要求。数据仓库的建立是为提供决策而设计,简化数据挖掘工作者的工作。计算能力能够承受对客户关系管理的兴趣非常强烈商业的数据发掘软件已经形成数据挖掘人员的技能:需要有数字技能Ex
7、cel表格使用能力,现在Excel表格处理能力相当强大。自从Office 365出来之后,此势不可小觑。一种态度:不畏惧为了得到结果可能需要处理大数据量和复杂的过程。处理大型数据集、数据仓库以及分析沙箱是数据挖掘成功的关健。数据挖掘不仅仅是 产生技术结果,结果必须用来帮助人们(或者帮助越来越多自动化的流程)做出更明智的决定。产生技术结果只是第一步,通过结果了解真正的需求,把结果转化为 信息,信息转化为行动,行动转化为价值,才是真正的目的。数据挖掘的良性循环的重心在于业务的结果,而不只是利用先进的技术。识别业务机会挖掘数据将其转换成可操作的信息根据信息采取行动度量结果 数据挖掘成功的关键是把其结
8、合到业务流程中,并能够促进数据挖掘人员和使用结果的业务用户之间的通信。首先,必须明确,找到合适的业务需求,很多的人员,没有在意这一点,导致解决的是对业务没有帮助的问题。 在面临不断日新的社会,进步,远不在改变,而在与变中的不变。即使改变时绝对的,但是仍有未改进之处以及没有可能改变的方向:如果经验不会保留,永远保持幼年,那些不吸取教训的人,注定要重蹈覆辙。 当与业务人员讨论数据挖掘的机会时,确保重心在业务而不是技术和算法。让我们的技术专家专注技术,同时让我们业务专家专注业务。电信客户流失: 一个关键因素是过度呼叫,新的客户在第一个月使用的分钟数超过了他们的费用的计划,当第一月的的账单往往在第二月
9、中旬送达客户,客户才了解费用使用 计划。到那个时候,客户已经在第二个月产生了一个很大的账单,导致客户很不快乐。遗憾的是客户服务人员也要等相同的时间等账单周期到之后才能检测到过度使 用的状况,致使没有时间来主动反应。其实在这个过程中导致问题产生的原因就是,反馈时间的问题,如果在这个月末,分析报告能够给出明确的预测或建议,上面 的问题就会有很大的改善。这中间可以能也会包括运营商之间的手段问题,这个暂时不考虑。 上述问题折中的解决办法:新生的数据挖掘组拥有资源,而且已经鉴别和调查了适当的数据源。采用一些相当简单的程序,该小组能够在这些客户中第一次过度呼叫时把他们标识出来。使用这个信息,客户中心能够联
10、系处于风险中的客户,并在第一个账单失效之前把他们移到适当的账单计划中。 问题很简单:在实验室工作的很好的模型,为什么走出实验室就不能工作?一个问题在于它通过记忆数据过拟合了模型集。这就导致在实验室很成功的模型, 拿到实际就令人很失望。建模的目标不是产生最好的模型。数据挖掘的目标是能处理现实世界中的问题,从而可以影响某种变化。你需要的稳定,即该模型不仅在模 型集中工作的很好,在未知的数据上工作的也得很好。导致不稳定有四大原因: 1、把事情搞错:由于不了解具体的需求,就动手。导致矛盾在实际过程中爆发。 2、过拟合:该模型记忆模型集,而不是认识更多的一般模式。人们很在意认识模式(字面上的认识),致使
11、认识模式可能脱颖而出。而认识模式(实际意义)却并非如此。一个过拟合的例子。 3、样本偏置:利用建立模型的数据无法准确地反映真实的世界,当不是通过原始数据的随机抽样创建模型时,这问题就可能发生。比如:一个地区的数据与另一个地区数据的关键词不同,所以不能硬性的把一个地区的数据强加到另一个地区。 4、未来的事情可能与过去的不一样:模型是建立在历史数据上的,但利用在其他时段。这里隐含一个假设用过去发生的事情指导未来发生的事情。虽然不要求模型总是假设过去式未来的序幕。时间帧: 模型集中的每个变量都有一个与它相关的时间帧,它描述了该变量产生作用的时间段。可以理解为对在过去一段时间的数据的整合,超过这个时间
12、的数据就作废。 输入变量和目标变量都有时间帧。输入变量的时间帧严格早于目标变量,任何建立在此模型集上的模型都是一种预测模型。另一方面:当输入变量和目标来自同一个时间帧内,它们产生剖析模型。预测模型: 很多数据挖掘问题都可以概括为预测问题:基于过去的响应,基于过去的相应,谁将会有相应?基于过去的注销记录,谁有一个不良风险?解决问题最好的办法是限定输入变量严格产生于目标变脸之前。 如:考虑到一个零售商,它拥有一个目标网站,并计划在9月份举行一个活动。我们的目的,收集9月1日之前的数据,并对这些数据建立一个模型,以确定 哪些客户才加该活动,以及应采用哪些的营销措施。应该使用什么样的数据建立模型?而且应该使用相同时间段的数据进行此模型评分。把日历回翻一年,即前一年 的9月1日,对那个用户数据作为一个起点,然后把结束日期放到去年年底的营销数据上,这种就保证没有“未来”数据的输入信息会影响模型的目标估计能力。 预测面临的挑战是创建模型集所需的工作量。把日历往回翻,这一做法写起来很容易,但是在以客户为中心、规范化的数据仓库中很难实现。目的结果是为了获取更稳定的结果,这些模型能发现导致客户的一些重要行为的原因。剖析模型: 剖析,从字面上的理解是,基于人口统计变量,例如:地理位置、性别和年龄等。剖析模型能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 修理厂租房合同
- 中介房屋出租合同
- 建筑工地施工安全防范及免责条款合同
- 区住宅区物业管理委托合同
- 夫妻离婚合同协议书
- 智慧餐饮供应链管理系统开发及运营合同
- 成都商品房买卖合同
- 大连翻译职业学院《影视剧配音》2023-2024学年第二学期期末试卷
- 济源职业技术学院《产品结构设计》2023-2024学年第二学期期末试卷
- 铜仁职业技术学院《明清档案学》2023-2024学年第二学期期末试卷
- 借哪吒精神燃开学斗志 开学主题班会课件
- 学校教职工代表大会全套会议会务资料汇编
- 新部编版小学六年级下册语文第二单元测试卷及答案
- 《中医基础理论》课件-中医学理论体系的基本特点-整体观念
- 2025年广东省深圳法院招聘书记员招聘144人历年高频重点提升(共500题)附带答案详解
- 2025年人教版新教材数学一年级下册教学计划(含进度表)
- GB/T 45107-2024表土剥离及其再利用技术要求
- 2025年春西师版一年级下册数学教学计划
- 课题申报书:“四新”视域下地方高校学科建设与人才培养研究
- 企业员工退休管理规章制度(3篇)
- 小学生情绪调适课件
评论
0/150
提交评论