




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲教师:刘巧曼江苏经贸职业技术学院商务数据分析基础如何深入挖掘数据价值数据挖掘定义数据挖掘的主要应用场景数据挖掘涉及的主要数学知识基础数据挖掘的主要算法模型01020304从数据挖掘到机器学习05数据挖掘(DataMining)是指通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。换句话说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程
数据挖掘定义我们想象一下上海申花和北京国安的比赛在赛前,评论员说在过去的若干场比赛中,上海赢了多少,北京赢了多少,谁谁进了几个球,上海应该主攻右路,北京应该加强防守。这些都是分析报告那么评论员又说了,根据双方交手记录和最近10场的比赛表现,双方可能会是一个平局,这就是数据挖掘。数据分析VS挖掘的区别数据挖掘定义数据挖掘的例子1.啤酒和尿布经常在一起购买2.根据目前人口的增长情况,在XX市,未来的母婴市场有250亿的空间3.
在门店逗留了12分钟,喜欢穿着夹克和待帽子的用户,会购买这双皮鞋4.根据过去1周特定IP的人们在百度搜索上的新冠病毒关键词来打分,就能知道当地新冠的风险有多大数据挖掘的主要应用场景客户旅程数据挖掘的主要应用场景发掘潜在客户01客户获取02初始信用评分03客户价值预测04MarketsEXISITNGNEWNEWEXISITNG发掘潜在客户01是基于地区、性别和年龄段等粗粒度的指标,结合产品设计定位和目标客户群体进行匹配初始信用评分03根据客户的性别、年龄以及居住场所等基本信息对客户的信用进行预判客户获取02运用数据挖掘技术,对营销人员得到的客户基本信息进行一个初步筛选,找出购买倾向性较高的客户进行深度跟踪营销客户价值预测04根据客户的基本信息进行其价值预测。其中价值既包括以消费水平为代表的直接价值,也包括客户口碑宣传的间接价值数据挖掘的主要应用场景050607客户细分05根据客户的基本信息,从人口学、工业统计信息、社会状态、产品使用行为等方面对客户进行细致的描述交叉销售06分析产品之间的关联关系,发现产品销售中预期不到的模式产品精准营销07通过分析现有客户的属性和产品消费行为,确定响应可能性最大的群体进行营销数据挖掘的主要应用场景080910行为信用评分08分析的变量加入了客户产品消费行为的信息,这使得对客户信用的评估更为准确欺诈侦测09是对客户(包括内部员工)涉及洗钱、套现、盗用等异常行为进行的侦测,满足风险监管的需求客户保留10及时发现客户在购买产品方面的行为变化和满意度情况,从而及时更换产品组合数据挖掘的主要应用场景111213客户关系网11通过对客户关系网络结构的分析,可以明确网络中的重要节点,这对关键人营销有重大意义流失客户时间判断12通过对已经流失客户的存续时间进行分析。一方面可以预判现有客户流失的高危期,另一方面为提高不同类型客户的存续时间提供技术支持流失客户类型判断13对流失客户的细分可以对改进产品和服务起到重要的指导作用数据挖掘涉及的主要数学知识基础线性代数和统计学微积分泛函分析测度理论拓扑学图论数据挖掘涉及的主要数学知识基础线性代数和统计学微积分线性代数和统计学代表了机器学习中最主流的两大类方法的基础。一种是以研究函数和变换为重点的代数方法,比如降维,特征值提取等,一种是以研究统计模型和样本分布为重点的统计方法,比如图模型、信息理论模型等。它们侧重虽有不同,但是常常是共同使用的,对于代数方法,往往需要统计上的解释,对于统计模型,其具体计算则需要代数的帮助。微积分只是数学分析体系的基础。其基础性作用不言而喻。机器学习研究的大部分问题是在连续的度量空间进行的,无论代数还是统计,在研究优化问题的时候,对一个映射的微分或者梯度的分析总是不可避免。数据挖掘涉及的主要数学知识基础泛函分析测度理论泛函分析体现了数学模型从特殊到一般的发展过程。函数在19世纪前期的定义还是数与数的对应关系,空间的概念也只有欧几里德空间。十九世纪以来,数学的发展进入了一个新的阶段,引出了非欧几何这门新的学科;同时建立并发展了群论;对数学分析的研究又建立了集合论。这些新的理论都为用统一的观点把古典分析的基本概念和方法一般化准备了条件。泛函分析作为数学分析的分支,将函数扩展到函数与函数之间的关系,乃至任意两个集合之间的关系,空间则从有限维空间拓展到无限维空间测度理论对于机器学习的意义是根本的,现代统计学整个就是建立在测度理论的基础之上。在一些统计方面的文章中它们会把统计的公式改用测度来表达,这样做有两个好处:所有的推导和结论不用分别给连续分布和离散分布各自写一遍了,这两种东西都可以用同一的测度形式表达:连续分布的积分基于Lebesgue测度,离散分布的求和基于计数测度,而且还能推广到那种既不连续又不离散的分布中去。数据挖掘涉及的主要数学知识基础拓扑学图论这是学术中很基础的学科。它一般不直接提供方法,但是它的很多概念和定理是其它数学分支的基石。看很多别的数学的时候,会经常接触这样一些概念:开集,闭集,连续函数度量空间,柯西序列,邻接性,连续性。很多这些也许在大学一年级就学习过一些,当时是基于极限的概念获得的。但是看过拓扑学之后,对这些概念的认识会有根本性的拓展图,由于它在表述各种关系的强大能力以及优雅的理论,高效的算法,越来越受到数据挖掘领域的欢迎。而从目前我所接触的范围内,图论仅在数据结构这门课中提到过。经典图论,在数据挖掘领域中的一个最重要应用就是图模型了,它被成功运用于分析统计网络的结构和规划统计推断。例如,分析社交网络的用户关系,常用邻接链表和邻接矩阵综合表示。在遍历时也离不开深度优先和广度优先算法数据挖掘的主要算法模型数据挖掘流程1.商业理解:确定商业目标和数据挖掘目标2.数据理解:收集,描述,研究和验证数据的意义和质量3.数据准备:选择,清理,构造,集成和格式化数据4.建立模型:选择,构建和验证模型5.模型评估:结果是否合理,是否达到业务目标6.方法实施:将新知识加入到业务流程中数据挖掘的主要算法模型数据挖掘流程数据集被划分为训练数据和验证数据:训练集用来训练模型(函数关系),验证集用来验证模型是不是准确数据挖掘的评估数据挖掘的主要算法模型典型数据挖掘算法模型决策树回归聚类不同属性或指标的树形路由多个属性或指标的空间距离和远近判断不同属性或指标的线性趋势和未知领域判断从数据挖掘到机器学习典型数据挖掘算法模型在海量数据量的加持下,我们朝着人工智能的早日实现一步一步的前进。而数据挖掘,成熟于传统数据时代,面向相对少的数据量。从人的角度来说,数据挖掘常常是数据分析师需要掌握的技能,而机器学习,在当前往往是算法工程师需要解决的问题数据挖掘未来会变为机器学习的一个子集从数据挖掘到机器学习机器学习的定义:就是在有了经验E的帮助后,机器完成任务T的衡量指标P会变得更好,比如:将邮件归类为垃圾邮件和非垃圾邮件,(这个是ML的任务T);用户标记为垃圾邮件、非垃圾邮件的历史,(这个是ML的经验E);ML标记垃圾邮件、非垃圾邮件的正确率,(这个是ML的衡量指标P)数据挖掘机器学习数据分析师算法工程师小数据量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广州中考一模数学试卷
- 餐桌上的健康美食幼儿园
- 大学生肠胃健康现状与维护策略
- 2025年船用舾装件项目合作计划书
- 青春护航 健康成长-小学生青春健康教育大纲
- 美术画展活动方案
- 2025版房产车辆共有权设立及子女教育援助合同
- 二零二五年度大型活动安全保卫人员聘用合同
- 枇杷病虫害防治课件
- 二零二五年度网络安全防护系统采购合作协议
- 恩施州咸丰县社区专职工作者招聘考试真题2024
- 浙江省民工工资管理办法
- 《PLC应用技术(S7-1200)微课版》全套教学课件
- 2025年入党培训测试题库及答案
- 小学二年级升三年级语文暑假衔接作业(共32天附答案)
- 工地用电节约管理办法
- 2025年市场监管知识测试题及答案解析
- 田野之声:现代农业发展深度调查报告
- 护理能力考试试题及答案
- 执法现场会活动方案
- 2025年人教版八年级政治下册期末考试卷(附答案)
评论
0/150
提交评论