




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘方法案例介绍分类 分类是用于识别什么样的事务属于哪一类的方法,可用于分类的算法有决策树、bayes分类、神经网络、支持向量机等等。1 决策树例1 一个自行车厂商想要通过广告宣传来吸引顾客。他们从各地的超市获得超市会员的信息,计划将广告册和礼品投递给这些会员。 但是投递广告册
2、是需要成本的,不可能投递给所有的超市会员。而这些会员中有的人会响应广告宣传,有的人就算得到广告册不会购买。所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员。分类模型的作用就是识别出什么样的会员可能购买自行车。 自行车厂商首先从所有会员中抽取了1000个会员,向这些会员投递广告册,然后记录这些收到广告册的会员是否购买了自行车。数据如下:事例列会员编号12496141772438125597输入列婚姻状况MarriedMarriedSingleSingle性别FemaleMaleM
3、aleMale收入40000800007000030000孩子数1500教育背景BachelorsPartial CollegeBachelorsBachelors职业Skilled ManualProfessionalProfessionalClerical是否有房YesNoYesNo汽车数0210上班距离0-1 Miles2-5 Miles5-10 Miles0-1 Miles区域EuropeEuropePacificEurope年龄42604136预测列是否购买自行车NoNoYesYes 在分类模型中,每个会员作为一个事例,居民的婚姻状况、性别、年龄等特征作为输入列,所需预测的
4、分类是客户是否购买了自行车。使用1000个会员事例训练模型后得到的决策树分类如下: 图中矩形表示一个拆分节点,矩形中文字是拆分条件。矩形颜色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000个事例,颜色最深。经过第一次基于年龄的拆分后,年龄大于67岁的包含36个事例,年龄小于32岁的133个事例,年龄在39和67岁之间的602个事例,年龄32和39岁之间的229个事例。所以第一次拆分后,年龄在39和67岁的节点颜色最深,年龄大于67岁的节点颜色最浅。节点中的条包含两种颜色,红色和蓝色,分别表示此节点中的事例购买和不购买自行车的比例。如节点“年龄>
5、=67”节点中,包含36个事例,其中28个没有购买自行车,8个购买了自行车,所以蓝色的条比红色的要长。表示年龄大于67的会员有74.62%的概率不购买自行车,有23.01%的概率购买自行车。 在图中,可以找出几个有用的节点:1. 年龄小于32岁,居住在太平洋地区的会员有72.75%的概率购买自行车;2. 年龄在32和39岁之间的会员有68.42%的概率购买自行车;3. 年龄在39和67岁之间,上班距离不大于10公里,只有1辆汽车的会员有66.08%的概率购买自行车;4. 年龄小于32岁,不
6、住在太平洋地区,上班距离在1公里范围内的会员有51.92%的概率购买自行车; 在得到了分类模型后,将其他的会员在分类模型中查找就可预测会员购买自行车的概率有多大。随后自行车厂商就可以有选择性的投递广告册。 聚类 分类算法的目的是建立事例特征到类别的对应法则。
7、但前提是类别是已存在的,如已知道动物可以分成哺乳类和非哺乳类,银行发行的信用卡有银卡、金卡、白金卡三种。 有时在分类不存在前,要将现有的事例分成几类。比如有同种材料要分类装入到各个仓库中,这种材料有尺寸、色泽、密度等上百个指标,如果不熟悉材料的特性很难找到一种方法将材料分装。 又例如,银行刚开始信用卡业务时,没有将客户分类,所有的客户都使用同一种信用卡。在客户积累到一定的数量后,为了方
8、便管理和制定市场策略,需要将客户分类,让不同类别的客户使用不同的信用卡。但问题是,银行该把客户分成几个类别,谁该属于哪一类。 假定银行仅仅要参照客户的收入和使用信用卡销售金额两个指标对客户分类。通常情况下,仅仅是衡量这些指标的高低来分类,如规定收入小于4000,且消费小于2000的客户分成第一类;收入在4000至8000,消费在2000至4000的客户分成第二类;收入在8000至12000,消费在4000至6000的客户分成第三类;收入在12000以上,消费在6000以上分成第四类。下面的
9、图展示了这种分类。 图中三角形的点代表客户,图中的红色线条是对客户的分类。可以看到这种不合理,第一类别没有包含任何事例,而第四类也只有少量事例,而第二和第三类分界处聚集着大量事例。 观测图像,发现大部分客户事例聚集在一起形成了三个簇,下图中用三个椭圆标出了这些簇。 同在一个簇中的客
10、户有着类似的消费行为,黑色簇中的客户消费额与收入成正比;蓝色簇中的客户不习惯使用信用卡消费,可以对这类客户发放一种低手续费的信用卡,鼓励他们使用信用卡消费;绿色簇中的客户消费额相对收入来说比较高,应该为这类客户设计一种低透支额度的信用卡。聚类模型就是这种可以识别有着相似特征事例,把这些事例聚集在一起形成一个类别的算法。聚类模型除了能将相似特征的事例归为一类外,还常用来发现异常点。 像上图中用红圈标出的点,这两个客户偏离了已有的簇,他们的消费行为异于一般人,消费远超出收入。意味他们有其他不公开的收入来源,这些客户是有问题的。科学试验中,研究人员对异常点很感兴趣,通过研究不寻常的现象提出
11、新的理论。 1 用大数据帮你找对象、即将在纽交所上市的美国在线婚恋公司Zoosk单身的原因不过于几个原因:个人交往圈子狭窄、工作太忙,太懒太宅在现代社会,这些都不是事儿。移动设备的普及和互联网技术发展的越过这些限制,把单身男女更方便地连接起来。1999年,只有2%的美国单身人士使用过在线婚恋服务,皮尤调查数据显示,2013年,这一比例已经提高到了38%。今天将为您介绍的就是一家美国在线婚恋界的新星:Zoosk。目前,Zoosk已向SEC提交招股申请书,计划在纽交所上市,拟融资1亿美元。主打“大数据”概念在线婚介的模式主要有两
12、种:以M为代表的搜索制网上婚介模式,即用户通过设置理想对象的条件选项并指明每项要求的重要程度来制定选择标准,而后在网站数据库中进行匹配搜索;以eHarmony为代表的推荐制网上婚介模式,通过开发的“合适度匹配系统”对用户进行心理、个性、价值观等方面测试,然后通过系统自动分析,为用户推荐合适的交友对象。而随着大数据的挖掘越来越多的渗透到生活的方方面面, Zoosk试图使用大数据来帮助用户找到合适的约会对象。Zoosk通过用户点击的内容和发送的信息等行为数据来了解用户,并在此基础上再利用自己的算法推荐技术为用户介绍可能感兴趣的约会对象。如果双方都对彼此感兴趣,就会被推荐为“互配”,如果不感兴趣,Z
13、oosk会继续进行推荐,获得的用户行为数据越多,推荐也会越准确。正是因为这种独特的算法推荐技术,创始人Zadeh把自己的公司比作“在线婚介的Netflix”,你看大数据的概念真是无处不在。Zoosk的商业模式是“Freemium”,即基础服务免费,增值服务收费。用户可以在Zoosk上免费查询其他注册的单身用户,但要支付每月最多30美元的费用才能收发信息或查看哪些用户浏览了自己注册的个人资料,目前Zoosk为订阅用户提供一个月、三个月和六个月套餐三种选择。2011-2013连续三年,超过50%的订阅来自老用户,说明Zoosk有较大的用户黏性。此外,用户还可通过购买虚拟货币来换取更多的服务。2、美
14、国华尔街德温特资本市场公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。这一招收效显著2012年第一季度,霍廷的公司获得了7%的收益率。3、美国零售商和怀孕预测最早关于大数据的故事发生在美国第二大超市塔吉特百货。孕妇对零售商来说是个含金量很高的顾客群体,但是她们一般会去专门的孕妇商店。人们一提起塔吉特,往往想到的都是日常生活用品,却忽视了塔吉特有孕妇需要的
15、一切。在美国,出生记录是公开的,等孩子出生了,新生儿母亲就会被铺天盖地的产品优惠广告包围,那时候再行动就晚了,因此必须赶在孕妇怀孕前期就行动起来。塔吉特的顾客数据分析部门发现,怀孕的妇女一般在怀孕第三个月的时候会购买很多无香乳液。几个月后,她们会购买镁、钙、锌等营养补充剂。根据数据分析部门提供的模型,塔吉特制订了全新的广告营销方案,在孕期的每个阶段给客户寄送相应的优惠券。结果,孕期用品销售呈现了爆炸性的增长。2002年到2010年间,塔吉特的销售额从440亿美元增长到了670亿美元。大数据的巨大威力轰动了全美。我们可以想象的是,许多孕妇在浑然不觉的情况下成了塔吉特的忠实拥趸,许多孕妇产品专卖店
16、也在浑然不知中破产。商家们早晚要面对的一个问题就是:究竟是在浑然不觉中崛起,还是在浑然不觉中灭亡?4、VISA信用卡与商户推荐像VISA这样的信用卡发行商,站在了信息价值链最好的位置上。VISA的数据部门收集和分析了来自210个国家的15亿信用卡用户的650亿条交易记录,用来预测商业发展和客户的消费趋势,然后卖给其他公司。他们发现,如果一个人在下午4点左右给汽车加油的话,他很可能在接下来的一个小时内要去购物或者吃饭,而这一个小时的花费大概在3550美元之间。商家正需要这样的信息,因为这样他们就能在这个时间段的加油小票背面附上加油站附近商店的优惠券。5、阿里信用贷款和淘宝数据魔方中国最大的电子商务公司阿里巴巴已经在利用大数据技术提供服务:阿里信用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国玻璃珠粒市场调查研究报告
- 2025年中国照明金属卤化物灯镇流器市场调查研究报告
- 2025年中国流动式卡式机市场调查研究报告
- 2025年中国无规共聚聚丙烯球阀市场调查研究报告
- 2025年中国婴儿热痱粉市场调查研究报告
- 2025年中国低密度脂蛋白胆固醇市场调查研究报告
- Unit+5+Old+toys+Part+B+Let's+talk【知识精研】人教PEP版(2024)英语三年级下册
- 关于光伏合同范例
- 住宅单间出售合同范例
- 2025-2030年中国香菇袋数据监测研究报告
- 其他主治系列-肿瘤放射治疗学【代码:343】-相关专业知识-肿瘤学基础
- 读书分享 交流会 《红楼梦》课件
- 心房颤动诊断和治疗中国指南2023版解读
- 污水处理厂委托运营协议
- 动静脉人工内瘘成形术后护理查房
- 水工-建筑物课件
- 上海城市介绍动态PPT模板(最新版)
- 初中语文八年级下册《社戏》读写结合课件
- 北京商用密码应用方案集锦
- 某热电厂化水运行操作规程
- 旋挖桩施工工艺
评论
0/150
提交评论