




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、R语言数据分析概述第1页,共350页。1熟悉R语言分析工具目录认识数据分析2小结3第2页,共350页。 广义的数据分析包括狭义数据分析和数据挖掘。 狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。 数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。数据分析的概念第3页,共350页。数据分析的流程数据分析已经逐渐演化为一种解决问题的过程,甚至是一种方法论。虽然每个公司都会根据自身需求
2、和目标创建最适合的数据分析流程,但数据分析的核心步骤是一致的。下图是一个典型的数据分析的流程。第4页,共350页。需求分析:数据分析中的需求分析也是数据分析环节的第一步和最重要的步骤之一,决定了后续的分析的方向、方法。数据获取:数据是数据分析工作的基础,是指根据需求分析的结果提取,收集数据。数据预处理:数据预处理是指对数据进行数据合并,数据清洗,数据变换和数据标准化,数据变换后使得整体数据变为干净整齐,可以直接用于分析建模这一过程的总称。分析与建模:分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法和聚类、分类、关联规则、智能推荐等模型与算法发现数据中的有价值信息,并得出结论的
3、过程。模型评价与优化:模型评价是指对已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。部署:部署是指将通过了正式应用数据分析结果与结论应用至实际生产系统的过程。数据分析的流程第5页,共350页。主要是客户的基本数据信息进行商业行为分析。首先,界定目标客户,根据客户的需求,目标客户的性质,所处行业的特征以及客户的经济状况等基本信息使用统计分析方法和预测验证法,分析目标客户,提高销售效率。其次,了解客户的采购过程,根据客户采购类型、采购性质进行分类分析制定不同的营销策略。最后,根据已有的客户特征,进行客户特征分析、客户忠诚分析、客户注意力分析、客户营销分析和客户收益分
4、析。了解数据分析应用场景1. 客户分析第6页,共350页。产品分析主要是竞争产品分析,通过对竞争产品的分析制定自身产品策略。价格分析又可以分为成本分析和售价分析,成本分析的目的是降低不必要成本,售价分析的目的是制定符合市场的价格。渠道分析目的是指对产品的销售渠道进行分析,确定最优的渠道配比。广告与促销分析能够结合客户分析,实现销量的提升,利润的增加。了解数据分析应用场景2. 营销分析囊括了产品分析,价格分析,渠道分析,广告与促销分析这四类分析。第7页,共350页。以不同社交媒体渠道生成的内容为基础,实现不同社交媒体的用户分析,访问分析,互动分析等。同时,还能为情感和舆情监督提供丰富的资料。用户
5、分析主要根据用户注册信息,登录平台的时间点和平时发表的内容等用户数据,分析用户个人画像和行为特征。访问分析是通过用户平时访问的内容,分析用户的兴趣爱好,进而分析潜在的商业价值。互动分析根据互相关注对象的行为预测该对象未来的某些行为特征。了解数据分析应用场景3. 社交媒体分析第8页,共350页。新型的病毒防御系统可使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的可疑模式,做到未雨绸缪。了解数据分析应用场景4. 网络安全通过物联网技术能够收集和分析设备上的数据流,包括连续用电、零部件温度、环境湿度和污染物颗粒等无数潜在特征,建立设备管理模型,从而
6、预测设备故障,合理安排预防性的维护,以确保设备正常作业,降低因设备故障带来的安全风险。5. 设备管理第9页,共350页。物流是物品从供应地向接收地的实体流动。通过业务系统和GPS定位系统获得数据,对于客户使用数据构建交通状况预测分析模型,有效预测实时路况、物流状况、车流量、客流量和货物吞吐量,进而提前补货,制定库存管理策略。了解数据分析应用场景6. 交通物流分析身份信息泄露盗用事件逐年增长,随之而来的是欺诈行为和交易的增多。公安机关,各大金融机构,电信部门可利用用户基本信息,用户交易信息,用户通话短信信息等数据,识别可能发生的潜在欺诈交易,做到提前预防未雨绸缪。7. 欺诈行为检测第10页,共3
7、50页。1熟悉R语言分析工具目录认识数据分析2小结3第11页,共350页。RPythonMATLAB语言学习难易程度入门难度低入门难度一般入门难度一般使用场景数据分析,数据挖掘,机器学习,数据可视化等。数据分析,机器学习,矩阵运算,科学数据可视化,数字图像处理,web应用,网络爬虫,系统运维等。矩阵计算,数值分析,科学数据可视化,机器学习,符号计算,数字图像处理,数字信号处理,仿真模拟等。第三方支持拥有大量的Packages,能够调用C,C+,Fortran,Java等其他程序语言。拥有大量的第三方库,能够简便地调用C,C+,Fortran,Java等其他程序语言。拥有大量专业的工具箱,在新版
8、本中加入了对C,C+,Java的支持。流行领域工业界学术界工业界学术界工业界学术界软件成本开源免费开源免费商业收费数据分析常用工具目前主流的数据分析语言有R,Python,MATLAB三种程序语言。第12页,共350页。R语言在保证语法简单的同时,兼顾了程序设计语言的逻辑与自然的语言风格。R语言拥有数目众多的Packages,能够轻松满足数据分析,数据挖掘,机器学习等领域的需求。R语言的源代码是开放的(自由且免费),可以部署在任何操作系统上,例如Windows、Linux、Mac OS X、BSD、Unix。R语言可以通过Packages调用如Python,Java,C,C+等语言,同时还提供
9、了Google,Twitter,微博等的API接口。R语言数据分析的优势R语言数据分析主要包含以下4方面优势。第13页,共350页。R语言提供了data.frame数据类型和基础的数据操作函数和功能。在此基础之上如表所示的Packages提供了更加简单便捷且功能强大的数据操作功能与函数。R语言数据分析常用的Packages1. 数据操作Package名称说 明dplyr快速数据操作和数据库查询。data.table使用短小灵活的语法操作数据。reshape2灵活的数据排列与聚合处理。tidyr方便对数据进行整理,传播和收集。lubridate时间数据的处理。stringi/stringr基于I
10、CU的字符串处理方案。第14页,共350页。R语言作为一门统计语言,本身提供了基础的绘图功能,但是出于图形的美观,图形的功能考虑,众多开发者提供了如表所示的Packages。R语言数据分析常用的Packages2. 图形绘制Package名称说 明ggplot2强大的绘图统计和计算图形系统的实现。lattice一个强大优雅的高级数据可视化系统。rChats交互式JS绘图。plotly使用plot.ly进行交互式ggplot2和Shiny绘图。第15页,共350页。除了能够实现统计计算,数据分析外,R语言还提供了众多和Web技术服务相关的Packages,如表所示。R语言数据分析常用的Packa
11、ges3. Web技术和服务Package名称说 明Shiny使用R创建简单的Web交互应用。RCurl常规的网络客户端接口(HTTP/FTP/.)。httr使用更加友好的Rcurl封装。XMLR中生成和解析XML的工具。rvest使用CSSSelect和XPath语法进行简单的Web信息抓取。第16页,共350页。R语言在设计之初并不提供并行计算,并且由于脚本语言本身的限制,本身语言的性能也不高。基于这一原因,开发者们提供了为数不少的高性能与并行计算相关的Packages,如表所示。R语言数据分析常用的Packages4. 高性能与并行计算Package名称说 明parallelR语言高性能
12、的并行计算平台。SparkR可以连接Spark的R包。RcppRcpp在R中提供了一个高效的API,使得函数更快执行。compiler使用JIT提高R代码的速度。foreach使用并行来执行循环。第17页,共350页。完善的数据库连接接口是R语言的优势之一,可以提供MySQL,Oracle,PostgreSQL等数据库的接口,从而实现对应数据库的读写操作。R语言常用的数据库管理Packages如表所示。R语言数据分析常用的Packages5. 数据库管理Package名称说 明RODBC在R语言中使用ODBC连接数据库。RJDBC在R语言中使用JDBC连接数据库。DBI在R和数据库管理系统之间
13、定义一个公共的接口。RMySQLR语言的MySQL数据库接口。ROracleR语言的Oracle数据库接口。RPostgreSQLR语言的PostgreSQL数据库接口。RHiveR语言的Apache Hive接口。第18页,共350页。R语言中占比最高的Packages是与统计,数据挖掘和机器学习相关的。下表列出了常用的数据挖掘和机器学习相关的Packages。R语言数据分析常用的Packages6. 数据挖掘机器学习Package名称说 明arules挖掘关联规则和频繁项集。C50C5.0决策树和基于规则的模型。caret分类和回归训练。forecast基于ARIMA,ETS,STLM,T
14、BATS和神经网络的时间序列预测。glmnetLasso和elastic-net正规化广义线性模型。nnet神经网络预测模型。rattle图形界面式的数据挖掘工具箱。tree分类和回归树。第19页,共350页。自然语言处理(Natural Language Processing)是计算机科学,数据科学,人工智能领域的一个重要的方向。现代NLP算法是基于机器学习,特别是统计机器学习。R语言中常用的自然语言处理Packages如表所示。R语言数据分析常用的Packages7. 自然语言处理Package名称说 明jiebaR结巴中文分词。tm一个全面的文本挖掘框架。zipfR词频分布统计模型。NL
15、P基本自然语言处理功能。topicmodelsLDA主题模型。word2vec将词字符转换为词向量。第20页,共350页。金融本身是和数据相关度非常高的行业,可以根据交易数据、财务数据、上市公司的各种事件数据、基本面数据、宏观数据、舆情数据和互联网数据等,来构建不同的交易策略。R语言提供了如表所示的Packages,进行基础的金融分析。R语言数据分析常用的Packages8. 金融Package名称说 明quantmod定量金融模型和交易框架。TTR技术交易规则相关的数据和功能函数。xts可扩展的时间序列。tseries金融时间序列分析和计算。fAssets金融资产分析和建模。第21页,共35
16、0页。R语言专注的方向是统计分析,所以在某些领域不如JAVA,Python这样的编程语言。为解决这一弊端,R语言提供了各类语言的API,其中常用的语言接口Packages如表所示。R语言数据分析常用的Packages9. 语言接口Package名称说 明rJAVAR语言的JAVA接口。jvmr集成了R,JAVA和Scala。rJythonR语言的Jython接口。rPythonR语言的Python接口。R.matlab读写mat文件,将R语言和Matlab连接在一起。rpy2Python对R语言的接口。第22页,共350页。1熟悉R语言分析工具目录认识数据分析2小结3第23页,共350页。本章
17、根据目前数据分析发展状况,将数据分析具象化。介绍了数据分析的概念,流程,目的以及应用场景。阐述了使用R语言进行数据分析的优势。列举说明R语言数据分析重要Packages的功能。小结第24页,共350页。第25页,共350页。商品零售购物篮分析2022/8/20第26页,共350页。1分析商品销售状况目录了解购物篮分析2使用Apriori关联规则构建购物篮分析模型3小结4第27页,共350页。现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰富而选择购买更多的商品。分析商品零售企业现状例如,货架上有可口可乐和百事可乐,若顾客需要选购可乐若干,或许会同时购
18、买两种可乐,但是购买可乐的数量大多数情况下不会因为品牌数量增加而增加。第28页,共350页。繁杂的选购过程往往会给顾客疲惫的购物体验。分析商品零售企业现状对于某些商品,顾客会选择同时购买,如面包与牛奶、薯片与可乐等,当面包与牛奶或者薯片与可乐分布在商场的两侧,且距离十分遥远时,顾客购买的欲望就会减少,在时间紧迫的情况下顾客甚至会放弃购买某些计划购买的商品。相反,把牛奶与面包摆放在相邻的位置,既给顾客提供便利,提升购物体验,又提高顾客购买的概率,达到了促销的目的。第29页,共350页。许多商场以打折方式作为主要促销手段,以更少的利润为代价获得更高的销量。分析商品零售企业现状打折往往会使顾客增加原
19、计划购买商品的数量,对于原计划不打算购买且不必要的商品,打折的吸引力远远不足。而正确的商品摆放却能提醒顾客购买某些必需品,甚至吸引他们购买感兴趣的商品。第30页,共350页。IDGoods1柑橘类水果1人造黄油1即食汤1半成品面包2咖啡2热带水果2酸奶3全脂牛奶4奶油乳酪4肉蔓了解某商品零售企业基本数据情况某商品零售企业共收集了9835个购物篮的数据,其中包含169个不同的商品类别,售出商品总数为43367件。其数据示例如表所示。第31页,共350页。分析商品热销情况和商品结构。分析商品之间的关联性。根据分析结果给出销售建议。案例目标综合商品零售行业现状,该商品零售企业提供的数据,本案例需要完
20、成以下分析目标。第32页,共350页。熟悉购物篮分析的步骤与流程第33页,共350页。1分析商品销售状况目录了解购物篮分析2使用Apriori关联规则构建购物篮分析模型3小结4第34页,共350页。商品名称销量销量占比全脂牛奶25130.057947287其他蔬菜19030.043881292面包卷18090.041713745苏打17150.039546199酸奶13720.031636959瓶装水10870.025065142根茎类蔬菜10720.024719257热带水果10320.023796896购物袋9690.022344179香肠9240.021306523分析热销商品针对原始数
21、据中不同商品销量进行统计,结果如表所示。全脂牛奶销售量最高,销量为2513件,占比5.795%。其余热销商品还有其他蔬菜销量1903件,占比4.388%。面包卷销量1809件,占比4.171%。苏打销量1715件,占比3.955%。酸奶销量1372件,占比3.164%等。前20种商品销量占据的比例约为50%,基本符合“二八定律”。销量排行前10商品的销量及其占比第35页,共350页。对每一类商品的热销程度进行分析,有利于商家制定商品在货架的摆放策略和位置。若是某类商品较为热销,它的摆放位置可以有如下选择。可以把此类商品摆放到商场的中心位置,方便顾客选购。或者把此类商品摆放到商场深处位置,使顾客
22、在购买热销商品前经过非热销商品,增加在非热销商品处的停留时间,促进非热销产品的销量。分析商品结构第36页,共350页。商品类别销量销量占比非酒精饮料75940.175442西点71920.166155果蔬71460.165092米粮调料51850.119787百货51410.118771肉类48700.11251酒精饮料22870.052836食品类18700.043202零食14590.033707熟食5410.012499分析商品结构原始数据中的商品本身已经过归类处理,但是部分商品还是存在一定的重叠,故再次对其进行归类处理。归类后每一类的商品占据的比例如表所示,并根据表中数据作商品结构分析
23、图。商品结构分析图归类后每一类的商品占据的比例第37页,共350页。商品类别销量销量占比全脂牛奶25130.330919苏打17150.225836瓶装水10870.143139水果/蔬菜汁7110.093627咖啡5710.075191超高温杀菌的牛奶3290.043324其他饮料2790.03674一般饮料2560.033711速溶咖啡730.009613茶380.005004可可饮料220.002897分析商品结构进一步查看销量第一的非酒精饮料类商品的内部商品结构,统计商品销量占比如表所示。第38页,共350页。1分析商品销售状况目录了解购物篮分析2使用Apriori关联规则构建购物篮分
24、析模型3小结4第39页,共350页。关联规则算法主要用于寻找数据中项集之间的关联关系,基于样本的统计规律,进行关联规则分析。根据所分析的关联关系,可从一个特征的信息来推断另一个特征的信息。当信息置信度达到某一阈值时,就可以认为规则成立。了解Apriori算法的基本原理与使用方法第40页,共350页。Apriori算法是常用的关联规则算法之一,也是最为经典的分析频繁项集的算法,第一次实现在大数据集上可行的关联规则提取的算法。在介绍Apriori算法前引入几个相关概念。置信度、支持度和提升度频繁项集优缺点与适用场景apriori函数及其参数介绍了解Apriori算法的基本原理与使用方法第41页,共
25、350页。了解Apriori算法的基本原理与使用方法1. 置信度、支持度和提升度第42页,共350页。项集是项的集合,包含k项的项集称为k项集。项集的出现频率是所有包含项集事务的级数,又称绝对支持度或支持度计数。若存在项集的支持度满足预定义的最小置信度或最小支持度的阈值,则称此项集为频繁项集。同时满足最小置信度和最小支持度的规则称为强规则。了解Apriori算法的基本原理与使用方法2. 频繁项集第43页,共350页。Apriori算法的主要思想是找出存在于事务数据集中最大的频繁项集,利用最大频繁项目集与预先设定的最小置信度阈值生成强关联规则。本案例使用Apriori算法构建商品购物篮关联规则模
26、型的流程图如图所示。了解Apriori算法的基本原理与使用方法2. 频繁项集第44页,共350页。优点:Apriori算法是关联规则最常用也是最经典的分析频繁项集的算法,算法已大大压缩了频繁项集的大小,并可以取得良好性能。缺点:Apriori算法每次计算支持度与置信度都需要重新扫描所有数据。其次,算法有的多次扫描事务数据的缺陷,在每一步产生候选集时循环产生的项集过多,没有排除不应该参与组合的元素。适用场景:Apriori算法除了适用在商品零售购物篮分析外,近年来也广泛应用在金融行业中,可以成功预测银行客户的需求;还应用于网络安全领域,检测出用户行为的安全模式进而锁定攻击者。此外,Apriori
27、算法还可应用于高校管理、移动通讯、中医证型等领域。了解Apriori算法的基本原理与使用方法3.优缺点与适用场景第45页,共350页。R语言中的arules包提供了Apriori算法的函数apriori,其基本使用语法如下。apriori(data, parameter = NULL, appearance = NULL, control = NULL)常用参数及其说明,如表所示。了解Apriori算法的基本原理与使用方法4. apriori函数及其参数介绍参数说明data接收transactions。表示进行训练的数据。无默认。parameter接收APparameter或list。表示对最
28、小支持度、最小置信度、最小项数和最大项数的设置。默认最小支持度为0.1,最小置信度为0.8,最大项数为10。appearance接收APparameter或list。表示使用该参数来控制对应项。默认所有项目无限制。第46页,共350页。Apriori算法输出结果的形式一般包含lhs,rhs,support,confidence以及lift。lhs和rhs分别指操作符“”左边的项和右边的项。提升度小于1说明前项和后项是负相关的,提升度等于1说明前项和后项没有任何关系,提升度大于1说明前项和后项是正相关相关的。在本案例中,提升度大于1对模型才有价值,所以需要剔除提升度小于或等于1的规则。了解Apr
29、iori算法的基本原理与使用方法4. apriori函数及其参数介绍第47页,共350页。lhsrhssupportconfidencelift其他蔬菜,全脂牛奶=根茎类蔬菜0.0231830.3097832.842082仁果类水果=热带水果0.0204370.2701612.574648根茎类蔬菜,全脂牛奶=其他蔬菜0.0231830.4740122.44977根茎类蔬菜=其他蔬菜0.0473820.4347012.246605其他蔬菜,全脂牛奶=酸奶0.0222670.2975542.132979酸奶油=其他蔬菜0.0288760.4028372.081924酸奶油=酸奶0.0207420
30、.2893622.074251全脂牛奶,酸奶=其他蔬菜0.0222670.3974592.054131其他蔬菜,酸奶=全脂牛奶0.0222670.5128812.007235热带水果=酸奶0.0292830.279072.000475分析结果经过多次试验,发现在最小支持度为0.02,最小置信度为0.35时用Apriori算法求取关联规则数目适中,能够得出优良结果。以lift进行从高到低排列的前10条规则,如表所示。第48页,共350页。分析结果将全脂牛奶放在顾客购买商品的必经之路,或者商场显眼位置,方便顾客拿取。其他蔬菜、根茎类蔬菜、酸奶油、猪肉、黄油、本地蛋类和多种水果同时购买的概率较高,可
31、以考虑捆绑销售,或者适当调整商场布置,将这些商品的距离尽量拉近,提升购物体验。通过模型的规则得出在顾客购买商品的时候会同时购买全脂牛奶。因此,商场可以根据实际情况进行布置。第49页,共350页。1分析商品销售状况目录了解购物篮分析2使用Apriori关联规则构建购物篮分析模型3小结4第50页,共350页。本案例主要结合商品零售购物篮的案例,重点介绍了关联规则算法中的Apriori算法在商品零售购物篮分析案例中的应用。过程中详细的分析了商品零售的现状与问题,同时给出某商场的商品零售数据,分析了商品的热销程度,最后通过Apriori算法构建相应模型,并根据模型结果制定销售策略。小结第51页,共35
32、0页。第52页,共350页。航空公司客户价值分析2018/1/24第53页,共350页。1预处理航空客户数据目录了解航空公司现状与客户价值分析2使用K-Means算法进行客户分群3小结4第54页,共350页。分析航空公司现状1. 行业内竞争民航的竞争除了三大航空公司之间的竞争之外,还将加入新崛起的各类小型航空公司、民营航空公司,甚至国外航空巨头。航空产品生产过剩,产品同质化特征愈加明显,于是航空公司从价格、服务间的竞争逐渐转向对客户的竞争。第55页,共350页。分析航空公司现状2. 行业外竞争随着高铁、动车等铁路运输的兴建,航空公司受到巨大冲击。第56页,共350页。目前航空公司已积累了大量的
33、会员档案信息和其乘坐航班记录。以2014-03-31为结束时间,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口内有乘机记录的所有客户的详细数据形成历史数据,44个特征,总共62988条记录。数据特征及其说明如右表所示。航空公司客户数据说明表 名特征名称特征说明客户基本信息MEMBER_NO会员卡号FFP_DATE入会时间FIRST_FLIGHT_DATE第一次飞行日期GENDER性别FFP_TIER会员卡级别WORK_CITY工作地城市WORK_PROVINCE工作地所在省份WORK_COUNTRY工作地所在国家AGE年龄第57页,共350页。航空公司客户数据说明表 名特征名称特征说明乘
34、机信息FLIGHT_COUNT观测窗口内的飞行次数LOAD_TIME观测窗口的结束时间LAST_TO_END最后一次乘机时间至观测窗口结束时长AVG_DISCOUNT平均折扣率SUM_YR观测窗口的票价收入SEG_KM_SUM观测窗口的总飞行公里数LAST_FLIGHT_DATE末次飞行日期AVG_INTERVAL平均乘机时间间隔MAX_INTERVAL最大乘机间隔积分信息EXCHANGE_COUNT积分兑换次数EP_SUM总精英积分PROMOPTIVE_SUM促销积分PARTNER_SUM合作伙伴积分POINTS_SUM总累计积分POINT_NOTFLIGHT非乘机的积分变动次数BP_SUM
35、总基本积分第58页,共350页。借助航空公司客户数据,对客户进行分类。对不同的客户类别进行特征分析,比较不同类别客户的客户价值。对不同价值的客户类别提供个性化服务,制定相应的营销策略。案例目标结合目前航空公司的数据情况,可以实现以下目标。第59页,共350页。公司收入的80%来自顶端的20%的客户。20%的客户其利润率100%。90%以上的收入来自现有客户。大部分的营销预算经常被用在非现有客户上。5%至30%的客户在客户金字塔中具有升级潜力。客户金字塔中客户升级2%,意味着销售收入增加10%,利润增加50%。这些经验也许并不完全准确,但是它揭示了新时代客户分化的趋势,也说明了对客户价值分析的迫
36、切性和必要性。了解客户价值分析客户营销战略倡导者Jay & Adam Curry从国外数百家公司进行了客户营销实施的经验中提炼了如下经验。第60页,共350页。熟悉航空客户价值分析的步骤与流程航空客户价值分析案例的总体流程如图所示。第61页,共350页。1预处理航空客户数据目录了解航空公司现状与客户价值分析2使用K-Means算法进行客户分群3小结4第62页,共350页。通过对数据观察发现原始数据中存在票价为空值,票价最小值为0,折扣率最小值为0,总飞行公里数大于0的记录。票价为空值的数据可能是客户不存在乘机记录造成。处理方法:丢弃票价为空的记录。其他的数据可能是客户乘坐0折机票或者积分兑换造
37、成。由于原始数据量大,这类数据所占比例较小,对于问题影响不大,因此对其进行丢弃处理。处理方法:丢弃票价为0,平均折扣率不为0,总飞行公里数大于0的记录。处理数据缺失值与异常值航空公司客户原始数据存在少量的缺失值和异常值,需要清洗后才能用于分析。第63页,共350页。本案例的目标是客户价值分析,即通过航空公司客户数据识别不同价值的客户,识别客户价值应用最广泛的模型是RFM模型。R(Recency)指的是最近一次消费时间与截止时间的间隔。通常情况下,最近一次消费时间与截止时间的间隔越短,对即时提供的商品或是服务也最有可能感兴趣。F(Frequency)指顾客在某段时间内所消费的次数。可以说消费频率
38、越高的顾客,也是满意度越高的顾客,其忠诚度也就越高,顾客价值也就越大。M(Monetary)指顾客在某段时间内所消费的金额。消费金额越大的顾客,他们的消费能力自然也就越大,这就是所谓“20%的顾客贡献了80%的销售额”的二八法则。构建航空客户价值分析的关键特征1. RFM模型介绍第64页,共350页。RFM模型包括三个特征,使用三维坐标系进行展示,如图所示。X轴表示Recency,Y轴表示Frequency,Z轴表示Monetary,每个轴一般会分成5级表示程度,1为最小,5为最大。构建航空客户价值分析的关键特征2. RFM模型结果解读第65页,共350页。在RFM模型中,消费金额表示在一段时
39、间内,客户购买该企业产品金额的总和,由于航空票价受到运输距离,舱位等级等多种因素影响,同样消费金额的不同旅客对航空公司的价值是不同的,因此这个特征并不适合用于航空公司的客户价值分析。构建航空客户价值分析的关键特征3. 传统RFM模型在航空行业的缺陷第66页,共350页。本案例选择客户在一定时间内累积的飞行里程M和客户在一定时间内乘坐舱位所对应的折扣系数的平均值C两个特征代替消费金额。此外,航空公司会员入会时间的长短在一定程度上能够影响客户价值,所以在模型中增加客户关系长度L,作为区分客户的另一特征。本案例将客户关系长度L,消费时间间隔R,消费频率F,飞行里程M和折扣系数的平均值C作为航空公司识
40、别客户价值的关键特征(如表所示),记为LRFMC模型。构建航空客户价值分析的关键特征4. 航空客户价值分析的LRFMC模型模型LRFMC航空公司LRFMC模型会员入会时间距观测窗口结束的月数客户最近一次乘坐公司飞机距观测窗口结束的月数客户在观测窗口内乘坐公司飞机的次数客户在观测窗口内累计的飞行里程客户在观测窗口内乘坐舱位所对应的折扣系数的平均值第67页,共350页。完成五个特征的构建以后,对每个特征数据分布情况进行分析,其数据的取值范围如表所示。从表中数据可以发现,五个特征的取值范围数据差异较大,为了消除数量级数据带来的影响,需要对数据做标准化处理。标准化LRFMC五个特征特征名称LRFMC最
41、小值12.170.0323680.14最大值114.5724.372135807171.5第68页,共350页。LOAD_TIMEFFP_DATELAST_TO_ENDFLIGHT_COUNTSEG_KM_SUMAVG_DISCOUNT2014/3/312013/3/1623141268501.022014/3/312012/6/266651847300.762014/3/312009/12/8233603871.272014/3/312009/12/101236622591.022014/3/312011/8/251422547301.36标准化LRFMC五个特征L、R、F、M和C五个特征的
42、数据示例,上图为原始数据,下图为标准差标准化处理后的数据。LRFMC1.44-0.9514.0326.761.301.31-0.919.0713.132.871.33-0.898.7212.652.880.66-0.420.7812.541.990.39-0.929.9213.901.34第69页,共350页。1预处理航空客户数据目录了解航空公司现状与客户价值分析2使用K-Means算法进行客户分群3小结4第70页,共350页。K-Means聚类算法是一种基于质心的划分方法,输入聚类个数k,以及包含n个数据对象的数据库,输出满足误差平方和最小标准的k个聚类。算法步骤如下。从n个样本数据中随机选
43、取k个对象作为初始的聚类中心。分别计算每个样本到各个聚类质心的距离,将样本分配到距离最近的那个聚类中心类别中。所有样本分配完成后,重新计算k个聚类的中心。与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。当质心不发生变化时停止并输出聚类结果。了解K-Means聚类算法1. 基本概念第71页,共350页。K-Means聚类算法是在数值类型数据的基础上进行研究,然而数据分析的样本复杂多样,因此要求不仅能够对特征为数值类型的数据进行分析,还要适应数据类型的变化,对不同特征做不同变换,以满足算法的要求。了解K-Means聚类算法2. 数据类型第72页,共350页。K-M
44、eans算法在R语言中实现的核心函数为kmeans,来源于stats软件包,其基本语法如下。kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c(Hartigan-Wong, Lloyd, Forgy,MacQueen)常用参数及其说明,如表所示。了解K-Means聚类算法3. kmeans函数及其参数介绍参数名称说 明x接收matrix或dataframe。表示进行聚类分析的数据集。无默认。centers接收int。表示初始类的个数或者初始类的中心。无默认。iter.max接收int。表示最大迭代次数。默认为10。nstart
45、接收int。表示选择随机起始中心点的次数。默认为1。algorithm接收特定character(Hartigan-Wong, Lloyd, Forgy, MacQueen)。默认为Hartigan-Wong。第73页,共350页。K-Means模型构建完成后可以通过属性查看不同的信息,如表所示。了解K-Means聚类算法3. kmeans函数及其参数介绍属性说明cluster返回int。表示每个点被分配到的簇。centers返回num。表示聚类中心矩阵。totss返回int。表示所生成簇的总体距离平方和。withinss返回num。表示每个簇内的距离平方和。betweenss返回num。表示
46、每个簇之间的距离平方和。size返回int。表示每个簇内的数量。第74页,共350页。分析聚类结果对数据进行聚类分群的结果如表所示。聚类类别聚类个数聚类中心LRFMC客户群153360.483-0.7992.4832.4250.309客户群241710.056-0.003-0.226-0.2292.200客户群3157421.160-0.377-0.087-0.095-0.156客户群424663-0.700-0.415-0.161-0.161-0.254客户群512132-0.3131.686-0.574-0.537-0.173第75页,共350页。分析聚类结果针对聚类结果进行特征分析,如图
47、所示。第76页,共350页。分析聚类结果结合业务分析,通过比较各个特征在群间的大小对某一个群的特征进行评价分析,从而总结出每个群的优势和弱势特征,具体结果如表所示。群类别优势特征弱势特征客户群1FMR客户群2CRFM客户群3FML客户群4LC客户群5FMR第77页,共350页。分析聚类结果基于特征描述,本案例定义五个等级的客户类别:重要保持客户,重要发展客户,重要挽留客户,一般客户,低价值客户。每种客户类别的特征如图所示。第78页,共350页。会员的升级与保级:航空公司可以在对会员升级或保级进行评价的时间点之前,对那些接近但尚未达到要求的较高消费客户进行适当提醒甚至采取一些促销活动,刺激他们通
48、过消费达到相应标准。这样既可以获得收益,同时也提高了客户的满意度,增加了公司的精英会员。首次兑换:采取的措施是从数据库中提取出接近但尚未达到首次兑换标准的会员,对他们进行提醒或促销,使他们通过消费达到标准。一旦实现了首次兑换,客户在本公司进行再次消费兑换就比在其他公司进行兑换要容易许多,在一定程度上等于提高了转移的成本。交叉销售:通过发行联名卡等与非航空类企业的合作,使客户在其他企业的消费过程中获得本公司的积分,增强与公司的联系,提高他们的忠诚度。模型应用根据对各个客户群进行特征分析,采取下面的一些营销手段和策略,为航空公司的价值客户群管理提供参考。第79页,共350页。1分析方法与过程目录了
49、解航空公司现状与客户价值分析2使用K-Means算法进行客户分群3小结4第80页,共350页。本案例结合航空公司客户价值分析的案例,重点介绍了数据分析算法中K-Means聚类算法在客户价值分析中的应用。针对RFM客户价值分析模型的不足,使用K-Means算法构建了航空客户价值分析LRFMC模型,详细描述了数据分析的整个过程。小结第81页,共350页。第82页,共350页。财政收入预测分析2022/8/20第83页,共350页。1了解相关性分析目录分析财政收入预测背景2使用Lasso回归选取财政收入预测的关键特征3使用灰色预测和SVR构建财政收入预测模型4小结5第84页,共350页。财政收入,是
50、指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要特征,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上取决于财政收入的充裕状况。在我国现行的分税制财政管理体制下,地方财政收入不但是国家财政收入的重要组成部分,而且具有其相对独立的构成内容。如何制定地方财政支出计划,合理分配地方财政收入,促进地方的发展,提高市民的收入和生活质量是每个地方政府需要考虑的首要问题。因此,地方财政收入预测是非常必要的。分析财政收入预测背景1. 财政收入简介和需求第85
51、页,共350页。考虑到数据的可得性,本案例所用的财政收入分为地方一般预算收入和政府性基金收入。地方一般预算收入包括以下2个部分。税收收入。主要包括企业所得税与地方所得税中中央和地方共享的40%,地方享有的25%的增值税,营业税和印花税等。非税收收入。包括专项收入、行政事业性收费、罚没收入、国有资本经营收入和其他收入等。政府性基金收入是国家通过向社会征收以及出让土地、发行彩票等方式取得收入,并专项用于支持特定基础设施建设和社会事业发展的收入。分析财政收入预测背景2. 财政收入预测数据基础情况第86页,共350页。分析财政收入预测背景2. 财政收入预测数据基础情况第87页,共350页。分析财政收入
52、预测背景2. 财政收入预测数据基础情况第88页,共350页。分析财政收入预测背景2. 财政收入预测数据基础情况第89页,共350页。分析财政收入预测背景2. 财政收入预测数据基础情况第90页,共350页。结合财政收入预测的需求分析,本次数据分析建模目标主要有以下2个。分析,识别影响地方财政收入的关键特征。预测2014年和2015年的财政收入。分析财政收入预测背景3. 财政收入预测分析目标第91页,共350页。众多学者已经对财政收入的影响因素进行了研究,但是他们大多先建立财政收入与各待定的影响因素之间的多元线性回归模型,运用最小二乘估计方法来估计回归模型的系数,通过系数来检验它们之间的关系,模型
53、的结果对数据的依赖程度很大,并且普通最小二乘估计求得的解往往是局部最优解,后续步骤的检验可能就会失去应有的意义。本案例在已有研究的基础上运用Lasso特征选择方法来研究影响地方财政收入的因素。在Lasso特征选择的基础上,鉴于灰色预测对少量数据预测的优良性能,对单个选定的影响因素建立灰色预测模型,得到它们在2014年及2015年的预测值。由于支持向量回归有较强的适用性和容错能力,对历史数据建立训练模型,把灰色预测的数据结果代入训练完成的模型中,充分考虑历史数据信息,可以得到较为准确的预测结果,即2014年和2015年财政收入。了解财政收入预测的方法方法选择第92页,共350页。熟悉财政收入预测
54、的步骤与流程第93页,共350页。本案例的总体流程如图所示,主要包括以下步骤。对原始数据进行探索性分析,了解原始特征之间的相关性。利用Lasso特征选择模型进行特征提取。建立单个特征的灰色预测模型以及支持向量回归预测模型。使用支持向量回归预测模型得出2014-2015年财政收入的预测值。对上述建立的财政收入预测模型进行评价。熟悉财政收入预测的步骤与流程案例流程第94页,共350页。1了解相关性分析目录分析财政收入预测背景2使用Lasso回归选取财政收入预测的关键特征3使用灰色预测和SVR构建财政收入预测模型4小结5第95页,共350页。了解相关性分析Pearson相关系数第96页,共350页。
55、了解相关性分析Pearson相关系数第97页,共350页。x1x2x3x4x5x6x7x8x9x10 x11x12x13yx11.000.950.950.970.970.990.950.970.980.98-0.290.940.960.94x20.951.001.000.990.990.920.990.990.980.98-0.130.891.000.98x30.951.001.000.990.990.921.000.990.980.99-0.150.891.000.99x40.970.990.991.001.000.950.991.000.991.00-0.190.911.000.99x50
56、.970.990.991.001.000.950.991.000.991.00-0.180.900.990.99x60.990.920.920.950.951.000.930.950.970.96-0.340.950.940.91x70.950.991.000.990.990.931.000.990.980.99-0.150.891.000.99x80.970.990.991.001.000.950.991.000.991.00-0.150.901.000.99x90.980.980.980.990.990.970.980.991.000.99-0.230.910.990.98x100.980
57、.980.991.001.000.960.991.000.991.00-0.170.900.990.99x11-0.29-0.13-0.15-0.19-0.18-0.34-0.15-0.15-0.23-0.171.00-0.43-0.16-0.12x120.940.890.890.910.900.950.890.900.910.90-0.431.000.900.87x130.961.001.001.000.990.941.001.000.990.99-0.160.901.000.99y0.940.980.990.990.990.910.990.990.980.99-0.120.870.991.
58、00分析计算结果Pearson相关系数矩阵第98页,共350页。分析计算结果分析第99页,共350页。1了解相关性分析目录分析财政收入预测背景2使用Lasso回归选取财政收入预测的关键特征3使用灰色预测和SVR构建财政收入预测模型4小结5第100页,共350页。Lasso回归方法属于正则化方法的一种,是压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零,保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。了解Lasso回归方法1. 概念第101页,共350页。Lasso以缩小特征集(降阶)为思想,是一种收缩估计方法。Lasso方法可以将特征
59、的系数进行压缩并使某些回归系数变为0,进而达到特征选择的目的,可以广泛应用于模型改进与选择。通过选择惩罚函数,借用Lasso思想和方法实现特征选择的目的。模型选择本质上是寻求模型稀疏表达的过程,而这种过程可以通过优化一个“损失”“惩罚”的函数问题来完成。了解Lasso回归方法2. 基本原理第102页,共350页。了解Lasso回归方法2. 基本原理第103页,共350页。当原始特征中存在多重共线性时,Lasso回归不失为一种很好的处理共线性的方法,它可以有效地对存在多重共线性的特征进行筛选。在机器学习中,面对海量的数据,首先想到的就是降维,争取用尽可能少的数据解决问题,从这层意义上说,用Las
60、so模型进行特征选择也是一种有效的降维方法。Lasso从理论上说,对数据类型没有太多限制,可以接受任何类型的数据,而且一般不需要对特征进行标准化处理。了解Lasso回归方法3. 适用场景第104页,共350页。优点:可以弥补最小二乘法和逐步回归局部最优估计的不足,可以很好地进行特征的选择,可以有效地解决各特征之间存在多重共线性的问题。缺点:如果存在一组高度相关的特征时,Lasso回归方法倾向于选择其中的一个特征,而忽视其他所有的特征,这种情况会导致结果的不稳定性。虽然Lasso回归方法存在弊端,但是在合适的场景中还是可以发挥不错的效果。在财政收入预测中,各原始特征存在着严重的多重共线性,多重共
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度全国总代理合同:XX服装品牌全国市场总代理权授权书
- 台球馆装修合同模板及明细
- 2025年度塑胶颗粒行业人才培训与引进合作协议
- 2025年度房屋租赁房东合同-租赁合同风险防控指南
- 工厂水电安装协议范本
- 2025年度多式联运货物保险合同样本
- 2025年度医疗机构执业药师聘用合同及药品安全培训协议
- 2025年度手电动车转让协议书:手电动车品牌加盟连锁经营合同
- 2025年度互联网干股合作协议范本
- 2025年度个人银行卡领用与高端商务服务合同
- 夹套管现场施工方法
- 部编版语文五年级下册形近字组词参考
- 经销商授权协议合同书(中英文对照)
- 第三章走向混沌的道路
- 化探野外工作方法及要求
- 2006年事业单位工资改革工资标准表及套改表2
- 江苏省特种设备安全条例2021
- 青岛海洋地质研究所公开招聘面试答辩PPT课件
- 举世无双的建筑师
- 常见导管的固定与维护PPT课件
- 白龟湖湿地公园调研报告
评论
0/150
提交评论