版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章智能手机用户监测数据案例分析
本章应用前面所学内容对一个实际大数据进行案例分析:智能手机用户监测数据,数据量在10G左右。我们给出案例分析的两个版本:一是单机操作,读者可以在自己的个人机或者单台服务器上完成数据分析任务。我们给出Python代码。读者可以尝试写出R
代码。
对于10G左右的数据量,目前主流的台式机、笔记本或者服务器是可以接受的。如果数据量继续增大,这就不是好的解决方案了。因此,我们提供的第二个数据分析的版本是在分布式集群Hadoop
和Spark
上实现的,使用的计算机语言以及软件包和工具包括HDFS文件存储系统、Map-Reduce
技术、Python、Hive、Spark的MLlib等。17.1数据简介
该数据来自某公司某年连续30
天的4万多智能手机用户的监测数据。每天的数据为1
个txt
文件,共10列,记录了每个用户(以uid为唯一标识)每天使用各款APP(以appid为唯一标识)的起始时间、使用时长、上下行流量等。此外,有一个辅助表格,app_class.csv,共两列.第一列是appid,第二列给出4000
多个常用APP所属类别(app_class),比如视频类、游戏类、社交类等,用英文字母a-t
表示。其余APP不常用,所属类别未知。数据可从中国人民大学出版社()下载。交类等,用英文字母a-t表示。其余APP不常用,所属类别未知。23表7.1用户和产品的数据7.2单机实现
7.2.1描述统计分析 1.用户记录的有效情况
如果一个用户在一天中没有任何APP
的使用记录,则该用户在该天记录缺失,据此统计每位用户在30天中的有效记录天数。 2.各类APP
的使用强度和相关性 (1)对每天的每条数据记录计算使用时长 (2)对每一天的数据进行分类汇总,得到每人每天使用每
种类别
APP的总时长。 (3)汇总30天的数据,得到每人使用每种类别APP
的总
时长(有效观测天数内的总时长)。
45图7.1用户缺失天数频数分布直方图6表7.2各类APP使用强度(对数变换)单位:秒7图7.2各类APP间的相关系数7.2.2APP使用情况预测分析
本节对用户使用APP
的情况进行预测。我们要研究的问题是通过用户的APP
使用记录预测用户未来是否使用APP(分类问题)及使用时长(回归问题)。分类。根据用户第1-23天的某类APP
的使用情况,来预测用户在第24∼30天是否会使用该类APP。处理后的数据随机选取80%作为训练集,20%作为测试集,模型选用随机森林。回归。与上一部分分类不同的是,这里要预测的是第24∼30天用户使用某类APP的有效日均使用时长,24∼30天是否会使用该类APP。案例的预测模型选取的是随机森林。89表7.3因变量和自变量说明10图7.3随机森林变量重要性(分类)11图7.4随机森林变量重要性(回归)7.2.3用户行为聚类分析(1)用户APP
使用差异情况聚类
对于在描述统计分析中得到的用户对20类APP有效使用天数的日均使用强度数据(对数变换之后),我们选用K均值聚类。(2)RFM
聚类
基于原始数据,借鉴度量消费者行为的三个重要指标RFM——最近一次消费(Recency)、消费频率(Frequency)和消费金额(Monetary),针对APP
数据构造最近一次使用(最近一次使用距离最后一天的天数)、使用频率(使用天数除以有效观测天数)和有效使用时长(使用总时长除以使用天数)三个指标,以标准化后的这三个变量作为特征对人群进行聚类分析。121314图7.5RFM聚类各类中心7.3分布式实现7.3.1数据预处理与描述分析
由于原始数据是结构化的记录数据,因此可以利用Hive
进行数据预处理。7.3.2基于Spark
的模型分析
数据准备完毕之后,可以利用Spark
中的MLlib
对数据进行模型分析。在此我们进行7.2.2中单机版的i类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆三峡学院《社会查研究方法》2023-2024学年第一学期期末试卷
- 重庆三峡学院《全媒体新闻策划与编辑实验》2022-2023学年第一学期期末试卷
- 重庆人文科技学院《幼儿园环境创设》2023-2024学年第一学期期末试卷
- 重庆人文科技学院《思想政治教育案例分析》2022-2023学年第一学期期末试卷
- 重庆财经学院《重庆内陆开放高地前沿专题》2022-2023学年第一学期期末试卷
- 重庆三峡学院《家具与软装饰设计》2022-2023学年第一学期期末试卷
- 重庆三峡学院《机械设计课程设计》2022-2023学年第一学期期末试卷
- 安全指挥中心安全技术科科长岗位职责
- 重庆三峡学院《电气控制》2022-2023学年期末试卷
- 重庆人文科技学院《设计》2023-2024学年第一学期期末试卷
- 先进生产(工作者)申-报-表
- 《师生情谊》的主题班会
- 第三单元名著导读《红星照耀中国》领袖人物和红军将领的革命之路课件(共39张)语文八年级上册
- 小学几何解题全套43大定理
- 《创新创业基础-理论、案例与训练》教案 第8课 市场调查与分析目标市场
- 二级学院就业实施方案
- 特种设备事故隐患台账
- 青年教师及骨干教师培养方案
- 工业产品质量安全风险管控清单
- 七年级数学上册专题5.9 期末真题重组培优卷(人教版)(原卷版)
- 普通诊所污水、污物、粪便处理方案及周边环境情况说明
评论
0/150
提交评论