




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章概论西华大学数据分析基础与实践学生校园消费行为分析
目录Contents明确数据分析任务数据分析的主要流程详细实现及结果展示数据分析任务一1数据分析任务4校园一卡通是集身份认证、金融消费、数据共享等多项功能于一体的信息集成系统。在为师生提供优质、高效信息化服务的同时,系统自身也积累了大量的历史记录,其中蕴含着学生的消费行为以及学校食堂等各部门的运行状况等信息。本章将实现利用Python进行学生校园消费行为分析的完整案例。根据这些数据实现以下数据分析目标:分析学生的消费行为和食堂的运营状况,为食堂运营提供建议。构建学生消费细分模型,为学校判定学生的经济状况提供参考意见。数据分析的主要流程二2.1数据分析62.2原始数据采集7本案例的数据来源于国内某高校校园一卡通系统一个月的运行数据。在最原始的数据中,不仅包括了学生的消费数据,还包含了学校教职工的消费数据。在对数据正式处理之前,还需要将学生的消费数据提取出来。2.3数据预处理8数据有现成的,为什么还要预处理数据,不能直接拿来进行数据挖掘吗?回答是,当然能。但是,现实往往是残酷的!但现实世界的数据是肮脏的(不完整,含噪声,不一致)。同时,没有高质量的数据,就没有高质量的挖掘结果。因此,在对数据进行分析挖掘之前,就很有必要对数据进行预处理。在本案例中,主要针对数据的异常和缺失值进行相关处理。2.3数据分析9所谓数据分析就是将产品相关的数据收集整合,然后利用特定的方法去分析这些数据,从中发现规律或是得到结论。在本案例中,我们将从两个方面进行分析:①食堂就餐行为可视化分析,根据食堂的交易流水,挖掘不同食堂的受欢迎程度和运营状况以及就餐高峰时段等信息;②学生消费行为可视化分析,根据学生的交易流水,挖掘性别与消费能力的关系,根据学生的月消费金额分类分析等。详细实现及结果展示三3.1原始数据预处理11
上图是原始数据的示例,右图是对原始数据的说明。可以看到,原始数据中有许多我们不需要的数据,例如Index,OperNo等所属的数据都是需要的。对于原始数据,需要进行相关预处理,以便后面的数据分析结果准确。3.1原始数据预处理12
上面的代码是导入数据预处理所需要的各种库文件,同时,删除不需要的列,对对列名重新命名。启动Jupyter并建立源文件,在一个cell中输入上面的代码。注意代码中的data2.csv文件,需要放到和代码文件的同一个文件地址里。3.1原始数据预处理13
上面的代码是对时间处理,归类消费时间属于一周中的周几。在上面的代码中,创建了一个'get_week_day'的函数,此函数的主要目的就是归类消费在周几。3.1原始数据预处理14
这段代码的作用,是归类消费时间属于哪个就餐时段。将0:00-9:00的消费定义为早餐;9:00-15:00的消费定义为午餐;15:00-23:59的消费定义为晚餐。3.1原始数据预处理15
在前面的代码中继续输出以下代码,就可以划分消费在哪一个时段了。例如;一次刷卡时间为“2019-04-2020:17:00”,那么其就餐时段就为20时。3.2预处理后的数据16
这是预处理后的的数据。预处理后的数据更见简洁,便于直观理解。“消费在周几”是该消费时间下属于星期几;“就餐性质”有四类:早餐,午餐,晚餐和其他,其中一日三餐值得是在食堂中的消费,其他是指在便利店等地点的消费;就餐时段指的是就餐时间下所属的小时,例如在第一行的数据中消费时间为“2019-04-2020:17:00”,那么其就餐时段就为20时。这样处理之后的数据,方便对后续的就餐行为分析。3.3就餐地点分布分析17
基于前面的预处理数据,接着输入左边的代码,就可以得到就餐地点分析的可视化结果。本案例的可视化主要采用了matplotlib库。3.3就餐地点分布分析18
左图是每个食堂月总刷卡频次占比图。可以看到,最受欢迎的食堂是第二食堂,就餐学生占比达到34.62%,其次为五食堂,就餐学生占比为26.22%,一食堂、三食堂、四食堂之间学生就餐占比相差不大,分别为13.88%、13.60%、11.65%。在就餐时段,第二食堂所面临的就餐压力最大,在管理上需要投入更大的精力,在保障学生就餐时段正常用餐上也需要提前做好更多的准备工作。3.4工作日不同时段刷卡频次统计19
这段代码,是对工作日不同时段刷卡频次统计的可视化。只需要在预处理的代码后输入上面的代码,就可以得到可视化结果。3.4工作日不同时段刷卡频次统计20
工作日该学校早餐就餐峰值都是在7点到9点,午餐就餐峰值都是在11点到12点,晚餐就餐峰值都是在17点到19点。该校学生工作日的就餐时间相对来说比较正常规范,生活作息健康,这对高校的建设具有很好的推动作用。3.42018级环境艺术专业男女消费比较21
由于data2.csv的数据中,只有学生的学号。无法得知学生属于哪个专业。因此,在2018级环境艺术专业男女消费比较分析前,应先对学生的专业进行匹配。下面这段代码,就是对学生专业进行匹配。
右边为上述代码处理后的结果。3.42018级环境艺术专业男女消费比较222018级环境艺术专业男女消费比较分析的代码。3.42018级环境艺术专业男女消费比较23
学生的大部分消费都产生在食堂超市,且女生的月总消费比男生多。读者可用相同的代码做少量修改画出其他任意专业的男女生消费占比图。3.5学生消费金额聚类分析24聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。本案例中,将采用K-means聚类算法,对学生消费金额进行聚类分析。在聚类之前,需要统计每个学生的月消费总金额和月总刷卡频次。根据这两个属性,对学生消费金额进行聚类分析。3.5学生消费金额聚类分析25K-means算法的思路:(1)首先我们选择一些类或者组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。(2)计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。(3)计算每一类中中心点作为新的中心点。(4)重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个。3.5学生消费金额聚类分析26K-means算法的思路:(1)首先我们选择一些类或者组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。(2)计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。(3)计算每一类中中心点作为新的中心点。(4)重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 咨询工程师决策视频课件
- 2025年医药流通行业供应链重构与成本控制最佳实践报告
- 2025年虚拟现实(VR)设备在虚拟现实社交中的应用现状与未来发展趋势研究报告
- 保洁员培训题库及答案
- 伴性遗传考试试题及答案
- 医疗器械临床试验质量管理规范化与2025年临床试验数据管理报告
- 中国电子信息行业运行情况月度报告(2025年1-4月)
- 安全生产知识培训试题及答案
- 餐饮外卖市场2025年增长瓶颈解析:破局策略与行业发展趋势报告
- 2025年快时尚模式在时尚零售行业的数字化营销策略与效果评估报告001
- 安全生产月题库-安全生产知识竞赛题库(1800道)
- 2025年计划生育与妇幼健康考试试题及答案
- 2025至2030中国废铜行业发展现状及发展趋势与投资风险报告
- 血管内导管相关性血流感染预防与诊治2025
- 国际教育机构外教派遣服务协议
- 【高二下期末】广东省东莞市2021-2022学年高二下学期期末教学质量监测英语试题(解析版)
- 呼吸病区进修管理制度
- 中国狼疮肾炎诊治和管理指南(2025版)解读
- 安徽省合肥四十五中学2025届数学七下期末达标检测试题含解析
- 足浴转让合同协议书
- 2022-2023学年山东省济宁市兖州区人教版四年级下册期末考试数学试卷(原卷版)
评论
0/150
提交评论