版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于Python的电商评论数据获取及客户分析的实习报告实习目的当今社会正在迅猛的发展,为了学生适应即将到来的社会生活,加强对我们的实际动手能力的培养,让学生成为“德、才、识、体”四者兼备的全面发展的人才,提高我们认识、剖析和处理问题的实际能力,培养我们的创新意识和开拓精神,跟上这个信息爆炸的时代的步伐,学校为我们组织了这次夏季短学期实践。本次夏季短学期实践的主要目的是增长学生的专业相关知识,培养学生的自主动手能力,以求让学生获得更多知识储备、更有社会竞争力。实习内容电商评论数据获取及评论情感分析基于Python语言编写爬虫程序并取得电商的用户评论文本数据,并对用户评论文本数据进行情感分析以供决策参考。根据已有数据进行航空公司客户价值分析基于Python语言对已有的航空公司客户数据进行处理,并根据客户价值进行分类。实习过程电商评论数据获取及评论情感分析背景与目标在当今社会,互联网及电子商务的发展蓬勃,线上购物风靡,人们越来越热衷于网络购物。这种趋势给各电商企业带来了巨大的发展机遇,也使得更多的电商企业获得巨大发展,但同时也引发了各企业之间猛烈的竞争。在现在各企业激烈竞争的大背景下,企业不但要注重商品品质、降低商品价格,也应该深入了解消费者的对于商品或服务的评价,这对电商平台也是非常重要的。而想要了解消费者对于商品或服务的评价,对消费者的评论文本数据进行对其内在信息的数据挖掘及分析是非常重要也是非常有效果的方式。本次对某平台的热水器评论进行文本挖掘与分析的数据挖掘建模目标如下:1.取得某品牌热水器的用户评论文本数据2.分析用户评论文本数据中的用户情感倾向3.从评沦文本中挖掘出该品牌热水器的优点与不足分析方法与过程取得对应数据基于Python语言爬取针对某商品的消费者的评论文本数据(因后续某热水器品牌的评论文本数据是导入已有数据进行操作,故此处以对某书籍的评论数据进行爬取作为实例)。图1:图1:抓取某商品的评论图2:图2:抓取到的评论数据文本处理获取到评论数据文本后,我们需要对其进行初步的处理,去除无价值评论,增加情感分析的准确程度。包括数据预处理(文本去重、机械压缩、短句删除)、中文分语、停用词过滤等操作。在刚获取的文本评论数据中,有许多价值低,或者是没有统计价值的文本行。如果我们把这些评论数据也保存并进入后面的处理阶段,必然会使得分析结果出现较大偏差,让最终得到的结果不准确,质量低下。所以,在进入之后的处理阶段之前,需要先对初始文本进行预处理,尽量消除这些无价值的评论对于最终结果产生的影响。图3:图3:去除重复评论图4:清洗掉图4:清洗掉无意义短句图5:对评论文本进行分词处理图5:对评论文本进行分词处理图图6:处理后的文本构建情感倾向性模型并绘制词云图根据正面/负面词表(经过统计的比较准确的含有正面/负面词汇的文本)对经过处理的文本中的词语进行情感倾向判断,并绘制成词云图。词语出现次数越多,则这个词语在词云图中的字体就越大。图7:导入情感词库并初步处理图7:导入情感词库并初步处理图8:对评论词语进行情感判断图8:对评论词语进行情感判断图9:正面情感词云图图9:正面情感词云图图10:负面情感词云图图10:负面情感词云图根据已有数据进行航空公司客户价值分析分析目标依据航空公司提供的客户数据对其客户进行分类。对分类之后的各类客户的特征进行分析,并比对各类型客户对于航空公司的价值,以便进行决策。分析方法与过程目前在分析客户价值的过程中应用最广泛的是RFM模型,其三个字母分别指时间间隔、消费频率和消费金额。根据本次实际操作中的需要,实际使用的是LRFMC模型:L:从加入时间到观察窗口结束之间的月数。R:客户在观察窗口中最后一次搭乘飞机到观察窗口结束之间的月数。F:客户在观察窗口中乘坐公司飞机的次数。M:客户在观察窗口中累积下来的飞行公里数。C:对应客户在观察窗口中的乘坐位置对应的折扣系数的平均值。观察窗口:以某个时间点作为结尾,指定时间长度,得到的时间段。在本次操作中,我们利用聚类的方式对航空公司客户价值LRFMC模型的五个指标作出k均值聚类,并识别出客户的价值。这次操作的总体流程如下: 将原始数据文件中的数据提取出来,然后对这些数据先进行预处理(数据清理、缺失项填充或去除等)。之后,对完成预处理的数据进行特征构造(提取需要的特征数据)、标准化处理(数据格式转换),最后进行统计。原始数据获取导入以2014年3月31日作为结尾时间,长两年的时间段作为分析窗口,并且提取由在观察窗口中具有飞行记录的所有客户的详细数据形成的历史数据。数据预处理对原始数据进行初步处理,去除其中的无效部分;对初步后的数据进行特征构建,提取需要的五个特征并去除其他不相关特征;对提取出的特征进行标准化,降低其取值范围的同时保留其对比度。图11:部分标准化特征图11:部分标准化特征图11:部分标准化特征构建客户价值分析模型根据五个特征对客户进行聚类分群,根据结果将客户分为如下四类:a需要重点维持的客户:高平均乘机折扣率,高乘坐次数或乘坐公里数,而且最近乘坐过公司的航班。 b可以重点开发的客户:高乘机平均折扣率,但是乘机次数较少,乘机公里数较低。c重要保留客户:乘坐次数或乘坐公里数高,但是有较长时间没有乘机。d普通以及低价值客户:机票低折扣率、长时间未乘坐航班、乘机次数和乘机公里数低、会员年限短。图12:分类结果图12:分类结果实习体会通过这次夏季短学期的学习与实践,扩展了我的知识面,使我初步接触并了解了Python语言以及大数据分析的基础知识,并让我的实际操作能力获得了很大的提升。感谢学校及老师在这次夏季组织的这次短学期实践活动,让我们增长了知识,对将来步入社会做出了更好、更全面的准备。 目前的社会正处于高科技迅猛发展的过程中。在这样的社会中生活,我们需要具有认识、分析和解决问题的能力,要具有科学的预见和决策能力,否则在自己的生活和事业中会难以适应。个人素质较高、实际操作能力较强的人方能称为有用之才,他们有独特的创造性思维,善于总结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 羽绒服饰行业美工设计心得
- 软件开发行业安全生产工作总结
- 广东省揭阳市榕城区2023-2024年六年级上学期英语期末试卷
- 2023-2024学年山东省潍坊市高二(下)期中地理试卷
- 2024年广东省云浮市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2022年黑龙江省牡丹江市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2021年吉林省长春市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2021年河南省安阳市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2024年透闪石项目投资申请报告代可行性研究报告
- 2024年硬质合金喷焊粉项目资金筹措计划书
- 工程项目施工方案比选
- 盾构始发施工技术要点PPT(44页)
- 甲烷(沼气)的理化性质及危险特性表
- 某钢铁有限责任公司管理专案报告书---提升配电系统管理水平降低变配电装置事故率
- 促销费用管理办法15
- 《三国演义》整本书阅读任务单
- GB 13296-2013 锅炉、热交换器用不锈钢无缝钢管(高清版)
- 企业信用管理制度
- 中医院中药的饮片处方用名与调剂给付规定
- 钻孔灌注桩及后注浆施工方案施工方案
- 3D小白人透明底色PPT素材
评论
0/150
提交评论