营销数据分析-案例 第6章基于文本挖掘的消费者情感分析案例_第1页
营销数据分析-案例 第6章基于文本挖掘的消费者情感分析案例_第2页
营销数据分析-案例 第6章基于文本挖掘的消费者情感分析案例_第3页
营销数据分析-案例 第6章基于文本挖掘的消费者情感分析案例_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章基于文本挖掘的消费者情感分析案例数据分析与挖掘实战-电商产品评论数据情感分析背景随着网上购物越来越流行,人们对于网上购物的需求越来越高,这让京东、淘宝等电商平台得到了很大的发展机遇。但是,这种需求也推动了更多的电商平台的崛起,引发了激烈的竞争。在这种电商平台激烈竞争的大背景下,除了提高产品质量、压低商品价格外,了解更多消费者的心声对于电商平台来说越来越有必要了,其中非常重要的就是对消费者的文本评论数据进行内在信息的数据挖掘分析。目标对京东某一热水器进行文本挖掘分析,目标如下。分析热水器的用户情感倾向。从评论文本中挖掘出该品牌热水器的优点与不足。提炼不同品牌热水器的卖点。分析本次建模针对京东商城上“美的”品牌热水器的消费者的文本评论数据,在对文本进行基本的机器预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析,以期望得到有价值的内在内容。主要步骤如下。利用爬虫工具-八爪鱼采集器,对京东商城进行热水器评论的数据采集。但对获取的数据进行基本的处理操作,包括数据预处理、中文分词、停用词过滤等操作。文本评论数据经过处理后,运用多种手段对评论数据进行多方面分析。从对应结果的分析中获取文本评论数据中有价值的内容。处理过程数据获取通过八爪鱼设计采集流程,得到数据,抽取评论一列数据。数据探索自己采集的,内容比较清晰。数据预处理文本去重编辑距离去重、Simhash算法去重对于当前需求都有所缺陷,所以为了防止误删,采用简单的文本去重思路—完全相同才删除。机械压缩去词去掉连续重复的累赘表达,如“太贵了太贵了太贵了”可以压缩为“太贵了”。短句删除子数过少的句子没有意义(相对而言)。文本评论分词使用jieba分词。数据挖掘建模情感倾向性模型1、训练生成词向量2、评论集子集的人工标注与映射3、训练栈式自编码网络基于语义网络的评论分析主要使用ROSTCM6进行分析。基于LDA模型的主题分析这里使用gensim这个包提取主题。#-*-coding:utf-8-*-importpandasaspddefLDA():'''LDA主题分析:return:'''#参数初始化negfile='data/meidi_jd_neg_cut.txt'posfile='data/meidi_jd_pos_cut.txt'stoplist='data/stoplist.txt'neg=pd.read_csv(negfile,encoding='utf-8',header=None)#读入数据pos=pd.read_csv(posfile,encoding='utf-8',header=None)stop=pd.read_csv(stoplist,encoding='utf-8',header=None,sep='tipdm',engine='python')#sep设置分割词,由于csv默认以半角逗号为分割词,而该词恰好在停用词表中,因此会导致读取出错#所以解决办法是手动设置一个不存在的分割词,如tipdm。stop=['','']+list(stop[0])#Pandas自动过滤了空格符,这里手动添加neg[1]=neg[0].apply(lambdas:s.split(''))#定义一个分割函数,然后用apply广播neg[2]=neg[1].apply(lambdax:[iforiinxifinotinstop])#逐词判断是否停用词,思路同上pos[1]=pos[0].apply(lambdas:s.split(''))pos[2]=pos[1].apply(lambdax:[iforiinxifinotinstop])fromgensimimportcorpora,models#负面主题分析neg_dict=corpora.Dictionary(neg[2])#建立词典neg_corpus=[neg_dict.doc2bow(i)foriinneg[2]]#建立语料库neg_lda=models.LdaModel(neg_corpus,num_topics=3,id2word=neg_dict)#LDA模型训练foriinrange(3):neg_lda.print_topic(i)#输出每个主题print(neg_lda.print_topic(i))#正面主题分析pos_dict=corpora.Dictionary(pos[2])pos_corpus=[pos_dict.doc2bow(i)foriinpos[2]]pos_lda=models.LdaModel(pos_corpus,num_topics=3,id2word=pos_dict)foriinrange(3):neg_lda.print_topic(i)#输出每个主题print(pos_lda.print_topic(i))if__name__=='__main__':LD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论