下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章基于文本挖掘的消费者情感分析教学内容一、问题的提出二、文本分析法三、消费者情感分析案例示范教学要求【知识目标】了解什么是文本分析法;了解文本情感分析的优劣。【技能目标】掌握文本挖掘在商品评论情感分析中的应用。教学重点文本分析法在商品评论情感分析中的运用;利用文本分析法进行精准营销。教学难点文本分析法在相关领域中的运用;文本分析与用户需求数据的匹配衔接度。教学方法讲授法、案例法、任务驱动法、演示法课时数6课时教学内容问题的提出一、商品评论中的情感随着计算机技术的不断升级,文本分析方法的出现,实现了借助计算机独立地对文本中的信息进行分类、排序和提取、并输出相关的模式、关系、观点。因此,文本分析方法迅速在政治、营销、传播、社会科学和心理学等领域引起了广大研究者的关注。分析评论文本的情感倾向也成为研究在线购物网站和社交媒体用户行为的一个重要研究方向。问题设计现某家经营烤肠的电商店铺为了提升自己的产品和服务,想要调查自己店铺的烤肠在消费者中的舆情。店铺数据运营专员采集了自己店铺烤肠的所有客户的评论数据,利用文本分析法进行用户情感分析,从好词和坏词两个维度去分别计算词频,从而制作出舆情分析词云图,分析评价情况,看消费者对产品的夸赞主要在哪些方面,并且调查在哪些方面对产品提出了质疑或者差评,从而帮助产品的更新迭代。另外分析员又导出了近期的店铺交易数据,希望还能够从中挖掘出用户情感走向与用户行为之间的关联。问题解决思路使用评价内容,对其进行数据预处理,处理内容主要包括去除重复值、空值处理等操作,也就是将评价内容中重复评价和为空的评价去除;获得每个评论的情感得分;拆分评价内容,进行分词;汇总词在文本出现的次数;将数据导出到关系目标源,再进行可视化展现,分析消费者的情感,给卖家以参考建议。文本分析法一、文本分析原理文本主要是指由一些符号或代码组成的信息结构体,可通过语言、文本、图像等不同的形式进行表达。文本是由特定的人制定的,其含义必然反映了人们特定的观点、价值和利益等意识形态的内容。一般来说,文本分析是一种针对文本类型数据的处理方法,就是从海量的文本数据中提取出有价值的数据,并通过分析利用这些数据来重组信息。文本分析作为探讨信息内容本质的有力研究方法被广泛应用于包括商业管理的各个领域。分词分词是根据一定的规范对连续的单词序列进行重组的过程。它将句子准确地划分为单词,在词典中进行搜索和匹配,并根据匹配结果将句子划分为常用短语或单词。它通常用于文本挖掘和分析。分词既简单又复杂。分词算法的研究已经非常成熟。大多数单词(如HMM分词[HMM:是指隐马尔可夫模型,是一种用于描述参数未知的马尔可夫过程的统计模型,该模型结合字标注的思想,能够在不依赖词典下自主识别未登录词。]和CRF分词[CRF:是指条件随机场,是一种基于遵循马尔可夫性的概率图模型的数学算法,该算法结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型。])的准确率可以达到95%以上,因此相对简单。复杂的是,剩下的5%很难取得突破,原因可以概括为以下几点:①不同的应用程序对粒度有不同的要求。其中,粒度是指分割的最小单位。例如,“保证金交易”可以是一个词(“保证金交易”)或两个词(“保证金”和“交易”);②歧义,如“恒生”一词。它可以参考恒生公司和恒生指数;③未登录词,即未出现在算法使用词典中的单词,如不常见的专业金融术语和各种上市公司的名称。词袋词袋是将句子按分隔符分成独立的单词。简单地说,每个文档都被视为一个包(因为它包含单词,所以称为单词包),通过查看包中的单词,可对它们进行分类。词频统计词频统计是词汇分析的一种研究方法。这是一种通过计算出一定长度的语言材料中每个单词的出现次数来分析统计结果,从而描述词汇规则的方法。这种方法有助于评估作品,确定一种语言或学科的基本词汇。简而言之,词频统计用于计算单词在文本中出现的次数。词频统计通常用于显示单词云。词频统计的原理是,如果在给定的文档中,词频通常是标准化的,以防止它偏向长文档。同时,词频统计是自然语言处理的重要基础。信息熵、词概率等参数只是词频的映射变换,但分析的实质基础没有改变。文本数据的分析类型与一般流程文本统计分析:对文本中出现的词语进行统计分析,运用场景主要有词云、舆情分析、简易版的智能客服;文本建模分析:通过将文本进行数字数据化之后,再和机器学习等算法进行结合,包括情感分析和词语网络分析;文本语义分析:通过采取深度学习等复制算法进行训练,使得可以从文本中挖掘出来具有语法信息的文本信息,包括主题模型LDA、RNN(递归神经网络)等。完整的文本数据分析的一般流程包括:数据收集、除去数据中非文本部分、处理中文编码问题、中文分词、引入停用词、特征处理、建立分析模型等7个步骤。文本情感分析的三种方法方法定义优势劣势基于情感词典的分析方法根据不同词典所提供的情感词的情感极限进行学习的方法可有效反应文本的结构特征,易于理解,在情感词多时效果更优受制于情感词典的限制,情感词典需要及时更新扩充基于传统机器学习的分析方法一种通过给定的模型预测结果的学习方法可根据情感特征的选取和情感分类器的组合对文本进行情感分析无法考虑上下文文本的整体语境信息;数据量大时效率低基于深度学习的分析方法借助神经网络的学习能力进行情感分析的方法。可细分为单一神经网络的情感分析、混合(组合、融合)神经网络的情感分析、引入注意力机制的情感分析和使用预训练模型的情感分析可充分利用上下文语境、可主动学习文本特征,能根据词语的顺序,提取较为精确的语义信息,从而实现情感分析要求大量数据,比较耗时、对操作人员的技术要求高消费者情感分析案例示范探索数据源获取2020年8月1日—2020年9月6日,共1599条店铺烤肠评价数据以及2020年9月14日—2020年9月21日,共723条店铺的销售数据。数据预处理在对数据进行基础探索之后,发现数据存在无效评价和重复值,因此需要对其进行过滤和去重复值操作。在平台节点“过滤”中,将“此用户没有填写评论!”作为筛选条件,以此筛除无效数据。再用“去除重复值”节点,选择“评论”字段,进行去除重复值操作,处理后数据条数为1540条。计算情感得分使用经处理后的数据,计算情感得分。在“计算情感得分”的节点中,调用snownlp库中的SnowNLP(job).Sentiments代码,输入相关代码可计算出消费者的情感得分。好评与差评的词频统计将得到的情感得分进行划分,得分>=0.5为好词,得分<0.5为坏词。在此基础上统计各词词频,以好词为例,将属于好词的评论数据整合成一个长的字符串“good”,再运用jieba分词库对“good”进行分词操作,最后使用Counter函数进行数据统计,并针对统计后的数据格式对“分词”和对应的“词频”进行数据提取,获得最终的好词词频统计数据。词频数据可视化两张词频统计数据存至平台后,首先将数据转为平台数据集,再利用自助仪表盘绘制词云图,在“智能配图”中选择词云图,将“分词”拖入“标签”区,“词频”拖入“大小”区,即可获得两张词云图。规律探索观察这些用户的评论数据可以了解到,大部分用户对该产品较为满意,但不可否认产品在运输、品质、味道等方面有待优化。对于包装问题,只要没有影响到产品本身,用户基本能够接受。再结合差评词云图,可以合理猜测情感得分较低且没有复购的用户大多是因为产品味道出现了问题,而这个问题有可能是因为用户个人口味的不同导致;此外,由于该产品是冷鲜产品需要冷链输送,所以也有可能是因为运输不当导致产品变质、有酸味,引起用户反感。对于前者,商家可以做一个基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 九年级道德与法治上册 第二单元 行动的指南 第七课 习近平新时代中国特色社会主义思想 第1框 实现中华民族伟大复兴的中国梦教案 教科版
- 2024年新闻宣传新闻采编专业及理论知识考试题附含答案
- 2024年视角下的《长恨歌》:教学课件的创新解读
- 2024年《咏鹅》主题摄影比赛征稿启事
- 2024年世界杯赛场上值得期待的新星
- 吉林省通化市(2024年-2025年小学五年级语文)统编版期末考试(上学期)试卷及答案
- 探索2024年新趋势的《语言学概论》教案设计
- 第45届世界技能大赛全国选拔赛工业控制项目(TD19)技术文件
- 如何优化2024年的安全教育培训记录表
- 教案设计新方向:《信条》公开课研究
- 2024二十届三中全会知识竞赛题库及答案
- 员工奖惩通知单
- 画法几何 (210)标高投影
- 期中考试班会PPT
- (完整word版)小学开展仪式教育的策略研究.
- 步兵班战术教案(全)
- 推荐塞上风情笛子简谱
- 布鲁纳《教育过程》
- 样品承认书标准版
- 田间生产管理记录档案
- 智慧城市建设论文5篇
评论
0/150
提交评论