




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于在线评价文本情感分析的彩妆产品顾客满意度实证研究摘要随着我国彩妆市场的蓬勃发展,国货彩妆品牌不断涌现,势头强劲,与原先盘踞中国市场多年的国际品牌之间的竞争日益白热化。在竞争日趋激烈的当下,一个企业的成功已不能再单纯由市场占有率和销售增长率来定义,而是取决于它拥有多少顾客资产。如何提升顾客满意度,进而获取顾客信任和顾客忠诚,成为品牌发展的关键。以往的彩妆市场研究大多是基于深度访谈和问卷调查的方法,而文本挖掘技术为彩妆品牌了解顾客需求、提升顾客满意提供了新的方法。尤其是在电商对彩妆销售拉动作用异常明显的背景下,电商平台的评价能反映出彩妆消费者的普遍意见,为研究提供大量真实有效样本。本文基于顾客满意度测评理论,通过对在线评价进行文本情感分析,获取不同品牌彩妆产品顾客满意度的影响因素。首先通过收集中国彩妆网数据、网络购物行业报告等资料,选取天猫作为具有代表性的网络零售平台;选取完美日记、花西子、迪奥、YSL圣罗兰和三熹玉作为具有代表性的彩妆品牌;选择底妆产品作为具有代表性的产品品类。接着,使用Python软件爬取天猫平台上的产品评价,经过清洗去重等预处理后,对采集到的3万余条数据进行分词处理和词频统计,通过TFIDF算法抽取关键词,然后根据CCSI顾客满意度模型进行分类,进行初步的影响因素分析。接着,结合情感倾向性分析和LDA主题挖掘,得出导致顾客满意和顾客不满意的关键词,并对比低中高端彩妆品牌的顾客满意度影响因素的区别,提出提高彩妆产品顾客满意度的对策。本文通过分析在线评论,研究不同彩妆品牌彩妆产品的顾客满意度影响因素,借此反映出消费者的真实意见,于理论应用而言,拓宽了顾客满意理论在彩妆市场的应用空间,于实践意义而言,有助于企业了解顾客体验和感受,帮助企业更好地掌握顾客的需求和态度,找到产品改进方向,满足个性化消费需求,提升服务质量和顾客忠诚,更富竞争力,对彩妆行业的发展具有重要意义。关键词:彩妆顾客满意在线评价python文本情感分析LDA主题模型目录一、绪论 3(一)选题背景 4(二)选题目的和意义 4(1)选题目的 4(2)选题意义 4(三)文献综述 4(1)基于机器学习方法的顾客满意研究 5(2)基于情感词典方法的顾客满意研究 5(3)结合情感词典和机器学习的顾客满意研究 5(四)研究内容 6二、理论基础 6(一)顾客满意度理论 7(二)文本挖掘理论 8(1)网络爬虫 8(2)中文分词 9(3)关键词抽取 9(4)情感倾向性分析 9(5)主题模型 9三、文本数据获取与处理 11(一)电商平台及美妆品牌、产品选择 11(1)美妆平台选择 11(2)美妆品牌选择 11(3)美妆产品选择 12(二)数据采集 13(1)爬取数据 13(2)文本预处理 14(3)分词 14(4)关键词抽取 15(三)情感倾向分析 16(四)LDA主题挖掘 17四、数据分析 18(一)词频统计分析 18(二)LDA主题分析 18(1)正面评价集 18(2)负面评价集 18五、结论与展望 20(一)结论 20(二)本文研究的不足与展望 20参考文献 21一、绪论(一)选题背景随着经济的发展和社会观念的变化,人们对美的追求日益强烈,对美的定义日益多元,纷繁多样的化妆品应需而生,彩妆市场成为一匹不可小觑的黑马,不断有新的资本进入市场,启发创立新的概念与品牌。而彩妆产品本身具有单价低、易受营销手段与口碑传播影响的特点,在互联网时代,哔哩哔哩、小红书、抖音等社交媒体赋能彩妆市场,两者碰撞出了巨大的化学反应,明星、网红、主播等KOL的“安利”、“种草”进一步推动了中国的彩妆产业发展。诸多老牌化妆品品牌纷纷在线上开设官网、在电商平台开设旗舰店,网店、专柜“两开花”。还有许多新兴国货彩妆品牌则一开始就是从网络零售起家。例如美妆集团逸仙电商,通过旗下品牌完美日记扶摇直上,已成功赴美上市。时间来到特殊的2020年,疫情之下,许多行业都遭遇了巨大挑战,彩妆行业也不例外。一方面,实体店的销售额普遍下降,另一方面,口罩出行使得人们对彩妆的需求也减少了。即便如此,2020年度的线上彩妆市场依然很快恢复了增长态势。根据艾媒咨询数据,2020双11期间,全网22个电商平台,化妆品销售额超过900亿元。电商促销对化妆品销量的拉升作用明显。市场不断扩大的同时,品牌之间的厮杀日益激烈,早年被外国化妆品牌垄断的市场不断涌现国产黑马,但国货彩妆总体仍有较大发展空间。天猫彩妆类目销售前10的品牌中,国产品牌完美日记和花西子分别占据第一和第三的优先位置,剩余的圣罗兰、阿玛尼、魅可、香奈儿、迪奥、兰蔻和三熹玉则都是国际品牌,并且前25名中60%以上是国际品牌。所有国产品牌中销售额排名前五的分别是完美日记、花西子、卡姿兰、COLORKEY和小奥汀。除了卡姿兰,其他四个品牌都是依托新渠道短时间内崛起的后起之秀。由于彩妆爱好者追求时尚潮流的特点,兼之小红书、微博等社交媒体不断更新对新产品的测评与比较,每年的热门产品和热门品牌时刻都在变化。唯有了解顾客需求,以提升顾客满意为目的不断推陈出新,才能稳占浪头。以往对彩妆市场的研究大多是基于深度访谈和问卷调查的方法,而鲜有文本挖掘技术的应用。电商时代,在线评价是消费者购买商品前了解信息以及购买后反馈信息的重要媒介,与网络消费满意度具有强相关性。基于在线评价进行文本挖掘,可以获得海量数据,相较传统方法而言,样本的数量大大增加,结论有效性也随之提升。(二)选题目的和意义(1)选题目的由于品牌定位存在差异,产品、服务必然也存在差异,由此导致的不同品牌彩妆产品的顾客满意度影响因素的差异是本文探索的对象。本文通过对彩妆产品的在线评价进行分析,得出不同品牌彩妆产品的顾客满意度影响因素,并根据分析结果为各品牌提出改进意见,提升消费者满意度,从而为促进彩妆市场发展提出建议。(2)选题意义本文通过分析在线评论,研究不同彩妆品牌彩妆产品的顾客满意度影响因素,借此反映出消费者的真实意见,有助于企业了解顾客体验和感受,帮助企业更好地掌握顾客的需求和态度,找到产品改进方向,满足个性化消费需求,提升服务质量和顾客忠诚,更富竞争力,对彩妆行业的发展具有重要意义。(三)文献综述在线评论是消费者购买商品前了解信息以及购买后反馈信息的重要媒介,直接反映出顾客满意度,与网络消费满意度具有强相关性。Xu等(2018)将消费者满意度归为消费者撰写在线评论的前因和动机,认为正面评价往往由顾客满意而来,负面评价由顾客不满意而来。近年来,随着大数据的应用推广,不少研究者通过分析在线评论文本内容对顾客满意进行研究,主要有基于情感词典和基于机器学习两种方法,还有一些学者将两种技术手段进行了结合。(1)基于机器学习方法的顾客满意研究Wang等(2018)通过对苏宁平台上洗衣机的在线评论内容进行文本挖掘,利用LDA主题模型进行情感分析,研究洗衣机的产品属性对消费者满意度的影响,发现洗衣机的排水方式、装载类型、变频、种类、显示屏类型、颜色和容量对消费者满意度的影响显著。陶哲源(2020)以京东光学眼镜产品为例,基于机器学习的方法,构建朴素贝叶斯情感分类器,将评价集分为积极情感集和消极情感集,并分别对两个情感集进行文本挖掘,通过LDA主题模型算法,分析顾客的满意因素和不满意因素,并归纳为产品质量类目、价格价值类目、包装物流类目、客户服务类目4个类目。陶哲源(2020)进行关键词抽取时使用到TFIDF算法,方便了概念的提炼和归纳。王亚(2020)运用python爬虫技术获取京东商城手机在线评论信息后,训练朴素贝叶斯模型,建立手机在线评论分类的支持向量机模型,最后对不同情感类别的评论进行LDA主题分析。王亚(2020)对在线评论进行了非常细致的清洗。原始数据约26万条,经过去重、机械压缩、短句删除等预处理后,得到手机在线评论信息约24万条,为后续的数据处理奠定了良好的基础。(2)基于情感词典方法的顾客满意研究王明月(2020)分析了B2C平台和C2C平台智能数码产品顾客满意度的主要影响因素和二者的异同点。基于情感词典的方法,构筑了8个显变量、数百个观察实体的指标体系,建立起一个较为完善的顾客满意度测评结构方程模型。李康(2020)选取了三个生鲜电商平台抓取评论文本,先基于词云图、网络语义词和决策树等方法找出评论中的高频词,也即影响顾客满意程度的主要因素,但并不能就此得出高频词导致顾客满意还是顾客不满意。因此通过匹配特征情感词对的方法进行了文本情感分析,发现顺丰优选所有特征都以正面情感为主,京东生鲜在客服和价格上的正面情感占比少于60%,而本来生活网仅有包装、品质、性价比三个特征正面情感较多,服务态度、送货速度和发货及时性的相关负面情感较多。文章分析层层递进,通过拓展技术方法得出了更具体的结论。刘岩(2019)将体验价值划分为功能性、经济性、情境性、情感性和社会性五个维度,通过提取“特征-观点对”的方法构建情感词典,探究不同维度的体验价值对酒店业顾客满意的影响。刘岩(2019)在构建情感词典时,人工标注出酒店行业的情感词,准确度较高。(3)结合情感词典和机器学习的顾客满意研究张心悦(2020)对生鲜农产品在线评论文本进行研究,通过LDA主题模型分析和基于情感词典的情感分析提取出可能影响消费者满意度的因素,然后通过回归分析、中介作用分析和比较分析等实证分析方法分析各因素对顾客满意度的影响显著性。最后得出生鲜农产品消费者网购生鲜农产品时比较关注产品的外观、味道、口感、新鲜、售后服务质量、商品描述可靠性、物流配送速度、物流包装保护性和感知价值这九个因素的结论。张心悦(2020)量化了各变量之间的关系以及各变量对消费者满意度的影响,使结论更加直观可信。胥梦佳(2020)使用基于情感词典的方法,通过R软件对景区游客的评论文本数据进行情感倾向性分析,为情感倾向标签与评论内容不符的现象提供了解决办法,并运用LDA主题建模对情感倾向性分析的结果进行进一步探究,还原景区真实的游客满意度。基于词典类的方法人为处理程度相对较深,对于充分获得隐含信息会有一定的影响,机器学习对信息处理程度较浅,可以获得进一步的隐含信息。(四)研究内容第一部分,首先是通过收集中国彩妆网数据以及网络购物行业报告等资料,得出能够具有代表性的平台、品牌和产品,再研究Python中的数据抓取模块,针对天猫的顾客评价进行海量爬取,并由此得到产品评价数据集。先研究网站的源代码,之后综合运用网页处理、正则提取设计出网站数据抓取的代码,对代码进行测试和完善,然后通过设计的代码抓取天猫的数据。第二部分,进行文本处理,将采集到的评价数据去重清洗后切词,并使用TFIDF算法抽取关键词,统计词频,基于关键词初步分析网购眼镜的满意度影响因素。第三部分,文本情感分析。基于机器学习的方法,采用训练好的cemotion库和senta库将评价集分类,形成正面评价集和负面评价集,并对分类器的性能进行评估。基于主题模型的文本分析方法,通过LDA主题模型算法,分析各品牌底妆产品的顾客满意因素和不满意因素。图1-1文章结构框架二、理论基础(一)顾客满意度理论顾客满意度的概念最早出现在市场营销领域,是对顾客满意程度的衡量指标。1989年,Fornell对瑞典不同行业的一百多家公司进行了调查,将结构方程和满意度形成心理路径相结合,提出了SCSB瑞典顾客满意度指数模型,包括五个方面:感知价值、顾客预期、顾客满意度、顾客抱怨和顾客忠诚。在这个模型中,价值感知和顾客期望是原因变量,顾客满意度是目标变量,顾客抱怨和顾客忠诚则是顾客满意度的结果变量。图2-1SCSB顾客满意指数模型在引入过程中,SCSB模型受到了挑战:价值感知对于满意度的影响不可避免,但质量因素的重要性也毋庸置疑。由于顾客对质量的认识随着产品和服务的不同而有所变化,如果变量被纳入到模型中,如何测量这一质量?1994年,Fornell等人在之前的研究基础上,提出以美国企业为调查分析对象的ACSI(美国顾客满意指数)模型,包括感知质量、顾客预期、顾客满意度、顾客抱怨、顾客忠诚和感知价值共六个结构变量。其原因变量在SCSB模型的基础上增加了一项感知质量。图2-2ACSI顾客满意度指数模型后续研究又提出了CCSI(中国顾客满意指数模型),增加了品牌形象这一原因变量。图2-3CCSI顾客满意度指数模型本文基于CCSI(中国顾客满意度指数模型)进行研究。质量感知,价值感知,顾客期望和品牌印象是顾客满意度的前导变量。顾客满意度的结果变量是顾客投诉和顾客忠诚度。忠诚度是模型中最终的因变量,可以作为顾客保留和企业盈利能力的指标。感知价值反映了顾客在结合产品或服务的质量和价格后所获得的利益的主观感知。感知价值有两个观察变量,即对给定价格下的质量的感知和对给定质量下的价格的感知。总而言之,就是顾客认为该产品的质量和服务是否与价格相契合,是否“物有所值”,也就是俗称的“性价比”。品牌形象,是存在于人们心理的关于品牌的各要素的图像及概念的集合体,主要是品牌知识及人们对品牌的主要态度。人们在接受高端品牌的高定价的同时,也会对其产品质量和服务有更高的预期。品牌印象会影响顾客预期和价值感知。(二)文本挖掘理论(1)网络爬虫网络爬虫是一种基于地址自动下载网页的计算机程序。一个网络爬虫程序通常包括四个模块:地址分配、重复地址删除、网页分析和下载。给定的web地址去重后形成有序队列,再根据所定的策略从中取出,传递到下载模块,之后再由网络分析模块分析页面内容,同时,新网址被放入web地址分配模块,直到待抓取队列为空,或者爬行终止条件被满足。按照实现方式,网络爬虫大致可以被分类为:通用爬虫、聚焦爬虫、增量爬虫和深层网络爬虫。本文使用的是聚焦爬虫。为了便于复用,定义了字典爬取和链接爬取两种爬取模式,按照应用情景选择适当的爬取模式。字典爬取模式可以爬取连续的多个商品,让整个爬取过程流程化——首先获取所有商品名和商品总数,接着遍历商品,爬取评论。但这种方式按部就班,失于灵活,向字典中添加链接也稍嫌麻烦,因此还需要链接爬取,只要直接复制链接粘贴,输入商品名即可,更加灵活。(2)中文分词中文分词是将连续的自然语言文本,切分出具有语义合理性和完整性的词汇序列的过程。因为在汉语中,词是承担语义的最基本单位,句与句之间有符号分隔,但词与词之间没有。所以,将句子切分到词,才能进行本文后续的情感分析。根据实现原理和特点,中文分词方法主要分为基于词典的分词算法和基于统计的机器学习算法。随着国内近年来互联网的蓬勃发展和深度学习的兴起,国内已经有相对成熟的中文分词解析库。本文使用基于深度神经网络的LAC库(全称LexicalAnalysisofChinese),是百度自然语言处理部研发的一款联合的词法分析工具,利用海量标注语料进行训练,实现中文分词、词性标注、专名识别等功能,效果好,效率高,可定制,调用便捷。(3)关键词抽取关键词的应用非常广泛,不仅可以用于表达论文主题内容,文献的储存和检索、文本处理都属于其应用范畴。随着技术的发展,过去成本高、效率低的人工提取关键词的手段逐渐被汰换,各种自动提取关键词的技术手段不断更新换代。关键词自动提取方法主要可以分为基于统计特征的词频法、基于词语网络法和基于语义法。本文使用的TFIDF算法属于词频法。TFIDF实际上是:TF*IDF,TF是词频(TermFrequency),IDF是逆向文件频率(InverseDocumentFrequency),根据给定词语在文本中的出现频率与包含该词语的文件在所有文件中所占比例的乘积来计算其权重。TFIDF算法可以筛选掉一些高频出现却没有主题相关性的词语,保留需要的关键词。(4)情感倾向性分析情感倾向性分析是指对一段带有主观性情感的文本进行分析的过程。情感分析对象的粒度包含有篇章、段落、句子和词汇,其中粒度最小的是词汇,但表达情感最基本的单位是句子(宗成庆,2019)。所以句子是表达情感的基本分析粒度,可通过机器学习和词典进行文本情感分析。基于情感词典的方法人为处理程度相对较深,对于充分获得隐含信息会有一定的影响,相较之下,基于机器学习的方法对信息处理程度较浅,可以获得进一步的隐含信息。所以为了获得更多的隐含信息和潜在可能,本文选择无监督机器学习进行数据处理。本文的文本情感倾向分析采用两个解析库进行处理,即Cemotion和Senta。Cemotion是Python下的中文NLP库,可以进行中文情感倾向分析。Cemotion的模型经循环神经网络训练得到,会为中文文本返回0~1之间的情感倾向置信度,可以批量分析中文文本的情感。Senta是百度开放的情感分类开源项目,包含了基于语义的情感分类模型,还包含了基于大数据训练好的模型。(5)主题模型进行评价前,顾客通常会选择好某几个主题,针对其表达自己的观点。这些主题就是顾客关注的重点,是导致顾客满意或者不满意的因素。在这一前提下,主题模型应运而生。本文使用LDA主题模型来对在线评价进行主题提取。LDA(LatentDirichletAllocation),中文名为隐含狄利克雷分布,是一个包括词、文档、主题三层结构的三层贝叶斯概率分布模型。人类撰写文本的流程,一般从确定主题开始,选定文本涉及哪些主题后,再向下延伸相关的内容。LDA主题模型的运行逻辑则与人类恰恰相反,将现有的文本导入LDA后,它会生成该文本的主题以及主题相关词。LDA模型广泛应用于文本聚类和分类领域。通过LDA主题模型,我们可以直观的了解在线评价文本中的主题,这些主题往往代表着顾客关注的焦点,反映出顾客对产品或服务满意或不满意的原因。它有助于企业了解顾客感受和态度,找到产品改进方向,满足个性化消费需求,提升服务质量和顾客忠诚。因此,本文采用LDA主题模型对在线评论的文本内容进行主题分析,并将提取的主题作为影响消费者满意度的因素进行探究。三、文本数据获取与处理(一)电商平台及美妆品牌、产品选择(1)美妆平台选择根据ECdataway的数据,2020年度淘宝、天猫、京东彩妆/香水/美妆工具销售额分布中,天猫份额最大,超过400亿元,约占48%,淘宝和京东与之都有一定差距。因此,选择天猫作为数据来源是具有代表性的。(2)美妆品牌选择长期以来,我国美妆市场被国际品牌占据,尤其在隶属于奢侈品行业的高端美妆市场,盘踞着雅诗兰黛集团(旗下有ESTEELAUDER雅诗兰黛,MAC魅可,BobbiBrown芭比波朗等品牌),欧莱雅集团(旗下有YSL圣罗兰,乔治·阿玛尼,MAYBELLINE美宝莲等品牌)和LVMH集团(旗下有Givenchy纪梵希、迪奥)这样的庞然大物,它们旗下的大量开架品牌的地位也十分稳固。但另一方面,国货美妆品牌正在快速崛起,完美日记、花西子等新兴国货品牌凭借对社交媒体的熟练应用,在中低端市场迅速突围,但“平替”品牌也在觊觎高端产品市场,向高端化和年轻化发展,美妆市场竞争愈发激烈。图3-1天猫彩妆/香水/美妆工具2020年TOP50品牌榜天猫平台发布的彩妆/香水/美妆工具2020年TOP50品牌榜显示,交易金额前十名中仅花西子和完美日记为国产品牌,但分别占据第一名和第三名的靠前位置。花西子和完美日记的定位不尽相同。前者通过联名包装、限定礼盒等营销手段奠定了较高的品牌定位,花西子天猫旗舰店的平均成交价为166.18元,平均日销售额6.97万。而完美日记更注重推出性价比高的口碑产品,其天猫旗舰店的平均成交价仅为84.28元,为花西子的一半,但平均日销量却达到9.93万。表3-1各品牌平均成交价与平均日销量品牌平均成交价平均日销量花西子166.186.97万完美日记84.289.93万MAC魅可220.731.07万3CE145.351.82万YSL圣罗兰412.425974DIOR迪奥429.435677其余8个国际品牌中,YSL圣罗兰、乔治·阿玛尼、雅诗兰黛、迪奥,以及属于奢侈品品牌旗下彩妆线的香奈儿和兰蔻走的都是高端路线,平均成交价均在400元以上,平均日销量也随之降低,均未破6000。MAC魅可和韩国的三熹玉在国际品牌中属于相对比较平价的,平均成交价在100-200出头,平均日销量堪堪破万。综合2020年度淘宝、天猫、京东彩妆/香水/美妆工具销售额排行,本文选择花西子、完美日记代表国产彩妆品牌的两种不同路线,迪奥和YSL代表国外高端彩妆品牌,3CE代表中高端国外高端彩妆品牌。(3)美妆产品选择 彩妆产品与护肤品相区别,是用于对面部进行修饰的化妆品。按照使用部位的不同,彩妆可以分为:面部彩妆(妆前打底、粉底、粉饼、素颜霜、BB霜、CC霜、气垫、遮瑕、腮红、高光、修容、散粉、定妆喷雾等),眼部彩妆(眼线、眼影、睫毛膏、眉笔、眉粉等),唇部彩妆(口红、唇蜜、唇釉、唇线笔、唇膏等)。图3-22019年中国线上渠道彩妆消费品类结构分布情况根据2019年中国线上渠道彩妆消费品类结构分布情况,底妆类产品在全品类占到38%的比重,是销售额最高的彩妆产品。2020年,因为疫情原因,口罩成为日常出行的标配,本应继续大幅上涨的彩妆遭遇重创。尽管如此,根据ECdataway数据威统计的2020年度淘宝、天猫、京东彩妆/香水/美妆工具各子类表现,面部彩妆同比增长约10%,生命力依旧。此外,考虑到底妆类产品品类丰富,价差较大,有宽广的表达空间,因此,本文选择底妆类产品作为在线评价的采集对象。根据5个品牌的天猫旗舰店的产品销售热度,本文在每个品牌下选择了1-2件底妆产品,共9件产品进行评论的采集。部分品牌底妆类热门产品不多,同类产品销量较低,评论采集意义不大,因此在此子类下仅选择一款,对数据比较不会产生明显影响。表3-2采集产品品牌产品完美日记完美日记羽缎蜜粉饼控油定妆持久补妆散粉防水不脱妆花西子花西子空气蜜粉/散粉定妆粉饼女持久控油防水防汗遮瑕不脱妆花西子蚕丝蜜粉饼/干粉粉饼定妆控油持久防水遮瑕散粉饼干皮油皮YSLYSL圣罗兰皮气垫遮瑕滋润保湿持久不脱妆自然哑光防晒皮革气垫YSL圣罗兰恒颜无瑕恒久粉底液混油皮遮瑕持久不脱妆防水自然哑光迪奥Dior迪奥锁妆凝脂恒久气垫粉底控油持久遮瑕薄补妆Dior迪奥锁妆粉底液凝脂恒久持久控油保湿高遮瑕3CE3CE单色腮红蜜桃橘裸粉哑光自然腮红修容哑光3CE三熹玉小奶砖柔雾无瑕持妆粉底液高遮瑕柔焦(二)数据采集(1)爬取数据在python版本3.6,交互窗口使用JupyterNotebook编写了爬虫软件,该爬虫软件使用随机请求头,随机请求时间,按照天猫评论的默认排序爬取了每款商品评价,爬取的字段如表3-2所示。表3-3爬取字段昵称评论时间交易结束时间评论内容商品名称爬虫采用内置字典预设爬取链接和标题,按照时间顺序爬取当前评价。此爬虫拥有重试,随机请求间隔,随机cookie等功能,可以良好的规避反爬虫验证码。爬取逻辑为,发起Requests请求,等待服务器响应后获得Response,通过Re,Json等解析库进行解析Response,最后将解析数据存入以“.csv”格式份文件储存。以"YSL圣罗兰皮气垫遮瑕滋润保湿持久不脱妆自然哑光防晒皮革气垫"产品为例,检测到内置字典链接和产品名称后,则开始爬取数据,爬取完成后,生成产品名称+.csv的文件,文件部分内容如图3-3所示。图3-3部分数据展示(2)文本预处理文件整理分类采用了两个库Pandas(用以读取和合并储存文件),os(操作文件夹,用来遍历文件夹)。在csv解析的时候,需要用utf-8-sig编码格式写入,确保不出现乱码。把每一个文件夹下的数据都放到一个文件里,同时根据文件夹名称加入品牌字段,确保明确评论和品牌的关联。又因为顾客发表言论存在随意性以及口语化问题,评论中包含很多冗余信息,需要对数据进行清洗,主要将无效评论,重复评论,表情符号,特殊符号,链接等信息初步清洗,提高分词的准确性和效果,降低分词工作时间,提高效率。去重采用pandas.drop函数。首先用pandas对原始文件进行读取,然后放入drop函数去重,获得去重后数据量如表3-5所示。表3-4评论数据量品牌评论数量3CE2189Dior1975YSL圣罗兰3810花西子3891完美日记1933总计13798(3)LAC分词本文第一遍使用Python自带的jieba分词库进行分词,没有词性标注,后续对结果进行人工筛选花费大量时间,且效果差强人意。第二遍使用LAC的带词性分词模式进行分词处理,分词后元数据词性标注为英文,故通过Python将词性英文缩写匹配为中文,分词结果如表3-6所示。表3-5部分分词结果关键词类型关键词类型关键词类型包装普通名词毛孔普通名词化妆普通动词超级副词用普通动词腮红普通名词严实形容词后方位名词的助词腮红普通名词效果普通名词宝藏普通名词完好副形词明显副形词了助词无损普通动词改善普通动词超级副词颜色普通名词黄皮普通名词好看形容词百搭普通动词很副词的助词可以普通动词少女普通名词蜜桃色普通名词收缩普通动词特殊形容词没有普通动词表3-6关键词词性对照表标签含义标签含义标签含义标签含义n普通名词f方位名词s处所名词nw作品名nz其他专名v普通动词vd动副词vn名动词a形容词ad副形词an名形词d副词m数量词q量词r代词p介词c连词u助词xc其他虚词w标点符号PER人名LOC地名ORG机构名TIME时间分类后对文件使用LAC库进行分词,选择模式为带有词性分词,使用Pandas进行csv文件打开和保存,生成分词后文件,并将词性标注由英文缩写转换为中文方便使用。通过人工观察各个词性下的关键词特征发现,部分词性属于无意义关键词,所以将助词、连词、介词、其他虚词等词性加入停用词表,进一步提升后续LDA无监督学习下分析效率与分析质量。(4)TFIDF关键词抽取本文采用TFIDF算法进行关键词抽取,关键词可以初步分析底妆产品的顾客满意度影响因素,也作为特征选取、构成词库的重要步骤。本文选择词性为名词和形容词等带有倾向性和指向性的词语进行分析。表3-7部分关键词关键词TFIDF值关键词TFIDF值关键词TFIDF值关键词TFIDF值细腻0.07粉质0.066非常好0.036方便0.019包装0.076很好0.07外观0.051持久0.044效果0.048散粉0.028定妆0.028粉饼0.028超级0.073一个0.02赠品0.016高大上0.016喜欢0.143特别0.06好评0.028这个0.026回购0.036购买0.027国货0.026很好0.024不错0.067包装0.026非常好0.021大气0.02去掉语境不明显的词语后,对剩余的199个关键词进行概念的提取和分类,归结到CCSI顾客满意度模型的六大因素下,部分分类结果如表3-11所示。表3-8部分分类结果品牌印象用户预期质量感知价值感知用户抱怨用户忠诚产品质量商家服务物流、售后回购推荐社交、赠礼大牌评论颜色客服快递价格问题老顾客佳琦朋友国货新手效果卖家物流小样瑕疵回头客好多人女朋友品牌新款包装态度速度赠品浮粉老客户很多人闺蜜牌子新品粉质服务态度包裹性价比假货回购直播间同事专柜正品外观店家快递盒活动差评一如既往主播妈妈正品实物质地商家售后服务化妆包缺点推荐对象旗舰店小红书颜值店铺售后顾问专柜错色建议妹妹官网博主实物店主纸盒试用装吸引室友实体店新色质感发货尾款小姐妹(三)情感倾向分析本文文本情感倾向分析采用两个解析库进行处理,即Cemotion和Senta。第一遍采用Cemotion做初步情感分析,Cemotion模型采用贝叶斯模型Bayes抽样,以监督学习方式训练模型进行分析。定义sentiment_label值>0.5为正面倾向,sentiment_label<=0.5为负面倾向。评价数据处理完后对正面和负面结果进行随机抽样检查,发现正面评价准确率95%,负面评价的准确率约为50%。负面倾向结果相对较差。随即使用速度相对较慢,但准确率较高的Senta-lstm库对负面评价进行二次处理,随即抽样结果显示最终准确率达94%。最后合并文件得到最终数据。表3-9各品牌情感倾向性统计Ⅰ品牌负面正面总计负面比例正面比例3CE271601462854%96%Dior8905062595215%85%YSL圣罗兰545523557809%91%花西子293743277254%96%完美日记237758278193%97%表3-10各品牌情感倾向性统计Ⅱ负面正面总计负面比例正面比例情感倾向223631325335610.0713810.933375(四)LDA主题挖掘本文使用TFIDF算法进行关键词提取,得到TF-IDF值,初步反映出影响顾客网购面部化妆品的满意度因素。但TFIDF算法有其局限性,即无法反映出文字背后的语义关联性,可能会丢失很多隐含信息。为了发现文本中更多的隐含信息,从情感倾向角度分析影响顾客满意度因素。本文采用LDA主题模型,对积极倾向评价和消极评价分别进行分析。选用Gensim库用以主题挖掘,将使用Cemotion、Senta-lstm库情感分析后的评价分类分词,使用Gensim提供的models.LdaModel方法进行主题挖掘,因为主题数量越多数据颗粒度相对更细,隐含信息展示越充分,经过测试发现10个主题下对于隐含信息的表达相对全面,高于10个主题表达多有重复。经过models.LdaModel方法处理后效果如表3-15,表3-16所示。表3-11积极评价结果012345678910主题1一般般评价东西赠品还是这个真的整体知道什么主题2还行东西棒棒有点包装就是不是感觉粉扑小样主题3超好有点没有真的效果卡粉浮粉一般特别None主题4没有客服一点真的一个但是赠品没用可以None主题5赞赞没有效果感觉这个持久小样可以评价知道主题6效果没用没有评价持久包装一般但是整体一个主题7真的没有感觉包装不是赠品没用适合小样颜色主题8没有好好一个知道这个一般评价效果颜色有点主题9没有好用感觉效果客服卡粉知道没用一般结果主题0没有这个一般感觉持久包装知道一样效果之前表3-12消极评价结果0123456789主题1粉饼特别喜欢包装好用第二次满意精致精美回购主题2粉饼好看直播间方便效果粉扑气垫上妆不错包装主题3非常不错喜欢包装收到宝贝购买客服好用高大主题4很漂亮包装好评外观光滑粉饼非常服务真心None主题5效果持久包装整体上妆评价情况外观肤质蜜粉主题6西子好用东西不卡粉完美真的一样惊艳大牌上妆主题7效果细腻定妆控油粉质粉扑不错真的轻薄非常主题8不错感觉之前回购一直大气推荐这款用过挺好用主题9细腻粉质包装外观好看超级上妆喜欢好用评价主题0喜欢颜值朋友真的包装很细气垫一盒粉质女朋友四、数据分析(一)词频统计分析从采集到的评论数量来看,不管对于任何品牌、任何产品,产品质量相关关键词出现的频率都远高于其他因素关键词,具有决定性的影响。其次,KOL对于彩妆产品的影响非常明显,“博主”“小红书”“抖音”“功课”“试色图”等关键词词频非常高,体现出各平台的种草和带货的影响。完美日记的产品评论中,“性价比”和“价格”被反复提及,因此价值感知的词频非常高。一方面体现出完美日记定价偏低,目标群体有大量价格敏感人群,另一方面也体现出完美日记的产品确实在某种程度上做到了以尽可能低的价格达到尽可能高的质量。Dior和YSL定位相似,两个品牌的社交、赠礼类关键词出现频率较高,体现出品牌定位在这方面具有一定的优势。YSL的价值感知相关关键词词频很高,但这当然不是消费者认可YSL粉底液的性价比高,而是因为购买YSL的粉底液会赠送小样,这一活动在评论中被屡屡提及。奢侈品赠送小样的促销手段效果显著。花西子的产品主要是通过抖音种草,采集到的评论再一次体现出下沉市场的流量红利。其产品的社交、赠礼关键词不输Dior和YSL两个奢侈品品牌,这是完美日记没有做到的。尽管花西子的定价相对于以“平价”为标签的国货来说偏高,相对于国际品牌来说又较低,但适当的营销手段使得它以一种相对亲民的价格获取了社交赠礼程度的品牌地位。3CE几乎没有短板,但同时亦无明显优势。(二)LDA主题分析(1)正面评价集3CE:作为明星产品的“腮红”出现频率很高,相关的“颜色”“自然”,“粉质”“细腻”,“包装”“不错”等体现出消费者对这款产品的好评,“还送”“刷子”体现出赠品对顾客满意度的提升作用。DIOR:“迪奥”“不错”“大牌”说明消费者对迪奥的品牌印象是高品质的奢侈品,所以相应也会有一个较高的预期。“粉底液”“气垫”“油皮”“控油”说明这两款产品满足了很多油性皮肤的消费者的需求,“遮瑕”“持久度”和“保湿”也做得令人满意。“包装”“喜欢”出现频率很高,说明迪奥的包装异常精致。“色号”“自己”说明很多消费者认为选购的色号和自身肤色非常契合,体现出顾客期望得到满足。花西子:“花西子”数次出现,体现出花西子已经树立起了一定的品牌印象。“散粉”,“效果”,“很好”体现出顾客对散粉的整体评价很好,“粉饼”,“包装”体现出粉饼的包装是顾客满意的重要因素,“包装”/“外观”,“粉质”,“持久”/“控油”是正面评价的主要关键词。“回购”体现出花西子实现了一定程度的品牌忠诚。YSL:“小样”,“口红”体现出赠送的口红小样大大提升了顾客满意。“颜值”,“可爱”出现频率最高,体现出这款产品出色而独特的包装设计为它加分不少。完美日记:“粉质”“细腻”,“包装”/“颜值”/“外观”,粉扑是顾客满意的主要因素。“完美日记”体现出完美日记的品牌印象。“值得”体现出完美日记的性价比高,顾客预期得到了满足。(2)负面评价集3CE:腮红出现频率低而粉底液出现频率高,相关联的“效果”“遮瑕”“没有”体现出这款粉底液遮瑕效果差强人意,“油皮”,“控油”体现出很多油性皮肤的消费者做了功课之后因为这款产品的定位慕名而来,但是“脱妆”“持久度”感到失望。“刷子”,“没用”体现出赠品的品质有待提升。出现了“客服”说明客服服务有令人不满之处。DIOR:负面评价大多集中在气垫“遮瑕”,“轻薄”,“控油”,也即遮瑕和控油效果差。“客服”和“快递”多次出现,体现出迪奥的顾客售后问题较多。“价格”,“唯品会”,“专柜”体现出,由于唯品会的活动折扣价格与专柜价差较大导致在专柜购买的顾客产生不满。出现了“垃圾”这样情绪较强烈的负面词汇。YSL:主要集中在“没有”,“小样”,也即漏送、少送小样上,许多消费者甚至就是冲着赠送的小样而购买的正装。这一问题使得“客服”的高频出现也成了应有之意花西子:“没有”,“评价”,“效果”,“那么”体现出部分消费者的实际使用感受和营销造成的印象形成了一定落差。“纪梵希”,“更好”体现出部分消费者将花西子散粉与奢侈品纪梵希的明星散粉进行了对比。“粉扑”既出现在了正面评价也出现在了负面评价里。完美日记:“包装”既出现在了了正面关键词也出现在了负面关键词中。“厚重”,“毛孔”,“没有”“定妆”,“没有”“控油”体现出这款产品的质量问题多多。五、结论与展望(一)结论结合词频统计分析结果和LDA主题分析结果,可以得出结论:首先,不管对于任何品牌,质量感知都是影响顾客满意度最决定性的因素。其次,在社交媒体大行其道的年代,“盲买”的消费者越来越少,即便是化妆新手大多也会先在小红书、抖音、微博等社交平台搜索相关产品推荐和介绍,因此网络营销对彩妆产品的销售量有很大提升作用,但对于顾客满意却是一把双刃剑。当基于网络营销形成的顾客预期得不到满足,往往会导致顾客抱怨。从情感倾向的统计结果来看,Dior和YSL的负面情感评论占比最高。对于DIOR、YSL这样的奢侈品牌,其高昂的定价筛选出的目标顾客的价格敏感度低,品牌印象是质量感知之外决定顾客购买意愿的第一要素,与此同时,顾客预期和价值感知也会随品牌印象而上升。因此,这两个品牌的负面评价是最多的。完美日记则恰好安全相反,由于定价较低,强调性价比,顾客预期较低,产品实物往往带来的都是惊喜。因此负面评价最少。3CE和花西子定价相近,负面评价数也相似,二者的明星产品都很受欢迎,区别在于3CE的顾客满意主要影响因素以产品质量为主导,而花西子以产品外观为主导。综上,建议所有品牌第一步先尽力保证产品质量。粉质是否细腻,妆感是否自然,是影响顾客满意的首要因素。同时,针对不同的肤质、不同的需求,底妆产品应实现定制化、个性化的功能。干性皮肤需要滋润保湿,油性皮肤需要控油持妆,这样才能得到更好的妆效。而气垫类底妆产品虽然主打补妆,但若在一定程度上提升遮瑕力和持久度,必然能脱颖而出。包装/颜值/外观是产品质量外的第二大影响因素。花西子、3C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025租房合同范本(完美打印版)
- 2025共同租赁商业物业合同模板
- 农产品仓储与农业供给侧改革考核试卷
- 《2025劳务合同聘用离职人员协议》
- 洗涤机械的数字化营销策略考核试卷
- 2025年鸡肉采购销售合同范本
- 2025办公室租赁合同模板()
- 2025新签订劳动合同模板示例
- 2025年学生会公关部广告投放合同
- 瑜伽老师签约合同协议
- 河南省矿山储量动态检测技术指南
- 光学系统的像质评价和像差公差
- :AHA心肺复苏和心血管急救指南(完整版)
- 垃圾焚烧炉渣综合利用方案
- 12J1 工程做法 天津市建筑标准设计图集(2012版)
- 专卖执法人员资格考试题库
- 全要素加强化工过程安全管理
- 腹部按压技巧肠镜检查辅助技巧
- 5月业务学习第一篇输液港的使用及维护
- 肺淋巴管肌瘤病的临床及CT表现
- 金赛 说明书完整版
评论
0/150
提交评论