




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于LDA模型的在线手机产品评论的提取及分析1.引言 [10]。过滤之后发现,主题识别后运行出的主题词仍含有“一款”、“哒”等无效信息频繁出现,因此将这些词语也加入停用词表中,再次运行处理。3.3基于LDA模型的在线评论主题提取3.3.1基于LDA主题模型的在线评论主题识别在经过去重、分词等文本预处理之后,开始基于分词结果进行在线评论数据的主题识别。本文在前文提到的LDA模型可以用来执行这项任务,另外,因为LDA也可以通过python的第三方库gensim、pyLDAvis等来实现,因此本文决定利用基于python的LDA模型来挖掘在线评论数据中的主题特征,即用户关注的一些产品属性。首先,在python中载入所需的importlib、numpy、gensim、pyLDAvis.gensim等文本挖掘的第三方库,基于gensim库建立词典及文本向量之后,正式开始LDA模型的拟合。联系常见的手机产品属性,取主题数num_topics=10;参考实战案例,设置LDA模型中的参数α和β值分别0.01和0.1,各主题中显示的高频词数(num_show_term)也为10。以下为LDA模型运行结束后的部分结果展示,即识别出的10个主题以及各主题下的10个高频词(如图3.4所示):图3.4主题识别结果根据各个主题下的高频词汇,已经可以初步识别出部分主题,如依据“主题#0”中出现的“待机时间”、“充电”、“电池”等词汇,结合手机产品描述属性,可以识别出“续航能力”这一主题。以此类推,还可以总结识别出“物流”、“外观”、“手感”、“屏幕”、“运行速度”等主题。3.3.2基于LDA主题模型的在线评论主题可视化如前文所提到的,本文在查阅文献及实战案例的基础上,还引入了python中的pyLDAvis模块,这是为了结合gensim库对主题识别的结果进行可视化处理,方便更直观地展示处理结果,此外,还能实现交互式地呈现不同主题和每个主题下的高频词语。经资料查找,可视化处理结果想要输出在本地会花费比较长的时间,而选择输出在html网页中则会大大提高运行速度,因此,本文选择将结果保存为网页文档,下图(图3.5)即为可视化结果的部分展示图:图3.5主题识别可视化结果(部分)图中,左侧图的每个圆圈都代表评论文本数据的一个主题(topic),当没有选中任意一个圆圈,即鼠标没有悬停在圆圈上时,右侧条形图显示的是主题识别后整个文档的主题关键词,可以看到前几个主题分别是“运行”、“拍照”、“效果”、“外观”、“屏幕”等,基本与上一小节中初步识别出的主题相重合;这也印证了可视化结果的准确、可靠性。另外,如果将鼠标放到某个圆圈上,那么右侧条形图就会显示所选主题下的前30个高频词,这一功能也为本文之后对评论文本数据进行分类打下了基础。3.3.3基于在线评论主题识别结果的手机产品属性归纳完成了基于LDA模型的手机产品在线评论数据的主题识别后,还需将识别出的主题与用户关注的手机产品属性建立联系,从而构建起寻找手机产品待改进领域的指标体系。如上一小节提到的,在交互式的主题识别结果中,通过鼠标悬停即能看到某一主题下的前30个高频词,因此本文依据结果识别出的主题及主题下出现频率较高的对于手机产品的描述词,对用户关注的产品属性进行归纳。下表(表3.1)即为根据识别出的主题和所其含的主题词综合分析归纳出的产品属性词及评论文本数据中出现频率较高的一些的描述词。表3.1产品属性词一级属性二级属性描述词外观外观漂亮外观惊艳好看颜色外形时尚颜值美观曲面手感手感大小质感小巧尺寸单手做工重量触感磨砂性能运行速度运行速度快操作卡顿顺畅续航待机时间电池充电续航电池容量耗电超长屏幕屏幕细腻清晰屏幕色彩分辨率高清显示画质画面功能拍照拍照美颜摄像头像素夜景变焦前置自拍广角后置影音游戏音效音质声音音乐音量音响扬声器质量质量质量耐用可靠实用品质价格价格价格性价比优惠61811贵实惠服务物流送货物流下单快递发货到货小哥当天送到收到售后售后客服换退4.基于手机产品改进的指标确立与分析4.1用户关注度为了实现寻找手机产品设计改进领域的目标,本文除了需要得到手机产品属性的归纳结果外,还要找出用户较关注的几个手机产品属性、用户满意度较低的几个产品属性,显然,对于企业来说,用户满意度较低的方面可以作为产品改进的方向,但在企业资源及精力有限的实际背景下,一定是优先考虑用户关注度较高的方面,因而可以将关注度高但满意度低的产品属性作为下一步产品改进的方向。基于以上思路,这里将产品的用户关注度及产品满意度确立为基于手机产品改进的评价指标。首先,记本文的第一个指标——用户关注度为Ci;其次,利用前文提到的文本数据处理工具ROSTCM6中的“文本分类”功能,以分词结果为基础数据,基于上章归纳出的11个手机产品属性及相对应的描述词对在线评论数据进行分类处理。下图(图4.1)为在“运行速度”这一分类结果中截取的部分结果;图4.1基于产品属性的分类结果(部分)分类完成之后,基于分类结果对每一类代表的手机产品属性中出现的评论数据条数进行统计,这里记产品属性i之下的评论数据条数为ni,则该属性的用户关注度Ci可以用以下计算式计算出来:Ci=ni/i=1显然,Ci越大,即表明该属性的用户关注度越高。下表(表4.1)即为基于评论数据分类计算出的用户关注度;可见,“外观”是用户最关注的产品属性,“运行速度”紧随其后;另外,“屏幕”、“拍照”和“手感”等属性均排在用户关注度的前列。而像质量、价格等产品属性,得到的数据结果则不那么多,针对这一现象,推测原因可能是用户发表评论的时间点距离产品购买、使用的时间点较近,很难在较短的时间内对产品“质量”这一属性有更深入的体会。表4.1用户关注度Ci数据一级属性二级属性数据条数Ci外观外观11370.167手感6410.094性能运行速度10880.160续航5230.077屏幕8720.128功能拍照10270.151影音5830.086质量质量1940.028价格价格2000.029服务物流3320.049售后2120.0314.2用户满意度在产品改进的进程中,用户满意度是又一重要的信息参考来源,而满意度又会从用户的产品使用反馈即评论数据中体现出的情感态度反映出来,在文本挖掘及情感分析工具ROSTCM6的支持下,分析评论体现的情感态度更加方便——若用户满意度较高,则评论数据的情感分析结果会是“积极的”,情感分析得分也会更高,反之,其情感分析结果则会是“消极的”,情感分析得分为负数。其中,-10至0分为负面情感一般,-20至-10分(不含)为负面情感较强,-20以下认为反映了尤其强的负面情感。显然,消极的评论对挖掘产品待提升点、对于产品改进的进程更有实际意义。基于以上思路,本文利用ROSTCM6工具对分词结果进行情感分析,从在线评论数据中提取出情感态度为“消极”的数据,然后继续按照前文所用的分类方法将这些用户满意度较低的评论数据同样分为产品属性确定的11类。这里记消极评论数据中,产品属性i之下的评论数据条数为mi,其中每条数据的情感分析得分为f,则为Fi,则该属性的用户满意度可以用此属性下评论数据的情感分析得分均值Fi来反映,Fi可以用以下计算式计算出来:Fi=(i=1mif下表即为基于消极评论数据分类计算出的用户满意度。表4.2用户满意度Fi数据一级属性二级属性数据条数情感分析总得分均值/满意度Fi外观外观1137-144-3.29手感641-45-2.50性能运行速度1088-169-2.01续航523-216-3.79屏幕872-318-7.07功能拍照1027-322-6.31影音583-361-5.55质量质量194-91-5.69价格价格200-140-10.00服务物流332-188-7.52售后212-357-10.50可见,“售后服务”和“价格”是几个产品属性中用户满意度最低的,但这两个产品属性与“设计改进”的关系并不很大,与电商平台的运营服务更加相关,因而继续寻找到满意度较低的“屏幕”和“拍照”属性,分别从属于手机产品的“性能”、“功能”两个一级属性。对比之下,同属于一级属性的“外观”用户满意度要好得多。结合原始数据,了解到用户对产品属性“屏幕”满意度不高的原因主有“贴保护膜之后的屏幕有些不灵敏”、“图片显示清晰度等未达用户预期”、部分用户出现“黑屏、屏幕亮线”等异常情况;而对“拍照”功能满意度不高的原因主要有“拍照效果不满意”、“拍照有时难以聚焦,拍摄模糊”、“摄像头高出机身太多,不太美观,也不方便”;对此可知,华为P40这款手机的摄像头设计不够完美;另外,品牌方主推的“徕卡镜头”拉高了用户对拍照效果的期待,这种情况下反而更容易造成因期待未达预期而产生满意度低的情况。4.3手机产品改进的结论及建议依前文关注度指标分析所得,用户关注的产品属性前五位分别为“产品外观”、“运行速度”、“拍照效果”、“屏幕效果”以及“手感”;而依据用户满意度数据结果,除去“服务”、“价格”两个与产品改进关系不大的属性,满意度较低的产品属性有“屏幕效果”及“拍照效果”。下表(表4.3)为将用户关注度Ci及用户满意度Fi数据结果相乘之后得到的产品改进属性参考结果,表中去除了“服务”、“价格”及“质量”属性。从数据结果易知,“屏幕效果”、“拍照效果”及“产品外观”这三个属性应作为企业下一步重点关注的产品改进领域:对于“屏幕效果”、“拍照效果”来讲,主要需要针对“黑屏”、“不灵敏”、“难聚焦”等异常情况进行问题分析,找出是技术限制还是质量管理方面的问题;对于属性“外观”来讲,则是因为用户关注度过高,因而需要保持关注,持续改进。表4.3Ci*Fi数据属性外观手感运行速度续航屏幕拍照影音Ci*Fi-0.5494-0.235-0.3216-0.2918-0.905-0.9528-0.4773另外,基于用户关注度及满意度两个指标下的数据分析结果,本文在这里进行了一些分析、推测与建议:华为P40这款手机在外观、手感设计方面比较成功,用户满意度普遍较高:两个产品属性下的评价词多是“好看”、“时尚”、“小巧”、“单手操作”等积极评价;“拍照”和“屏幕效果”两个属性属于关注度非常高且存在较多用户满意度较低的,应该作为企业下一步产品改进的重点关注领域,这两个产品属性下的负面评价词多是“模糊”、“聚焦”、“黑屏”,但据进一步查阅资料,发现拍照出现难以聚焦情况的原因之一可能是此款手机主打的拍照功能有些复杂,需要用户调整模式及参数;“续航”和“运行速度”问题关注度相对更低,推测遇到这类问题的用户相对少一些,也存在用户使用习惯、方法不当造成此类问题的可能,因此这两个产品属性暂可不作为亟待改进的产品属性备选项;最后,有部分用户表示摄像头的设计有些过于突出,影响使用和美观;另有部分用户表示系统不够稳定,出现卡死、亮线等异常情况,因为这两个问题提及数量即用户关注度并不高,因此推测是偶然有少量产品存在质量问题,虽然后期改进重点可以不在这些方面,但产品质量有保障必定是企业保持强有力竞争力的基石,对这些用户一定要做好售后保障。5.结论与展望5.1结论本文基于在线评论的手机产品设计改进进行了研究:首先,在进行文献查阅与综述之后,初步了解了这一课题的研究内容、流程与方法,也了解到自然语言处理、文本挖掘等技术在现今社会中的广泛应用;而后,在任务驱动下,进行了本文所需要应用的LDA主题模型、以python为主体的各种文本处理库等的了解和学习;随后,在研究对象选取、数据收集及预处理、程序试运行、LDA模型应用阶段基于python工具、实战案例等学习资料进行了大量的尝试与纠错,最终成功对收集到的评论数据进行了预处理、主题识别和基于交互性可视化主题识别结果的手机产品属性提取。在此基础上,本文基于寻找手机产品设计改进领域的目标,确立了“用户关注度”与“用户满意度”两个指标;而后利用ROSTCM6这一功能强大的文本处理工具,以通过LDA主题提取获得的手机产品属性及相对应的高频描述词为分类依据对分词处理后的手机产品评论数据进行了分类,以某属性下的评论数据条数在全部类别的评论总条数中所占的比例作为反映该属性“用户关注度”大小的依据。相似地,本文利用ROSTCM6软件工具中“情感分析”这一功能,在提取出的经过情感态度评分的消极评论数据基础上,再次以产品属性为依据进行分类,进而计算出每个产品属性的情感得分均值作为“用户满意度”这一指标的参考数据。最后,通过将两指标相对应的手机产品属性计算数据相乘,得到最应该关注的前三个待改进的产品属性,而后,结合原始数据,对出现的比较具有代表性的的问题进行了解释与推测并给出了适当建议。5.2展望至此,在对本课题的研究与不断学习的过程中,不管是研究思路还是用到的技术及工具、方法,都有不少可改进的部分:首先,受限于京东评论页面仅呈现100页数据的情况,考虑到样本数据大小对于结果分析的重要意义,本文在数据收集方面仍有较大改进的余地。另外,在研究中发现,不管是python中的文本处理库还是功能齐全的文本处理软件及工具,在对文本评论数据进行情感判别分析时都容易出现识别不准确、情感态度判断错误等问题。例如它们会将一些积极评论错误识别为消极评论,最具有代表性的例子是,网络用语“入坑”,对于品牌代表的是积极意义,但机器识别则仅会将代表消极意义的字义“坑”作为判断依据,进而造成错判。在结果还中发现,情感分析工具对一些用户的消极性描述会因为无法识别评论对象而直接将整个评论识别为消极评论,但事实上,有些消极评论针对的对象并不一定是本产品,只是用户对自身以往的经历进行了描述与对比,在这种情形下,得出的结情感分析果准确性必定会降低。对于以上这些问题,后续还希望能在时间更充裕时,将人工标注与计算机识别适当结合起来,为计算机提供更多的案例参考以提高识别准确性。参考文献宋苏娟,彭卫,王冲等.基于手机评论数据探究在线评论有用性的影响因素[J].商场现代化,2020(11):1-4.徐自跃.基于京东手机在线评论的客户满意度影响因素研究[D].安徽理工大学,2018.李健,张军,苑清敏,王颖.在线商品评论对消费者效用的改进分析——基于信息质量和消费者满意度理论视角[J].情报科学,2018,36(07):137-144.韩科伦,范英杰,郭昕,许研.在线评论的情感倾向对不同类型产品销量的影响研究[J].管理观察,2015(36):69-71+77.郑丽娟,王洪伟.基于情感本体的在线评论情感极性及强度分析:以手机为例[J]管理工程学报,2017,31(002):47-54.赵宇晴,阮平南,刘晓燕,单晓红.基于在线评论的用户满意度评价研究[J].管理评论,2020,32(03):179-189.涂海丽,唐晓波,谢力.基于在线评论的用户需求挖掘模型研究[J].情报学报,2015,034(010):1088-1097.李杰,李欢.基于深度学习的短文本评论产品特征提取及情感分类研究[J].情报理论与实践,2018,41(02):143-148.刘芮畅,马跃.对应分析法在手机产品设计评价中的应用[J].廊坊师范学院学报(自然科学版),2019,19(02):34-37.王克勤,毋凤君.面向产品设计改进的在线评论挖掘[J].计算机工程与应用,2019,055(019):235-245,252.毛玲.基于LDA的文本主题挖掘研究[D].华中科技大学,2018.史丽君.基于特征强化的中文产品评价挖掘研究[D].合肥工业大学,2011.张勇.基于词性与LDA主题模型的文本分类技术研究[D].安徽大学,2016.张美颀.基于电商产品评论数据的情感分析[D].沈阳化工大学,2020.杨程,谭昆,俞春阳.基于评论大数据的手机产品改进[J].计算机集成制造系统,2020,26(11):3074-3083.张良均,王路等.Python数据分析与挖掘实战[M].机械工业出版社,201509.赵杨,李齐齐,陈雨涵,曹文航.基于在线评论情感分析的海淘APP用户满意度研究[J].数据分析与知识发现,2018,2(11):19-27.张璐,吴菲菲,黄鲁成.基于用户网络评论信息的产品创新研究[J].软科学,2015,29(05):12-16.张明生,邓少灵.基于LDA主题模型的文本信息挖掘应用研究——以天猫小米官方旗舰店为例[J].现代商业,2019(07):29-30.曹康康.基于文本挖掘的消费电子类产品用户研究[D].天津大学,2018.曾小芹.基于Python的中文结巴分词技术实现[J].信息与电脑(理论版),2019,31(18):38-39+42.李尚昊,朝乐门.文本挖掘在中文信息分析中的应用研究述评[J].情报科学,2016,34(08):153-159.范炜昊,徐健.基于网络用户评论情感计算的用户痛点分析——以手机评论为例[J].情报理论与实践,2018,41(01):94-99.[19]胡奕阳.基于评价参数框架探析消费者在线评论文本[J].现代语言学,2020,8(5):5.杨弦.基于在线评论的产品网络口碑挖掘研究[D].大连理工大学,2019.曹阳.基于在线评论数据挖掘的用户需求研究[D].吉林大学,2020.沈瑞.基于在线评论文本分析的消费者购买决策因素研究[D].哈尔滨工程大学,2017.武娟丽.在线评论对新旧产品销量影响实证研究[D].北京邮电大学,2014.秦成磊,章成志.中文在线评论中的产品新属性识别研究[J].信息资源管理学报,2020(03):79-92.陈燕方,李志宇.基于评论产品属性情感倾向评估的虚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中职英语 Artificial Intelligence课件
- 企业合同签订管理办法
- 保险车辆送修管理办法
- 乡镇规划收费管理办法
- 公司产品抽样管理办法
- 伤口护理小组管理办法
- 企业人员异动管理办法
- 休闲场所名宿管理办法
- 会计档案调阅管理办法
- 人员保障专项管理办法
- 2025年司法局司法辅助岗招聘考试笔试试卷(附答案)
- 高校各级党组织和广大党员在网络空间发挥作用研究
- 中国混凝土搅拌站行业发展前景及发展策略与投资风险研究报告2025-2028版
- 2025年云南省中考化学真题(解析版)
- 2025年河南省中考化学试卷及答案
- pmc部门制定管理制度
- 2025贵州省水利投资(集团)有限责任公司招聘84人笔试备考题库附答案详解(综合卷)
- DB31/T 908-2018地理标志产品松江大米
- 教育改革背景下的中医师承教育新思路
- 托育服务质量提升的标准与策略
- 逻辑学试题与答案
评论
0/150
提交评论