版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、在线商品虚假评论关键问题探究综述摘要目的/意义对在线虚假评论的现有研究进 行梳理,分析研究现状,明确未来研究发展方向。方法/过 程以cnki和web of science文献为研究对象,从文献分 析的视角,采用定性与定量分析相结合的方法,从虚假评论 的识别方法、特征提取以及防治策略的角度,对国内外虚假 评论研究的现状进行了分析,总结和概括了本领域研究的热 点和存在的问题。结果/结论研究表明,在虚假评论的识 别方法上,需加强对半监督和无监督学习的研究;在特征提 取上,可考虑本体技术的应用;在防治策略上,要考虑多学 科多领域的合作。(关键词在线商品;虚假评论;文献分析;机器学习; 识别方法;防治策
2、略;特征提取;综述d0i: 10. 3969/j. issn. 1008-0821. 2017.05.028(中图分类号f7241文献标识码a文章编号1008-0821 (2017) 05-0166-06a review of key issues in the opinion spams of online productszhu juanl, 2(1. school of information management , wuhan university, wuhan 430072, china;2.school of information, jiujiang university ,j
3、iujiang 332005, china)(abstract purpose/significancel the paper carded existing study about online product opinion spam, summarized research status, and put forward future researchdirection. method/processfrom theperspective of document analysis, using a combination of qual itative and qua rititativ
4、e met hods to analyze the present status of research on opinion spams, suminarized the key issues and problems in the field. result/conclusionthis paper presented the existing problems and future direction of field from t hree aspec ts: recogn ition met hod, fea ture ext rac tion and prevention stra
5、tegy, which provided reference to the academic research more deeply.key words ) online products ; opinion spam ; literature analysis ; machine learning ; recognition method; prevention strategy; feature extraction2014年,中g互联网络信息中心(cnnic)发布的相 关网购决策的报告指出,用户评价在现阶段的网络购物决策 中占据主导地位,375%的网购用户在决策时主要考虑因素为 用户评
6、价1。已购消费者对商品的评论信息在很大程度上 影响了潜在消费者的购买决策,已有研究表明,80%的用户 在查询到大量负面评论之后会放弃之前中意的商品,而87% 用户的购买决策是基于大量的正面评论2。在线评论信息 在某种程度上会直接影响产品销量,基于自身利益的考虑, 商家会通过各种手段来诋毁或吹捧某些商品或服务3。研 究表明,很多在线评论网站,如a、yelp, co m等, 存在着大量的虚假评论4,在yelp, com, 16%的酒店评论信 息被认为是虚假评论5,国内的淘宝更是如此,刷客横行。 虚假评论的出现,浅层次而言,容易误导消费者做出错误的 决策;深层次而言,破坏电子商务市场规则,不利于公平
7、、 有序的市场建立。因此,对虚假评论的研究和识别迫在眉睫, 并具有重要意义。本文以虚假评论为主题,对虚假评论的研究进行了检 索,在分析相关文献的基础上,通过定性与定量分析相结合 的方法,总结概括了国内虚假评论研究的主要对象、关键要 素及关键技术和方法,并对相关研究进行了评析,以期对我 国虚假评论的研究现状有一个整体把握,为我国学术界对虚 假评论的进一步研究提供借鉴和参考。1文献统计数据本文的研究数据主要来源于cnki和web of science, 检索时间设定为2016年6月21日,以“虚假评论”、“垃 圾评论"、"review spam"、"fake
8、 review”、uopinion spam、"fake 0pinion为主题进行高级检索,共得到中 文文献104篇,剔除掉4个噪声数据让人又爱又恨的验证 码、业者揭秘“伪书”出版链条、现代伪书现象研究、亦爱亦恨验证码,有效文献国内100篇,国外最相关文 献50篇。从表1可以看出,虚假评论的研究始于2007年, 2010年之后呈现出研究的活跃期,期刊数量呈逐年递增的趋 势。究其原因,可以从社会和学术两个领域来分析,在社会 领域,电子商务经历了 1997-2002年的初创期、2003-2007 年的快速发展期,由于支付宝的推出和国家相关文件的出 台,电子商务进入了创新发展期6,电子商务
9、的蓬勃发展 为在线评论的研究提供了 土壤;在学术领域,2007年,jindal 首次提出了在线商品垃圾评论检测(review spam detection) 7也为国内学术界提供了新的视角。5 在所收集的数据中,虚假评论的研究文献多集中于情报、计 算机和经济管理领域,见表2,表中列举了国内发文量至少 两篇的期刊。其中,情报学领域发文最多,包括现代图书 情报技术、中文信息学报、现代情报、图书情报工作 共计发文13篇,主要集中在讨论如何将情报学理论与计算 机技术结合来研究虚假评论。其次是计算机领域,包括电 脑爱好者、计算机工程与应用、计算机应用与软件、计 算机工程、计算机应用、计算机科学共计发文1
10、2篇, 主要讨论虚假评论识别算法及其改进。经济管理领域主要包 括现代经济信息和科技创业月刊共计发文4篇,更 关注虚假评论对商务活动的影响性。国外文献分布相对分 散,其中,expert systems with applications3 篇,application research of computers2 篇,其它期刊均 为1篇,但是所涉及的领域基本与国内分布一致,计算机、 情报和经济管理,但是在心理学领域也有涉及,其中在oournal of applied psychology发文 1 篇。2计算机科学2对文献作者单位进行分析,发现对虚假评论的研究国内 主要集中在武汉大学、华中师范大学等
11、科研院所,如表3所示。武汉大学计算机学院姬东鸿教授团队在虚假评论识别算 法方面进行了深入研究,取得了不错的成果8-11 o武汉大 学信息管理学院张李义团队在刷客识别方面也给出了创新 意见12,华中师范大学娄策群团队也在虚假评论的形成路 径和影响因素方面的研究做出了重要贡献13-15 o国外则 主要集中在伊利诺伊大学的liu bing及其团队,共发文3 篇7, 16-17,新加坡南洋理工大学的banerjee发文2篇 18-19,除此以外,来自墨西哥等国家的学者也对虚假评 论进行了相关研究,如表4所示。22虚假评论概念解析利用文献分析工具sati32提取100篇中文文献的关键 字,构建共现矩阵,
12、并用net draw画出其关系图,如图1所 示。图1关键词共现关系图从国内文献来看,对虚假评论的研究,在概念上对“虚 假评论”和“垃圾评论”的区分是模糊的,但是从研究的实 质上,基本上一致,即通过互联网发布的不真实的具有欺骗 性的评论20 o从数量上而言,“虚假评论”作为关键字出 现的次数为23次,“垃圾评论”作为关键字出现的次数为29次,“虚假评论”但是就影响性而言,本领域两大重要学术圈,武汉大学学术圈和华中师范大学学术圈在 本领域的探讨中,均使用的是“虚假评论”的概念21-22 o根据学术研究的一般惯例,虚假评论研究的兴起起源于国外liu bing学术团队,并给出了概念review spa
13、m23, 将其分为3类虚假评论(untruthful opinions)、无关评论 (reviews on brands only)以及非评论信息(non-reviews)。 国内学者就评论的影响性和价值的角度,普遍将虚假评论 (untruthful opinions)作为了主要研究对象,但是部分 学者从概念上仍然沿用了 jindal的review spam,即垃圾评 论。从表达的准确性而言,本文认同武汉大学和华中师范大 学学术圈的观点,取“虚假评论”作为本文描述的概念界 定。3研究关键问题解析结合关键字共现矩阵及其所在相关论文,可以发现国外 内对虚假评论的研究主要集中在以下3个领域:虚假评论
14、形 成动机及其对消费者购买意愿影响;虚假评论识别;以及虚 假评论防治。31虚假评论的形成动机及其对消费者购买意愿影响由 于在线评论对于消费者购买决策起到了至关重要的作用,促 使商家或个人基于利益的考虑发布不实评论,从中谋取利 益。kugler, mukherjee认为虚假评论形成的主要原因是因 为评论发布者试图影响潜在购买者的决策24-25。郑春东 等认为虚假评论的动机主要在于宣传造势、以优抵差和恶意 诋毁3类26。讨论虚假评论的形成机制,可追溯到发布虚 假评论的人,燕方认为虚假评论的发布者可以分为职业虚 假评论者、一般虚假评论发布者和正常评论者27,并将虚 假评论的发布路径归结为5条:正常评
15、论者一一正常评论。 消费者在当下作出了客观真实的评价,但是时移世易,随着 时间的推移,商品发生了好的或坏的变化,导致先前评价不 适宜当下的产品,从而误导了后来的消费者。正常评论 者一一过高/过低评论。由正常评论者的性格属性决定,过 度宽容者习惯给好评,过度完美者习惯给差评。商家一一 一般虚假评论者一一过高评论。一方面商家通过好评返现等 手段诱惑消费者给出过高评价;另一方面商家对给差评者通 过骚扰、退款等手段强迫其删除或修改差评。商家 般虚假评论者一一过低评论。分两类,一类是商家和消费者 之间在购买过程中出现冲突,导致消费者有意给过低差评报 复商家;另一类是商家故意差评竞争对手,通过恶意竞争谋
16、取利益。商家一一中介一一职业虚假评论者一一过高/过 低评价。商家为短期内快速形成较高的信誉度吸引消费者或 者打击竞争对手,利用第三方平台,在没有实际成交的情况 下,职业虚假评论者进行虚假的好评或差评。究其原因,形成这些虚假评论的动因,孟美任将其归纳 为推销、干扰和诋毁28,具体而言就是:首先,电子商务 中信息不对称导致消费者过度依赖商家信誉度,而现有电子 商务交易平台信誉监管制度的不完善,导致商家为了利益在 提升自己信誉度和打击竞争对手信誉度上大做文章。其次, 根据口碑传播理论,负面口碑比正面口碑对消费者购买意向 影响更大,使得商家通过各种手段消除负面口碑对自身的影 响或者制造负面口碑打击竞争
17、对手。最后,消费者本身的特 征或者情境的改变也会造成虚假评论的产生。虚假评论的存在,也会影响消费者购买意愿。刘璇认为 如果虚假评论大量存在,当消费者对此有所感知的时候,消 费者会启动消费者防御模型,影响其购买意愿和决策29 o 因此,如何识别虚假评论,尽量避免其对电子商务秩序的破 坏就显得尤为重要。32虚假评论的识别关于虚假评论的识别,目前的研究主要从两个角度来展 开:基于评论文本的角度和基于评论者的角度。基于评论文 本的识别主要通过在线评论的文本、语义特征等属性来识别 虚假评论;而后者主要是针对那些专业的虚假评论者会模仿 真实评论来编写虚假评论,故认为从评论文本来识别存在缺 陷,提出了根据评
18、论者不同于真实评论者的行为模式和评论 特征,通过识别虚假评论者从而间接识别虚假评论。321基于评论文本的识别基于评论文本的虚假评论识别模型是目前识别虚假评 论的主流方法30,该模型的基本原理是将虚假评论的识别 问题转化为对评论的二分类问题,即根据评论特征将评论分 为真实评论和虚假评论两类,其算法流程如图2所示。图2 基于评论的虚假评论识别模型评论特征主要包括两部分:文本特征(文本长度、评论 回复数、问答句数目、品牌提及度等31-34),和语义特征 (产品特征词百分比、正面情感程度、负面情感程度35 )o 所用的方法主要是在特征提取的基础上,将虚假评论识别问 题转化为对评论文本的分类问题。常用的
19、有监督的分类学习 算法有a近邻算法、支持向量机算法、朴素贝叶斯等,如表 5所示。陈旳通过动态k值和对距离公式加权来改进knn分 类器,从而提高虚假评论识别的准确率和识别速36。对基 于内容的虚假评论识别,宋海霞分别利用支持向量机(svm)、 最大爛(me)、以及贝叶斯(bayes)分别进行实验,并且认 为支持向量机对虚假评论的识别效果最好37。支持向量机 作分类在虚假评论识别中获得了很好的应用38。表5基于 评论文本的特征识别及算法文献识别算法k3评论特征31随机森林32支持向量 机33 34朴素贝叶斯文本长度,评论回复数,问答句数目,品牌提及度35模糊k均值聚类36k-最 近邻算法产品特征词
20、百分比,正面情感程度,负面情感程度将评论文本作为研究对象,通过对文本特征进行提取, 分析虚假评论文本的特点,利用有监督的机器学习算法对评 论进行真实评论和虚假评论的分类,虽然对于虚假评论的识 别取得了一定成效。但是仍然存在着缺陷:虚假评论者可 能会模仿真实评论特征发布虚假评论,这种具备真实评论特 征的虚假评论通过基于评论特征的识别方法无法识别;训 练集的人工标注费时费力,还容易出现误例。322基于评论者的识别基于评论者的识别从某种程度上弥补了上述缺陷,避免 了可以模仿真实评论的虚假评论的干扰。其原理是通过识别 虚假评论者不同于普通用户的评论行为方式和特征,利用分 类和排序技术,识别虚假评论者,
21、从而进一步识别出虚假评 论39。这一方法的前提条件,是假设虚假评论者往往是惯 犯,或水军,其自身具有特殊性。于是从评论者角度,获取 其特征构建虚假评论者识别指标。邵珠峰认为虚假评论者和 一般评论者之间存在情感极性上的差异,因此,将评论信息 的情感特征加入识别模型,并结合用户与商品之间的关系, 构建了 一个识别虚假评论者的多边图模型40 o聂卉等提出了识别虚假评论人的6个特征因子,包括贡 献量、层级、情绪、活跃度、文字素养、评论差异等41。 其中贡献量指评论人贡献和评论人发文总量,层级指评论人 单日最大发文量、评论人级别以及评论文本内容最大相似 度,情绪指评论人正面评论占比和负面评论占比,活跃度
22、指 网龄和发文间隔,文字素养指评论文本平均长度,评论差异 指评论偏差。并通过回归分析表明评论人的贡献度、活跃度 以及文字素养对于识别其是否为虚假评论者具有显著影响。上述方法虽然从评论者角度来识别虚假,克服了水军模 仿真实评论发布虚假评论,而基于评论特征的识别方法不能 识别的不足,但是其识别的方法仍然是分类,与基于评论的 识别类似。wang g.徐小婷等人提出了一种全新的识别方法,基于 评论图的网络产品虚假评论人的检测方法42-43,这种方 法通过评论、评论人和店铺之间的相互影响关系建立一个互 相制约的评论图结构,其中衡量作弊程度的特征指税括: 评论的可信度、评论人的忠实度和店铺的可靠度。王琢在
23、此 基础上做了改进,将店铺换成了产品节点,并对节点附加了 新的特征数据,评论节点包括评分等级、与所评产品的其它 评论间的差异度、其它评论人对该评论的投票数以及该评论 有帮助的投票数,产品节点包括产品评论打分值,评论人节 点具有该评论人进行多次评论的产品数以及在这些多次评 论的产品中该评论人的评论数量等44。基于评论图的基本原理如图3所示。图中各节点之间具 有互相制约的复杂关系:某个评论人的可信度取决于其所写 评论的忠实度;某个产品的可靠度取决于所有对其评论的可 信评论人的分数;而某条评论的忠实度取决于该评论所评商 品的可靠度。经过多次迭代后,各节点的信誉度将收敛到稳 定值,系统达到最终平衡,最
24、终得分较低的评论人为虚假评 论撰写者。图3评论图的基本原理33虚假评论的防治虚假评论的防治,不仅是技术的事,还是制度和体制的 事。陈燕方从虚假评论的治理目标、治理对象以及治理途径 的角度进行了研究,认为虚假评论的防治必须以完善地信用 体系制度、健全的法律制度作为外在辅助,以高效的检测模 型作为内在动力,具体而言从以下3个方面来进行45: 对造成虚假评论的主要责任人加强监管,包括商家、虚假评 论中介、消费者以及电子商务交易平台。减弱虚假评论形 成路径的促进因素,比如完善标准化的评价体系,建立第三 方信用评价机制等。激励消费者做出真实有用的评论。4存在问题及未来研究方向从上述的分析可以看出,当前对
25、于虚假评论的研究主要 集中在计算机、情报以及经济管理领域,其研究的重点主要 集中在利用计算机技术实现对虚假评论的识别,利用情报组 织分析理论研究虚假评论特征提高识别率,以及对虚假评论 动机及其影响因素进行分析。各领域的研究都取得了一定的 进展,但是仍然存在着一些问题,尚需进一步研究。1)在识别方法上,以knn、svm等有监督的机器学习算法为 主。这些算法在虚假评论识别的查全率和查准率上取得了一 定成果,但是由于有监督的学习算法,测试集主要通过人工 标注实现,一是代价大;二是容易出f误例。因此,半监 督或无监督的学习算法有待进一步研究。2)在虚假评论的特征提取上,主要采用自然语言处理 技术获取评
26、论文本、评论人等属性作为虚假评论特征,将情 报组织中的元数据、本体论等方法应用于虚假评论特征提取 及分析还做得不够,未来可考虑结合情报领域理论和技术更 准确获取虚假评论特征。3)在虚假评论影响因素和防治策略上,目前的研究者 还集中在经济管理领域,而缺乏相关法学领域的介入,我国 电商领域相关法规制度的不健全,网络用户信用制度的缺 失,也是造成虚假评论猖獗的重要因素,未来需要更多领域 专家投入本领域的研究工作,共同构建良好的电子商务环境 和秩序。参考文献1 中国互联网信息中心.2013年中国网络购物市场研 究报告r1.2014, (4): 18-19.2 cone research .game c
27、hanger: cone survey finds 4-out-of-5 consumers reverse purchase decisions based on negative online reviewseb. available at: http: www. conecomm. com/contentmgr/showdetails. php/id/40 08. 2011.3 pealver-martinez i , garcia-sanchez f , valencia-garcia r, et al. feature一based opinion mining through ont
28、ologiesjexpert systems with applications, 2014, 41 (13): 5995-6008.4 john boone. a hotel in new york allegedly threatened guests with a 500 fine if they wrote bad reviewsonyelpeb/ol. http:www. eonline com/news/566056/ahotelinnewyorka llegedly-threatened-guests-with-a500-fineif-thew rote-bad-reviews-
29、on-yelp?utmsource=eonline&utmmedium=rssfeeds&utmcampaign=im dbtopstories, 2014-08-05.5 luca m, zervas g. fake it t订 1 you make it: reputation , competition , and yelp reviewfraudj.management science, 2016.6 中国电子商务研究中心盘点:我国电子商务发展历程、 现 状 分 析 eb/0lhttp :b2b toocle. com/detail-6170951. html7 jin
30、dal n , liu b. review spamdetectionc/proceedings of the 16th international conference on world wide web. acm, 2007: 1189-1190.8 任亚峰,姬东鸿,张红斌,等.基于pu学习算法的 虚假评论识别研究j计算机研究与发展,2015, 52 (3): 639-648.9 任亚峰,尹兰,姬东鸿.基于语言结构和情感极性的 虚假评论识别j.计算机科学与探索,2014, 8(3): 313-320.10 任亚峰,姬东鸿,尹兰基于半监督学习算法的虚 假评论识别研究j四川大学学报:工程科学版
31、,2014 (3): 62-69.11 任亚峰,姬东鸿.基于情感特征和用户关系的虚假 评论者的识别j.计算机应用与软件,2016,33(5): 158-161.12 张李义,张皎.一种基于主成分分析和随机森林的 刷客识别方法j.现代图书情报技术,2015, (10): 65-71.13 李京蔚,娄策群.在线商品虚假评论形成与影响综 述j科技创业月刊,2015, (14): 38-39.14 李京蔚在线商品垃圾评论发布动机影响因素研究j企业技术开发:中旬刊,2016, 35 (2): 72-72.15 杨敏.在线商品虚假评论对交易双方的影响研究 j现代经济信息,2016, (1): 159.16
32、 mukherjee a, kumar a, liu b, et al. spottingopinionspammersusingbehavioralfootprintsc/proceedings of the 19th acm sigkdd international conference on knowledge discovery and data mining. acm, 2013: 632-64017 mukherjee a, liu b, glance n. spotting fake reviewer groups in consumer reviews c /proceedin
33、gs of the 21st international conference on world wide web. acm, 2012: 191-200.18 chua a y k, banerjee sunderstanding reviewhelpfulness as a function of reviewer reputation, review rating, and review depthj.journal of the association for information science and technology, 2015, 66 (2): 354-36219bane
34、r jee s, chua a y. alinguistic framework to distinguish between genuine and deceptive online reviewsc/proceedings of the international conference on icws, 2014.20 聂卉,王佳佳.产品评论垃圾识别研究综述j.现 代图书情报技术,2014, (2): 12.21 任亚峰,尹兰,姬东鸿基于语言结构和情感极性 的虚假评论识别j计算机科学与探索,2014, 8 (3): 313-320.22 陈燕方,李志宇.基于评论产品属性情感倾向评估 的虚假
35、评论识别研究j.现代图书情报技术,2014, (9): 81-90.23 jindal n , liu b. 0pinion spam and analysisc/proceedings of the 2008 international conference on web search and data mining .acm, 2008: 219-230.24 kugler l keeping online reviews honestjcommunications of the acm, 2014, 57 (11 ): 20-23.25 mukherjee a , venkatarama
36、n v. opinion spam detection: an unsupervised approach using generative modelsr uh-cs-tr-2014, 2014.26 郑春东,孙为政,王寒虚假网络评论对消费者在 线搜索与购买决策的影响j.大连海事大学学报:社会科学 版,2014, 13 (6): 41-47.27 陈燕方,娄策群在线商品虚假评论形成路径研究 j现代情报,2015, (1): 49-53.28 孟美任,丁晟春虚假商品评论信息发布者行为动 机分析j情报科学,2013, 31 (10): 100-104.29 刘璇虚假评论对消费者购买意愿的影响研究d. 南京:南京大学,2015.30 赵衍.网络虚假评论研究述评j.上海管理科学, 2014, (4): 85-88.31 何珑.基于随机森林的产品垃圾评论识别j.中文 信息学报,2015, 29 (3): 150-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 交通运输设备售后服务协议书
- 代理合作协议书格式及样板
- 互联网行业劳动合同数据保护案例
- AI在物业管理中的优势与挑战
- 企业信息化管理策略
- 产学研合作文化传承协议
- 个人自建房屋环保合同
- 《绿色建筑物业管理风险与机遇》
- 企业贷款合同模板酿酒行业
- 企业购渔业设备贷款协议书
- 北京市房山区2023-2024学年七年级上学期期中生物试题(解析版)
- 排拉表标准格式
- 华为经营管理-华为市场营销体系(6版)
- 子宫颈机能不全临床诊治中国专家共识(2023年)
- 马克思主义关于民族的基本理论-
- 卫浴营销方案
- 高三数学备课组高考数学经验总结
- 医院布草洗涤服务方案(技术方案)
- 太空互联网的发展与挑战
- 小学语文-我最喜欢的玩具教学课件设计
- 天翼云高级解决方案架构师练习试题附答案
评论
0/150
提交评论