




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、-范文最新推荐- LibSVM面向数码领域的垃圾评论信息的识别研究 摘要垃圾评论的识别已经成为了商品评论研究的热点。本文以网络上的评论信息作为研究对象,从情感相关和利益相关两个方面出发,分析了评论的发表动机。之后从信息的有用性角度,将评论信息分类有用和无用两类,并对两类信息进行详细的分析与分类,比较垃圾评论与无用评论的区别与联系。通过对目前的垃圾评论识别的方法进行深入的分析,了解各种方法所存在的问题。最后实验选择了SVM算法,构建标准数据集,选择评论特征,结合LibSVM工具,对抓取的评论信息进行的垃圾评论识别。实验过程中对比了SVM中的四种核函数,选择了 较高的RBF核,对其进行参数优化,从
2、而提高对评论识别的准确率。10210关键词支持向量机;核函数;垃圾评论;参数优化;外 文 摘 要TitleResearch on Identifying Reviews Spam for Digital FieldAbstractThe identification of reviews spam has become a hotspot of product reviews research. This article uses reviews information on the network as the object of study, taking the two aspects
3、of emotion-related and benefit as the starting point, analyzing comments published motivation. And from the perspective of usefulness of the information, classify reviews information into two categories of the useful and the useless, and analyze and classify the two types in detail, compare the diff
4、erence relation between spam comments and the useless. Through in-depth analysis of current methods of spam comments recognition, find out the problems of the methods. At last use SVM algorithm to build a standard data set, select the comment features, combine LibSVM tools, recognize the spam commen
5、ts from the crawling comments. Compare the four kernel functions of the SVM in the experiment, choose the RBF of the higher F-measure, optimize its parameters to improve the accuracy of comments identify. 4.8 实验四—RBF模型参数优化实验365总结与展望395.1总结395.2展望39致 谢41参考文献42附 录1461 绪论1.1研究背景随着Web2.0的蓬勃发展和互联网应
6、用的普及,人们的生活方式和交流方式都发生了极大的变化。网络购物凭借其自身的优势,也随之成为网民常态的消费方式。中国互联网络信息中心发布了第29次中国互联网络发展状况统计报告。报告中数据显示, 截至2011年12月底,我国网络购物用户规模达到1.94亿人,网络购物使用率提升至37.8%。与2010年相比,网购用户增长3344万人,增长率为20.8%。我国团购用户数达到6465万,使用率提升至12.6%,较2010年底上升8.5个百分点。团购用户的年增长率高达244.8%,成为全年增速第二快的网络服务。CNNIC统计数据显示,网络购物商品生活化趋势更加明显,服装、家居等生活用品的网购消费群体继续扩
7、大。目前,大多数的电子商务网站都允许用户对自己所购买的商品进行评价。评论包含了消费者对产品和服务的各种各样的观点,这些评价信息不仅为产品制造商提供有价值的信息,例如:产品自身所存在的问题,竞争对手的销售情况,以便其分析这些评论信息,及时了解市场状况,提高自身产品的竞争力,而且可以为潜在的消费者提供是否应该购买该产品的参考依据,例如:在潜在消费者购买之前,可以了解其他已有的消费者关于该产品的使用体验,充分的了解产品的各个方面的性能,与同类产品进行多方面比较1。不幸的是,由于没有质量控制,人们可以随意的在网络上发表自己的观点,导致网站上的评论信息中含一些无意义甚至不真实的评论信息。这些信息不仅会影
8、响潜在消费者的购买,也会对产品制造者造成不良的影响。例如,一些用户会因为自己对某一个产品或者品牌的偏见,对该产品进行不符实际的评论,这会影响潜在消费者对该产品的了解,以致影响其销售;一些用户是为了促销或者其他目的发布一些与该产品无关的无意义信息等。 1.3垃圾评论识别研究现状1.3.1垃圾评论识别方法的研究现状1.4本文的主要研究内容与技术路线1.4.1本文主要研究内容本文以网络上的评论信息作为研究对象,讨论了评论的发表动机;之后从信息的有用性角度,对评论信息进行详细的分类。通过对目前的垃圾评论识别的方法进行深入的分析,了解各种方法所存在的问题。本文主要使用SVM算法,结合LibSVM工具,对
9、抓取的评论信息进行二类的分类,从而提高对评论识别的准确率。本文的主要结构安排如下:首先是绪论,介绍本文的研究背景,垃圾评论的定义与分类,以及与网页垃圾、垃圾邮件的相似之处与不同之处,研究的意义。并概括性的介绍和分析了垃圾评论识别的研究现状。接着分析了评论信息发表的动机,对评论的发表者进行了分类,之后依据信息有用性的准则,对商品评论进行了详细的分类。其次是对SVM算法的简单介绍,同时也概括性的介绍了LibSVM这一工具。之后设计实验,对评论信息进行转换,结合LibSVM工具实现商品评论信息的二类分类,并对三种核函数的分类结果进行对比,选择效果好的核函数进行参数优化,从而优化识别的结果。最后对全文
10、做出总结和展望。1.4.2主要技术路线本文以数码领域中相机的评论信息为研究对象,依据一定的准则对商品评论进行详细的分类。再借助于商品评论信息的抓取软件,对评论信息进行收集、整理、加工、建立语料库。之后选取特征,构建与相机相关的词典,使用SVM模型,借助于LibSVM工具进行评论信息的分类,其技术路线如图1.2所示:图1.2 研究的技术路线2 评论信息分析 表2.1 有用信息的特征高 质 量及时完全l精确l清楚l有序l媒介l时间敏感性l例外报告l当前l频繁l范围l简洁l详细l相关高质量:质量是有用信息最重要的特征。质量方面的要求又可细分为以下几个方面。首先,高质量的信息必须是精确的。清楚是高质量
11、的信息的另一要求。另外,高质量的信息式排列有序的,而不是杂乱无章的。最后,信息传递的媒介对质量有重要影响。及时:及时的信息有以下几方面的要求。用户一有需要就能获得信息,是对及时的信息的首要要求。其次,信息反映当前情况。完全:信息想要有助于用户,它必须是完全的。信息的完全性也有接个方面的具体要求。首先,信息的范围必须足够广泛,可以全面地了解现状。其次是简洁和详细。信息应该以最简洁的方式呈现给用户,同时也应该尽可能详细,使用户对现状有一定深度和广度的了解。2.3基于有用性的评论信息分类简单的来说,对于消费者而言,产品评论信息对消费者的购买决策有相当大的影响,因此产品评论信息是否有用成为了一个有效的
12、分类标准。依据信息的有用性的特征将产品评论信息分为以下几类:(1)有用的评论信息依据有用信息的特征,我们将有用的产品评论信息定义为用户发表的产品评论信息是完全与该产品相关的,真实的、公正的观点,可以帮助其他用户购买决策起到辅助作用。 2.4垃圾评论垃圾评论(review/opinion spam或者fake/bogus review)指的是那些为了促销某种产品而给出一些与实际不相符的积极的评论,或者是为了诋毁某种产品或者品牌而给出一些虚假的负面评论,试图故意地误导阅读的人或者自动的数据挖掘和情感分析系统的“不合法”的活动22。垃圾评论与垃圾邮件和垃圾网页类似,但也有不同
13、之处。具体如下23:网页垃圾是指使用“不正当的手段”,以提高目标网页其在搜索引擎中的排名。网页垃圾有两种主要的类型:链接垃圾和内容垃圾。垃圾评论之所以不同于网页垃圾是因为链接垃圾和内容垃圾很少出现在如产品评论这样的意见文档中。链接垃圾是在超链接上的一种垃圾,几乎不会存在评论中,因为在评论中通常是没有链接的。内容垃圾是试图在网页中添加无关或者几乎不相关的词语来提高搜索引擎排名,这也是很难在评论中发生的。垃圾邮件通常是指未经订阅就接收到的商业广告。尽管存在,在评论中的广告也是很少的,他们也很容易被识别。垃圾网页的主要目的是吸引人的眼球以提高网页在搜索引擎中的排名,垃圾邮件主
14、要是为了发布广告,而垃圾评论则是两者皆顾。从垃圾特征方面考虑,垃圾网页和垃圾邮件中的垃圾文本一般都有明显的垃圾特征,垃圾文本的识别与过滤比较容易。但是垃圾评论与之相比,有些垃圾评论的特征并不是很明显,人工都很难区分。因此不能简单的将应用在垃圾邮件和垃圾网页中的识别和过滤方法直接应用在垃圾评论的识别中,应该寻求新的方法。为了更好的对垃圾评论进行研究,Jindal N等人使用了Amazon的评论数据进行研究。他们将垃圾评论信息分为3类24:(1)不真实评论不真实的评论也俗称虚假评论或者伪造评论。为了推销一些目标对象而故意给出一些目标对象的无价值的积极评论(称为宣传垃圾)或者是为了损毁其他产品的声誉
15、而给予不公正的或者恶意的负面评论(称为诽谤垃圾),故意误导读者或者意见挖掘系统。 3.1SVM算法支持向量机(Support Vector Machines, SVM)是Vapink等人根据统计学习理论中的结构风险最小化提出的26-28。SVM能够尽量提高学习机的推广能力,即使由有限数据集得到的判别函数对独立的测试集仍能够得到较小的误差。近几年来,SVM方法已经在信号处理、基因图谱识别和图像识别等方面凭借其优势得到了成功的应用。3.1.1SVM基本思想SVM是从线性可分情况下的最优分类面发展而来的,其基本思想可以用图3.1来说明29。图3.1 最优分类面示意图图3.1中实心点和空心点代表两类数
16、据样本 ,H为分类线,H1、H2分别为过各类中离分类线最近的数据样本且平行于分类线的直线,它们之间的距离叫做分类间隔(margin)。所谓的最优分类线,就是要求分类线不但能将两类正确分开我,使训练错误率为0,而且还要使分类间隔最大。推广到高维空间,最优分类线就成为最优分类面了。下面对最优分类面进行简单的介绍:设 为两类线性可分的样本集合。对应的线性判别函数的一般形式为 ,对应的分类方程如下:(1)将判别函数进行归一化,使所有样本都满足 ,此时离分类面最近的样本 ,要求分类面对所有样本都能正确分类,既满足:(2)此时分类间隔等于 ,间隔最大等价于 最小。最优分类线H就是满足(2)式且使 最小的分
17、类面。过两类数据样本中离分类面最近的样本且平行于分类面H的超平面H1、H2上的数据样本就是式(2)中使等号成立的那些数据样本,这些数据样本叫做支持向量(Support Vector,SV)。由上可知,最优分类面问题可以表示为约束优化的问题,在式(2)的约束下,求如下函数的最小值:(3) 选用不同的核函数可以构造不同的支持向量机。常用的满足Mercer条件的核函数有以下几种32:(1)线性核函数该函数的基本形式:构造的支持向量机的判别函数:(2)RBF函数该函数的基本形式:构造的支持向量机的判别函数: ,其中, 个支持矢量 可确定径向基函数的中心位置, 是中心的数目。(3) 次多项式函数该函数的
18、基本形式:构造的支持向量机的判别函数: ,其中 为支持矢量的个数。(4)Sigmoid函数该函数的基本形式: ,其中,S形函数采用双曲正切函数 。式中的 和 的取值适当时才满足Mercer条件,可能的情况是 。此时构造的支持向量机的判别函数为:这是常用的3层神经网络的判别函数,其隐节点对应支持向量。3.2LibSVM工具3.2.1LibSVM工具简介LibSVM是台湾大学林智仁(Lin Chih-Jen)等开发设计的一个简单、易于使用的、快速、有效的SVM模式识别与回归的软件程序,它可以用来解决分类问题(包括C - SVC、n - SVC )、回归问题(包括e - SVR、n - SVR )以及分布估计(one-class-SVM )等问题。该软件对大部分参数的设置都是默认的,调节相对较少,并且
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025如何判断建筑施工合同的效力
- 2025标准配送服务合同范本
- 服装公司干股协议书
- 2025年03月枣庄滕州市校园公开招聘中小学教师12名(山师大站)笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年03月广西南宁市良庆区发展和改革局公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 平板数字电视接收机项目风险评估报告
- 乌海市重点中学2025年高三3月零次考试生物试题试卷含解析
- 阳泉师范高等专科学校《农村社会工作》2023-2024学年第二学期期末试卷
- 浙江省嘉兴市平湖市2025年小升初考试数学试卷含解析
- 伊春职业学院《集成电路概述》2023-2024学年第二学期期末试卷
- 外挂悬挑式花篮盘扣脚手架安全专项施工方案7.17
- DL-T5344-2018电力光纤通信工程验收规范
- 装配式混凝土结构施工重点难点分析及对策
- 2024年4月自考00540外国文学史试题及答案含评分标准
- 建筑施工大型机械设备安全管理培训(汇编)
- 设计服务方案投标
- 临床试验招募培训
- 人教版初中数学《一次函数》课件
- 2024年新改版苏教版六年级下册科学全册知识点(精编版)
- 颈腰椎疼痛预防与危害
- 海底捞销售净利率分析报告
评论
0/150
提交评论