




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目 录中文摘要3Abstract3第一章 绪论11.1研究背景11.2研究现状21.3经济意义21.4 本文工作3(1) 训练阶段3(2) 测试阶段4第二章 相关知识介绍42.1分词技术42.1.1关键问题52.1.2中文分词算法52.1.3结巴分词62.2 特征提取62.2.1 特征选择方法72.2.2 文本向量化9I.向量空间模型(VSM)。9II.词嵌入(word embedding)。92.3分类模型102.3.1 CNN(卷积神经网络)模型102.3.2 LSTM模型112.3.3支持向量机(SVM)13第三章 语料143.1 语料收集143.2 语料处理工作153.3评价指标16第
2、四章 实现产品评论属性分类174.1 产品评论分类研究意义184.2属性类别分类方法184.2.1 Word2Vec训练词向量204.2.2 基于LSTM的类别分类方法204.3 实验参数设置及结果分析224.3.1 实验参数设置224.3.2 实验结果分析22第五章 总结与改进235.1 本文工作总结245.2 改进工作24致谢25中文摘要情感分析和意见挖掘是分析人们的观点、情感、评价、态度的重要研究领域。它是自然语言处理领域中最活跃的研究领域之一,在数据挖掘、Web挖掘和文本挖掘中也得到了广泛的研究。事实上,由于它对商业和社会的重要性,这项研究已经在计算机科学之外扩展到管理科学和社会科学。
3、情感分析的重要性与日俱增,与社交媒体如评论、论坛讨论、博客、微博、推特和社交网络的发展相一致。在人类历史上的第一次,我们现在有大量的以数字形式记录的有观点的数据进行分析。情感分析和特征抽取的系统在几乎所有的商业和社会领域都被应用,因为意见是几乎所有人类活动的中心,是我们行为的主要影响者。我们的信念和对现实的看法,以及我们做出的选择,很大程度上取决于别人如何看待和评价这个世界。因此,当我们需要作出决定时,我们往往会征求别人的意见。这不仅适用于个人,也适用于组织。所以说,挖掘研究产品评论的信息,对于整个社会来说,隐含着许多重要的经济价值。本文针对主要针对互联网上的的中文产品评论文本,对其进行属性类
4、别进行分析,并根据已标注的样本,对产品评论属性与方向进行预测。主要是通过LSTM算法来实现。关键词:产品评论;LSTM;语料;属性分类2AbstractEmotional analysis and opinion mining is an important research field to analyze peoples opinions, emotions, opinions and attitudes. It is one of the most active research fields in the field of natural language processing and
5、 has been widely studied in data mining, Web mining and text mining. In fact, because of its importance to business and society, the study has expanded beyond computer science to management science and social science. The growing importance of emotional analysis is consistent with the development of
6、 social media such as comments, BBS discussions, blogs, tweets, tweets, and social networks. For the first time in the history of mankind, we now have a large number of data in the form of a digital form of data analysis.The emotional analysis system is used in almost all commercial and social field
7、s, because opinion is the center of almost all human activities and is the main influence of our actions. Our beliefs and perceptions of reality, and the choices we make, depend in large part on how others perceive and evaluate the world. Therefore, when we need to make a decision, we tend to seek a
8、dvice from others. This applies not only to individuals but also to organizations. So, digging up information about product reviews has many important economic implications for society as a whole.This paper mainly aims at the comment text of Chinese products on the Internet, to analyze its property
9、categories, and according to the sample, and labeled with forecast product reviews properties and direction. Mainly through LSTM algorithm.Keywords:product comments; LSTM; corpus;attributes classification第1章 绪论1.1研究背景随着互联网在中国的逐渐普及,网民的生活也变得和互联网密切相关。电商则是信息化科技融入生活发展最明显的一个例子。电子商务通过现代通信技术,使得消费者可以在互联网上或者是
10、其他计算机网络上进行与商家的各种交易。截至2010年12月,通过网络购物用户的比例达到1.61亿,提高了35.1%的使用率,增长了7%,用户在2010年增长了48.6%,在各种应用中增长最快,是用户增长最快的应用。2008年以来,外国的经济受到全球金融危机蔓延的深度影响,在各行各业都受到了不同程度的冲击,但电子商务行业却一直保持着向上发展的趋势,成为新型经济的不可忽视的一部分。特别是青年人,工作比较忙碌,导致了没有充足的时间可以来在实体店购物,那么就会选择网络购物平台。如今,越来越多的用户选择从网络来购买自己所需的产品,就淘宝而言,数据显示,截止2014年,淘宝拥有超过5亿注册会员,每天活跃用
11、户超过1.2亿,在线产品10亿,淘宝和天猫的交易额超过了1.5亿。而在2017年的双十一期间,天猫最终以总共1682亿成交额定格,创下了历史新高,同比增长了39%,这是非常可观的一笔数,意味着我们电商行业每年以十分迅猛的速度在发展,因而消费者的参与度也是越来越高。此外,京东近几年来也呈现出了飞一般的发展趋势,作为中国最大的综合网络零售商之一,主要在线销售家电、数字通信、电脑、家居百货、服装、母婴、书籍、食品、网上旅游等12类商品。2012年,中国独有的B2C市场占据了49%的市场份额,整个供应链继续扩大其在中国电子商务市场的优势。2014年5月,京东集团正式在美国纳斯达克上市,成为中国第一个成
12、功的美国公司。-上市大型综合电商平台,是中国最大互联网公司的收入,2016年京东集团市场交易额达到9392亿元,净利润261亿元,较上年同期增长43%。越来越多的用户选择在网络上购买产品,并且已经从小的生活用品,衣着等向着更加大型,昂贵的物品发展,京东的销售额就是一个很好的例证。在这些数以亿计的电商的浏览量中,网友无时不刻在进行着信息的交互,产品评价意见的共享,在这些评论中有包含着两方面的情感,积极的方面,也有消极的方面,同时更加注重的也是评论的分类,即这些评论都是对哪方面的情感在进行评价,比如质量,产品的重量、外观、性价比之类的类别。情感分析的一个重要领域即是对出现在互联网上各式各样的评论挖
13、掘和分析,本文着重于对评论的文本进行分析研究,构建基于机器学习的分类模型对电子产品的评论进行分类。1.2研究现状近年来,自然语言处理领域逐渐开始采用深度学习算法,因而获得了比传统的模型,例如基于词典的分类方法更加有效,更加优秀的成果,像Bengio等学者基于深度学习的思想构建的神级概率语言模型,利用各种深层神经网络通过大规模英文语料进行语言模型训练从而得到更好的语义表征,完成句法分析和情感分类等内容,这些都为大数据时代的自然语言处理提供了新的思路。之前大多数国外的研究都是针对英文的情感分析,对于中文的情感分析研究较少,如今通过基于机器学习的情感分析方法,在中文研究上获得了较大进展,首先是要对训
14、练样本进行分词,预处理,进行一些标注等工作,一般通过大量的手工标注来获取训练分类模型的训练样本,然后再去使用训练好的分类模型来分类测试样本,通常是分为褒贬两种情感极性。情感极性的问题最早是由Hatzivassiloglou等人率先提出,通过人工从大量的文本集中提取形容词并判定形容词的情感倾向性来分析文本的情感倾向性,经过多年长期的发展,现在有积极(Positive)和消极(Negative)类方法,正负向种子词集合的方法,同义词关系法,和无监督的情感分类算法。由于中文的语言复杂性,如果使用基于语义的分类方法要求计算机完全理解分析词语的语义倾向,会是很困难的。如今网络上铺天盖地的评论量之巨大,使
15、得现在情感分析将研究的对象瞄准产品评论,通过网络,我们可以获取大量的评论信息,但是中文方面的产品评论研究还是有些欠缺,尤其是针对口语化的评论。1.3经济意义 通过情感分析技术对网络上出现的格式评论做挖掘与分析,产生的重大意义是之前人工分析所不能比的。一个产品的褒贬评价能够影响大部分消费者消费的意愿,对于整个产品的销量有着不可估量的影响,进一步是对企业今后的发展有着重要的战略意义。通过对产品评论的挖掘分析,我们可以对用户评价,用户的情感倾向和产品销量之间的关系进行研究,对评论是如何影响产品销量情况来建立理论关系模型,不止局限于大型的电商网站,互联网上任意关于该产品的评论信息都可以成为分析的输入数
16、据源。 电影电影的票房往往会与网络上评价成正相关,如果好评数比较多,则票房一般来说会比较高。利用情感分析技术,建立基本的预测模型,再讲从评论中挖掘的情感和观点引入预测模型,那么就可以通过前期的票房数和网络上的评价进行票房预测。一些研究学者发现评论的数量和评论的评分均值均会对销量产生一定的影响,但是评分的均值影响作用力在上线的前期会更加明显,评论的数量则可能会影响后期的票房。电子产品 关于电子产品的评论,会对产品的销量产生一些影响,获取会有一些干扰因素,因为一些电子商务的商家会采取一些“控评”的手段,将差评删除,尤其是一些自营的商家,对评论有完全的掌控权,而淘宝或是京东这种情况较为少,更多是刷一
17、些好评,来提高好评率;同时评论者也不是完全专业的能够给出客观的评价,这点在电子产品上体现得非常明显,许多的消费者都不能对产品的属性表达出合理的描述,对于一些性能相关的电子器件没有评论出或者找错对象,则评论的数据就缺少了很多参考价值。但是整体的评价还是会对销量产生一定的影响。餐馆 我们可以收集来自餐馆顾客的评论,评论的情感与特定的词之间一般会存在一些联系,例如用“现金,只,卡,接受”等词的顾客通常都是在表达消极的情感,即对餐厅现金政策的不满;为了表达对“肉”的积极情感,人们用“嫩”、“酥脆”、“多汁”、“皮”等词。这说明情感和我们句子中的一些中心词是有联系的,挖掘这种联系并且将情感分析的技术应用
18、到餐厅的经营当中,可以使餐厅的发展更加有针对性,及时发现自己的不足与优势。1.4 本文工作本文主要的研究目标实现产品评论属性类别分类方法实现,主要的目标是实现一个分类器,设计建立一个情感分类模型,可以准确识别电子产品评论的属性类别。简要阐述一下本文研究过程主要包含的几个步骤:(1) 训练阶段I. 通过爬虫程序从京东收集语料(用爬虫程序),收集电子产品领域的中文评论语料;II. 标注评论的属性类别,进行去重等处理后得到文本文件;III. 利用LSTM序列标注模型构建学习器(2) 测试阶段 测试学习器,对其的功能和性能进行评估和优化第二章 相关知识介绍互联网上充斥着大量的在线评论和非结构化形式的文
19、本,情感倾向和属性分类的任务则是自动从评论中挖掘用户对产品和服务的态度。对在线评论的情绪分析工作可分为两个重要的步骤,首先是从评论中提取出准确的属性类别特征,其次是建立模型,分析情感。建立分类模型目前的研究主要是利用统计机器学习中的分类技术,例如基于贝叶斯分类器方法,基于递归神经网络(RNN)的方法,基于支持向量机(SVM)的方法,和最大熵分类器等等。2.1分词技术 中文与英文不一样,中文最基本的组成单元是“字”,英文是有意义的“词”;中文具有意义的最小单位是“词”(包含单字词);并且词与词之间是没有空格,也就是没有明确的界限,这就需要我们用到分词技术。中国科学院计算技术研究所专门开发了汉语词
20、法分析系统ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System)。本次实验我们用python来训练,过程中一般都会用到结巴分词(JieBa)。2.1.1关键问题 作为中文信息处理的基础步骤,分词对信息处理挖掘的性能有很大的影响。但在分词过程中需要解决一些问题。I. 中文存在歧义。中文词与词之间没有分隔符,例如“汽水不如果汁好喝”,可以分成“汽水/不如/果汁/好喝”,也可以被分成“汽水/不/如果/汁/好喝”;歧义可分为两种,一种为组合型歧义,即假如A和B都是词典中的词,若待切分的字符串包含“AB”这个子串
21、,那么必然就会出现两种不同的划分情况;另外一种为交集型歧义,如果AB和BC都是词典中的词,那么如果待切分的子串又同时包含了“ABC”字符串,那也必然会出现两种分词的结果。有时也会出现两种混合的情况,但在中文文本中,数据显示交集型歧义和组合型歧义出现的比例为22:1。II. 未登陆词的识别困难。一些实体名词和专业名词,例如人名、地名、机构的名字,或者是专业术语和新词语,尤其是现在收集网络上的评论信息,网购的很多消费者都是年轻一代,使用的词很多都是网络用语,因此我们的词典里有很多词都未被涵盖到,这些词没有明确的界限,并且可能本身的构成单元可以是一个独立词,例如“吴建国”,针对这些情况,只能通过外部
22、环境上下文,或者是内部构成,文段的用字规律来解决识别问题。当今对于人名和地名我们技术已经较为成熟,但是其他词语,特别是新词语还存在困难。2.1.2中文分词算法现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和统计分词方法【1】。I.基于字符串匹配的分词方法:它根据一定的策略对汉字字符串的分析和“大”机器字典条目的匹配,如果在字典中找到一个字符串,匹配(识别一个单词)有四种顺序:1)正向最大匹配方法(从左到右)2)反向最大匹配方法(从右到左):3)最小切割(尽量减少每句话的字数)4)双向最大匹配方法(从左到右,从右到左) II.基于理解的分词方法:这种分词方法是通过使计算
23、机模拟人对句子的理解来达到识别词的效果。基本思想是使用句法和语义信息来处理歧义。它通常包括三个部分:子系统、句法语义子系统和一般控制部分。在总控制部分的协调下,子系统可以获得词语、句子等语义信息的句法和语义信息,来判断分词歧义,即模拟人们对句子理解的过程。这种分词方法需要大量的语言知识和信息。由于汉语知识的普遍性和复杂性,很难将各种语言信息组织成一种可以直接通过机器阅读的形式。因此,对分词系统的理解仍处于实验阶段。III.基于统计的分词方法:提出了大量的分词文本,并利用统计机器学习模型来学习分词规则(称为训练),从而实现对未知文本的分割。例如,最大概率分词法和最大熵分词法。随着大规模语料库的建
24、立和统计机器学习方法的研究和发展,统计中文分词方法逐渐成为主流的方法。IV.主要统计模型:N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model ,HMM),最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)等。2.1.3结巴分词结巴分词支持以下三种分词模式【2】:1精准模式,尽量精确的裁剪句子,适合于文本分析;2.全模式,在句子中将所有可以变成词的词被扫描出来,速度非常快,但不能解决歧义;3.搜索引擎模式【5】。在准确的模型基础上,将长词再次切割和切割,提高了召回率,适用于搜索引擎分词。并且,结巴分词还支持自定义词典
25、,使用自定义词库的功能,可以将自己的词语放入文本文件,在使用结巴分词之前加载此词典,那么可以有效的解决一些网络用语和人名地名的未登陆词问题。2.2 特征提取在建模的过程中,其中重要的一步就是特征提取,其中特征的选择会对文本分类产生极大的影响。基于机器学习的情感分析技术,第一步就是提取特征,一般来说需要训练集来训练分类器,然后才能达到分类的效果,而得到训练集的过程中需要大量的人工来手动对文本进行甄别判断,这样就会导致成本较高,也就是大量的人力和财力资源可能会被浪费。此外,随着网络的逐渐扩大和网络语言内容的丰富,人工方式建立的情感词典识别效果通常会比较低。通常的特征抽取,包含两种方法,一种是直接完
26、全基于评论本身;另一种方法是建立情感的语义模式,学习生成独立的情感字典,然后对评论进行建模分析,通过输入来获得整个关于评论想抽取的信息。2.2.1 特征选择方法特征选择的主要目的有两点:1.减少特征的数量并且增加训练速度,这对于一些复杂模型是很重要的。;2.减少白噪音(noisefeature)来提高模型的准确性的测试集,有些噪声特征会导致错误的模型的泛化,导致测试集糟糕的性能。此外,从模型的角度复杂性,模型的复杂性越高,越有可能过度拟合(overfitting)。最基本的从文本中抽取特征的方法就是根据词语,在英文中即为单词,通常来说,一句话中的关键词就代表了这句话的情感,例如说评论里包含“垃
27、圾”,那么多半这句话的情感就是偏向负面情绪。为了提高分类的效率,我们可以在分类之前使用特征选择的方法来剔除一些不必要的词汇。关于文本文档,我们通常使用常见的特征选择方法:文档频率,信息增益,CHI统计,互信息等方法。2.2.2 文本向量化想要文本在计算机上能够得到处理,那么就必须使文本转化成计算机可以读的格式,并且还要能表达这个文本的完整含义,这是自然语言处理的一个核心问题之一。文本被表示为一种可以被计算机理解的形式,称为文本表示,文本向量化。文本向量化可以分为向量表达、短文本向量表达、长文本向量表达,根据不同的情况需要不同的方法和处理方法。I.向量空间模型(VSM)。一般所指的向量空间模型也
28、可以被称作词袋模型(Bag-of-words),Bag-of-words模型是信息检索领域常用的文档表示方法,BOW使用一组无序的单词(words)来表达文本或文档。在信息检索中,BOW模型假设一个文档,忽略它的词序和语法、句法等元素,它只是作为几个单词的集合,文档中的每个单词的出现都是独立的,不依赖于其他单词。换句话说,文档中任何位置出现的任何单词都与文档的意义无关。近年来,BOW已广泛应用于计算机视觉领域。向量空间模型对文本的表示有很好的影响作用,可以表示为空间向量,具有很强的可计算性和可操作性。向量空间模型是文本分类中应用最广泛的文本形式化模型。但向量空间模型的缺点也很明显,忽略了特征的
29、顺序和位置之间的关系,而不考虑文本的长度,不管语义关系,相信所有的特征是独立的,只考虑出现在文档文本的类别特征频率,情感分类中的应用存在一定的局限性。II.词嵌入(word embedding)。词嵌入的主要原理是,给出一个文档,文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。它的主要作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。词嵌入word embedding已经不是一个新的话题了,在此之前,有很多相关的研究,比如bengio的论文“Neural probabilisti
30、c language models”,更早之前,Hinton就已经提出了分布式表达(distributed representation)的概念。常见的词嵌入word embedding方法就是先从文本中为每个单词构造一组特征,然后对这组特征做分布式表达(distributed representations)。在Tomas Mikolov发的这两篇paper:分别为“Efficient Estimation of Word Representations in Vector Space”、“Distributed Representations of Words and Phrases an
31、d their Compositionality”中,提出了一个word2vec的工具包,里面包含了几种word embedding的方法。在word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder,又称一位有效编码,它主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词;而Skip-Gram正好相反,是从目标字词推测出原始语句。CBOW对小型数据库比
32、较合适,而Skip-Gram在大型语料中表现更好。 2.3分类模型本节主要是对我们分类用到的深度学习模型来做介绍,涉及到的有LSTM模型长短期记忆模型(long-short term memory),最大熵模型,CNN卷积神经网络模型等。2.3.1 CNN(卷积神经网络)模型卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,在其人工神经元的范围内可以作用于一部分单元的响应,对大型图像处理具有良好的性能。它包括卷积层(convolutional layer)和池化层(pooling layer)。近年来,卷积神经网络在语音识别、人脸识别、通用物体
33、识别、运动分析、自然语言处理等多个方面都取得了突破性进展。卷积神经网络与普通神经网络的区别在于,卷积神经网络由卷积层和子采样层组成的特征提取器组成。在卷积神经网络的卷积层中,神经元只连接到相邻层的一部分。在CNN的一个卷积层,平面(特征图)通常包含一些特征,每个平面的特征由一些神经元的矩形排列组成,神经元的相同特征的平面共享权,这里的权重是卷积核。卷积核通常以随机十进制矩阵的形式初始化。在网络的训练过程中,卷积核将学习到合理的权重。共享权重(卷积核)的直接好处是减少网络层之间的连接,同时降低过度拟合的风险。子抽样也称为池,它通常有两种形式:平均池和最大池。子抽样可以看作是一个特殊的卷积过程。卷
34、积和子采样极大地简化了模型的复杂性,降低了模型的参数。卷积神经网络通常包含以下几种层:卷积层(Convolutional layer),卷积神经网路中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。线性整流层(Rectified Linear Units layer, ReLU layer),这一层神经的活性化函数(Activation function)使用线性整流(Rectified Linear Units, R
35、eLU)f(x)=max(0,x)f(x)=max(0,x)。池化层(Pooling layer),通常在卷积层之后会得到维度很大的特征,将特征切成几个区域,取其最大值或平均值,得到新的、维度较小的特征。全连接层( Fully-Connected layer), 把所有局部特征结合变成全局特征,用来计算最后每一类的得分。此外,卷积神经网络有两种特性方法可以降低参数数目,首先是局部感知。它对隐含单元和输入单元间的连接加以限制:每个隐含单元仅仅只能连接输入单元的一部分,每个隐含单元连接的输入区域大小叫r神经元的感受野(receptive field)。由于卷积层的神经元也是三维的,所以也具有深度。
36、卷积层的参数包含一系列过滤器(filter),每个过滤器训练一个深度,有几个过滤器输出单元就具有多少深度;其次是权值共享。我们将这些卷积操作看成是提取特征的方式,该方式与位置无关。在实际应用中,往往使用多层卷积,然后再使用全连接层进行训练,多层卷积的目的是一层卷积学到的特征往往是局部的,层数越高,学到的特征就越全局化。2.3.2 LSTM模型 长短期记忆模型LSTM(Long Short-Term Memory)是一种特殊的RNN模型,是为了解决RNN模型经常出现的梯度消失和梯度膨胀问题的问题而提出的;RNN,如图2.3所示,可以被看作是一种特殊类型的神经网络,每个隐藏单元都从它在当前时间步上
37、观察到的数据以及它在前一个时间步中的状态得到输入。RNN的输出定义为:(2.1)其中 是一些非线性的挤压函数,而wi和ui是控制当前和过去信息相对重要性的网络参数。每个RNN单元在当前时间帧xt和之前的时间步中接受新的输入,ht-1和单元的新输出按(2.1)计算,可以在多层RNN中被馈送到另一层处理。 图1 RNN在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此需要一个存储单元来存储记忆,因而LSTM模型被提出,这个单元结构被称之为“cell”,随着时间的推移它会积累信息。一个LSTM的内存单元被
38、封闭,这样它就允许从它读取或写入信息。此外比较特别的是,LSTM还包含一个遗忘门,它允许网络在不需要的时候删除信息。LSTM由三个不同的门控制(输入门it,忘记门ft,输出门ot),以及记忆细胞状态ct。图如下所示:图2:LSTM输入门由当前输入xt和前一个状态ht-1控制,它将新的信息选择性的记录到cell状态中,它被定义为:,(2.2)其中wi,ui,bi代表权重,误差控制连接到输入门,通常是一个sigmoid 函数。类似的,遗忘门被定义为:,(2.3)它由相应的权重和偏置控制,wf, uf, bf。可以说,LSTM最重要的方面是它应对消失和爆炸梯度的挑战。这种能力通过附加遗忘和输入门状态
39、的加法组合来实现,以确定内存单元的状态,从而控制信息是否通过输出门传递到另一个单元格。具体地说,计算单元状态分为两个步骤。首先,一个候选单元状态通过如下公式进行估计:, (2.4)通常是一个双曲正切。第二,最后单元状态终于由当前估计状态gt和前面的单元状态ct1控制,ct通过调制输入门和忘记门确定:.(2.5)最后,利用单元的状态以及当前和以前的输入,估计输出门的值和LSTM单元的输出:, (2.6)其中,(2.7)2.3.3支持向量机(SVM)支持向量机是Vapnik在1995年提出的一种新的统计学习方法。本质上是一个能够将不同类样本在样本空间分隔的超平面,它以VC理论和结构风险最小化理论为
40、基础。主要基于以下三个方面:(1)基于结构风险最小化原则,利用VC维来减少,降低机器学习的风险,提高其推广能力;(2)基于有限样本信息的模型复杂度(即其对具体训练样本的学习准确性)和学习能力(即准确性识别任何样本的能力的准确性,并寻求两个之中最好的,提高其良好泛化的能力)(3) 基于泛函中的 Mercer 定理,定义合适的内积 函数( 核函数) ,通过非线性变换将样本空间映射 到高维特征空间,并在其中寻求最优分类超平面【3】。超平面的计算公式: (2.8)其中 为权重向量, 为偏置。最优超平面一般表达公式:(2.9)其中 x 表示离超平面最近的那些点。第三章 语料 3.1 语料收集本次实验收集
41、的语料我们选择电子产品的评论,之所以选择电子产品的评论,一方面是因为电子产品算是比较专业性强的产品,那么它之中不仅会含有领域独立的属性类别,即是所有类别的产品都会有的一些类别属性,例如说“质量”,“外观”,“重量”,“包装”,这些都是所有的产品都会有的一些属性类别,同样在电子产品中也是很常见的,但电子产品会特有一些专业的属性,即领域依赖的属性类别,像“系统性能”,“存储”这样的属性类别,在其他的产品里大致是不可能出现的,那么就增加了我们产品类别的丰富性。另一方面,如今在互联网的大潮流之下,产品的分类研究对于数据挖掘来说具有非常广阔的前景,作为时下较为流行的一个研究项目,我们可以通过对互联网上电
42、子产品的评论分类来获取消费者对商品的态度,从而得到和商品预售前景的关系,电子产品不管是近两年,还是在未来,市场前景都是不可估量的。此次实验的语料皆为从网络上爬取的最新产品评论,主要来自于京东。我们的目标对象是电子产品,因此从京东上爬取了相关的电子产品,其中主要是电脑产品,此次的产品设计戴尔,苹果,华硕等品牌,在京东官方旗舰店上,不管是销量还是评论打分都是十分多的。通常来说,一个销量比较多的电子产品,它的评论会是比较客观公正的,但在标注过程中也出现了刷单,评论重复的现象。除此之外,大部分的评论都能够给出明确的评价类别和评论多带的情绪。图3:京东上的电脑评论来自(由于节省时间和节省人力的原因,我们
43、只在网络上收集3000条评论语料,来验证我们实验的准确性,根据最终的结果来看,虽然不是分类太准确,但是这些量的语料在LSTM模型下是有实验的可行性的,在有条件的情况下,我们还可以增加语料的量,爬取更多相关的电子类产品的评论,那么相信实验的数据会更加好。3.2 语料处理工作从京东收集来的评论语料是比较杂乱的,一部分的评论太随意,需要进行删减;一部分的语料会出现重复的现象,例如说刷单给好评的评论,这部分需要删除;此外,在进行语料训练之前,还要讲语料规范化处理,最后,再进行语料标注的工作,在语料标注的工作中,我们将每一句评论语料的属性标注属性类别。属性类别 本次的实验,我们将评论分成以下十几个类别:
44、重量,质量,外观,手感,正品,包装,价格(性价比),味道,此外还有电子产品特有的属性类别,即领域依赖的属性类别,包含存储:内存、硬盘、扩容、运行内存等;IO:键盘、鼠标、屏幕、摄像头、相机、声音、通话质量、信号、wifi等;计算:CPU、GPU、TPU、散热;主板;功能:红外线功能、定位功能、支付功能、指纹识别、Apple Pay、防水功能、虹膜识别功能、NFC功能等;软件;系统性能;速度;电池。共计17种类别。在我们完成的标注评论语料中,质量是比较多的,光是包含质量方面的评论就占了779条,占3000条评论中的25.97%,此外,出现最多的类别是外观项,总共出现了1205次,占所有评论数的比
45、例为40.17%,说明外观对于购买电子产品的消费者来说是一个非常重视的问题;我们认为领域依赖的属性类别,例如说存储IO,系统性能对于消费者来说,这是购买电脑一个必看的性能项,但是和外观等相比之下很多购买电脑的人,对于他们来说就不是那么重要看重了,例如说存储IO,它在3000条评论语料中占了705次,并不是十分高,占比23.5%,更不用说“计算”这个类别了,总计出现67次,许多的电子产品消费者可能意识不到电脑有时候许多问题跟计算有关,例如说散热,或者是不是从业专业性的工作,那么提到跟计算有关的性能方面的时候,说法会比较模糊不清。“系统性能”在评论中有提到相关方面的评论有692次,占比23.1%,
46、相对来说,这些类别在评论中被提及的占比是比较平均的,说明我们在互联网上收集的语料是较为客观正常的。语料标注举例: 1.这台电脑可以的,散热效果什么的,一直喜欢就买,别犹豫因为最后你还是会选择你喜欢的,就像人一样,选来选去还是喜欢重要系统性能2.人生自己买的第一台电脑,感觉很好没有想象中丑,反而觉得非常漂亮,很炫很酷,可惜不是跑马灯,跑分看图,仅供参考娱乐,希望耐操 外观3. 惠普挺好的,画质挺好的,喜欢,而且物流也挺快,点个赞IO4.京东送货挺快的,赶上小活动,价格合适就买了,虽然知道8代出来了,但是忍不住要上手一台,包装不错,唯一就是包装内电源线什么的没固定,比较杂乱,能跑29万分不错了,没
47、有漏光情况,游戏毫无压力,外观漂亮,比较重,屏幕很大,机身也大,背光键盘我喜欢,虽然宏键在旁边不习惯,总按到宏键上了,赞赞赞包装5.笔记本包装很不错!打开包装后感觉惊讶,实物比图片感觉好很多。新外观设计非常时尚,适合人群比较广。买的很值得。我已经第三次买惠普笔记本电脑了。十年前买的电脑还在用,就是现在软件大了,运行速度有点慢,所以又买了一台,去年还给孩子买了惠普笔记本。就是三次购买都没有赠送我原装包和鼠标。比较遗憾!希望这次能得到支持。机子还没有用,性能有待日后再评价。包装3.3评价指标 在信息检索、分类体系中,评价的指标对于我们分类器的效果检验是非常重要的,通常来说,我们使用准确率Preci
48、sion、召回率Recall、F1 Score、正确率accuracy这四个指标,其中自动分类最重要的两个指标是分别为准确率,召回率,查全率与召回率是一样的,准确率同样也被称之为查准率。其中三个指标可以这样定义:1. 正确率 = 正确识别的个体总数 / 识别出的个体总数【4】2. 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数3. F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)计算公式如下:precision = TP / (TP + FP)recall = TP / (TP + FN)F1 Score = P*R/2(P
49、+R),其中P和R分别为 precision 和 recallaccuracy = (TP+TN)/(P+N)其中,True Positive(TP)意思表示做出Positive积极的判定,而且判定是正确的。因此,TP的数值表示正确的Positive判定的个数。此外,False Positive(TP)数值表示错误的Positive判定的个数,根据此,True Negative(TN)数值表示正确的Negative判定个数。False Negative(FN)数值表示错误的Negative判定个数。准确率和召回率通常是相互影响的。理想情况下,两者都是高的,但通常准确度高,召回率低;召回率高,准
50、确率就低;如果两者都低,那么一般来说是某些环节出现了问题。第4章 实现产品评论属性分类 本次我们实验的目标,就是实现一个产品属性类别的分类器。根据前文所提及,共有15种类别分类结果,我们的任务就是旨在能够通过LSTM模型,由我们之前收集的3000条语料来训练出一个分类器,能够识别出这些产品评论的属性类别,当然在最后我们会评判通过LSTM模型分类的结果性能如何。实验结果表明,我们的模型具有分类的基本作用,能够比较好地识别产品评论的属性类别。4.1 产品评论分类研究意义 如今在互联网的大浪潮之下,一方面,网络不仅给网民提供了各种便利,类似于查阅资料,网络邮件等服务,另一方面,互联网还给网民们提供了
51、各种交互信息的平台空间,因而我们可以这样说,现在在网络上的人群,不只是在消费网络,本身也是网络上信息的创造者。电子商务平台就是这样一个地方,无数的网络消费者在其上购买产品,另外一方面,选择网络商务平台来购买产品的用户也在不断地产生信息,就产生了我们现在所研究是产品评论。如今的电子商务平台,尤其是像京东,淘宝,天猫这样大型的电子商务平台,上面每天都会产生成千上万的关于各式产品的评论。在这些海量的评论当中,一些人表达的是对于产品的喜爱,一些人是不满,无论什么样的情绪,都有一个感情表达的对象。所有的评论中不仅是含有表达的情感,此外还有表达的类别方向,每一句话,每一句评论中都包含一些描述语,这些描述语
52、像是“很卡”,“不好看”,都在提示我们这些评论表达情感的类别,无一不是在透露着这些产品在什么类别方面是优秀的,什么类别方面是比较拙劣的,仅仅是通过人工来判断很难得到一个结果,但是我们通过机器学习的方法来挖掘这些产品的评论信息。从经营者的角度来讲,挖掘这些信息对于产品今后的发展方向有着重要的指引意义;从消费者的角度来讲,可以有效发掘在某方面具有优势或者是看重的商品,对于某些属性类别特别不优秀的则可以避雷,因此,对于产品评论的属性类别分类有着十分重要的研究意义和应用前景。4.2属性类别分类方法 我们目前所做的内容还是基于传统的分类模型,首先需要我们手工来标注语料,并且我们对于语料的选择上并没有太多
53、的要求。主要是靠随机爬取的方式,在京东上面爬取了3000条电子产品(其中电脑类产品占大多数),随后我们将这些产品进行一个类别的标注,将所有的3000条收集的评论语料分成,重量,质量,外观,手感,正品,包装,价格(性价比),味道,存储,IO,计算,主板,功能,软件,系统性能,速度,电池 17个主要的类别,每一句评论语料只有一个类别,分类示意图如表一所示。最后,我们利用LSTM模型来进行训练,得到一个训练器可以将评论进行分类。大致的流程图如图四显示。电子产品评论属性类别人生自己买的第一台电脑,感觉很好没有想象中丑,反而觉得非常漂亮,很炫很酷,可惜不是跑马灯,跑分看图,仅供参考娱乐,希望耐操外观性能
54、强大,性价比高,CPU温度有点压不住,底座和抽风一起上,吃鸡差不多75度左右,死过两次机,估计还是温度问题,看看有没有更加好的散热方案系统性能 性价比 计算第一次在京东上购物,物流出乎意料的快,外观什么的很满意,键盘手感不错,正在下载个英雄联盟,玩了以后会再评论的外观 手感还挺好用的,也比较快,我用来做室内设计的,3d什么的完全带的动,就是有时会闪退,没什么大问题,颜值也很好系统性能 外观 表4.1:产品评论分类示例训练集文本特征提取预处理分类器性能评估 预处理分类结果测试集文本图4.1:基于机器学习的评论属性分类在本章中主要安排以下的内容:(1)使用gensim的word2vec来生成文本向
55、量;(2)基于theano后台技术来搭建神经网络模型(3)实验的结果分析4.2.1 Word2Vec训练词向量想要提取特征,就必须先使用向量将我们的文本文字用以向量表示。Gensim读取一个语料库,输出一个向量,在文档中表示一个单词,然后用词向量来训练各 种分类器模型。在本次实验中我们使用gensim中的word2vec来处理语料,词向量最初是用one-hot represention表示的,将我们预处理完毕的数据通过word2vec来训练低维词向量(word embedding)。Word2Vec包含了两种词训练模型:CBOW模型和Skip-gram模型。CBOW模型根据中心词W(t)周围的词来预测中心词,而Skip-gram模型则根据中心词W(t)来预测周围词。在本次的实验过程中,我们直接使用保存好的训练词向量文件,通过gensim.models.Word2Vec.load()的办法导入使用model_ngram_ali_all_QAnotdiff.m训练词向量文件。4.2.2 基于LSTM的类别分类方法 通过之前对文件预处理的操作之后,我们选择LSTM分类模型来进行产品评论类型的分类训练,分类器是文本分类问题中的最核心最重要核心部分,在进行文本分类过程中常用的分类器有支持向量机(SVM),最大熵分类器(ME),K近邻分类器(KNN)等,本文中主要使用长短时记忆神
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 16265-2025包装材料试验方法相容性
- 2025年三级验光员试题及答案
- 2025年产品综合面试题目及答案
- 2025年供应链专业考试题及答案
- 2025年护士考试题目及答案
- 机票订购协议书
- 材料增加协议书
- 材料运输协议书
- 村用调解协议书
- 村路移交协议书
- 广西南宁市青秀区第二中学2024届物理八下期末联考模拟试题及答案解析
- 泳池清洁机器人技术规范
- (完整版)弱电工程全套竣工资料
- 有限空间作业安全施工方案完整
- 华悦球团无组织排放评估报告
- 文秘岗面试题
- 2024年贵州国企招聘笔试参考题库附带答案详解
- 基于GIS的商业选址分析与研究
- 钢结构工程计量与计价培训资料
- 常年法律服务建议书
- 深基坑专项施工方案专家论证会议签到表
评论
0/150
提交评论