(计算机应用技术专业论文)产品网络评论挖掘研究.pdf_第1页
(计算机应用技术专业论文)产品网络评论挖掘研究.pdf_第2页
(计算机应用技术专业论文)产品网络评论挖掘研究.pdf_第3页
(计算机应用技术专业论文)产品网络评论挖掘研究.pdf_第4页
(计算机应用技术专业论文)产品网络评论挖掘研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着电子商务的迅速发展,网络上涌现了许多购物网站和产品论坛,这些购物网 站和产品论坛不只介绍商家的产品,还为消费者提供了发表评论的平台,消费者能及 时的将对商品的评论反馈给商家以及那些潜在的消费者。越来越多的人在做出消费决 策前喜欢先到互联网上参考用户和媒体对某产品的评论和报道信息。但是互联网上的 信息数量巨大,全部阅读这些评论来帮助做出决策十分困难,所以急需一种有效的文 本挖掘方法应用在观点评论上。 评论挖掘是文本挖掘的一个应用。文中简述了文本挖掘的概念和文本挖掘的技术 方法,然后介绍了评论观点挖掘的处理方法以及涉及的技术,包括领域词的获取、词 语相似度的计算、构建情感词典计算文本情感倾向、句法分析等技术。 本文通过简单候选领域词+ 扩展领域词过滤的方法得到最终的领域词。实验结果 表明,使用本文中的两步走的方法确实能提高领域词获取的准确率。 本文还研究了利用知网计算词语相似度的计算方法。知网含有丰富的词 汇语义知识和世界知识,内部结构复杂,是一部比较详尽的语义知识词典。在情感倾 向识别试验中,达到了9 9 以上的准确率。 在本文第五章,构建了一部基本情感词典和一部领域情感词典。根据这些情感词 典就可以计算文本的情感倾向度了。本文在计算文本情感倾向度时,还考虑了情感词 的词性、否定词、程度副词、词语特征向量对情感词情感倾向度的影响,取得了较好 的实验结果。 第六章中对指代消解、句法分析技术做了一些探讨,并利用句法分析树挖掘主题 词与情感词的匹配关系。 基于上述方法,本文搭建了一个基于互联网的产品评论挖掘系统。该系统结果以 直观的报表形式展现,用户可以从中得到一些非常有价值的信息。 关键字:评论挖掘;领域词;情感词;情感分析;句法分析 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fe l e c t r o n i cc o m m c r c e ,p l e n t yo fs h o p p i n gw e b s i t e sa n d p r o d u c tf o r u m ss p r i n go u to nt h ei n t e r n e t ,w h i c hn o to n l yi n t r o d u c et h ep r o d u c t s ,b u ta l s o p r o v i d eap l a t f o r mf o rc o n s u m e r st oc o m m e n t c o n s u m e r sc o u l df e e d b a c kt h e i rr e v i e w s t o e n t e r p r i s e so rp o t e n t i a lc o n s u m e r s m o r ea n dm o r e c o n s u n l e r sp r e f e rt ob r o w s et h er e w e w s a n dp r o d u c tr e p o r t sp r o v i d e db yo t h e rc o n s u m e r sa n dm e d i a so nt h ei n t e r a c tb e f o r e m a k i n gad e c i s i o n h o w e v e r , i ti sn o ti m p o s s i b l et or e a da l lt h ei n f o r m a t i o nw h i l em u c h i n f o r m a t i o nf l o o d so nt h ei n t e r n e t t h e r e f o r e ,av a l i e dm e t h o do nt e x tm i n i n gw h i c h a p p l i e st or e v i e w si su r g e n t r e v i e w sm i n i n gi sa l la p p l i c a t i o no ft e x tm i n i n g t 吣sp a p e ro u t l i i n e dt h ec o n c e p ta n d t e c h n o l o g i e so ft e x tm i n i n g , t h e ni n t r o d u c e dt h em e t h o d so fr e v i e w sm i n i n ga n dr e l a t e d t e c h n o l o g i e s ,i n c l u d i n gt h ea c c e s so ff i e l dw o r d s ,t h ew o r ds i m i l a r i t ye a l c u l a t i o n ,c o n s t r u c t e m o t i o n a ld i c t i o n a r yt oc a l c u l a t et h et e x tf e e l i n g st r e n d ,s y n t a xt e c h n i c a la n a l y s i se t c e x t r a c t i n gf i e l dw o r d sf i r s t ,t h i sp a p e rg o tt h ef i e l dw o r d st h r o u g hs i m p l ec a n d i d a t e f i e l dw o r d sa n dt h ef i l t r a t i o no fe x t e n d e df i e l dw o r d s t h ee x p e r i m e n tp r o v e dt h a tt h e t w o s t e l ) m e t h o dc o u l di m p r o v et h ea c c u r a c yo ft h ef i e l dw o r d se x t r a c t i o n t 1 1 i sp a p e l a l s oe x p r e s s e dam e t h o dt oc o m p u t et h es i m i l a r i t yb e t w e e nw o r d su s i n g h o w n e t h o w n e th a sp l e n t yo fw o r d ss e m a n t i ck n o w l e d g ea n dw o r l dk n o w l e d g e i t s s t r u c t u r ei sc o m p l i c a t e d ,a n di ti sas e m a n t i ck n o w l e d g ed i c t i o n a r y i nt h ee x p e r i m e n t so f w o r ds e n t i m e n ta n a l y s i s ,t h ea c c u r a c yw a sh i g l lt 09 9 ab a s es e n t i m e n td i c t i o n a r ya n daf i e l ds e n t i m e n td i c t i o n a r ya r ec o n s t r u c t e di nc h a p t e r f i v e a c c o r d i n gt ot h e s ed i c t i o n a r i e s ,t h es e m t i m e n td e g r e eo f t e x tc a nb ec o m p u t e d t h e i n f u e n c eo fp o s ,n a g a t i v ew o r d s ,d e g r e ea d v e r b s ,w o r d se i g e n v e c t o ra l s oc o n s i d e r e d w h i c hm a k e sag o o dr e s u l ti nt h et e x ts e n t i m e n ta n a l y s i se x p e r i m e n t c o r e f e r e n c er e s o l u t i o na n ds y n t a c t i c m a t c h i n gr e l a t i o nb e t w e e nk e y w o r d sa n d a n a l y s i st r e e a n a l y s i sw e r ed i s c u s s e di nt h ec h a p t e rs i x t h e s e n t i m e n tw o r d sw e r ee x t r a c t e du s i n gs y n t a c t i c t h el a s tp a r to ft h i sp a p e rc o n s t r u c t e dap r o d u c tr e v i e w sm i n i n gs y s t e mb a s e do n i n t e a n e to nt h em e t h o d ss t a t e da b o v e t h i ss y s t e mp r o v i d e sh a n d yr e p o r t ,w h i c hc o n t a i n s v a l u a b l ei n f c l r m a t i o nf o rc u s t o m e r s k e yw o r d s :r e v i e w sm i n i n g ,f i e l dw o r d s ,s e n t i m e n t a lw o r d ,s e n t i m e n t a la n a l y s i s , s y n t a c t i ca n a l y s i s i i 学位论文版权使用授权书 本人完全了解北京信息科技大学关于收集、保存、使用学位论文的 规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子 版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本 学位论文全文或者部分的阅览服务;学校有权按有关规定向中国科学技 术信息研究所等国家有关部门或者机构送交论文的复印件和电子版;在 不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用 于学术活动。 - - - 一- - - 一- - - - - - _ - - - - - - - - - - 一- - 一o - - - 一叶一一o - 一一o - o - - - - -文写一 经指导教师同意,本学位论文属于保密,在年解密后适用本授 权书。( 注:论文属公开论文的,作者及导师本处不签字) 指导教师签名:学位论文作者签名: 年月日年月 日 硕士学位论文原创性声明 本人郑重声明:所呈交的论文题目为产品网络评论挖掘研究学 位论文,是本人在导师指导下,进行研究工作所取得的成果。尽我所知, 除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人 创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及 的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。 本学位论文原创性声明的法律责任由本人承担。 作者签字:- 、tz 二 作者签字: z 龟 姊,月,乡e l | j 7j 第一章绪论 1 1 研究背景 第一章绪论 随着互联网的大规模普及和企业信息化程度的提高,各种资源呈几何爆炸式增 长,有专家估计,平均每1 8 个月信息量就翻一番,而且能被利用的数据只有5 - - 1 0 。 然而,相关研究指出,全球前2 0 0 0 名的企业组织的资料超过8 0 都是非结构化的文 本信息形式,如企业技术报告、市场报告、各种文书、担保材料、呼叫中心的客户投 诉记录、交互式访谈或客户发送的e m a i l 意见或建议、企业外部尤其是网上与行业 发展有关的新闻报道、产品与技术报道以及竞争对手的动向等等。对于这种半结构或 无结构化的数据,用传统方法获取特定内容信息的手段却较弱,导致信息搜寻困难和 信息利用率低下。文本表达了大量的、丰富的信息,同时包含了许多未被所有者发现 的潜在知识。面对浩瀚的文本资源,传统的文档和文本处理工具己经不能满足用户的 需求。面对如此庞大的数据,如何提高数据的利用率,增加企业在市场上的竞争力? 于是在人工智能研究领域结合结构化数据库中的数据挖掘技术,提出了一种有效的、 可以充分利用这些文本数据的新的信息处理技术文本挖掘( t e x tm i n i n g ) 。 最近几年,电子商务迅速发展,网上购物己变得不再陌生,越来越多的人足不出 户就能买到自己想要的商品。针对这一新形势,网络上涌现了许多购物网站和产品论 坛,这些购物网站和产品论坛不止介绍商家的产品,还为消费者提供了发表评论的平 台,这样,消费者就能及时的将对商品的评论反馈给商家以及那些潜在的消费者。因 此越来越多的人在做出消费决策前先到网上参考媒体对某产品的报道以及用户的评 论信息,越是奢侈贵重的产品越是如此。作为产品厂商和销售商,为了了解用户的需 求和对产品的反馈意见,当然希望能够对互联网上的新闻报道和用户评论信息进行分 析,及时了解和预测消费者的消费倾向,以便做出及时的产品调整和超前的销售决策。 目前,随着人们对商品评论的重视,商品评论呈指数级增长,并且这些评论出现 在许多论坛、电子公告板以及门户网站上。而这些评论从本质上讲就是一种文本,面 对如此数量的文本,对于一个关注该商品的并打算购买该商品的潜在消费者或者希望 了解用户对其产品评价的产品厂商而言,全部阅读这些评论以至于帮助自己做决定将 变得十分困难,所以急需一种有效的文本挖掘方法应用在观点评论上。 1 2 研究现状 观点评论挖掘是目前数据挖掘、文本挖掘、自然语言处理等领域的热点研究课题 第一章绪论 之一。短短几年的时间,无论在英文领域还是在中文领域,观点评论挖掘技术都取得 了很大的进步。在国外,2 0 0 2 年是评论挖掘开始兴起的一年。在这一年里,首先p e t i | 提出将语义倾向性应用在非监督的评论分类上,并设计了一个简单的算法。该算法目 的就是将评论分为两类,推荐( r e c o m m e n d e r ) 和不推荐( n o tr e c o m m e n d e r ) 。一段评论将 由包含在该评论中的形容词和副词的语义倾向性决定,也就是说,如果一段评论的平 均语义倾向性为正,则可以把该评论划分为推荐一类,反之,划分为不推荐那一类。 p e t e r 利用p m i i r 2 l 算法计算一个短语或者词语的语义倾向性,主要思想就是分别计 算给定的短语与“e x c e l l e n t 词和“p o o r ”词之间的互信息,然后两者之差就是给定 短语的语义倾向性值。文章实验语料来自于h t t p :w w w e o p i n i o n s c o m 网站,选取了四 个领域的评论汽车、银行、电影以及旅游地,最终实验的准确率达到了7 4 。1 3 0p a n g 和l i l l i a nl e e 等人【3 】使用机器学习的方法对观点评论分类。文章采用电影评论作为实 验语料,使用了三种机器学习的分类方法:朴素贝叶斯,最大熵模型和支持向量机模 型。虽然实验结果不是很理想,但这也从另一方面反应出评论的分类还面临很多的困 难,以及今后需要研究的重点和难点。 n e c 公司的s a t o s h im o r i n a g a ,k e l l i iy a m a n i s h i 等人【4 】在2 0 0 2 年提出在网络上挖 掘产品声誉度的想法,他们认为,了解自己或者竞争者的产品声誉度对市场营销和处 理与客户的关系是很重要的,但是手动的收集,分析调查数据是非常费时费力的。基 于这种情况,他们提出了一种新的框架来挖掘网络上的产品声誉度。设计的这个框架 能自动地从网页上收集人们经常关注的产品的意见,然后通过文本挖掘技术获取那些 产品的声誉度。首先他们通过选定人工测试的样本,提前依照句法和语言学的规则判 断所给的句子是否为观点句,同时确定该观点句是褒义还是贬义。对于一个给定的目 标产品,利用搜索引擎进行收集该产品的所有相关评论,随后利用规则抽取观点,并 且在每个观点上帖上三个标签,分别为产品的名称,观点的褒贬以及一个表明该陈述 句置信度的数量值,随后将标注后的观点放入数据库。文章将存入数据库的句子作为 挖掘的语料,执行四种文本挖掘的技术:抽取特征词,挖掘共现的词,提取典型句和 多个类别的相似分析。真实的数据证明了这种方法相比于传统方法的有效性,同时也 减少了声誉度分析的成本。 除此之外,国外也有些研究机构将对观点评论挖掘做成了一个系统,并在商业上 有着很高的应用价值。2 0 0 3 年,n e c 公司的k u s h a ld a v e 等【5 】几名研究员开发了一个 r e v i e w s e e r 系统,该系统通过对评论性文章的语义倾向分析,为商品的受欢迎程度进 行打分评价,为商家及其消费者提供了非常重要的商业信息;微软美国研究院g a m o n 等【6 】人所开发的p u l s e 系统可以自动挖掘网上用户所上载的自由文本中有关汽车评论 中的褒贬信息和强弱程度;i b m a l m a c l e l l 研究中心的和b i b l a c k t7 j 介绍了该研究中 心开发的w e b f o u n t a i n 系统中的意见挖掘器。 2 第一章绪论 从2 0 0 4 年到2 0 0 5 年之间,美国伊利诺斯大学b t d gl i u ,m i n q i n gh u 等人开始对 商品特征挖掘进行系统的研究。文献【8 】首次提出利用关联规则挖掘算法挖掘商品评 论中的隐藏的商品的特征,分四个步骤挖掘商品特征,以及评价这些特征可能的观点 词。文献【9 】是文献 8 】的后续工作,主要分为三个步骤:第一挖掘消费者经常提到的 商品特征;第二判定评价商品特征句子的语义倾向性;第三总结挖掘的结果。语料来 源于w w w a m a z o l l c o m 网站,并且通过实验证明了他们算法的有效性。文献【1 0 】是对 前两篇论文所做工作的总结,同时开发的原型系统o p i n i o no b s e r v e r 可以处理网上在 线顾客产品评论,对设计产品( 电子照相机) 各种特征的优缺点进行统计,并采用可视 化方法对若干种产品的特征的综合质量进行比较。 近两年以来,随着对商品评论挖掘的不断研究以及b l o g 不断普及和流行,国外 有些学者己经开始对b l o g 文档进行观点情感分类f l l ,1 2 1 ,还有人开始在新闻和b l o g 中 抽取观点,跟踪热点新闻,人物等等【l 引。2 0 0 6 年,t r e c ( t e x tr e t r i o v a lc o n f c r c n c , e ) 首次加入t r e c b l o g 子任务,目的在于将目前比较流行的评论挖掘应用在信息检索 上。 由于中文和英文的差异,基于中文领域的观点评论挖掘才刚刚起步。最初的代表 是香港城市大学t s o u 等人在w e b f o u n t a i n 系统研究的基础上对中国四地( 北京、香 港、上海、台北) 报刊上有关四位政治人物( 克里、布什、小泉纯一郎、陈水扁) 褒 贬性的新闻报告进行了分类研究【1 4 】。在研究中,首先通过标记语料库获得文本中的极 性元素,然后主要采用了三个衡量指标,即极性元素的分布、极性元素的密度和极性 元素的语义强度来对每个文本进行统计,得出文本褒贬分类和强度大小的结果。最近 两年最具代表性的是上海交通大学计算机科学与工程系姚天防老师的团队,2 0 0 6 年 该团队成功开发了一个用于汉语汽车评论的意见挖掘系统【1 5 1 ,该系统的目的是在电子 公告板、门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标 的评论和意见,并且判断这些意见的褒贬性以及强度。在意见挖掘系统的设计中,他 们定义了一些基本的资源和处理算法的数据结构,如汽车本体、极性词词典、基本元 素、语法关系树、匹配规则。通过对文本处理的综合统计,给出可视化的结果。意见 挖掘系统的测试结果显示了系统平均召回率达到了8 0 ,总平均精确率达到了6 0 。 这项研究是对汉语主观性文本处理的一次探索,特别是文本各个层次处理所设计到的 词汇、句子和文本极性和强度判断以及它们之间关系的分析。 根据国内外的研究背景以及前人的技术积累,2 0 0 7 年,观点评论挖掘以及句子 的语义倾向性判别己经成为很多学者的研究热点。2 0 0 7 年8 月份,在大连理工大学 举办的“第九届全国计算语言学学术会议 【l6 】上,已经初现一些学者在情感分析, b l o g 的信息挖掘方面有所研究。比如姚天防老师提出一种汉语语句主题语义倾向分析 方法,利用本体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题 3 第一章绪论 和情感描述项之问的关系,从而决定语句中每个主题的极性。观点评论挖掘的过程就 是要在自然语言主观性文本中自动确定这些元素以及它们之间的关系。另外还有如 “基于聚类引擎的话题褒贬度计算”、“基于内容相关度和语义分析的热点话题发现一、 “基于多重冗余标记c r y 的句子情感分析研究 等等。 2 0 0 7 年l o 月,在武汉大学举办的“第七届中文信息处理国际会议,l 】中,福州 大学的蔡健平做了一篇关于“基于语义理解的意见挖掘 报告,他们研究意见挖掘系 统的目的是在论坛上挖掘并且概括网络用户对某物及特点的各种评论,同时判断这些 意见的褒贬性以及强度。北京邮电大学的马月珠等人对评论性文章的情感分类做了一 些研究,他们提出一种面向语义的文本情感分类技术,通过分析文本中的特定短语模 式来获得文本的情感特征,对于文章的复杂句子进行语义层的深入分析。最后实验证 明了方法很好地体现了文本中的语义信息,准确率和召回率都达到了9 0 以上。 2 0 0 7 年1 1 月,苏州大学举办的“第三届全国信息检索与内容安全学术会议一【l 剐 上,关于观点评论及其倾向性分析方面就有多达8 篇研究论文,这在过去两届会议上 是从没有过的。值得一提的是,在该会议中,北京大学苏棋提出一种新的面向观点挖 掘的产品评价特征词识别算法。作者认为,目前的观点挖掘技术通常只帮助识别主观 性文本中所表达的整体观点态度,研究尚未深入到所评价对象的具体细节。例如,关 于某个汽车产品的评论可能对汽车的外型赞赏有加,而对其动力系统持有否定态度。 这些不同的观点可以说是针对汽车产品不同特征的相应评价。目前的观点挖掘技术大 多是对评价句或评价篇章的整体进行褒贬倾向的分析。这样的分析方法无法进一步满 足更细化的用户需求。另外,复旦大学的章剑锋等人对中文评论挖掘中的主观性关系 抽取做了一定的研究。作者提出一种基于机器学习的方法看来对中文评论进行主观性 关系抽取,即抽取出表达主观性意义的评价词与其对应的评价对象。所要解决的关系 抽取不同于以往传统的任务,他们要抽取的是带有主观性的关系,即要带有评价信息。 相对于传统意义上的关系抽取有两点不同,第一作者所描述的关系抽取中的评价词不 仅可以是名词,还可以是动词,形容词或者副词。而传统的关系抽取都是抽取实体也 就是名词性短语之间的关系。第二个不同点是评论挖掘中抽取的是主观性的关系,而 传统的关系抽取不需要考虑句子的主观性。 此外,哈工大的信息检索研究室于2 0 0 8 年推出了他们的汽车领域产品评论的倾 向性分析与挖掘产品“问天爱搜车众评” 1 9 1 汽车评论挖掘平台,具有很高的实用 价值。 鉴于观点评论挖掘的重要性和近几年的研究进展,为更好推动这一课题的发展, 中文信息学会信息检索专委会于2 0 0 8 年8 月份推出了一项评测中文倾向性分析 评i 贝l j ( c h i n e s eo p i n i o n a n a l y s i se v a l u a t i o n ,c o a e 2 0 0 8 ) 。该评测分为6 个子任务:中文 情感词的识别、中文情感词的褒贬分析、中文文本倾向性相关要素抽取、中文文本的 4 第一章绪论 主客观分析、中文文本的褒贬分析、面向对象的中文文本观点检索( 表1 1 ) 。 表1 1c o a e 2 0 0 8 评测任务 级别任务说明评测任务任务编号 词语级中文情感词的识别情感词识别 l 词语级 中文情感词的褒贬分析情感词极性判别 2 属性级中文文本倾向性相关要素抽取评价对象抽取 3 篇章级中文文本的主客观分析文本主客观判别4 篇章级 中文文本的褒贬分析文本褒贬极性判别 5 篇章级面向主题的中文文本观点检索观点检索( 探索) 6 随着电子商务的迅速发展,未来观点评论挖掘依然是数据挖掘、中文信息处理领 域的热点研究领域。 1 3 研究意义 随着网络的发展,越来越多的人们将互联网作为信息交流的主要方式。与以前传 统的社会调查相比,从网上的论坛或新闻中提取大众对某一问题的看法或舆论倾向是 一个新的方法,是一种实时收集和分析信息方式。国外这两年也刚刚开始在这方面的 研究,这种方式使用统计和自然语言处理技术从网上收集的信息中抽取人们的观点倾 向。与单纯的事实内容相比,从文本中提取出带有人的主观意识或感情色彩的内容比 较复杂,因为并不是所有的信息内容都明确地表明正面态度或反面态度。 网上的舆论与现实社会的许多方面能相互产生影响,分析和抽取网上大众观点不 仅能评估出这些影响,而且对于保证政府及时准确地了解社情民意,作出科学决策也 有十分重要的意义。但是网络上的数据非常多,全部阅读这些评论以至于帮助自己做 决定将变得十分困难,所以急需一种有效的方法能快速地获取并分析信息,从而抽取 出人们的观点和舆论倾向。 本文基于商业领域的需求为应用背景,主要针对互联网上越来越多的用户对产品 的观点评论为分析文本,期望找出其中由于的一些信息,例如最近用户最关心的是哪 些产品? 用户对各种产品的评价喜恶程度如何? 最近一段媒体报道哪种产品居多? 这就要用到我们前文所述的观点评论挖掘技术。 到目前为止,在语义极性分析和观点抽取的研究领域,主要的研究成果依然集中 在英文语种。那么,这些方法对汉语是否同样适应? 如果不适用,有什么可靠的方法 吗? 针对中文语种,需要我们探索适合中文特点的解决方法。 第一章绪论 1 4 研究内容 本文在综合国内外相关学者研究的基础上,以网络上关于手机的网络评论句子为 应用背景,研究关于观点评论中包含的用户观点信息。本文尝试着利用自然语言处理 技术,解决情感词语的强度量化,以及情感词修饰成分和被修饰之间的匹配问题。主 要工作如下: 1 每个领域都有其特殊意义的词语,可能同一个词在不同领域的情感倾向是决然 相反的,因此领域词的获取将提高实际应用的扩展性和适应性。本文针对领域内的词 语的统计特点和领域规则,抽取出某一个领域的领域词语。 2 引进h o w n e t ,计算任意两个词语之间的相似度。通过聚类,找出两组最具代 表性的褒贬基准词,在这些基准词的基础上可以获得任意一个词语的情感倾向和强 度。 3 通过构建情感词典,来获取文本的情感倾向。在计算文本情感时,还考虑了否 定词和程度副词对句子的影响。 4 利用自然语言处理技术,使用指代消解等n l p ( n a t u r a ll a n g u a g ep r o c e s s ,自 然语言处理) 技术对原文本进行预处理,采用句法分析方法,通过对句子中词语的 依存关系进行深层分析,获取关键成分的依存修饰关系,计算情感词的修饰主题, 并且对句子讨论的主题进行情感分析。 1 5 本文的组织结构 本文分为八个章节,主要内容如下: 第一章是绪论,主要介绍了课题的研究背景、观点评论挖掘的研究现状,同时还 对课题的研究意义及本课题所做的研究内容做了阐述。 第二章介绍了文本挖掘技术在观点评论上的应用。主要介绍了一些常用的文本挖 掘方法和技术,同时对观点评论的挖掘所要进行的工作进行了阐述。 第三章主要是对领域词获取方面的研究,对几种领域词的获取方法进行了介绍, 并提出了一种新的分阶段获取领域词的方法。 第四章是关于词语相似度的计算,在本章中,采用基于知网的方法来获取词 语间的相似度。 第五章为观点词的获取和文本情感色彩的计算。本文通过一定计算方法构建了一 个基本情感词典和一个领域情感词典,在这些词典的基础上,考虑了否定词和程度副 词对句子的影响,来计算文本的情感色彩。 第六章是对主题挖掘论述,通过自然语言处理技术,对句子进行指代消解后句法 6 第一章绪论 分析,找出各个成分之间的修饰关系,从而确定主题词与对应的观点情感词。在本章 中借助了哈工大的语言技术共享平台的成果。 第七章是一个基于互联网的产品评论挖掘系统的设计,给出了系统的架构和用户 界面,并演示了一个实际查询结果。 第八章是结论,对课题研究工作的总结及下一步工作展望。 7 第二章文本挖掘技术在评论挖掘中的应用 第二章文本挖掘技术及其在产品观点评论挖 掘中的应用 文本挖掘是数据挖掘领域的一个分支,在国际上,文本挖掘是一个非常活跃的研 究领域。从技术上说,它实际是数据挖掘和信息检索两门学科的交叉。文本挖掘与传 统数据挖掘的差别在于文本数据与一般数据的巨大差异。传统数据挖掘所处理的数据 是结构化的,如关系的、事务的、数据仓库的数据,其特征数目通常不超过几百个, 而文本挖掘所研究的文本数据没有结构,由来自各种数据源的大量文档组成,包括新 闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出 版物、数字图书馆、技术标准、产品样本、电子邮件消息、w e b 页面等,而将这些文 本数据转换为特征矢量后特征数将达到几万甚至几十万。所以,文本挖掘既采用了很 多传统数据挖掘的技术,又有自己的特性。 本章将简单介绍文本挖掘技术及其在评论挖掘中的应用。 2 1 文本挖掘技术介绍 文本挖掘是指以计算语言学、统计数理分析为理论基础,结合机器学习和信息检 索技术从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时 运用这些知识更好地组织信息以便将来参考。文本挖掘涉及数据库、信息检索、信息 提取、机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论, 甚至还有图论等多个学科领域。 文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类 似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在文档本身是半结 构化或非结构化的,无确定形式并且缺乏机器可理解的语义,而数据挖掘的对象以数 据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖 掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。 目前,对文本挖掘的理论方法和技术实现国内外都在进行深入的研究和探讨,一 般来说文本挖掘技术可以应用于对大量文档集合的内容进行全文检索、文本摘要、文 本分类、文本聚类、关联分析、分布分析以及趋势预测等。 我们对文本数据挖掘的理解可以用图2 1 来说明。这个图由三部分组成:底层是 文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是 文本数据挖掘的基本技术,有五大类,包括文本信息抽取、文本分类、文本聚类、文 第二章文本挖掘技术在评论挖掘中的应用 本数据压缩、文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和 知识发现:信息访问包括信息检索、信息浏览、信息过滤、信息报告;知识发现包括 数据分析、数据预测等。下面简要介绍了这5 种技术以及7 个主要应用。 i 信息访阎,知识发现 l iiffl 圈囡圈圈圈 flfff o,。 +nw ” ,“ l 机器学习数理统计,自然语言处理 l 图2 1 文本挖掘的一般流程 2 1 1 文本挖掘的主要技术 1 文本信息抽取( t e x ti n f o r m a t i o ne x t r a c t i o n ) 文本信息抽取是从文本数据中抽取人们关注的特定的信息。文本数据可以以句、 段落、篇章为单位;抽取信息既可以以字、词、词组、句或段落为单位,也可以是以 上基本单位的组合。抽取信息可以是关于个体的( 比如人、组织、时间、地点) ,也可 以是关于事实、事件个体间关系的。抽取的信息还可以作为文本数据的特征,用于其 它数据挖掘处理。 文本信息抽取所抽取的信息可以是各种类型的,比如,文本中的名词短语、人名、 地名、机构名、产品名等实体名称,电子文件的题目、作者、作者所属单位等元数据, 专业术语的定义,网上购物信息,新闻报道中的事件等。 我们可以把文本信息抽取看作是一个标注( t a g g i n g ) 问题。它是有指导机器学习的 一个应用。文本信息抽取常用的模型有:隐马尔可夫模型( h i d d e nm a r k o vm o d a l ) 、最 大熵马尔可夫模型( m a x i m u me n t r o p ym a r k o vm o d e l ) 、条件随机场( c o n d i t i o n a l r a n d o mf i e l d ) 、表决感知机( v o t e dp e r c e p t r o n ) 。 2 文本分类( t e x tc l a s s i f i c a t i o n ) 文本分类是根据文本的特征将其分到预先定好的类别中。它也是有指导机器学习 的应用问题。下面,我们通过机器学习的框架来描述这个问题。它分为学习和分类两 个过程。首先有一些文本及其所属类的标注,学习系统从标注的数据中学到一个函数 或条件概率分布,我们称其为分类器。c 和t 取所有可能的类和文本( 通常是文本的 特征) 。对新给出的文本,分类系统利用学到的分类器对其进行分类。类别可以只有 两类,通常用0 和l ,称为两类问题。当类别超过两类时,可以采用“一类对所有其 它类 的方法,把问题分解为两类问题处理。 9 第二章文本挖掘技术在评论挖掘中的应用 分类是机器学习的核心问题,有很多分类器模型提出,它们都可以用于文本分类, 事实上也被广泛地应用到文本分类。常用的模型或算法有:支持向量机或 s v m ( s u p p o r tv e c t o rm a c h i n e ) 、边缘感知机( p e r c e p t r o nw i t hm a r g i n ) 、最近邻法( n e a r e s t n e i g h b o r ) 、决策树( d e c i s i o nt r e e ) 、决策表( d e c i s i o nl i s t ) 、中心法( c e n t r o i d ) 、朴素贝 叶斯( n a i v eb a y e s ) 、a d ab o o s t 算法、l o g i s t i c 回归( l o g i s t i cr e g r e s s i o n ) 、w i n n o w 算法、 神经网络( n e u r a ln e t w o r k ) 、贝叶斯网络( b a y e s i a nn e t w o r k ) 等。 3 文本聚类( t e x tc l u s t e r i n g ) 文本聚类是指将文本根据其特征归类。也就是说,将给定的文本集合分为若干子 集,称之为类,使得各个类内部的文本相似,而类与类之间的文本不相似。文本的特 征往往根据应用之不同而各异。文本之间的相似性也往往由应用而定。 文本分类可以用到各种场合。文本的类型可以是新闻报道、网页、电子邮件、论 文、n e w s g r o u p 文章等。 聚类时,如果一个样本只能属于一个类,我们称这样的聚类为硬聚类;如果一个 样本可以属于多个不同的类,我们称这样的聚类为软聚类。聚类还有分层聚类和非分 层聚类之分,其类分别是树状的或平坦的。 各种聚类方法原则上都可以用在文本聚类上。常用于文本聚类的方法有k 均值 法( km e a n s ) 、模型估计法( m o d e le s t i m a t i o n ) ( 特别是混合模型估计法( m i x t u r em o d e l e s t i m a t i o n ) ) ,分层聚类法( h i e r a r c h a lc l u s t e r i n g ) ( 分层聚类法中又有自上而下法 ( d i v i s i v e ) 和自下而上法( a g g l o m e r a t i v e ) ) 。 4 文本数据压缩( t e x td a t ac o m p r e s s i o n ) 文本数据挖掘中,常常需要或只需要将文本数据中主要的特征抽取出来,这就要 用到文本数据压缩的技术。文本数据压缩有两种,一种是对向量空间中的文本数据进 行压缩,如主成分分析( p r i n c i p a lc o m p o n e n t sa n a l y s i s ) ,对应关系分析( c o r r e s p o n d e n c e a n a l y s i s ) ;另一种是对文本内容进行压缩,如从文本中抽取关键词,或自动生成摘要。 前者通常作为数据特征使用,后者通常为方便人们阅读。 5 文本数据处理( t e x td a t ap r o c e s s i n g ) 文本数据处理这里指对文本数据进行各种统计的快速算法。文本数据处理一般不 涉及具体的模型。常用的文本数据处理主要包括分词、去除停用词、词性标注、词义 消歧、句法分析、命名实体识别、指代消解、特征表示和特征提取等。与数据库中的 结构化数据相比,文本具有有限的结构,或者根本就没有结构。此外,文档的内容是 人类所使用的自然语言,计算机很难处理其语义。文本信息源的这些特殊性使得数据 预处理技术在文本挖掘中更加重要。在文档进行特征提取前必须先对文本信息进行分 词处理( 主要针对中文) ,因为中文词与词之间没有固有的间隔符( 空格) ,需要进行 分词处理。目前主要有基于词库的分词算法和无词典的分词技术两种。停用词是指那 1 0 第二章文本挖掘技术在评论挖掘中的应用 些对文本内容没有什么意义的词,如“的 、“地 、“得 等副词,为了降低后面计算 的复杂度,一般要根据一张停用词表对这些停用词进行过滤。词性标注、词义消歧、 句法分析、命名实体识别、指代消解都是自然语言处理领域常用的技术,主要是把预 处理文本中的自然语言转化为计算机能够是别的计算语言。特征表示是指以一定特征 项( 如词条或者描述) 来代表文档,在文本挖掘时只需对这些特征项进行处理,实现 对非结构化的文本处理。特征提取是因为特征表示的向量维数往往达到十万维,如此 高维的特征对即将进行的分类学习未必全是重要、有益的,而且高维的特征会大大增 加机器的学习时间,所以特征提取很有必要。 2 1 2 文本挖掘的主要应用 1 全文检索 传统的基于几个关键词的检索很难描述具有丰富内涵的信息,而文本挖掘采用基 于全文的检索技术可以从文本信息中抽取一些更为详细的、经过特殊加工的特征信 息,大大提高检索的全面性和准确性。 2 文本摘要 文本摘要是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解 释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本摘要在 有些场合十分有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的 摘要。目前,绝大部分搜索引擎采用的方法是简单地截取文档的前几行。 3 文本分类 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类 别。这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查 找更为容易。目前,y a h o o ! 通过人工来对w e b 的文档进行分类,这大大影响了索引 的页面数目。利用文本分类技术可以对大量文档进行快速、有效的自动分类。 4 文本聚类 文本聚类与文本分类的不同之处在于,聚类没有预先定义好主题类别,它的目标 是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇 间的相似度尽可能地小。因此,我们可以利用文本聚类技术将搜索引擎的检索结果划 分为若干个簇,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。 5 关联分析 关联分析是指从文档集合中找出不同词语之间的关系。b r i n t 2 0 】提出了一种从大量 文档中发现一对词语出现模式的算法,并用来在w e b 上寻找作者和书名的出现模式, 从而发现了数千本在a m a z o n 网站上找不到的新书籍。w a n g 等【2 l 】人以w 曲上的电影 介绍作为测试文档,通过使用o e m 模型从这些半结构化的页面中抽取词语项,进而 第二章文本挖掘技术在评论挖掘中的应用 得到一些关于电影名称、导演、演员、编剧的出现模式。 6 分布分析 分布分析是指通过对文档的分析,得到特定数据在某个历史时刻的分布情况。如 f c l d m a n 等【2 2 1 人使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、 国家、组织、人、股票交易之间的相对分布。 7 趋势预测 趋势预测是指通过对文档的分析,得到特定数据将来的取值趋势。如w u t h r i c h 等【2 3 1 人通过分析w e b 上出版的权威性经济文章,对每天的股票市场指数进行预测, 取得了良好的效果。 如今文本挖掘技术基本趋于成熟,如何最大程度地将这些技术应用在高速发达的 互联网时代是许多专家学者需要研究的重点。 2 2 观点评论挖掘 观点评论挖掘是文本挖掘技术的一个应用,观点评论挖掘的方法涉及信息抽取、 文本分类、聚类、数据压缩、数据预处理等多项文本挖掘技术。下面本文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论