下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、意见挖掘研究的目的目前,互联网上的信息与日剧增,蕴藏着巨大的信息量。但是,要想在很短的时间内获得人 们对于诸如人物、事件、传媒、产品等有价值的评价信息,往往是十分困难的。例如,对产 品的各种评价出现在各大论坛、电子公告板以及门户网站上,厂商需要了解顾客使用其产品 的反馈意见,潜在的购买者也需要作出是否购买某个产品的决定。如果采用人工方式对这浩 如烟海的信息进行查询、统计,显然是低效和不切合实际的。面对这样的现实问题,意见挖 掘技术应运而生。一方面,它基于数据挖掘(Data Mining)和文本挖掘(Text Mining)技术, 另一方面,它又具有相当的文本理解(Text U nderstan
2、ding)的能力。所以,它是比文本挖掘 技术更接近人工智能目标的一种新技术。它与以往的信息抽取(Information Extrac2tion)、 文本分类(Text Classification)和文本摘要(Text Summarization)技术不同。虽然信息抽 取和意见挖掘都需要深层的语义理解,但信息抽取主要是获取具体的语言表达结构,如命名 实体、命名实体关系、事件等,这些成分一般为显式表达结构;而意见挖掘是挖掘意见的元素 和它们之间的关系,即主题、意见持有者、陈述、情感和它们之间的关系,这些成分表达形 式多样,而且常常不是显式地、独立地表达。文本分类是在预定的用户需求下把文本进行分
3、类,并没有涉及到深层次的语义理解。文本摘要是用简练的语言表达长篇文本的中心思想, 但文本中对事物的具体看法和评价则没有被清晰地提取出来。实际上,意见挖掘技术弥补了 上述这些技术的不足,是更具有应用价值的一种新技术。意见挖掘涉及各个语言分析层面, 不但涉及到词汇层(如分词和词性标注)、句法层(如命名实体识别和语法分析)和语义层(如 语义分析),还涉及到篇章层(如跨句的指代消解)。意见挖掘与一些语言技术有关,例如,信 息检索、文本分类、信息抽取、自动摘要、数据融合、问答系统、自然语言生成、对话系统、 机器翻译等。意见挖掘技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信 息监控、民意调查
4、、电子学习、报刊编辑、企业管理等。例如,采用意见挖掘系统从来自网 上的产品(如笔记本电脑)评价意见中快速地获得意见分类统计结果,可以提供给厂商以进 一步改进产品的质量,可以提供给潜在的顾客作为选择购买什么型号产品的参考,也可以提 供给代销商作为进货品种和数量的依据。(文本意见挖掘综述姚天 1 ,程希文2,徐飞玉 2,汉思乌思克尔特2,3 ,王睿3中文信息学报第22卷 第3期)根据主题的本体概念和语义倾向使用启发式规则选择陈述。在此基础上,使用统一的表示集 成具有情感知识的语言特征,然后采用朴素贝叶斯分类器分类情感极性。此后,Tsou等人在上述研究工作基础上对中国四地(北京、香港、上海、台北)报
5、刊上有关 四位政治人物(克里、布什、小泉纯一郎、陈水扁)褒贬性的新闻报道进行了分类研究33 。 在研究中,首先通过标记语料库获得文本中的极性元素(Polar Element s),然后主要采用了三 个衡量指标,即极性元素的散布(Spread)、极性元素的密度(Density)和极性元素的语义强度 (Intensity)来对每个文本进行统计,得出文本贬褒分类和强度大小的结果。其中对确定极性 元素之间的关系虽有所提及,但没有深入研究。在BBS文本研究方面,邱立坤等人提出了 一种在BBS环境下进行热门话题挖掘的算法34 。这种算法在一般文本聚类算法基础上, 应用BBS所特有的点击数、回复数进行热度排
6、序,然后采用基于特征词提取的话题归并, 从而挖掘出最受BBS用户关注的热门话题。【1】文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息 的检索与归纳,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法 6基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖 掘语料库中的评价词语并判断极性.,基于语料库的方法最大的优点在于简单易行,缺点则在 于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳.基于 词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语. 这里的词典一般是
7、指使用 WordNet或HowNet等.词典的方法的优点在于获取的评价词 语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义 词,如词语“好”在大多数情况下表现为“优秀”的意思,但在某些情况下扮演修饰成分(如“他 跑得好快啊!” ).此外,还有一部分学者采用基于图的方法来识别评价词语的极性6,20.具体 来说,该方法将要分类的词语作为图上的点,利用词语之间的联系形成边来构建图,继而采用 各种基于图的迭代算法(propagation algorithm)来完成词语的分类.基于图的方法是一种新 颖的方法,它可以灵活地将词语间的各种联系作为特征融入图中,继而进行迭代计
8、算.然而,寻 找更为有效的词语间特征以及如何选取图算法是值得深入研究的问题文本情感分析的作用:随着互联网上评论文本的爆炸式增长,迫切需要计算机帮助用户加工 整理这些情感信息,这使得情感分析研究具有重要的应用.下面,本文就情感分析的应用现状 以及应用前景进行概括介绍.用户评论分析与决策舆情监控信息预测参考文献【1】文本情感分析 赵妍妍 秦兵,刘挺.Journal of Software, Voi.21, No.8, August 2010,pp.1834-18486 Rao D, Ravichandran D. Semi-Supervised polarity lexicon induction
9、. In: Lascarides A, ed. Proc. of the EACL 2009. Morristown:ACL, 2009. 675-682.词语情感倾向性识别*闻 彬,咸 宁 学 院 学 报第30卷第6期 本文将第一节主要探讨词语倾向性识别的的研究现状1国内外研究现状词汇倾向性判别是文本倾向性分析的基础.情感词识的准确性直接影响到要素级,篇章级的倾 向性研究.目前国内外词汇倾向性研究主要分为两类统计方和语义方法统计方法主要是基于机器学习,利用文档集中词汇间共现关系来计算词汇的倾向性.2003年,PeterD.TurnMichaelL.Littman1用的点互信息(PMI-IR)
10、方法利了搜索引擎提供的“NEAR ”操作,来估计词汇与具有强烈向意义的种子词集合的关联程度以此作为计算该词 倾性的依据.同年,Yu和Hatzivassiloglou2挑选出若干极性强的形容词(情感词)构建一个种子 词集合,通过计算新和种子集合中的词的共现概率来判断新词的语义倾向.语义方法主要是基 于一个现存的本体知识库,如英文WordNet和中文的HowNet,通过计算待估词与选定的基词 的语义距离,进而判断待估词的倾向性.2002 年,Kps等3正是利用WordNet的同义结构图计 算待估词与所选基准词的语义距离来得到其倾向性,在中文方面,复旦大学学的朱嫣岚等4 在2006年提出的基于How
11、Net的词汇语义倾向计算方法,利用词语间的相似度来计算词的褒 贬程度.2007年北京大学的路彬等5采用中文的同义词词林来计算词汇褒贬,这种方法前 两层扩展的准确率非常高.随着W eb2.0时代的到来,网络成了反映社会舆情的重要载体之一,越来越多的人们通过博 客、论坛以及网站留言板发表自己对热点事件的观点和看法.对于某个热点事件,如果将其有 关的网络舆情信息加以汇总并且进行分析,就可以反应出对于这个事件民众所持有的态度和 观点的倾向性.这种汇总的网络舆情,可以有效地帮助相关政府职能部门了解民意,进而做出 及时的反馈.本文应用观点挖掘技术通过对新闻网页的评论进行收集并进行分柝将网民的评 论汇总成肯
12、定、否定和中性三类,取得了良好的效果.分析评论中文本的情感倾向性是观点挖掘的主要任务之一,目前倾向性的分析主要针对词 汇、句子和篇章三个层面进行分析.词汇的情感分析目前主要有三种方法,一种是基于 WordNet5和 HowNet6这样的知识库,首先选择两组具有明显正向和负向极性的词语作为 种子词,对于一个情感倾向未知的词,计算这个词与两组种子词的相似度,与正向种子词组相 似度高的则判定为正面倾向,反之则判定为负面倾向.词汇倾向性分析的另一种方法是无监督 学习方法7,这种方法同样需要先确定两组等量具有明显倾向性的种子词,一组是褒义种子 词,一组是贬义种子词.对于一个新词,根据它和两组种子词的紧密
13、程度对其倾向性进行推断, 紧密程度的判断是根据词语在语料库中的共现频率,称为点态互信息量,将词语与褒义种子词 的点态互信息量之和减去与各贬义种子词的互信息量之和,结果的正负即表示词语的倾向性, 而且结果的大小还表示了倾向性的强度.这个方法的点态互信息量也可以通过使用搜索引擎 来计算,其概率可以通过搜索引擎返回的Hits值占搜索引擎总的索引页面数的比例来计算,因 此无需语料库.在英文的应用系统的研究上,Bing Liu等学者研究并开发了 OpinionObserver8,主要针对商 品评论做了更深入的分析,突破了仅仅给出篇章总体倾向性的研究,研究了从同一类商品的多 个评论中抽取子主题的算法,对子主题倾向性分析,综合多个语篇的分析得出总结性的结果, 具有比较实际的商用价值.这也是商品
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024城市基础设施建设项目特许经营权协议
- 2024年幼儿园教师岗位聘任协议书模板
- 2024专业建设工程项目设计合同范本专业版
- 2024家庭保姆雇佣合同样本
- 2024年先进制造业生产线自动化改造合同
- 2024年度家电行业C型钢部件加工合同
- 2024年废纸回收海运出口协议
- 2024年商场清洁服务合同
- 2024年建筑工程设计与施工一体化合同
- 2024年度智能硬件设备采购与安装合同
- 如何有效应对学习中的困难和挑战
- 医院感染管理培训课件消毒剂的选择与使用
- 平台分销返佣合作协议
- 中国城市行政代码
- 低纤维蛋白原血症的护理查房
- 数学4教材介绍
- 全国大学生职业生涯规划大赛
- 肩关节镜术的健康宣教
- 关于学校安全保卫工作存在的问题及对策
- 2024年广西铝业集团有限公司招聘笔试参考题库附带答案详解
- 2024年西藏开发投资集团有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论