版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 浅谈基于CRFs和领域本体的中文微博评价对象抽取研究 1 引言 微博(Microblogs)作为一种基于用户关系的信息分享、传播以及获取的平台, 是网民发表对热点事件或话题看法的主要载体。通过微博的情感分析, 可以得到用户对事物的喜好、情感、态度等, 及时了解群众对热点话题的看法, 帮助政府机构掌握突发事件后的社会群体心理, 实现突发事件预警以及舆情监控;还可以作为企业进行市场分析、客户管理、产品升级时的重要依据。由此可见, 微博情感分析研究具有重要理论与应用价值。评价对象抽取是微博情感分析研究的重要任务之一, 旨在抽取出微博中的结构化信息, 如评价对象、属性等。开展微博评价对象的抽取研究将
2、有助于为上层情感分析任务提供服务, 为深层次的微博评论信息挖掘提供支持。传统的评价对象抽取都是针对长文本, 而微博作为一种短文本, 对其进行评价对象抽取面临的主要难点有: (1)微博评论信息都在140字以内, 其关键词词频低, 导致无法使用现有文本处理中常用的特征提取算法进行特征选择与计算; (2)微博作为一种即时信息发布工具, 其内容中存在大量的同音词、同义词, 导致微博评论信息的表示不够准确, 影响评价对象抽取的结果; (3)微博用户发布的内容比较随意, 导致网络新词不断涌现, 能否准确地识别新词也会影响特征提取的准确性。 为了提高中文微博评价对象抽取的准确率, 本文研究了微博评论本体的构
3、建方法, 借助本体的形式化描述和定义来更加准确地表示微博评论信息, 深入分析中文微博的特点, 尝试从词、词性、情感词以及本体四个方面选择特征, 采用CRFs模型对评价对象进行抽取。 2 相关工作 2.1 评价对象抽取方法概述 当前关于评价对象的抽取研究一般有三种方法:(1)基于规则/模板的方法;(2)基于自然语言处理的方法;(3)基于机器学习模型的方法。基于规则/模板的方法主要是由专家归纳总结出抽取规则, 构建规则库, 借助于模式匹配的方式来抽取出评价对象, 该方法虽易于理解, 但是无法保证规则库的完整, 并且系统移植性差;基于自然语言处理的方法主要是通过语法分析、语义角色标注等来解析句子的构
4、成, 抽取评价对象, 该方法适合处理语义清晰、成分完整的句子, 对于处理成分缺失或者长度偏长的文本存在问题;基于机器学习模型的方法则是通过建立统计模型来进行评价对象的抽取, 依照模型的自动化程度可以分为有监督的机器学习、半/无监督的机器学习。有监督的机器学习模型需要标注好的训练语料, 评价对象抽取准确率高、泛化能力好;半/无监督的机器学习模型需要较少的训练语料或者无需训练语料, 通过聚类、繁殖等方式实现评价对象的抽取, 虽然不需要大量的训练语料, 但相对于有监督的机器学习模型来说, 准确率比较低。 2.2 CRFs模型在评价对象抽取中的相关工作 目前, 评价对象抽取的研究工作中经常使用的是条件
5、随机场模型。条件随机场(Conditional Random Fields, CRFs)最早是由Lafferty 等人于2001年提出来的, 其思想主要来源于最大熵模型。我们可以将条件随机场看成是一个无向图模型或马尔科夫随机场, 可以用来进行标记和切分序列化数据。CRFs模型是在给定需要标记的观察序列的条件下, 计算整个标记的联合概率, 而不是在给定当前状态的条件下, 定义下一个状态的分布。其不同于产生式模型, 它可以使用丰富的、彼此重叠的观察序列的特征, 而且不需要很严格的前提假设;同时, 不同于最大熵马尔可夫模型等概率模型, 不对单个标记归一化, 而是在整个观测序列求解一个最优的标记序列,
6、 避免了标记偏置问题。因此, 条件随机场模型非常适用于中文命名实体识别等任务。由于评论对象抽取与命名实体识别具有相似性, 也可将评价对象抽取看作是对中文序列中的每个词选择正确的评论对象标记的过程, 越来越多的研究者借助于CRFs模型来进行评价对象抽取研究。目前关于CRFs模型在评价对象抽取方面的研究主要分为两个方面:1)不同特征的选择;2)CRFs模型的优化。基于CRFs模型的评价对象抽取的主要思路是将评价对象抽取看成是序列标注问题, 以条件随机场为学习模型进行训练。相关工作如下:Lafferty J和McCallum A等在2001年首先提出了将条件随机场模型应用于对序列化数据集进行切分和标
7、记的研究工作。Jakob等采用CRFs学习词、词性和句法的依赖关系、最近名词和句子倾向性特征进行评价对象的抽取, 并对英文条件下各特征的效用进行了分析;徐冰等选择了词、词性、上下文特征、位置特征和浅层句法特征, 并借助于CRFs模型进行评价对象抽取, 并将方法运用到COAE2008的评价对象抽取任务中, 之后又采用了N-gram、词性和词典特征进行评价对象的抽取, 并将该方法运用到在COAE2009任务4中;王中卿等考虑了词、词性、依存关系等特征, 借助CRFs模型对评价对象抽取结果F值在COAE2011评价搭配的抽取任务中排名第一;张莉等利用规则抽取句子的核心句, 分析句子的句法结构后采用C
8、RFs结合词、词性和句法结构特征抽取出句子的评价对象, 但并未对缺失评价对象的观点句进行处理;王荣洋等通过条件随机场模型, 研究多种特征在评价对象抽取任务中的表现, 并将特征归纳为词法、依存关系、相对位置和语义四大类别;郑敏洁等通过特征对比实验验证了结合了词、句子倾向性、词性、语法依赖关系、邻近名词等特征的条件随机场方法对于中文句子评价对象的抽取更有效;之后又提出了一种基于层叠CRFs的中文句子评价抽取方法, 该方法通过低层条件随机场获得候选评价对象集, 然后通过降噪模型对噪声进行过滤、补充模型对缺失的候选评价对象进行补充、合并模型对复合短语候选评价对象进行合并, 最后由高层模型抽取出评价对象
9、。 从现有研究中可以看出, 特征选择对于评价对象抽取的结果有很大的影响, 如何选择有效的特征也成为研究的热点和难点。本文在现有研究的基础上, 结合CRFs模型在评价对象抽取方面的优势, 尝试引入本体特征来提高评价对象抽取的准确率。 2.3 本体 本体的经典定义是由Gruber给出的:本体是一种清晰、明确、规范的概念化说明。领域本体通常给出一个领域内的概念与概念之间关系的描述, 它可以将文本信息转化为计算机可理解和处理的知识, 建立人与机器间的交流。本体能够通过定义概念、概念的属性以及概念间的关系、公理和约束等对知识进行语义层次的表示, 提供对领域知识的共同理解, 确定能够被领域共同认可的术语,
10、 并且可以被计算机自动理解和处理。 微博作为一种具有语义特征的信息, 其内容中包含了关于评价对象的相关概念、评价对象所具备的属性及属性间可能存在的关系。首先, 借助于本体可以将微博中评论对象及其属性等进行语义层次的表示, 更加准确地表达出微博本身的内容及其语义, 清晰地体现出用户的观点, 有助于微博评价对象的抽取;其次通过构建微博评论信息的本体可以使微博评论信息更加容易被计算机自动理解和识别, 有助于更加准确和深入地挖掘微博评论信息。 本文基于课题组前期提出的基于顶层本体的领域本体构建方法, 从本体工程方法论的成熟度和领域本体构建的特点出发, 借鉴Mike UschoIdKing的骨架法和斯坦
11、福大学的七步法, 并融合叙词表和顶层本体(如SUMO)资源, 结合中文微博的特点, 进行相关领域本体的构建, 以支持中文微博评价对象的自动抽取。该方法是在确定本体领域和范围的基础上, 考察复用现有的相关本体, 选择本体的词汇来源, 借助相关的规范词表和顶层本体对所选择的词汇进行规范化处理;其次, 抽象并归纳出本体的核心大类, 将核心大类作为本体的顶层类进行扩展细化, 进而确定类的等级体系;同时结合中文微博本体构建的应用需求评价对象抽取, 分析并定义本体中类间的关系。在此基础上, 定义类的属性来丰富类的内容。在定义关系和属性的过程中, 选择合适的顶层本体直接复用其关系和属性定义或用标准化本体中自
12、定义的关系和属性。 3.方法本文提出基于领域本体和CRFs模型进行中文微博评价对象抽取方法, 该方法的具体思路。 评价对象的自动抽取主要包括语料预处理、特征选择与转换、CRFs模型的训练与测试三部分工作, 具体描述如下。 (1)语料预处理 该部分工作首先对微博语料进行分词及词性标注, 准备抽取工作所需要的情感词典和本体, 之后引入标注结果标记集, 进行特征的选择与转换。 语料分词及词性标注:使用分词软件对语料进行分词及词性标注。 情感词典构建:微博作为社交来说, 其语言的随意性强, 用户表达情感的方式也多种多样。因此, 越来越多的情感词也在不断涌现。将这些情感词加入到情感词典中, 将更加有利于
13、评价对象的抽取。 微博评论本体构建:微博评论作为一种具有语义特征的信息, 包含了能够影响用户的重要信息, 如评论对象、评论的情感倾向性等, 通过构建微博评论本体可以使微博评论信息被计算机自动理解和识别, 有助于研究者对微博评论信息的深入分析与研究。 标注结果标记集:本文引入三类标记符号集用于评价对象抽取, L=OBJ, I, O。其中OBJ表示评价对象或是评价对象的词开始, I表示评价对象的词内部, O表示非评价对象。在抽取评价对象时, 要求抽取出尽可能完整和明确的对象, 例如三星手机的屏幕很棒!应抽取出三星手机的屏幕, 所以本文引用I来标记此类被分词软件切分开的词组内部, 完整明确地表达评价
14、对象。 (2)特征选择与转换 微博作为一种短文本, 其内容简短, 句子结构可能不完整。因此本文选择了词、词性、情感和本体四个特征来表示微博, 并通过特征选择预实验分析评价对象抽取的结果, 选择效果最好的特征组合来完成微博的评价对象抽取。在特征确定后, 依照CRFs模型的特征模板对特征进行转换。 (3)CRFs模型的训练与测试 语料准备:将微博语料分为训练语料与测试语料, 并将其转换为CRFs模型所需要的特征模板的格式。 CRFs模型训练:将特征转换后的训练语料输入到CRFs模型中, 得到训练后的模型文件。 CRFs模型测试:借助于训练得到的模型文件, 对测试语料进行测试, 得到评价对象抽取的结
15、果。 4.实验与测评 4.1 数据集 本文使用COAE2014的评价对象抽取任务Task5所提供的数据集。在该测评任务中, 测评委员会提供了COAE2013中Task4的已标注语料作为训练集, 该语料是关于牛奶领域的微博数据, 其样本约为2 000条。COAE2014中Task5的数据集规模约为40 000篇, 其中标注样本约为7 000篇, 主要包括手机、翡翠、保险三个领域, 为防止作弊, 加入了33 000篇干扰样本, 干扰样本也可能是含有倾向的, 而评测只对其中7 000篇进行。 4.2 微博评论本体构建 通过对COAE2013以及COAE2014的观点句评价对象抽取语料的分析, 该数据
16、集包含了四个领域的微博评论信息, 主要包括牛奶、保险、翡翠和手机, 本文在课题组之前构建手机领域本体的基础上主要构建了牛奶、保险、翡翠三个领域的本体。下文以牛奶领域的微博评论本体构建为例, 简要说明其构建过程。 (1)牛奶领域概念及指示词的数据来源。由于目前牛奶领域缺乏规范的行业分类标准以及叙词表, 因此本文的牛奶领域概念来源主要是各个主流牛奶品牌官方(例如, 伊利官网、蒙牛官网等)与Alex排名靠前的销售牛奶的电子商务(例如, 卓越亚马逊网、1号店等)。这些上关于牛奶的相关概念和分类是比较规范, 也是得到公众一致认可的, 因此本文选择这些作为本体概念数据的主要来源。而指示词的数据来源主要有牛
17、奶详细介绍列表中获取的用于表示牛奶的某些属性的度量单位, 从COAE2014的微博语料中获取用于表示评论者对牛奶的包装、口味等属性进行评价的词汇。 (2)定义牛奶评论本体的类。在对COAE2014语料进行分析后, 将微博评论信息的抽象为四类概念, 即评论、评论对象、指示词和评论者。经上述过程得到与牛奶相关的类概念共94个。指示词类分为参数指示词、外观指示词以及意见指示词来自相关与评测语料。 (3)定义牛奶评论本体中类的属性。分别针对评论类、评论者类、指示词类和评论对象类设置相关的属性。 (4)定义牛奶评论本体中类间关系。牛奶评论本体中类间关系包括等级关系和非等级关系, 等级关系分为两类:种属关
18、系(subClassof)和整体-部分关系(partof), 本文直接复用了SUMO顶层本体中的等级关系;非等级关系是指存在于由属性连接的概念间的关系, 主要包括同义关系、反义关系、因果关系、果因关系、位置关系、转指关系等, 本文采用自定义方式进行非等级关系的定义。 最终构建的牛奶评论本体包括类58个, 数据属性33个, 对象属性三个, 等级关系两个以及非等级关系11个。 4.3 特征选择预实验 为了验证本文所选择的词、词性、情感、本体四类特征对评价对象抽取结果的影响, 本节设计了五组不同的特征组合实验, 实验的数据集来自于COAE2013的Task3。本节从数据集中随机选取80篇语料作为训练
19、语料, 20篇语料作为测试语料进行评价对象抽取, 采用准确率、召回率、F值来进行实验结果评价。 (1)特征分析 词特征:词特征为实验语料经切分后的词汇单元本身, 即将分词后的结果作为一类特征。微博中表达的显性评价特征通常都是单独的词汇单元或是多个词汇单元组成的短语, 直接反映了评价对象的构成规则。 词性特征:词性特征是将微博语料切分词后, 每个词汇单元的词性结果。微博中评价对象在表述过程中都表现出一些语法规则, 很大一部分评价对象都通过名词来表达, 某些还可能通过动名词, 形容词+名词, 量词+名词(如部+电视剧)来表达。 情感特征:情感特征表示的是词汇单元所具有的情感倾向特征。情感词不仅表达
20、了评价者对评价对象的态度或是使用心得等评价信息, 也在一定程度上反映了评价对象在整条微博中的位置信息。情感词汇通常作为修饰的成分出现在评价语句中, 可放在评价对象前或后, 因此该特性能够反映评价对象的位置信息。本文以HowNet中文情感词表中的四个词表集:正面/负面情感词语、正面/负面评价词语为情感词典构建基础, 并作为情感判断依据。 本体特征:本体特征表示的是词汇单元所具有的领域及其语义特性, 反映了评价对象的领域共识。本文依据建立的领域本体, 判断当前观察单元在该本体中的概念类别:类、属性或是实例, 以辅助评价对象的抽取研究。 (2)预实验及结果分析 本节首先将实验分为五组, 并由1至5编
21、号。说明了五组实验中选取的具体特征以及特征模板。实验1到实验4用来分析词性特征、情感特征、本体特征对评价对象抽取的影响, 在前四个实验中除了原子特征模板, 还考虑了位置组合复合特征模板, 但没有设置属性组合特征模板。实验5用来考察组合特征对评价对象抽取的影响, 该实验不仅考虑了位置复合和属性复合两类复合特征模板, 而且由于情感特征是对商品评论中评价对象的评价, 通常作为修饰的成分出现在评论语句中的评价对象前或后, 所以在实验5的模型计算特征函数时, 可以根据此语义特性设置如实验5所示的复合特征模板, 以观察该复合特征模板的增加是否会有助于识别评价对象。依据五组实验的特征组合, 采用CRF+-0
22、.53外部开发包进行模型的训练与测试, 得到最终实验结果如表3所示。由表3中可以看出, 实验1中考虑词、词性、情感特征三个方面, 评价对象抽取的准确率达到了96.41%, 说明情感特征的有效性;在实验2中加入本体特征后, 实验的准确率提升到98.66%, 说明本体特征的有效性;与实验3对比, 实验4加入了词性后的召回率大大提升, 因此词性对于评价对象抽取有很大的影响;而实验5中增加的特征模板项很好地提高了模型识别的准确率和召回率。 4.4 实验 COAE2014中Task5任务要求找出每个观点句中观点所针对的评价对象, 并对所做评价的倾向性做出判断。具体的实验过程如下。 (1)通过对当前主流分
23、词系统的试用, 本实验采用中国科学院分词系统ICTCLAS 5.0进行语料的分词与词性标注; (2)本文使用课题组前期的情感词构建研究方法基于迭代CRFs模型的情感词获取, 在HowNet情感词的基础上, 对COAE2014中Task5任务的语料进行新的情感词获取实验, 对于实验获取的新词, 例如, 喜刷刷、撒花, 进行正负面情感词的情感倾向性的纠错, 最后得到正面词583个, 负面词914个; (3)特征选择与转换:实验中选择词、词性、情感特征和本体特征作为模型的四种特征, 并用不同的符号表示;在确定特征值之后, 对语料进行特征转换; (4)CRFs 模型训练与测试:本实验选用CRF+-0.
24、53外部开发包来完成CRFs模型的训练和测试。 4.5 测评结果及分析 C0AE测评委员会采用准确率、召回率和Fmeasure值来进行实验结果的评价。评价方法有精确评价和覆盖评价两种, 精确评价是指实验系统抽取的结果与答案完全匹配;覆盖评价是指实验系统抽取的结果与答案有重叠就视为正确匹配。本实验的覆盖评价结果和精确评价结果都远远高于平均结果, 而且不论是覆盖评价还是精确评价, 本文的方法都取得了最好成绩, 验证了实验选择的四类特征能有效地辅助CRFs模型抽取出微博语料中的评价实验之所以能取得不错的效果, 我们认为有以下几个方面的原因: (1)本体特征选择有效。微博评论本体的构建将微博中所涉及的概念、属性及属性之间的关系清晰地表示出来。这使微博评论信息的特征表示更加准确, 从而提高评价对象抽取准确率。 (2)情感词典比较全面。本文借助CRFs模型来自动获取新的情感词, 并人工对获取的新的情感词的情感倾向性进行纠正, 以保证情感词典的全面性和准确性。 虽然实验结果不错, 但是对实验系统进行深入分析后, 我们发现系统还存在一定的问题。 (1)本体构建不完善。在对实验评价对象抽取的结果与正确答案对比后, 例如, iphone5非常好!、5不错
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园教学总结10篇
- 最美中学生主题演讲稿(11篇)
- 金融员工试用期工作总结(34篇)
- 幼儿园自检自查报告
- 考试作弊的批评通报(3篇)
- 新教材高考地理二轮复习二7类选择题技法专项训练技法1排除法含答案
- 江西省上饶市广丰横山中学2024-2025学年度八年级上学期十一月物理测试卷
- 甘肃省永昌县第一高级中学2024-2025学年高一上学期期中考试化学试卷(含解析)
- 2023年高考语文二轮复习试题:压缩语段与扩展语句(新高考专用)含解析
- 2024年河北省公务员考试《行测》真题及答案解析
- 电磁流量计使用安装调试说明
- AAC瑞声声学科技简介
- 工程计量资料范本
- 作业——磷虾ppt课件
- 睡眠呼吸暂停低通气综合症ppt课件
- 《中风的中医治疗》PPT课件.ppt
- 防火门窗施工方案
- “双师教学”在初中数学课堂中的应用
- 战略合作签约仪式教育PPT课程课件
- 土方填筑碾压试验报告
- 老旧小区排水部分雨污水改造监理细则
评论
0/150
提交评论