基于Hownet的情感词典构建研究_第1页
基于Hownet的情感词典构建研究_第2页
基于Hownet的情感词典构建研究_第3页
基于Hownet的情感词典构建研究_第4页
基于Hownet的情感词典构建研究_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-范文最新推荐- 基于Hownet的情感词典构建研究 摘要本论文提出了一种基于Hownet的情感词典构建的方法,并在此基础上,进行了文本中所包含的情感信息的识别。知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在情感词典的建设中,首先根据目前情感分类发展的现状,以及知网中所包含的情感信息,确定了情感分类体系。然后根据Hownet的内部结构以及概念、义元之间的关系,借助手工标注建立起情感词典,并收录了数码相机领域情感词对词典进行了扩充。10261关键词知网 情感词典 情感词 评论词储存 外 文 摘 要TitleRese

2、arch on the Emotional thesaurusBase of HownetAbstractThis paper presents a novel way for building an emotional thesaurus based on Hownet, which is an on-line common sense knowledge base unveiling inter-conceptual relations and inter-attribute relations of concepts as connoting in lexicons of Chinese

3、 and their English equivalents, and using the emotional thesaurus makes some research on emotional information recognition of Chinese text. In the process of building the emotional thesaurus, first, according to the current development of emotion classification system is confirmed. Then according to

4、 the inside structure of Hownet and inter-conceptual relations and inter-sememe relations of Hownet, with the help of manual tagging, the emotional thesaurus is built, through collecting emotional information to make the emotional thesaurus be extended.KeywordsHownet, Emotional thesaurus, Emotional

5、information, Comment storage 词汇作为一种能独立运用的最小语义单位,承载着文本情感信息的表述,也是计算更大语言单元所蕴含情感信息的重要基础,然而明确标注词汇的情感属性的常用语言资源比较少,而语言资源是许多自然语言处理技术和应用的基础。近年来,有关自然语言、人工智能、信息检索、数据挖掘等领域的国际顶级会议都收录的很多情感倾向性分析的相关论文。许多国外知名学者都对词、短语、搭配等语言单元的倾句性识别进行了大最的研究,相关文章发表于各个国际知名会议。Sista1等以GI中的褒贬义词汇作为种子词,利用WordNet2进行自动扩展,以扩展后的一词语集合为分类特征之后,再进行下

6、一步的深入研究。Lim和Hovy3利用WordNet中同义词的情感类别判断目标词的情感类别。Turney4通过分析词汇上下文信息研究其情感倾向,使用“excellent”和“poor”两个词汇作为种子来判断其它短语的语义倾向,将这两个词汇作为“positive”和“negative”的代表,假定与“excellent”经常共现的短语具有正面倾向,与“poor”经常共现的短语具有反面倾向,采用PMI一IR方法,进行领域相关实验。Hatzivassilol

7、ou和Mckeown5 利用大规模语料库中的连接词信息来自动识别形容词的情感倾向,他们利用线性回归模型预测由不同连接词的形容词对是否具有相同或相反的情感倾向,预测精确率达到82%。对于多个形容词间的连接关系,利用聚类算法将形容词分为具有不同情感倾向的集合,并标注为褒义或贬义"在特定预料库中对形容词的标注精确率达到了90%以上。Kamps6等利用WordNet中的同义词关系构建同义词网络,通过比较给定词汇到单词“good”和“bad”的最短路径来判断该词汇的语义倾向。Takamura7等提出了 Latent Variable Models

8、,用于短语的语义倾向性研究。Faye Baron和Graema Hirst8 各抽取与倾向性比较强的词汇的搭配作为倾向性分析的特征。Xia Yun-qing9等提出了unified collocation framework(UCF),通过对属性和情感词汇标记词性,以使属性与情感词的搭配更宽泛,提高召回率"复旦大学的朱嫣岚10,等提出了基于语义相似度和语义相关场的两种词汇语义倾向性计算方法,通过计算目标词与Hownet中己标注的褒贬性词汇间的相似度,获取目标词汇的倾向性。大连理工大学的徐琳宏11等采用Hownet作为基准词,通过计算目标词与基准词的关联度,确定目标词汇的语义倾向。中科

9、院自动化所得根、 1.2国内情感词典的相关研究1.2.1知网知网14即Hownet,是一个以汉语与英语中词语所表述的概念为对象,以实现揭示词语概念之间以及概念的属性与属性之间关系为目的的词汇知识库。Hownet的最基本的数据库是被人们经常称为知识词典的那个知识库,不过Hownet不仅仅是一部普通意义上的词典,它是一个有着网状结构的系统,不仅可以表征词语,还可以表征词语之间的关系,这也是它与我们所谓的知识词典的最大的不同。知识词典是体系的基本的组成部分。在词典中词语所表示的概念及其描述以一个记录的形式存储,这种存储形式都会包括四项内容。在中文自然语言处理方面,Hownet的应该十分广泛,起到了很

10、好的基础作用。在Hownet体系中,共用了1618个义原来表征词汇的概念。义原是Hownet体系中最基础的、不用再分割的最小的意义单位,Hownet利用义原对其系统中50220个汉语词语的个概念进行了描述。Hownet中一个概念并不是简单地描述为一个义原的集合,而是要描述为使用某种专门的“知识描述语言”来表达的一个语义表达式。即描述概念的每个义原所起到的作用是不同的,这也是计算相似度的困难之一。所以基于这种知识结构,Hownet的形式化和规范化程度还有待提高"1.2.2同义词词林同义词词林15的第一版和第二版的词表完全一样,,收词53859条。其中有很多的词已

11、经不常用,成语所谓的罕用词。参照多部电子词典资源,并按照人民日报语料库中词语的出现频度,只保留频度不低于的部分词语,可剔除14706个罕用词和非常用词。经过这样的处理剩下39099个词条。为了满足自然语言处理的需要,这样规模的词典显然很少"哈人信息!检索实验室利用很多语相关资源,投入了大员的人力和物力,经过儿次改版完成了包含77343条词语的语义词典。其按照树状的层次结构把所有收录的词语组织在一起,把词汇分成大、中、小三类。其中大类有12个,中类有97个,小类有1400个。每个小类根据词义的远近和相关性分成若干个词群段落。每个段落中的词语有进一步分成若干个行,同一行的词语要么词义相同

12、,要么词义有很强的相关性。小类的段落可以分为四级,段落中的行可看作第五级分类。这样同义词词林就具备了5层结构,如图1,每个分类里词语数量不同,很多只有一个词语,则成为原子词群、原子类或原子结点。不同级别的分类结果可以为自然语言处理提供不同的服务,例如第四层分类和第五层分类在信息检索、文本分类、自动问答等领域得到应用。 一般的词典都是按照单词拼写的原则进行组织。在线词典跟传统的纸张词典不同,允许使用者从不同的途径去访问词典信息。传统的词典是通过提供给用户关于词语的信息来帮助用户理解那些他们不熟悉的词语概念。WordNet跟同义词词林相似的地方是它也是以同义词集合作为基本建构单位进行组织。但不仅仅

13、是用同义词集合的方式罗列概念,同义词集合之间是以一定数量的关系类型相关联,这些关系包括上下位关系、整体部分关系、继承关系等。同时WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句"在同义词集合中包含对这些同义词的定义。对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。所以是传统词典与同义一词词典的融合。不同句法司类中的语义关系类型也不同,比如尽管名词和动词都是分层级组织词语之间的语义关系。但在名词中,上下位关系是“语义”关系,而动词中是“方式”关系动词中的“继承”关系类似于名词中的&

14、ldquo;整体部分”关系。WordNet是基于同义性和反义性来描述词语和概念之间的各种语义关系类型的。由于词典的重点不是在文本和话语篇章水平上来描述词和概念的语义,因此并没有包含指示词语在特定的篇章话题领域的相关概念关系。例如,WordNet中没有将racquet(网球拍)、ball(球)、net(球网)等词语以一定方式联系到一起。WordNet中几乎没有句法信息,因为它是作为一个语义知识库而构建。但是,词典也包含了形容词的部分句法约束信息。同时句法对动词而言最为重要,可以通过动词的名词论元、介词短语以及语素组成等不同形式加以次范畴化。目前,的每个动词同义词集中包含了及物性基本信

15、息,知识工程以及推理方面的应用系统特别受益于动名间关系的信息,这些动词的句法信息和语义信息基本都是手工编制而成。 Hownet中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。Hownet的基本思想是设想所有的概念都可以分解成各种各样的义原,同时应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,就有可能建立所设想的知识系统20。Hownet作为一个知识系统,实副其名是一个网而不是树。它所着力要反映的是概念的共性和个性,例如对于“医生”

16、和“患者”,“人”是它们的共性。Hownet在主要特征文件中描述了“人”所具有的共性,那么“医生”的个性是他是“医治”的施事,而“患者”的个性是他是“患病”的经验者。同时Hownet还着力要反映概念之间和概念的属性之间的各种关系。Hownet把下面的一种知识网络体系明确的教给了计算机进而使知识对计算机而言是可操作的。Hownet是一个以上述各类概念为描述对象的知识系统,而不只是一部语义词典。尽管被我们称为知识词典的常识性知识库是

17、Hownet的最基本的数据库。Hownet的全部的主要文件包括知识词典构成了一个有机结合的知识系统"例如,主要特征文件、次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成部分,而不仅仅是标注的规格文件。2.2 Hownet中的“概念”和“义原”董振东先生反复强调, Hownet并不是一个在线的词汇数据库, Hownet不是一部语义词典。在介绍Hownet的结构之前,我们首先要理解Hownet中两个主要的概念“概念”与“义原”。“概念&rdquo

18、;是对词汇语义的一种描述。每一个词可以表达为几个概念。“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。 义原一方面作为描述概念的最基本单位,另一方面,义原之间又存在复杂的关系。在Hownet中,一共描述了义原之间的如下几种关系:a)上下位关系(由概念的主要特征体现,请参看网管理工具)b)同义关系(可通过同义、反义以及对义组的形成获得)c)反义

19、关系(可通过同义、反义以及对义组的形成获得)d)对义关系(可通过同义、反义以及对义组的形成获得)e)部件-整体关系(由在整体前标注%体现,如“心”,“CPU”等)f)属性-宿主关系(由在宿主前标注&体现,如“颜色”,“速度”等)g)材料-成品关系(由在成品前标注?体现,如“布”,“面粉”等)h)施事/经验者/关系主体-事件关系(由在事件前标注*体现,如“医生”、“雇主”等)i)受事内容领属物等-事

20、件关系(由在事件前标注$体现,如“患者”,“雇员”等)j)工具-事件关系(由在事件前标注*体现,如“手表”,“计算机”等)k)场所-事件关系(由在事件前标注体现,如“银行”,“医院”等)l)时间-事件关系(由在事件前标注体现,如“假日”,“孕期”等)m)值¬-属性关系(直接标注无须借助标识符,如“蓝”、“慢”等)n)实体-值关系(直接标注无须借助标识

21、符,如“矮子”,“傻瓜”等) 2.5 基于Hownet的应用虽然Hownet作者声明Hownet并不是一部义类词典,但Hownet中所定义的关系都是基于语义定义的,从语言学的角度,Hownet也可认为是语义研究的成果23。迄今为止,出现了不少基于Hownet的研究,如香港科技大学利用Hownet进行了汉语语料库的语义标注研究24,台湾中央研究院进行了一些基于知网的基础研究,包括建立事件关系库、角色转换库、典型演员库和基于Hownet事件框架的中文动词句法25;山西大学利用Hownet统计出现频率而达到词义排歧的目的26;中国科学院计算技术研究所刘群、李素建进行了基于Hownet的词汇语义相似度计算27等等3情感词典的构建本文的基础情感词是以Hownet中的词语为基础的,将词句收集到SQLSERVER数据库中。3.1 Hownet中情感词的转换3.1.1 Hownet情感词简介在知网中把情感词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论