版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
词典词典与词典编纂的研究
词典学lexicologyTheoryanddescriptionoflexicalinformation计算词典学computationallexicologyformalmodelingoflexicalinformation词典编纂学lexicographyConstructionofdictionaries(databases,handbooks)计算词典编纂学computationallexicographyconstructionandproductionofdictionariesusingelectronicpublishing机读词典与人读词典人读词典(HumanReadableDictionary)格式不规范数据完整性和一致性不好非结构化机读词典(MachineReadableDictionary)格式规范数据完整性和一致性较好结构化人读词典(demo)
金山词霸story中古英语storie<古法语estoire<拉丁语historian-ries(1)故事,小说;传闻;轶事Pleasereadusastory!请给我们读个故事!(2)谎话,假话(3)(书籍、电影、戏剧等的)情节(4)(报刊、杂志文章的)素材,题材机读词典的分类
按信息类型分类语法词典语义词典(包括同义词典)双语词典…….按领域分类通用词典专业词典(术语词典)专名词典……汉语语法信息词典
开发单位:北京大学计算语言学研究所参考文献:俞士汶等(1998)《现代汉语语法信息词典详解》,清华大学出版社、广西科学技术出版社1998年版。规模:7万多词条总库词性库名词时间词处所词方位词数词量词区别词代词动词形容词状态词副词介词连词助词语气词前接成分后接成分成语简称略语习用语语素标点符号词性分库动词代词汉语语法信息词典·总库汉语语法信息词典·动词库汉语语法信息词典·谓宾动词分库
新华社词语数据库
全库分为中文和外文两个大类,主要包括中文新闻库、经济信息库、证券库、人物库、组织机构库、专题资料库等中文数据库,还包括XinhuaNewsBulletin、Who’sWhoinChina等英文数据库。共有28个库100多个子库,数据量达80多亿汉字,并以日均150万汉字的速度增长。新华社词语数据库·国际组织
“2000年问题”联合委员会/jointyear2000council/International“4·19”运动/movementapril19/Colombia“阿尔法66”/"alpha66"/Cuba“俄罗斯地区”社会联盟/regionsofrussiagroup/Russia“法中-2000年”协会/france-chinaassociationfortheyear2000/France“繁荣”党/prosperity/Russia“光明的日本”国会议员联盟/parliamentaryunionforabrightjapan/Japan“基地”组织/alqaeda/SaudiArabia《财富》杂志/fortune/USA《朝日新闻》/asahishimbun/Japan国际献血组织联合会/internationalfederationofblooddonororganizations/International国际宪法学协会/internationalassociationofconstitutionallaw/International国际香料集团/internationalspicegroup/International经济和外贸部/ministryofeconomyandexternaltradeofsyria/Syria经济和外贸部/ministryofeconomyandforeigntradeofegypt/Egypt新华社词语数据库·人名知网(Hownet)作者:董振东董强网站:概念描述举例NO.=017144W_C=打G_C=VE_C=~网球,~牌,~秋千,~太极,球~得很棒W_E=playG_E=VE_E=DEF=exercise|锻练,sport|体育其中DEF是核心,采用特定的“知识描述语言”知网(Hownet)2打017144exercise|锻练,sport|体育男人059349human|人,family|家,male|男高兴029542aValue|属性值,circumstances|境况,happy|福,desired|良生日072280time|时间,day|日,@ComeToWorld|问世,$congratulate|祝贺写信089834write|写,ContentProduct=letter|信件北京003815place|地方,capital|国都,ProperName|专,(China|中国)爱好者000363human|人,*FondOf|喜欢,#WhileAway|消闲必须004932{modality|语气}串015204NounUnit|名量,&(grape|葡萄),&(key|钥匙)从良016251cease|停做,content=(prostitution|卖淫)打对折017317subtract|削减,patient=price|价格,commercial|商,(range|幅度=50%)儿童基金会024083part|部件,%institution|机构,politics|政,#young|幼,#fund|资金,(institution|机构=UN|联合国)知网(Hownet)3
义原总数:1500多个义原分类:共8类基本义原事件、实体、次要特征属性、属性值、数量、数量值语法义原:描述语法特征,如POS语法关系义原:描述意义关系,类似于格关系动态角色动态属性知网(Hownet)4义原的上下位关系构成树结构-entity|实体├thing|万物…├physical|物质…├animate|生物…├AnimalHuman|动物…├human|人│└humanized|拟人└animal|兽├beast|走兽…知网(Hownet)5知网中的关系同义词词林1
梅家驹等,1983,上海辞书出版社为克服写作和翻译时的词穷现象而编写目前广泛应用于自然语言处理中收词近7万(按义项统计)按义项编排12大类94中类1428小类3925词群词群内部的词是同义词大类、中类、小类之间不一定是上下位关系(有些是领域)同义词词林2大类:A中类:g小类:10词群:01最小同义词集:01,02,03catewordAa010101人Aa010101士Aa010101人物Aa010101人士Aa010101人氏Aa010101人选Aa010102人类Aa010102噍类Aa010102生人Aa010102横目Aa010102圆颅方趾Aa010102方趾圆颅Aa010103人手Aa010103人员Aa010103人口Aa010103人丁Aa010103口Aa010103丁口Aa010103食指Aa010104劳力Aa010104劳动力Aa010105匹夫Aa010105个人WordNet1网址:/~wn/开发单位:普林斯顿大学心理语言学实验室初衷是作为研究人类词汇记忆的心理语言学成果在自然语言处理中得到广泛的应用免费的在线词汇数据库世界很多语种都开发了相应的版本各种欧洲语言:EuroNet汉语:CCD(ChineseConceptDictioanry)WordNet2同义词集Synset用一组同义词的集合Synset来表示一个概念每一个概念有一段描述性的说明关系上下位关系(hyponymy,troponymy)同义反义关系(synonymy,antonymy)部分整体关系(entailment,meronymy)……Wordnet3规模名词:80,000words,60,000synsets形容词:16,000synsets动词:11,500synsets还在不断发展之中WordNet4
名词概念的组织:WordNet5形容词概念的组织:WordNet6WordNet7词典检索算法1词典检索算法的性能评价时间复杂度空间复杂度检索方式直接用词语检索检索句子中某个位置开始的所有词检索句子中某个位置开始的最长词模糊检索……增量式索引词典检索算法2两个问题索引结构查找算法一种索引结构可以对应不同的查找算法词典顺序索引索引结构简单,占用空间小不能实现增量式索引:每增加一个词需重新排序词典顺序索引的查找算法整词二分查找时间复杂度O(log2N)无法按前缀查找改进的整词二分查找时间复杂度O(log2N)可以实现按前缀查找词典散列索引索引结构简单,占用空间小(比顺序索引稍大)可以实现增量式索引词典散列索引的检索算法利用散列(hash)函数直接定位效率高:常数不能按前缀查找冲突的解决使用冲突队列使用再散列散列函数(hash)的选择算法改进:逐词散列,可以实现按前缀查找词典分级索引将词语分成若干部分,为每一部分分别建立索引在分级索引中,每一级索引都可以采用各种不同的索引和查找算法对于汉语而言,第一级索引一般使用词语的首字,所以又常称为首字索引。汉语的首字数量有限,可以使用直接定位法,效率最高,空间也不大汉语词典按首字顺序索引首字二分检索2时间复杂度:O(log2N)空间复杂度:O(N)可以按前缀查找不能增量式索引:每次要重新排序汉语词典TRIE树索引AC算法1问题假设词典中有两个词:aba,abcd考虑输入串:bababcdab如何迅速找出输入串中词典词的所有出现?简单解决办法逐字查词典:效率太低AC算法将词典构造成一个自动机,一次扫描完成AC算法2
AC算法3AC算法4AC算法5AC算法5AC算法6AC算法7AC算法8AC算法9汉语新词语
随着经济、社会的飞速发展和对外交流的日渐频繁,自然语言中新词的不断涌现在汉语这种词与词之间没有明显界限的语言中,新词的识别问题尤为严重。除了命名实体和字母词因为有明显的构成特征而相对比较容易被识别外,其他新词很难识别。汉语新词语分类新词语的种类命名实体:包括人名、地名、音译名、商品名、公司字号、机构名等;缩略语:如“非典”、“计生委”等;方言词:如“靓”、“买单”等;–新造词:如“伊妹儿”、“美眉”等;专业术语:如“非典型肺炎”、“蓝光光盘”等;音译词:如“酷”、“秀”、“克隆”等;外来字母词:如WTO、APEC、SARS等。以上划分方式大多是按语言学的标准进行的,在计算机处理时难以找到明显的规律(命名实体和字母词除外)汉语新词语的出现规律虽然从词语的构成规律上看不出新词的规律,但是从一个整体的角度看,新词具有下述的两个特征:.新词语在文本中重复出现.新词语出现的时间有规律随着Internet的蓬勃发展以及网页采集技术的成熟,已经可以轻易的从网上采集大规模的网页,同时目前概率词法分析器也达到了比较成熟的阶段,因此这两个条件给我们利用新词语的这两个特征做好了准备。基于重复子串的新词语识别
从互联网上定点收集大量文本语料对这些文本语料进行词语切分从切分的结果中识别出所有的词典中没有出现的重复串选择某个时间点以后出现的重复串作为候选新词采用人机互助的方法从候选新词中找出真正的新词重复子串识别目标:识别出文本中所有出现两次以上的子串据香港《文汇报》报道,北京的台湾问题专家李家泉受访时指出,台北、高雄两市市长选举,尽管蓝、绿两政治势力进行了激烈的斗争,但“北蓝南绿”的政治格局未被打破,由此可以预见,未来一段时间内两岸关系的改善很难有突破。李家泉指出,此次北高两市选举在两个大背景下进行,一是民进党执政两年来政绩相当差,自身危机感非常强;二是距离2004年“大选”只有一年多时间,两派都格外重视此次交锋,对泛绿阵营来说是政权保卫战,而对泛蓝阵营来说则是夺权演习战。因此可以看到斗争形势相当严峻而激烈。新词语识别(Demo)
对于《人民日报》2002年和2001年语料分别进行重复子串识别用2002年的重复子串集合减去2001年的重复子串集合2002年出现词数大于20的词语而2001年没有出现过的重复子串:1005个Top10十六大精神1289中共十六大342学习贯彻十六大精神238核查人员223干部任用条例220建设中国特色社会主义194一边一国189贯彻十六大精神156胡锦涛当选为中共中央总书记155军品出口151新词语识别(Demo)词语:抗击非典出现总次数:3081出现的文章数:8471.报纸名:中国汽车报日期:2003-06-10网址:/GB/paper1668/9424/872549.html例句:抗击非典的斗争已经进入到扫尾阶段。2.报纸名:中国汽车报日期:2003-06-03网址:/GB/paper1668/9366/868060.html例句:此外,公司决定立即采购一批专用的清洁机、高压水枪、高效除垢剂以及杀菌消毒喷雾机等投入使用,全力以赴,抗击非典。3.报纸名:中国汽车报日期:2003-05-20网址:/GB/paper1668/9365/867876.html例句:日前,郑州宇通客车股份有限公司捐资100万元用于抗击非典什么是词语相似度与具体应用密切相关实例机器:文本中词语的可替换程度信息检索:查询扩展的有效程度……取值范围:[0,1]之间1:相似度最高,词语和其本身相似度为1;0:相似度最低影响词语相似度的因素:形态、句法、语义、语用;语义起主要作用词语相似度与词语距离
.词语距离取值范围:[0,∞).词语相似度和词语距离的关系词语距离为0.词语相似度为1词语距离为∞.词语相似度为0词语距离越大,相似度越小(单调递减).转换公式:(示例)α:可调节参数,相似度0.5时的距离值词语相似度与词语相关性(1)词语相关性两个词语互相关联的程度可以用共现的频率来衡量取值范围:[0,1]之间相似度和相关性反映词语的不同特点相关性高未必相似性高:医生,疾病相似性高未必相关性高:耶和华,玉皇大帝词语相似度与词语相关性(2)相关性与相似度反映词语的不同特点相关性反映的是词语的组合特性相似性反映的是词语的聚合特性相关性和相似度有着密切的联系相似度高的两个词,它们与其他词的相关性特点也相似可以利用相关性特点来计算词的相似性词语相似度计算方法(1)基于世界知识的词语相似度计算方法利用同义词词典(Thesaurus)计算两个概念在树状概念层次体系中的距离影响概念距离的其他因素(深度、密度)基于语料库的词语相似度计算方法利用固定宽度的文本窗口得到词语共现向量根据共现向量夹角余弦得到相似度利用其他统计信息(如互信息)词语相似度计算方法(2)基于世界知识的词语相似度计算方法简单有效,直观,易于理解主观性较强,有时不够客观主要反映语义特征,忽略句法语用等特征基于语料库的词语相似度计算方法客观,综合反映形态句法语义语用等特点计算复杂,性能依赖于语料库数据稀疏严重,噪声干扰大《知网》的知识描述语言(1)打017144exercise|锻练,sport|体育男人059349human|人,family|家,male|男高兴029542aValue|属性值,circumstances|境况,happy|福,desired|良生日072280time|时间,day|日,@ComeToWorld|问世,$congratulate|祝贺写信089834write|写,ContentProduct=letter|信件北京003815place|地方,capital|国都,ProperName|专,(China|中国)爱好者000363human|人,*FondOf|喜欢,#WhileAway|消闲必须004932{modality|语气}串015204NounUnit|名量,&(grape|葡萄),&(key|钥匙)从良016251cease|停做,content=(prostitution|卖淫)打对折017317subtract|削减,patient=price|价格,commercial|商,(range|幅度=50%)儿童基金会024083part|部件,%institution|机构,politics|政,#young|幼,#fund|资金,(institution|机构=UN|联合国)《知网》的知识描述语言(2)虚词描述格式:“{句法义原}”、“{关系义原}”;实词描述格式:由一系列用逗号隔开的“语义描述式”组成,这些“语义描述式”有三种形式:独立义原描述式:“基本义原”、“(具体词)”;关系义原描述式:“关系义原=基本义原”、“关系义原=(具体词)”、“(关系义原=具体词)”符号义原描述式:“关系符号基本义原”、“关系符号(具体词)”在实词的描述中,第一个描述式总是一个基本义原,描述了该实词的最基本的语义特征基于《知网》的词语相似度计算困难:知识描述语言的复杂语法方法一:只计算第一独立义原的相似度优点:简单缺点:过于粗疏方法二:LiSujian,etal.(2002)综合利用《知网》和《同义词词林》利用了《知网》义原之间除上下位以外的其他关系综合考虑相似度和相关度(未必合理)词语的相似度计算对于两个汉语词语W1和W2,如果W1有n个义项(概念):S11,S12,……,S1n,W2有m个义项(概念):S21,S22,……,S2m,我们规定,W1和W2的相似度各个概念的相似度之最大值,也就是说:注:在实际的文本中最好先排岐。义原的相似度计算义原之间的语义距离:其中p1和p2表示两个义原(primitive),d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。具体词与义原的相似度一律处理为一个小常数(γ);具体词和具体词的相似度,如果两个词相同,则为1,否则为0。将任何义原(或具体词)与空值的相似度定义为一个小常数(δ);虚词概念的相似度计算.由于虚词概念总是用“{句法义原}”或“{关系义原}”这两种方式进行描述,所以,虚词概念的相似度计算非常简单,只需要计算其对应的句法义原或关系义原之间的相似度即可。实词概念的相似度计算(1)基本原则:整体相似要建立在部分相似的基础上。把一个复杂的整体分解成部分,通过计算部分之间的相似度得到整体的相似度。先在二者的各个部分之间建立一一对应关系(组合配对),分别计算各个组合配对的相似度;整体相似度等于各个组合配对的相似度的加权评价;古代的战场的两军对垒:兵对兵、将对将,捉对厮杀。实词概念的相似度计算(2)将实词概念的语义表达式分成四个部分:–第一独立义原描述式:Sim1(S1,S2);–其他独立义原描述式:Sim2(S1,S2);–关系义原描述式:Sim3(S1,S2)–符号义原描述式:Sim4(S1,S2)实词概念整体相似度计算公式:β1+β2+β3+β4=1β1≥β2≥β3≥β4实词概念的相似度计算(3)发现的问题:如果Sim1非常小,但Sim3或者Sim4比较大,将导致整体的相似度仍然比较大的不合理现象改进的公式:改进的意义:主要部分的相似度值对于次要部分的相似度值起到制约作用,也就是说,如果主要部分相似度比较低,那么次要部分的相似度对于整体相似度所起到的作用也要降低。实词概念的相似度计算(4)第一独立义原描述式:.直接计算两个义原的相似度其他独立义原描述式:两个义原集合的相似度:配对困难先计算出所有可能的配对的义原相似度取相似度最大的一对,并将它们归为一组在剩下的独立义原的配对相似度中,取最大的一对,并归为一组,如此反复,直到所有独立义原都完成分组实词概念的相似度计算(5)关系义原描述式:把关系义原相同的描述式分为一组,并计算其相似度符号义原描述式:把关系符号相同的描述式分为一组,并计算其相似度计算以上各部分的相似度时,权值都取等值实验设计(1)词语相似度结果评价放到实际的系统中(如基于实例的机器翻译系统),观察不同的相似度计算方法对实际系统的性能的影响人工判别:我们采用的办法实验一采用本文中提出的词语相似度计算方法计算一个词和另外选取的一组词的相似度,判断是否符合人的直觉实验设计(2)实验二三种方法对比方法一:仅使用《知网》语义表达式中第一独立义原来计算词语相似度方法二:LiSujianetal.(2002)中使用的词语语义相似度计算方法方法三:本文中介绍的语义相似度计算方法参数选择:α=1.6,γ=0.2,δ=0.2参数选择:β1=0.5,β2=0.2,β3=0.17,β4=0.13实验结果词语1 词语2 词语2的语义 方法1 方法2 方法3男人 女人 人,家,女 1.000 0.668 0.833男人 父亲 人,家,男 1.000 1.000 1.000男人 母亲 人,家,女 1.000 0.668 0.833男人 和尚 人,宗教,男 1.000 0.668 0.833男人 经理 人,#职位,官,商 1.000 0.351 0.657男人 高兴 属性值,境况,福,良0.016 0.024 0.013男人 收音机 机器,*传播 0.186 0.008 0.164男人 鲤鱼 鱼 0.347 0.009 0.208男人 苹果 水果 0.285 0.004 0.166男人 工作 事务,$担任 0.186 0.035 0.164男人 责任 责任 0.016 0.005 0.010实验结果分析实验一:考察方法3的结果与人的直觉比较符合实验二:比较三种方法的结果方法1的结果比较粗糙,只要是人,相似度都为1,显然不够合理方法2的结果比方法1更细腻一些,能够区分不同人之间的相似度方法2有些相似度的结果也不太合理,比如“男人”和“工作”的相似度比“男人”和“鲤鱼”的相似度更高方法2的结果中,“男人”和“和尚”的相似度比“男人”和“经理”的相似度高出近一倍,不如方法3结果好WordNet发展简史70年代:基于义素分析的词汇语义学(componentiallexicalsemantics)80年代:基于关系的词汇语义学(relationallexicalsemantics)1985:Miller,WordNet:ADictionaryBrowser,可以使用同义词集合(synset)来代表词汇概念,形成词汇网络,即在词的形式和意义之间建立起映射关系(mapping)。WordNet被设想为是一个词典浏览器,是一个机器可读词典的辅助工具。而这样一个机器词典不是按字母排序的,是基于意义组织起来的。1987:ChristianeFellbaum加盟WordNet1991年7月,WordNet1.0版,包含44983个同义词集合现在,WordNet1.7.1版WordNet的心理语言学假设可分离性假设(Separabilityhypothesis):语言的词汇成分可以被离析出来并专门针对它加以研究。可模式化假设(patterninghypothesis):一个人不可能掌握他运用一种语言所需的所有词汇,除非他能够利用词义之间存在的系统的模式和关系。广泛性假设(comprehensivenesshypothesis):计算语言学如果希望能像人那样处理自然语言,就需要像人那样储存尽可能多的词汇知识。WordNet词汇的来源语料库Brown语料库;已有的一些词表LaurenceUrdang(1978)的《同义反义小词典》;Urdang(1978)修订的《Rodale同义词词典》;RobertChapmand(1977)的第4版《罗杰斯同义词词林》;美国海军研究与发展中心的FredChang的词表,与WordNet原有词表只有15%的重合词语(1986)RalphGrishman和他在纽约大学的同事的一个词表,包含39143个词,这个词表实际上包含在著名的COMLEX词典中。WordNet当时词表与该词表重合率为74%(1993年)。WordNet中有什么WordNet描述的对象compound(复合词)、phrasalverb(短语动词)、collocation(搭配词)、idiomaticphrase(成语)、word(单词),其中word是最基本的单位。对象之间的语义关系同义反义关系(synonymy,antonymy)上下位关系(hyponymy,troponymy)部分整体关系(entailment,meronymy)……部分句法信息简单的动词基本句式信息(VerbSentenceFrames)e.g.beat(somebody---ssomebody)WordNet中没有什么WordNet并不把词语分解成更小的有意义的单位(这是义素分析法的方法);WordNet也不包含比词更大的组织单位(如脚本、框架之类的单位);WordNet不是在文本和话语篇章水平上来描述词和概念的语义,因此WordNet中没有包含指示词语在特定的篇章话题领域的相关概念关系。例如,WordNet中没有将racquet(网球拍)、ball(球)、net(球网)等词语以一定方式联系到一起。WordNet中缺少关于词语的句法信息;WordNet中没有“IS-NOT-A-KIND-OF”这样的关系;WordNet中没有区分“IS-A-KIND-OF”和“IS-USED-AS-A-KIND-OF”两种关系,比如,“Athrushisabird”是前一种关系,而“Anadornmentisadecoration”则是后一种关系。更典型的例子也许是“Chickenisakindofbird”和“Chickenisakindoffood”……WordNet的名词同义词集合(synset)与词汇层级(lexicalhierarchy){robin,redbreast}@->{animal,animate_being}@->{organism,life_form,living_thing},25个基本类别(25uniquebeginners){act,activity}{food}{possession}{animal,fauna}{group,grouping}{process}{artifact}…很少有超过10到12层的语义树,通常层次比较深的情况是由于专业词汇造成的,而不是日常语言中的用词。比如:shetlandpony@->pony@->horse@->equid@->odd-toedungulate@->placentalmammal@->mammal@->vertebrate@->chordate@->animal@->organism@->entity(12levels)词汇层级的心理学证据和语言学证据
Collins&Quillian(1969):distanceinhierarchyArobinisabird--ArobinisananimalSmith&Medin(1981):typicalityorprototypicalitytheoryArobinisabird--Achickenisabird√Igavehimagoodnovel,butthebookboredhim×Igavehimagoodnovel,butthecatsupboredhim动词的搭配选择限制也表明名词上下位关系的重要性。比如动词“drink”的直接宾语可以是beverage(饮料)的任何一个下位词。这也暗示有关名词的上下位关系的知识应该以一种人们能够快速访问和搜索到的方式存贮WordNet名词的整体与部分关系A是B的组成部分;beak/wing->birdA是B的成员;tree->forestA是B的构成材料。aluminum->plane {wheel}isapartof{vehicle} {wheeled_vehicle} {sled}isakindof{vehicle} {wheel}isNOTapartof{sled} thebranchisapartofthetree thetreeisapartoftheforest thebranchisapartoftheforest.WordNet的形容词描写性形容词(descriptiveadjectives)e.g.big,beautiful,interesting,possible,married,……关系性形容词(relationaladjectives)e.g.fraternal,electrical,sidereal,……说明:关系形容词因其跟名词的关系而得名,如electricalengineer中的electrical实际跟名词electricity相关。描写性形容词的反义关系关系性形容词的特征 只能出现在定语位置(attributiveposition); 意义上跟一个名词非常相关;fraternaltwins——fraternal:brotherdentalhygiene——dental:tooth 不受程度副词修饰*theextremelyatomicbomb*theverybaseballgame 没有直接的反义词non-:somethingelsee.g.nonhuman,racellularcivillawyervs.criminallawyermechanicalengineeringvs.electricalengineering形容词的多义性oldmanvs.oldhouseoldfriend-newfriend oldfriend-youngfriendeconomicrestructuring-therestructuringwaseconomic economicslump-*theslumpiseconomicthenervousperson-theperson'snervousness thenervousdisorder-*thedisorder’snervousnessWordNet动词的蕴涵关系ToV1istoV2insomeparticularmannerWordNet动词的反义关系give/take;buy/sell;lend/borrow;teach/learn没有共同上位词live/die;exclude/include;differ/equal;wake/sleep状态动词lengthen/shorten;strengthen/weaken;prettify/uglify变化动词tie/untie;appear/disappear有标记与无标记的对立rise/fall;walk/run有共同上位词fail/succeedtry;forget/rememberknow蕴涵关系damage/repairdamage;remove/replaceremoveWordNet的应用词义标注基于词义分类的统计模型基于概念的文本检索文本校对知识处理——推理……HowNet(知网)1988-1998-董振东董强知网(英文名称How-Net)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库人工构建,自底向上归纳义原(知网标记集)董振东,1998,《语义关系的表达和知识系统的建造》,载《语言文字应用》1998年第3期。/HowNet的目标:通向“真正”的理解HowNet定义的语义关系(a)上下位关系(b)同义关系(c)反义关系(d)对义关系(e)部件-整体关系(f)属性-宿主关系(g)材料-成品关系(h)角色-事件关系施事/经验者/关系主体-事件关系 受事/内容/领属物-事件关系 工具-事件关系 场所-事件关系 ……HowNet词项基本形式NO.=030010 记录
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 04版北京市一手房购买居间合同
- 皮肤伤口用药剂市场发展预测和趋势分析
- 2024年度卫星通讯技术研发合同
- 节日装饰彩色小灯市场需求与消费特点分析
- 2024年度大米进口关税减免合同跨国贸易特别条款
- 2024年度工程事故处理合同
- 2024年度保险合同:叉车设备及其作业保险服务
- 2024年度技术服务合同的服务内容与服务期限
- 2024年度深圳艺术家工作室租赁合同with创作支持和展览权益
- 2024年度房屋租赁合同纠纷解决途径协议
- 新教材·气象灾害之洪涝灾害(公开课)课件
- 部编版六年级(下)语文写人记事类阅读复习检测题(含答案)
- 旅游地理课件:旅游规划及旅游线路设计
- 灾害现场检伤分类-课件
- 万兴神剪手的使用方法
- 日文简历模板履歴书(JIS规格)
- 审计询证函模板
- 初中数学“问题串”教学研究优秀获奖科研论文
- 小学语文人教二年级上册第三单元-《猜猜我有多爱你》整本书阅读教学设计表胡唯意
- WORD版本刻度尺-A4纸打印可用
- 雪球结构定价与风险深度分析
评论
0/150
提交评论