版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1汉语隐喻自动处理研究进展汉语隐喻自动处理研究进展贾玉祥贾玉祥2008-12-092主要内容主要内容n隐喻概述隐喻概述n隐喻自动处理任务隐喻自动处理任务n基于语义选择限制的动词性隐喻识别基于语义选择限制的动词性隐喻识别n基于显著特征的隐喻理解与生成基于显著特征的隐喻理解与生成n下一步工作下一步工作3隐喻概述隐喻概述n隐喻与修辞隐喻与修辞n使语言表达生动形象,说明事理等作用。使语言表达生动形象,说明事理等作用。qBut the greatest thing by far is to be a master of metaphor. It is the one thing that cannot
2、be learnt from others. 亚里士多德亚里士多德q能近取譬。能近取譬。论语论语.雍也雍也qBank your dream。梦想靠岸。梦想靠岸。4隐喻概述隐喻概述n隐喻与语言隐喻与语言n隐喻是语言发展和变化的一种重要方式。隐喻是语言发展和变化的一种重要方式。n隐喻是新词创造和多义词产生的基础。隐喻是新词创造和多义词产生的基础。q山脚、卵石、垃圾箱、高峰、瓶颈、病毒、线索山脚、卵石、垃圾箱、高峰、瓶颈、病毒、线索n隐喻在语句层面创生新的意义。隐喻在语句层面创生新的意义。q地球是人类的母亲。地球是人类的母亲。q化干戈为玉帛化干戈为玉帛。5隐喻概述隐喻概述n隐喻与认知隐喻与认知n概念
3、隐喻概念隐喻:我们的概念系统本质上是隐喻的,我们的:我们的概念系统本质上是隐喻的,我们的日常生活离不开隐喻,隐喻普遍存在于我们的语言、日常生活离不开隐喻,隐喻普遍存在于我们的语言、思维和行动中。思维和行动中。n隐喻的本质隐喻的本质是通过一种事物来理解和体验另外一种事是通过一种事物来理解和体验另外一种事物,即隐喻是两个概念域之间的映射,通过源域(喻物,即隐喻是两个概念域之间的映射,通过源域(喻体)概念来刻画目标域(本体)概念。体)概念来刻画目标域(本体)概念。n生命是旅程,人生如戏。生命是旅程,人生如戏。6隐喻概述隐喻概述n隐喻表达与概念隐喻隐喻表达与概念隐喻n隐喻表达很普遍,每个隐喻表达都对应
4、一个概念隐喻。隐喻表达很普遍,每个隐喻表达都对应一个概念隐喻。她像鲜花一样漂亮。她像鲜花一样漂亮。女人十八一枝花。女人十八一枝花。我们要大力培植人才。我们要大力培植人才。小朋友茁壮成长。小朋友茁壮成长。 植物植物 人人她正值豆蔻年华。她正值豆蔻年华。小生命在秋风中凋零。小生命在秋风中凋零。教师是辛勤的园丁。教师是辛勤的园丁。n概念隐喻是隐喻理解(概念隐喻是隐喻理解(自然语言理解自然语言理解范畴)的理论基础,隐喻表达是范畴)的理论基础,隐喻表达是研究概念隐喻进而研究人的概念系统研究概念隐喻进而研究人的概念系统(认知(认知范畴)的途径。范畴)的途径。7隐喻概述隐喻概述n隐喻分类隐喻分类按词类按词类
5、q名词性隐喻(名词性隐喻(祖国的花朵,历史舞台祖国的花朵,历史舞台)q动词性隐喻(动词性隐喻(放飞理想,经济滑坡放飞理想,经济滑坡)q形容词性隐喻(形容词性隐喻(跳跃的音符,快乐的小雨点跳跃的音符,快乐的小雨点)q 8隐喻概述隐喻概述n隐喻分类隐喻分类按语法单位按语法单位q构词隐喻(构词隐喻(杏仁眼,樱桃口,席卷,囊括杏仁眼,樱桃口,席卷,囊括)q词语级隐喻(词语级隐喻(潮流,包袱,燃烧,滑坡潮流,包袱,燃烧,滑坡)q短语级隐喻(短语级隐喻(知识的海洋,希望的种子知识的海洋,希望的种子)q句子级隐喻(句子级隐喻(汽车喝汽油,女人是水汽车喝汽油,女人是水)q篇章级隐喻(篇章级隐喻(打起黄莺儿,莫
6、教枝上啼。啼时惊妾梦,不得打起黄莺儿,莫教枝上啼。啼时惊妾梦,不得到辽西。到辽西。) 以名词性、动词性隐喻,短语级、句子级隐喻的处理为主。以名词性、动词性隐喻,短语级、句子级隐喻的处理为主。9隐喻自动处理任务隐喻自动处理任务n隐喻识别隐喻识别知识的海洋,汽车喝汽油。知识的海洋,汽车喝汽油。n隐喻理解(找出源域、目标域、喻底)隐喻理解(找出源域、目标域、喻底)女人是水女人是水女人女人像像水水一样一样温柔温柔。n隐喻生成(找源域)隐喻生成(找源域)A fine, small, and innocent child. The child is like a puppy(小狗)(小狗).n隐喻应用(情
7、感计算、文本蕴涵、信息检索等)隐喻应用(情感计算、文本蕴涵、信息检索等)nT:Lyon is actually the gastronomic(烹饪)(烹饪) capital of France.H:Lyon is the capital of France.查询词查询词“潮水潮水”:爱如潮水。:爱如潮水。10基于语义选择限制的动词性隐喻识别基于语义选择限制的动词性隐喻识别11引言引言n动词性隐喻:动词和论元之间存在语义冲突。动词性隐喻:动词和论元之间存在语义冲突。q 汽车喝汽油。汽车喝汽油。“喝喝”的主语(主体):通常优选的主语(主体):通常优选“有生命有生命”q 编织梦想。编织梦想。“编织
8、编织”的宾语(客体):通常优选的宾语(客体):通常优选“具体物具体物”n识别方法:基于语义选择限制识别方法:基于语义选择限制(selectional preferences)。q一般情况下,字面用法(一般情况下,字面用法(哥哥喝汽水哥哥喝汽水)符合语义选择限制,而隐)符合语义选择限制,而隐喻用法(喻用法(汽车喝汽油汽车喝汽油)违反语义选择限制。)违反语义选择限制。q(Wilks,1975)()(Fass,1991)()(Mason,2004)n关键问题是语义选择限制的获取。关键问题是语义选择限制的获取。12句法关系句法关系抽取抽取隐喻判别隐喻判别自动获取自动获取优先语义类优先语义类 语料库语料
9、库CCD汽车喝汽油汽车喝汽油sub(喝喝, 汽车汽车)obj(喝喝, 汽油汽油)End识别过程识别过程基础:基础:13获取语义选择限制获取语义选择限制n基于某一语义分类体系(如基于某一语义分类体系(如WordNet),通过某种计算模),通过某种计算模型,从语料中获取谓词对论元的选择限制。型,从语料中获取谓词对论元的选择限制。q(Resnik,1993)KL距离距离q(Li,1998)最小描述长度)最小描述长度MDLq(Clark,2002)假设检验)假设检验q(Abney,1999)隐马尔可夫模型)隐马尔可夫模型q(Ciaramita,2000)贝叶斯网络)贝叶斯网络n不需要语义分类体系,聚类
10、方法。不需要语义分类体系,聚类方法。q(Rooth,1999)基于)基于EM算法的聚类算法的聚类q(Erk,2007)基于词间相似度的方法)基于词间相似度的方法14获取语义选择限制获取语义选择限制n选择优先强度(选择优先强度(selectional preference strength)n选择关联度(选择关联度(selectional association),即),即selects: (p, r, c)a。crcpcpccpcDps)Pr()|Pr(log)|Pr()Pr(|)|(Pr()()Pr()|Pr(log)|Pr()(1),(cpcpcpscpArr15参数估计参数估计n最大似然
11、估计最大似然估计n用词频用词频freq(w)或共现词或共现词频频freq(p,w)来估计语义来估计语义类出现的频率类出现的频率freq(c)或或共现频率共现频率freq(p,c)。nclasses(w)是由是由w所在所在的各个概念及其所有上的各个概念及其所有上位概念组成。位概念组成。) ()()r(Pccfreqcfreqc)(),()|r(Ppfreqcpfreqpc)(| )(|1)()(wfreqwclassescfreqcwordsw)(),(| )(|1),(cwordswwpfreqwclassescpfreq16w = 晚餐晚餐Sense 1 = = = = = = Sense
12、2 = = = = = = Sense 3 = = = = classes(w)=, , , , , , , , , , , , 从从CCD中获取中获取classes(w)17实验与分析实验与分析n从从2000年人民日报全年语料中自动抽取年人民日报全年语料中自动抽取二元对,所有参数估计均在该二元二元对,所有参数估计均在该二元对上进行。对上进行。n中心词的抽取,是在分词、标注的基础上,采用简单启发中心词的抽取,是在分词、标注的基础上,采用简单启发式规则实现。例如,宾语中心词,式规则实现。例如,宾语中心词,q边界确定:边界确定:目标动词之后,下一个动词或标点之前。目标动词之后,下一个动词或标点之前
13、。q歧义消解歧义消解:如果有多个候选名词,则选择最后一个。如果有多个候选名词,则选择最后一个。“ 果断/ad 采取采取/v 一/m 系列/q 宏观/n 经济/n 政策/n 措施措施/n ,/wd” “ 采取采取/v 市民/n 代表代表/n 座谈/v 、/wu 张贴/v 公开栏/n 等/u 形式/n ,/wd” 18实验与分析实验与分析SynsetCSynsetAssociationCommon_people人人 世人世人 人们人们 大众大众 平民平民 百姓百姓 普通人普通人0.0288588Living_thing机体机体 生命生命 有机体有机体 生物体生物体0.0260849person人人
14、 个人个人 个体个体0.0243593people人人 人们人们 人民人民 人类人类 公民公民0.0216022friend友人友人 朋友朋友 熟人熟人 相相识识 良师益友良师益友0.012325SynsetCSynsetAssociationliquid液体液体 液汁液汁0.089294fluid流体流体 液体液体 液液汁汁0.08928substance物物 物料物料 物质物质0.067677beverage饮品饮品 饮料饮料0.047034water水水 H H2 2O O0.044359主语语义类主语语义类宾语语义类宾语语义类实例实例“喝喝”19实验与分析实验与分析n隐喻识别隐喻识别动
15、词动词宾语宾语优先语义类优先语义类隐喻隐喻透支透支生命生命 1浇灌浇灌希望希望播撒播撒爱心爱心酿造酿造悲剧悲剧提炼提炼经验经验点燃点燃激情激情编织编织梦想梦想注注1 1 优先语义类,其中优先语义类,其中09633105CCD中的概念中的概念ID,信用卡,信用卡同义词代表。同义词代表。20实验与分析实验与分析n抽象概念过滤抽象概念过滤n优先语义类对应于字面用法,常是具体概念。优先语义类对应于字面用法,常是具体概念。n自动获取的优先语义类因考虑使用频率,引入了抽象自动获取的优先语义类因考虑使用频率,引入了抽象概念。概念。q比如,动词比如,动词“兑现兑现”自动获取的优先语义类是自动获取的优先语义类是
16、,而字面用法对应的具体概念,而字面用法对应的具体概念“奖金、汇票、存单奖金、汇票、存单”等的优先级反而较低。等的优先级反而较低。q因而,利用语义词典中的概念抽象程度信息,过滤掉抽象概因而,利用语义词典中的概念抽象程度信息,过滤掉抽象概念,从而获得正确的优先语义类。念,从而获得正确的优先语义类。21基于显著特征的隐喻理解与生成基于显著特征的隐喻理解与生成22本文思路本文思路n源域和目标域同时出现的隐喻表达。源域和目标域同时出现的隐喻表达。q女人是水,理解为女人是水,理解为“女人像水一样温柔女人像水一样温柔”。q用源域用源域“水水”的的显著特征显著特征“温柔温柔”来凸显目标域来凸显目标域“女人女人
17、”的的“温温柔柔”。n隐喻往往使用源域的显著特征来凸显目标域这一特征,该隐喻往往使用源域的显著特征来凸显目标域这一特征,该特征就是源域和目标域的相似点,即喻底。特征就是源域和目标域的相似点,即喻底。n本文提出基于显著特征的方法,在统一框架下实现隐喻的本文提出基于显著特征的方法,在统一框架下实现隐喻的理解与生成。理解与生成。 23显著特征知识库显著特征知识库n名词的显著特征可通过一定句法模式获得。名词的显著特征可通过一定句法模式获得。q“像像n一样一样P”,“如如n般般P”等。等。q通过通过“像雪一样白像雪一样白”可以得到可以得到“雪雪”的显著特征的显著特征“白白”。n本文选择模式本文选择模式“
18、像像n一样一样a”,利用搜索引擎从,利用搜索引擎从海量网页中自动获取名词及其显著特征实例,海量网页中自动获取名词及其显著特征实例,并通过语义词典进行义项化的处理。并通过语义词典进行义项化的处理。24实例获取实例获取1. 从现代汉语语法信息词典(从现代汉语语法信息词典(Grammatical Knowledge Base, GKB)(俞士汶)(俞士汶 2003)中抽取所有形容词;对每个形容词)中抽取所有形容词;对每个形容词a,构造查询,构造查询“像像*一样一样a”(*是通配是通配符,使用整串匹配),由搜索引擎符,使用整串匹配),由搜索引擎搜索网页;对每个查询结搜索网页;对每个查询结果,抓取前果,
19、抓取前100个网页的片段(个网页的片段(Snippets),一起形成原始语料库;对原始语),一起形成原始语料库;对原始语料库进行分词、词性标注处理;抽取符合模式料库进行分词、词性标注处理;抽取符合模式“像像n一样一样a”的串,形成实例的串,形成实例库库EB1。2. 从从EB1中获取名词列表,对每个名词中获取名词列表,对每个名词n,构造查询,构造查询“像像n一样一样*”,同,同1进行网页进行网页抓取,分词、词性标注,抽取实例,形成实例库抓取,分词、词性标注,抽取实例,形成实例库EB2。3. 合并实例库,并用合并实例库,并用GKB过滤实例库中的词,消除分词错误。最后得到实例过滤实例库中的词,消除分
20、词错误。最后得到实例(对)对)71555个,无重复实例个,无重复实例20922个。个。4. 由实例库构造名词由实例库构造名词-特征库、特征特征库、特征-名词库。涵盖名词名词库。涵盖名词3666个,形容词个,形容词1804个。个。25n水水水水水水水水水水水水水水a安静安静安宁安宁安稳安稳肮脏肮脏博大博大纯洁纯洁纯净纯净名词名词特征数特征数特征特征水水187安静安静 安宁安宁 安稳安稳 肮脏肮脏 博大博大 纯洁纯洁 纯净纯净 纯情纯情 纯真纯真 从容从容 脆弱脆弱 单单纯纯 淡淡 淡漠淡漠 淡雅淡雅 特征特征名词数名词数名词名词温柔温柔107爱心爱心 波斯猫波斯猫 晨光晨光 春风春风 大地大地
21、大海大海 风风 羔羊羔羊 鸽子鸽子 海风海风 海水海水 海豚海豚 和风和风 江水江水 康乃馨康乃馨 流水流水 柳树柳树 柳絮柳絮 柳枝柳枝 鹿鹿 猫猫 美人鱼美人鱼 绵羊绵羊 实例库实例库名词名词-特征库特征库特征特征-名词库名词库26义项映射义项映射n同义词词林扩展版(哈工大)。同义词词林扩展版(哈工大)。n同义分组、扩展。同义分组、扩展。n按显著性排序。按显著性排序。q比如,比如,“水水”的特征里,的特征里,“清澈清澈”比比“甜甜”更显著。更显著。q用每个同义词组中的特征个数除以特征总数来表示。用每个同义词组中的特征个数除以特征总数来表示。n对特征对应的名词集合做类似处理。对特征对应的名词
22、集合做类似处理。 27水:水:Ef04A01 0.059 /安静安静 沉静沉静 静静 静谧静谧 冷静冷静 宁静宁静 清静清静 清净清净 恬静恬静 幽静幽静 幽深幽深Ed15C01 0.037 /平和平和 轻柔轻柔 柔和柔和 温和温和 温柔温柔 温软温软 优柔优柔Eb19A01 0.037 /纯净纯净 明澈明澈 明净明净 清清 清澈清澈 清亮清亮 清冽清冽Ef12A01 0.032 /干净干净 洁净洁净 净净 清洁清洁 清爽清爽 清新清新Eb10B01 0.027 /绵软绵软 柔柔 柔嫩柔嫩 柔韧柔韧 柔软柔软Ee15A01 0.027 /快快 灵灵 灵动灵动 灵活灵活 敏感敏感Ee07A01
23、0.021 /温存温存 温和温和 温柔温柔 温润温润Ga01A01 0.021 /欢快欢快 快快 快活快活 快乐快乐28温柔:温柔:Bf02A 0.065 /春风春风 风风 海风海风 和风和风 轻风轻风 晚风晚风 微风微风Bi06D 0.047 /羔羊羔羊 羚羊羚羊 绵羊绵羊 山羊山羊 羊羔羊羔Ab01B 0.047 /妇女妇女 娘娘 女儿女儿 女人女人 女子女子Bg01A 0.037 /海水海水 江水江水 流水流水 水水Bg03B 0.037 /晨光晨光 阳光阳光 月光月光 月色月色Bh02A 0.037 /合欢合欢 康乃馨康乃馨 山茶花山茶花 茉莉花茉莉花29隐喻理解隐喻理解n形式化为:形
24、式化为:P=C(S,T) 。qSalient Property,Comprehension,Source domain,Target domainnS的显著特征为的显著特征为P提供了候选,最终提供了候选,最终P的确定还要参照的确定还要参照T。n坚持坚持P是是“S、T的相似点的相似点”、“S的显著特征的显著特征”等原则。等原则。n具体算法为:具体算法为:q如果如果S和和T的显著特征交集不空,则的显著特征交集不空,则P取特征交集;取特征交集;q否则,否则,P取取S的最显著特征。的最显著特征。q如果如果S不在知识库的名词列表中,则理解失败。不在知识库的名词列表中,则理解失败。30隐喻生成隐喻生成n形
25、式化为:形式化为:S=G(T,P) 。qSource domain,Generation,Target domain,Salient PropertynP对应的名词集合为对应的名词集合为S提供了候选,最终提供了候选,最终S的确定还需要考的确定还需要考虑虑T。n原则是保证原则是保证S和和T分属两个不同的概念域。分属两个不同的概念域。n具体算法为:具体算法为:q在保证在保证S、T所在的概念域不相同的前提下,所在的概念域不相同的前提下,S取取P对应的最显对应的最显著的名词。著的名词。q如果如果P不在知识库的特征列表中,则生成失败。不在知识库的特征列表中,则生成失败。 31数据数据n目前知识库中包含的
26、形容词占形容词总数(来自目前知识库中包含的形容词占形容词总数(来自GKB)的的1804/315557.18%。q说明知识库能为说明知识库能为57.18%的形容词提供源域候选。的形容词提供源域候选。n名词比例为名词比例为3666/3516210.43%。q只有约只有约10%的名词用作源域,体现了源域概念的选择性。的名词用作源域,体现了源域概念的选择性。n测试数据:从抓取的网页中抽取符合模式测试数据:从抓取的网页中抽取符合模式“像像n一样一样a的的n”的串,如的串,如“像大海一样广阔的胸怀像大海一样广阔的胸怀”,从中选择样本,从中选择样本262个。个。32理解举例理解举例n女人是水。女人是水。q特
27、征交集是特征交集是“温柔温柔”,理解为,理解为“女人像水一样温柔女人像水一样温柔”。n人生如梦。人生如梦。q特征交集是特征交集是“短暂短暂”,最显著特征是,最显著特征是“缥缈缥缈”,理解为,理解为“人人生像梦一样短暂、缥缈生像梦一样短暂、缥缈”,形容世事无定,人生短促。,形容世事无定,人生短促。n人是会思想的芦苇。人是会思想的芦苇。q特征交集是特征交集是“脆弱脆弱”,理解为,理解为“人像芦苇一样脆弱人像芦苇一样脆弱”,强调,强调人的脆弱性。人的脆弱性。33实验结果实验结果n隐喻理解和生成均未出现失败的情况。隐喻理解和生成均未出现失败的情况。n隐喻理解的正确率达到隐喻理解的正确率达到86.26%。特征交集特征交集最显著特征最显著特征总体总体正确样本数正确样本数106120226样本数样本数116146262正确率正确率91.38%82.19%86.26%隐喻理解结果隐喻理解结果34实验结果实验结果n隐喻生成的满意率是隐喻生成的满意率是205/262=78.24%。n错误来源主要是形成的隐喻理解起来不够直观,错误来源主要是形成的隐喻理解起来不够直观,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论