综合型语言知识库的建设与利用_第1页
综合型语言知识库的建设与利用_第2页
综合型语言知识库的建设与利用_第3页
综合型语言知识库的建设与利用_第4页
综合型语言知识库的建设与利用_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单击此处编辑母版副标题样式**1单击此处编辑母版标题样式语义计算与语言知识库俞士汶

朱学锋■■■北京大学计算语言学教育部重点实验室 北京大学计算语言学研究所Email:2010年5月21日,苏州大学第11届词汇语义学研讨会

CLSW2010

大会报告国家自然科学基金项目“No.

60970083〞北京大学计算语言学研究所主要内容自然语言处理现状自然语言理解之路语义计算的内容与方法语言知识库结语与致谢〔1〕机器翻译与机器辅助翻译〔最早〕〔2〕信息检索与搜索引擎〔前沿与热点〕〔3〕文本与知识管理〔术语提取、分类、摘要、述评〕〔4〕人工系统的自然语言界面〔5〕词典计算机辅助编纂……NLP是IT的子任务,作为计算机处理的对象,发生了变化:表现形式〔字符串〕━?词、句子、篇章字符信息〔数据集〕━?语言信息〔知识〕中国每年发布?中国语言生活绿皮书?之?中国语言生活状况报告?,要处理10亿字量级的海量数据〔字频统计、词频统计、新词语及流行语提取等北等京〕大,学,计N算LP语言技学术研发究发所挥了关键ht的tp:支//i撑cl作.pk用u.e。du.c2n009年的?自然语言处理现状自然语言处理现状〔看看搜索引擎的水搜索平引擎〕的实例(2010年2月8日百度的搜索结果〕北京大学计算语言学研究所查询实例:鸡肋是什么?结果之一:

这样的老公不是鸡肋是什么。

〔杭州网,2007-10-12〕结果之二:

私家车上最好吃的鸡肋是什么?

〔汽车之家·论坛,2009-07-30〕搜索引擎的基本原理——网页信息的表示:关键词索引——查询信息的表达:关键词及其组合——看家本领:字符串匹配,浅层的自然语言处理技术搜索引擎的发展空间与发展方向——在中国还有很大发展空间,并走向国际化李彦宏?环球时报?5月7日——技术突破:内容索引与查询意图理解——百度提出框计算的理念,实质性的改变是希望引进语义分析深层的自然语言处理技术,语义计算技术便有了用武之地。机器翻译需要语义信息处理技术早已广为人知。自然语言处理现状北京大学计算语言学研究所再看看机器翻译的水平,以Google

Language

Tools为例。胡六点横看成岭侧成峰,见仁见智。〔摘自?参考消息?2009年1月13日第10版台报社论〕2009年1月13日测试结果6:00

Wang

Ling

Hu

as

the

side-feng,a

matter

of

opinion.2009年10月15日测试结果6:00

Wang

Hu

Ling

from

the

side,as

a

peak,a

matter

of

opinion.2010年3月13日的测试结果6:00

Wang

Hu

Ling

from

the

side,

as

a

peak,

a

matter

of

opinion.〔Contribute

a

better

translation〕2010年5月9日的测试结果Hu

Six

Points

ridge

or

a

peak,

a

matter

of

opinion.自然语言处理距离自然语言理解的最高境界,还有很远的路要走。最本质的是人类对自己的语言理解机制这一复杂的大脑活动了解甚少。自然语言理解之路英国?新科学家?周刊2005年4月9日的文章——生命进化的十大奇迹:脑〔第3项〕和语言〔第4项〕脑常常被视作进化过程中的最高成就,因为它赋予了人类一些高级特征,例如

语言、智慧、意识。语言是进化的终极发明。在令人类区别于动物的特征中,语言处于核心地位。语言也许称得上是人类的决定性特

征之一。我们的祖先如何实现了语言从无到有的飞跃,这也许是科学史上最大的谜。语言是生物进化的最后一笔。这是因为语言令那些掌握了它的动物超越了纯生物的范畴。语言系统是动物进化到人的两大标志之一。语言理解机制的解密对智能本质的认知具有重要价值。北京大学计算语言学研究所自然语言理解之路北京大学计算语言学研究所自然语言处理是数值计算机在非数值领域最早的应用〔MT,Turing试验〕,尚未取得突破性进展。自然语言理解特别困难:〔1〕依据对人类语言机制的认识〔2〕语言既是对象,又是工具〔3〕依据对当代计算机能力的认识〔4〕依据NLP技术发展的历史经验汉语理解研究和其他语言一样困难,汉语信息处理技术又有特殊的课题。——误解实经实经例常之发一生阳台上关于自动升降晾衣架坏了的对话北京大学计算语言学研究所妻子:“嘿,过了一年才坏。〞丈夫:“什么呀,才一年就坏了。〞——用的时间长——用的时间短——虚词用法与词义:才〔数量词前后,意义不同〕丈夫理解了妻子的意思吗?——背景知识:保修期——知识激活机制?自然语言〔汉语〕理解的困难——实顿例悟之是二怎样产生的?关于“沙漠化〞的文章“几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,……。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。〞——<今日民航>2001年9月号北京大学计算语言学研究所自然语言〔汉语〕理解的困难自然语言理解之路北京大学计算语言学研究所现在的研究只着眼于话语或文本。实际人类阅读与交际是多通道的〔文字、语音、图像多模态信息,脑、口、眼、耳并用),实现了多模态信息的融合,目前的自然语言理解研究才刚刚认识到这一点,只有一些初步的认识和零星的积累。顾曰国教授建立了记录实际场景的现场即席话语多模态语料库〔包括话语活动的音频、视频文本及其转写的文字〕。手语机器翻译研究的启示〔5月11日,手语研究讲座〕。必须仰仗脑科学、认知科学的进步,多学科的交叉和融合才有希望。语言学〔计算语言学〕也有自己的贡献,特别是语义计算研究是向自然语言理解进军途中的一支重要的方面军。语言表达的形式与承载的意义之间存在复杂的多对多的关系,任何一个孤立的语言片断都存在歧义。自然语言处理最基本的任务就是在一定的语境〔环境〕中消解歧义。字面表达与真实含义之间又有距离,如何沟通。实现理解。语言学家:语义——流沙,泥潭,黑洞语义处理是自然语言理解的必由之路,再难也要研究。语义研究史实:前仆后继语义计算研究的主要内容,可划分为3个互有联系、相互支持的3个层次:本体层次上的语义处理认知层次上的语义处理语用层次上的语义处理北京大学计算语言学研究所语义计算的内容1

本体〔ontology〕层次上的语义处理——语义分析研究基于知识库〔名词的概念层级和动词形容词的语义角色〕,本质上就是借助客观的世界知识〔常识〕消解语言单位和语言结构的歧义。白天鹅——白/天鹅/?白天/鹅/?〔白天鹅飞过来了//白天鹅可以看家〕姜母鸭——姜/母鸭/?姜母/鸭/?维修车间的仪表仪表——意思完全不同的两个词〔她的仪表很端庄//她的仪表很精确〕各种语言的语义计算的主攻方向。英语领导潮流,以英语为背景,创立了各种理论、算法。汉语也有一定的成果和积累,与国际先进水平的差距在缩小。北大穗志方、常宝宝、刘扬、吴云芳、邵艳秋〔北京城市学院〕、金澎〔乐山师范学院〕等各位博士正在进行的研究都属于这个范畴。苏州大学周国栋博士也在进行面向句子和篇章的语义分析方法与计算模型研究,提出了基于配价结构的中文句法语义计算模型,并借鉴依存分析算法,探究篇章中的各种结构及各组成成分之间的语义关系。期望周国栋博士的研究将语义分析推向一个新的高度。北京大学计算语言学研究所1

本体〔ontology〕层次上的语义处理北京大学计算语言学研究所——ontology的自动构建研究黄居仁等新著:Ontology

and

The

Lexicon陆勤教授正在进行

ontology

的自动构建研究专业知识与领域知识工程〔北大穗志方博士〕互联网实现信息服务向知识服务的转型面向web和基于web的领域知识获取技术与领域知识本体构造技术术语〔概念〕的自动提取术语定义和概念属性的自动获取概念层级结构的自动构造〔层级关系与属性值的相互参照〕人机互助的理念尽管自然语言理解研究的主攻方向一直是语义歧义消解,但是仅仅消解了歧义,还不能完全解决文本内容理解的难题。一些文学表现手法,像隐喻、影射、双关、夸张、拟人以及遣词造句的技巧对自然语言处理研究提出了挑战——超出歧义范围。甚至,消歧也并非是语言理解的必要任务。实例〔双关〕:“您的健康是天大的事——天大药业〞北京大学计算语言学研究所“您

健康

是“您

健康天

事〞是

天大

事〞“一面之缘,终生难忘〞这些使用技巧并非只见于于文学作品,人们日常语言中也经常使用,反映了人类的认知思维机制。重点讨论隐喻。2

认知层次上的语义处理——以隐喻计算为例2

认知层次上的语义处理——以隐喻计算为例2.1

对隐喻〔metaphor〕的基本认识各个语言层级上都有隐喻存在:杏仁眼0

人流1

美女蛇构词层级:卵石10词汇层级:潮流2朝阳2

燃烧2

纯净2蓬首垢面

同舟共济短语层级:知识1的海洋1

/

播种1幸福1的种子1

/金融1海啸1句子层级:汽车喝汽油

/

老公是鸡肋2篇章层级:打起黄莺儿,莫叫枝上啼。啼时惊妾梦,不得到辽西。北京大学计算语言学研究所2.2

隐喻计算研究的任务:〔1〕隐喻识别知识的海洋

——

海洋资源考察北京大学计算语言学研究所〔2〕隐喻理解(与翻译)知识的海洋

——样丰富老公是鸡肋

——样食之无味弃之可惜〔3〕隐喻生成知识像海洋一老公像鸡肋一2

认知层次上的语义处理——以隐喻计算为例隐喻计算研究的方法〔1〕基于规那么〔逻辑〕的方法——发现本体与喻体间的冲突,寻找共同属性〔喻底〕这个人是一头狮子。——本体与喻体那个人是老狐狸。——本体与喻体森林里既有勇猛的狮子,也有狡猾的狐狸北。京大学计算语言学研究所——h喻ttp:体//ic和l.pk喻u.ed底2

认知层次上的语义处理——以隐喻计算为例已做的研究工作〔1〕2002年提出研究设想,2004年列为

973课题“文本内容理解的数据基础〞〔2004年9月—2009年12月〕的子任务之一。〔2〕2006年王治敏完成博士论文?汉语名词短语隐喻识别研究?,即将由北京语言大学出版社正式出版。北京大学计算语言学研究所2

认知层次上的语义处理——以隐喻计算为例2

认知层次上的语义处理——以隐喻计算为例2.5

隐喻计算研究在搜索中的潜在应用〔1〕

提高查准率——“起飞〞网页索引与查询都把词语的本义和隐喻义区分开。检索“起飞〞本义时,过滤掉不相关的隐喻用法的网页,可以提高本义检索的查准率〔如:“航班起飞时间〞,“起飞跑道距离〞等等,排除“经济起飞〞、“东方美女歌坛起飞〞等网页。北京大学计算语言学研究所2

认知层次上的语义处理——以隐喻计算为例2.5

隐喻计算研究在搜索中的潜在应用〔3〕实验1:

“金融风暴〞

、“金融海啸〞喻指“金融危机〞query:“金融危机〞结果:只有“金融危机〞或“金融//危机〞query:“金融风暴〞或“金融海啸〞结果:同样没有“金融危机〞北京大学计搜算语索言学呈研究现所相互独htt立p:/状/ic态l.pk,u.e明du.显cn降低2

认知层次上的语义处理——以隐喻计算为例2.5

隐喻计算研究在搜索中的潜在应用〔4〕

翻译与跨语言搜索翻译可以作为检验隐喻识别与理解的一个指标。铁榔头:iron

hammer?iron

fist?翻译还涉及文化问题。鸡肋:a

chicken‘s

rib?tasteless

to

eat

but

awaste

to

cast

away——食之无味弃之可惜?该老北京公大学是计鸡算语肋言学:研T究Th所e

hushbttap:n/d/icl.ipksu.eadu.cn2

认知层次上的语义处理——以隐喻计算为例2.5

隐喻计算研究在搜索中的潜在应用〔5〕隐喻自动识别之可行性分析作为喻体〔源域〕的词语的有限性王治敏博士对?现代汉语语法信息词典?中

35198个名词逐一排查,经常用作隐喻的名词只有700多个。首先在网页中识别隐喻,建隐喻索引,进而实北京现大学理计解算语、言学研究所〔1〕构式的凸现意义这一锅饭够吃五个人这一张床可以睡三个人台上坐着主席团语言构式凸现的意义并不等同于成分〔中心词〕的默认意义。这些构式凸现的是实体与实体之间的数量分配关系、空间位置关系,主要动词与名词间原有的施受关系等虽然存在,但退居次要地位。〔2〕语义指向述补结构、状中结构中的补语、状语的语义指向〔文章〕写完了/〔老师〕写累了/〔毛笔〕写秃了香喷喷地炸了一盘花生米/园园地围成一圈原有的知识库中的知识不够用,要反映语义角色的变化过程与北结京果大学。计算语言学研究所3

语用层次上的语义处理〔3〕语义和谐律陆俭明:词语之间语义制约的原那么,本质上就是要求句子中的各个词语之间在语义上要和谐。能否说,语言中就存在着“语义和谐律〞〔semantic

harmony

〕?拔出来/

*拔进去/

插进去/

*插出来说话和气点儿/

*说话粗暴点儿/

说话严肃点儿那个大苹果他都吃了

/

*那颗小樱桃他都吃了

/那颗小樱桃松鼠都吃了我认为相关研究有益于病句剖析和语言自动生成。北京大学计算语言学研究所3

语用层次上的语义处理在语义层面上实现对自然语言文本内容的处理和理解,是长期的研究任务,有很多工作要做,首先是提出问题,接着就是寻找解决这些问题的方法。面向应用系统的语言模型研究实现语言模型的算法研究夯实基础——语言知识库建设相对于前两项,第3项研究周期长,见效慢,更需要研究者耐得住寂寞。纵观全局,比较而言,早期对第3项的投入较少,但存活的成果却较多。ICL/PKU

在这方面长期坚持,积累了一定的成果。北京大学计算语言学研究所语义计算的研究方法主要内容北京大学计算语言学研究所自然语言处理现状自然语言理解之路语义计算的内容与方法语言知识库结语与致谢自然语言处理系统的语言知识库语言知识库是自然语言处理系统不可或缺的组成部分,成败的关键。在语言知识库搭建的平台上可以上演威武雄壮生动活泼的应用系统的剧目。语言知识库1语言知识库2语言知识库3语言知识库4……平台/API……应用程序1北京大学计算语言学研究所应用程序2面向以汉语为核心的多语言信息处理的语言知识库的既有成果:ChineseLDC同义词词林董振东:HowNet台湾中研院:现代汉语平衡语料库、BOWICL/PKU:综合型语言知识库…

……已有一定基础和积累,需要进一步完善、更新、集成、规范,形成共同的基础设施和开发平台。需要面向新任务的创新工程:隐喻知识库,超本体的动态过程知识库〔广义配价理论〕,多语言对译〔参照〕信息的融北京入大。学计算语言学研究所汉语语义知识库的现状多年前已有的:〔1〕现代汉语语法信息词典〔8万词语〕〔2〕面向汉英机器翻译的现代汉语语义词典〔6万〕〔3〕面向跨语言文本处理的中英文概念词典〔10万概念〕〔4〕现代汉语多级标注语料库〔6000多万汉字〕〔5〕句子对齐的双语语料库〔英汉80万句对、日汉3万句〕〔6〕多个专业领域的术语库〔35万英汉对照术语〕〔7〕现代汉语短语结构规那么库〔600余条规那么〕〔8〕用于语言知识库开发的各种规范以及工具软件…

……

…规模大,种类多〔词语与文本、句法与语义、多语对照〕,质量上乘,已产生广泛影响,效益显著,并形成综合型语言知识库〔获教育部科技进步一北等京奖大学等计奖算语励言〕学。研究近所几年,在htt9p7:/3/课icl题.p支k支u.持edu下.c得n得到进一ICL/PKU的综合型语言知识库概要北京大学计算语言学研究所?中文信息学报?2010年第2期报道:“……综合型语言知识库已完成许可使用权的协议有偿转让200次左右其中以其第一块基石?现代汉语语法信息词典?的转让次数最多,它的第一份协议签于1996年2月2日,最后一份于2010年2月8日生效,前后历时15年,还有新的协议正在洽谈中。在IT领域,一项研究成果存活如此长的时间,确实难能可贵。综合型语言知识库还在继续发展。国家重点基础研究项http:/目/i〔cl9.7p7k3u〕.e数du字.c内n

容理解的理论北京大学计算语言学研究所对“综合型语言知识库〞的两点补充说明“综合型语言知识库〞富 含词汇语义信息“综合型语言知识库〞的最新进展中英文概念词典CCD〔10万概念按同义词集synset加以组 织,描述概念间的上下位〔Hypernymy〕、整体-部分〔Holonymy〕、反义〔Antonymy〕、致使〔Cause〕、蕴涵〔Entailment〕等关系,重在词义间的聚合关系。现代汉语语义词典CSD〔6万个记录〕中的记录区分实词的 细粒度的义项,既将每个义项记录归入一定的语义类体

系,又描述它的配价信息〔包括配价数以及施事、受事、 与事的承担者信息〕。重在词义间的组合关系。?现代汉语语法信息词典?GKB,也含有相当多的词汇语义 知识。①GKB的每个记录的“同形〞字段区分了词的粗粒度义项。②在体宾动词分库中,指明了及物动词的体词性宾语可能担任的语义角色〔语义格〕以及各种语义格的格标记。③时间词、处所词乃至时间词库中的“时态〞字段以及语素库中的“姓氏〞、“人名〞、“地名〞、“水名〞等字段北京都大给学计机算器语提言学示研了究所语义信息ht。tp://“综合型语言知识库〞富含词汇语义信息“综合型语言知识库〞

的最新进展北京大学计算语言学研究所1?现代汉语语法信息词典?GKB中语法属性的计量研究——概率型常用词汇知识库〔王萌等〕例证:“数名〞搭配的计量研究北京大学计算语言学研究所名词“数名”属性值出现总次数直接受数词修饰次数分散度值人/n可1778846579.025字/n可8003026.567书/n否1352240(限于“一”、“两”)0.146?现代汉语语法信息词典?描述了名词直接受数词修饰的可能性:“人〞、“字〞——“可〞,“书〞——“否〞从语料统计实际次数〔概率〕,验证了一部分词的该属性的“可/否〞值,但对“书〞的该属性的值那么提出质疑。进一步计算“熵〞值〔反映了数词的分散度〕,那么厘清了自由搭配与固定搭配的界限。“综合型语言知识库〞

的最新进展北京大学计算语言学研究所?现代汉语语法信息词典?GKB中语法属性的计量研究——概率型常用词汇知识库〔王萌等〕大规模词义〔义项〕标注语料库〔吴云芳、金澎、张仰森 等〕——基于GKB,粗粒度〔同形〕,2800万汉字文本80万同形标注——基于CSD,细粒度义项,近700万汉字文本8万义项编码标注样例:粗细粒度词义标注语料库北京大学计算语言学研究所①/v丁/nr玉珍/nr把/p

冲/v!A-1

好/a的/u咖啡/n交了/u孔/nr玲/nr。/w②待/p我/r再/d去/v

冲/v!A-2

胶卷/n时/Ng,/w③有/v人/n嫌/v脏/a,/w提出/v用/v水/n

冲/v!A3一/m

冲/v!A-3

。/w④⑤一/m只/q白/a天鹅/n直/d

冲/v!B

云霄/n1995年/t洪水/n

冲/v!B

倒/v了/u他/r家/n村子/n里/f的/u3/m间/q土屋/n,/w也/d没有/v能力/n翻盖/v。/w“综合型语言知识库〞

的最新进展北京大学计算语言学研究所?现代汉语语法信息词典?GKB中语法属性的计量研究——概率型常用词汇知识库〔王萌等〕大规模词义〔义项〕标注语料库〔吴云芳、金澎、张仰森 等〕——基于GKB,粗粒度〔同形〕,2800万汉字文本,80万同形标注——基于CSD,细粒度义项,近700万汉字文本,8万义项标注面向信息处理的成语知识库〔王雷、李芸等〕——成语〔习用语〕数量多,信息丰富,适用于MT,

CAT,IR 等等样例:成语知识库部分字段北京大学计算语言学研究所成语:自暴自弃直译:to

expose

and

throw

one

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论