热烈祝贺北京语言大学信息科学学院成立10周年语言信息处_第1页
热烈祝贺北京语言大学信息科学学院成立10周年语言信息处_第2页
热烈祝贺北京语言大学信息科学学院成立10周年语言信息处_第3页
热烈祝贺北京语言大学信息科学学院成立10周年语言信息处_第4页
热烈祝贺北京语言大学信息科学学院成立10周年语言信息处_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

热烈祝贺北京语言大学信息科学学院成立10周年!语言信息处理研究所成立 23周年!重逢机遇,再迎挑战

--一种变换思考

董振东

dzd@

北京语言大学

2010-05-29提纲开场白–变换思考引言应用软件启示录分析和讨论变换思考没有严格的“词”,只有“词语”;不必再制定“分词规范”;只有词语处理,是“合”,从单字开始“合”, 字—词语—语块—(句)文,“合”的结果是语义关系;没有名、形、动词类体系,只有义类体系和虚词词语;没有主、谓、宾体系,但有语义角色关系;不是树,而是图;引言一些令人深省的报告为何老是“落后”?一些令人深省的报告(1)“虽然在一些评测中,命名实体识别的性能达到较高水平,但是评测有很大的局限性,在真实应用环境中,命名实体识别的性能会大打折扣,命名实体识别问题还远远没有得到解决。 (1)系统的自适应能力不强自适应能力不强是统计学习方法普篇存在的问题…”

--赵军,命名实体识别、排歧和跨语言关联,中文信息学报,2009-03一些令人深省的报告(2)第一届汉语句法分析评测学术研讨会的报告称:在词性标注任务中,“名动词vN的识别性能最差。这与我们的直观识别难度判断一致。”“在三个常用的专名小类设计(nP,nS,nO)中,机构名nO的标注效果最差,其主要原因是由于其内部组成灵活,外部句法特征分布不明显,以及相关统计数据较稀疏等”vN最高F-1值:74.90 (vM最高F-1值:96.64)nO最高F-1值:53.49 (nP最高F-1值:88.44)一些令人深省的报告(3)“近30年来的研究,并没有真正改善中文自然语言与信息处理最基本的瓶颈问题。中文自然语言应用在分词的第一步就远远落后英文或其他先进语言,在技术上尚不能达到大规模应用。…这是中文自然语言处理研究的危机。”

--黄居仁,瓶颈,挑战,与转机:中文分词研究的新思维,中国计算语言学研究前沿进展(2007-2009)一些令人深省的报告(4)Aroundtheworld,fromChinatoGermany,ourcompetitorsarewagingahistoricefforttoleadindevelopingnewenergytechnologies.TherearefactorieslikethisbeingbuiltinChina,factorieslikethisbeingbuiltinGermany.Nobodyisplayingforsecondplace.Thesecountriesrecognizethatthenationthatleadsthecleanenergyeconomyislikelytoleadtheglobaleconomy.Andifwefailtorecognizethatsameimperative,weriskfallingbehind.Weriskfallingbehind.(Applause.)一些令人深省的报告(5)Fifteenyearsago,theUnitedStatesproduced40percentoftheworld'ssolarpanels--40percent.

Thatwasjust15yearsago.

By2008,oursharehadfallentojustover5percent.

Idon'tknowaboutyou,butI'mnotpreparedtocedeAmericanleadershipinthisindustry,becauseI'mnotpreparedtocedeAmerica'sleadershipintheglobaleconomy.

为何老是“落后”?(1)“我们的中文信息处理远远落后了”或者“我们在语言学领域在国际上没有话语权”,这是我们可以听到的感叹。1.所谓的“落后”,是不是应该做过细的分析?2.如今我们在各个领域(分析、排歧、机译等)所采用的技术路线、方法和工具,基本上是与“先进者”一样的,甚至资源也是他们的,那怎么还会落后呢?3.是工具和方法不对头,还是对象出了问题?“为何老是落后”?(2)如今有两个值得反思的问题: 1.主流技术三部曲; 2.马氏文通的汉语语法框架;30年前我们这个领域的论文常是“概念依存”、“GPSG”、”LFG”、”合一运算”,“蒙塔古语法”、”生成语法”、“配价语法”等等,那时候,我们自叹“落后了”;30年后是我们改成了“ML”、”HMM”、 ”SVM”、””CRFs、”ME”、“Moses”、”认知语言学”等等,我们还是“落后了”。宾州中文树库的标注–是中文吗?

(IP(NP-SBJ(NN经济)) (VP(ADVP(AD年平均)) (VV增长) (QP-EXT(CD百分之十七)))) (PU,) (IP(NP-SBJ*pro*) (VP(VV高于) (NP-OBJ(NP(DP(DT全)) (NP(NN国))) (ADJP(JJ年平均)) (NP(NN增长) (NN速度)))))) (PU。)))我的书中14章指出“WewonderifthisremainstheChineselanguagethatChinesepeoplereallyuse.Chinesespeakersarenotassensitiveinparts-of-speechasEnglishspeakers.

”“ThestrategywebelieveinwhendoingtheresearchanddevelopmentofHowNetis:LetChinesebeChinese.Nevertrytodistortitandsqueezeitintoanon-Chinesegrammarframe,orasaChineseoldsayinggoes,tocutone’sfeettofittheshoes.”应用软件启示录Office的“拼写和语法”MT系统Office的“拼写和语法”2010年3月5日温家宝的政府工作报告,17页,2万字:(查出的错误或问题)共计:59建议: 3 请予审议预审数字的不规范用法: 6 2万亿美元非词单字: 7 共克时艰;医保词法错误: 1 可再生能源

数量词错误 1 两高一资”产品出口

输入错误或特殊用法 41

节能减排和;经济增长内生动力不足;地区维稳等重大任务

西气东输二线西段;重点小型病险水库;强国必先强教。

MT系统(1)(1)据邻居反映,案发当天中午有一个快餐外卖郎来过被害人家中。

a.Accordingtoneighborsreflectedtheincidentthatdayatnoonthereisafastfoodtake-Langcametothevictim'shome.

b.Accordingtotheinformationofneighbour's,afastfoodtakesoutthemydarlingtobeentovictim'shomeatnoononthedaywhenthecasehappened.MT系统(2)(2)一个官员被修脚女刺死了。

a.Oneofficerwasstabbedtodeaththewomenpedicure. b.Anofficeristrimmedthefootdaughterandassassinated.MT系统(3)(3)这裤子穿着有点紧绷,很不舒服。

a.Thisisalittletightpantswearing,veryuncomfortable.b.Itisalittletightthatthistrouserswear,veryuncomfortable.(4)这裤子穿着紧紧绷绷的,很不舒服。a.Wearingtightstretchpantsthatstretch,andveryuncomfortable.b.Thistrousersworeandsplitopentightly,veryuncomfortable.MT系统(4)(6)星期天几家女人常一起逛逛街,购购物,美美容,我们男人很少陪着。a.Sundaywithseveralwomenoftenwalkonthestreets,shoppingandshopping,theU.S.beauty,weseldomstaywithaman.b.SeveralfamilywomenoftengoshoppingtogetheronSunday,purchaseanddoshopping,U.S.A.improveslooks,wemenareseldomaccompanied.分析和讨论(1)如果英语处理朝着浅方向、粗的、简单的走;汉语则反其道而行之,是朝着深方向、细的、复杂的走;以语义为根本;破除关于语义的误区!语义和语法结合贯穿始终;不同性质问题采取不同策略;歧义(结构或词语意义)处理采取精准打击,定点清除的策略;分析和讨论(2)原则:一切能产的语言现象都应处理; (1)研究应该采取的策略; (2)建立和试验所需的资源;阶段:(1)词语处理固定词语(类似于MWE)语块(类似于chunk) (2)远距离依存关系分析 (3)词语意义判定词语处理阶段的任务1.单字和标点2.合成已登录词语3.伪生词辨识与合成4.紧缩词语辨识5.重叠词语辨识与处理6.近距功能词语辨识与处理伪生词辨识与合成(1)组成多字词语的每一单位的意义是它在知网中列出的义项者;(2)组成多音词语的每一单位的组合模式是规范的;例如:野泳、蒸锅、食宿费、外卖郎、修脚女、独臂英雄办-法,做-法,疗-法,写-法,制-法,泡-法,切-法,谈-法,走-法,画-法,摔-法,打-法,译-法,编-法,织-法,加-法,减-法,乘-法,除-法,割-法,算-法,冲-法,游-法,跳-法,书-法,表达-法,描述-法,切入-法,切割-法,切开-法,教学-法裁剪-法,

障眼-法,入水-法,鼻饲-法,饲养-法,

紧缩词语辨识1.

医保、医改、涉农、婚介2.维稳办、纠风办3.寒暑假、事病假、轻重机枪重叠词语辨识与处理1.

看看、研究研究、宽宽松松2.一张张3.一张一张、一张又一张4.美美容、购购物5.试试看6.看一看、翻了翻、看了又看7.哭着哭着近距功能词语辨识与处理1.

了、着、过2.趋向功能词(上、下、起来、得起、不起)远距离依存关系分析任务短语内部词语依存(境外毒品走私集团)短语边界MT系统(7)(8)港台童装制造商纷纷来东莞设厂。a.KidsHongKongandTaiwanmanufacturershavesetupfactoriesinDongguan.b.ManufacturercometoDongguantosetupthefactoryoneafteranotherwithchildren'sclothesofHongKongandTaiwan.MT系统(8)(7)这样的宣传我们是不会相信的。 这样的宣传董事会是不会相信的。a.Thisinformationwewillnotbelieveit. Thiskindofboardwouldnotbelieve.b.Wewillnotbelievesuchpropaganda. Suchpropagandadirectorwillnotbelieve.MT系统(9)(8)村上的人死了,开个追悼会。用这样的方法,寄托我们的哀思,使整个人民团结起来。a.Murakami'sdead,openamemorialservice.

Inthisway,andplacedourgrief,sothatthewholepeopletogether.b.Thepersoninthevillagehasdied,holdamemorialmeeting.Bysuchmeans,placeourgrief,makethewholepeopleunite.词类(1)说因为汉语的词缺少形态特征,所以词类问题有许多争论。我一直有两个困惑:(1)这个“争论”在普通百姓中存在吗?还是他们无知、冷漠?还是学者自作多情?(2)普通百姓是不是因为搞不清“和平”的词性,就不会用这个词语了呢?词类(2)中文现有的词类体系及标注,不利于中文信息处理;中文的词类是高度基于语义的,与概念基本一致的 英文 中文operate 作战operation 作战operating(~radius) 作战(~半径)operational(~headquarters) 作战(~指挥部)operationally(~responsivespace)作战(~反应空间)词类(3)--传统词类无助区别NNN NNVnN美国

总统

布什 台湾

废弃物

处理

业者原告

被告

关系 语言

信息

处理

系统

VnN NVnN运输

公司 台胞

接待

站;质量

监督

机构统计

数据 铁路

运输

成本;机器

翻译

系统开拓

精神ANN现代

汉语

词典袖珍

汉语

词典;白

胡子

老头关于词类类宜粗不宜细,尽可能淡化、粗化词类;特性描写宜细不宜粗,可以落实到个别词;词类的判定3原则:形态、分布、意义,以意义为主。知网7大类对应中文词类如下:万物、 部件、时间、空间 --noun/pron属性 --noun属性值 --adj/num/adv事件 --verb中文文法观意为根本栈结构–意合、短时为特征各级(词语)组合规律相同词类与句法成分的关系中文现有的主、谓、宾、定、状等句法体系,不利于中文的信息处理;主、谓、宾太模糊!定、状、补尚可以!词类与句法功能不一一对应,还是根本就不存在传统的词类和句法功能?中文的句子结构不是树,我们的标注应该能够适应这样的非树结构;举例(1)断枝树? a.他穿着一套新西装,料子高档,做工考究。 b.那位女经理,性格刚毅,处事果断,是一位典型的女强人。(2)藤还是树?

a.今早上街买菜,遇见了一个老同学,说了会儿话,回来晚了,被老婆说了一顿,一上午心里都很别扭。关于兼类(1)以意义为主静态、脱离语境,与句法功用无关必须在词典中有所反映的关于兼类(2)特别注意下列英语词典释义的样式adj--oforrelatedto(n)如:intestinal,enteric,enteral<--intestinen--anactof(-ing)如:publication<--publish;cultivation<--cultivaten–thequalityofbeing(adj)如:carelessnessadv–ina(adj)manner如:thoughtfully这里的形、名、副是汉语里没有对应的是“树”还是“图”?(1)刑事拘留是否赔偿需要进行利益平衡,从保障人权角度看,拘留不合适肯定要赔,但拘留是紧急情况下采取的临时性措施,对事实的判断很初步,如果拘了又放了的情况都赔偿的话,赔偿量可能比较大,更为复杂的问题是,“如果都赔,公安部门可能不敢在紧急状态下行使拘留权。 从p/保障v?vn?n?/人权n/角度n/看v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论