中国语言学会第十六届学术年会-2012-08-从宾州中文树库来_第1页
中国语言学会第十六届学术年会-2012-08-从宾州中文树库来_第2页
中国语言学会第十六届学术年会-2012-08-从宾州中文树库来_第3页
中国语言学会第十六届学术年会-2012-08-从宾州中文树库来_第4页
中国语言学会第十六届学术年会-2012-08-从宾州中文树库来_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国内中文树库需加强

谓词-论元结构描写黄昌宁清华大学计算机科学与技术系cnhuang0908@126.com提纲(第一部分)宾州树库简介X-标杠模式谓词-论元结构的标注实例国内外中文树库的对比讨论宾州英文树库(PTB)1989-1992:宾州英文树库(PTB-I)

支配及约束(GB)理论,X-标杠理论

华尔街日报真实语料:100万词次1993-1994:宾州英文树库(PTB-II)(Marcusetal.1994)

增加谓词-论元结构的标注

空语类(emptycategory)和同指索引(co-indexing)宾州中文树库(CTB)1998-2000:宾州中文树库(CTB-I)

重要目标:谓词-论元结构的描写

新华通讯社新闻稿:规模10万词次2007:宾州中文树库(CTB6.0)

增加人民日报、香港新闻电讯和台湾期刊等语料,规模增加到73万词次

X-标杠模式

说明语(又称标定语)、附加语和补足语只是出现在短语某一特定位置上的短语名称。在句法中,通过词项投射和填位过程生成出来的二阶短语必须符合如下X-标杠模式:(1)中心语-补足语关系(complementation)

CTB规范定义的三种语法关系(2)中心语-附加语关系(adjunction)CTB规范定义的三种语法关系(3)并列关系(coordination)依据X-标杠模式,CTB使每个短语节点所统辖的括号对或子树只表示一种抽象的语法关系。CTB严格区分述语动词的补足语和附加语,使谓词-论元结构的识别建立在可靠的句法基础上。CTB例1:表的表示例1:浦东积极、及时地制定和推出法规性文件。

(IP(NP-PN-SBJ(NR浦东)) (VP(DVP(ADVP(AD积极)【ADVP:DEV的补足语】 (PU、)(AD及时))

(DEV地))【DEV:DVP的中心语】(VP(VP

(VV制定)

【RNR:右节点爬升】 (NP-OBJ(-NONE-*RNR*-1))) (CC和) (VP(VV推出)

【VV:VP的中心语】

(NP-OBJ-1(NN法规性)(NN文件))))))

【NP-OBJ-1:VV的补足语】CTB例1:树的表示例1:浦东积极、及时地制定和推出法规性文件。CTB例1:语义角色标注

CTB例2:宾语控制动词“批准”例2:国务院批准这些城市成立边境经济合作区。CTB例2:语义角色标注例2:国务院批准这些城市成立边境经济合作区。

CTB例3:话题句例3:各种收费已在一个月前宣布。CTB例3:语义角色标注概率型上下文无关语法(PCFG)PCFG是一种表层的树库语法(TreebankGrammar)它以删除空语类和功能标记的树库作为训练样本(IP(NP-TPC-2(DP(DT各) (CLP(M种))) (NP(NN收费))) (NP-SBJ(-NONE-*pro*)) (VP(ADVP(AD已)) (PP-TMP(P在)(LCP(NP(QP(CD一)(CLP(M

个))) (NP(NN月))) (LC前))) (VP(VV宣布)(NP-OBJ(-NONE-*T*-2)))))(IP(NP-TPC-2(DP(DT各) (CLP(M种))) (NP(NN收费)))

(NP-SBJ(-NONE-*pro*)) (VP(ADVP(AD已)) (PP-TMP(P在)(LCP(NP(QP(CD一)(CLP(M

个))) (NP(NN月))) (LC前))) (VP(VV宣布)

(NP-OBJ(-NONE-*T*-2)))))删除空语类和功能标记(IP(NP(DP(DT各) (CLP(M种))) (NP(NN收费)))

(VP(ADVP(AD已)) (PP(P在)(LCP(NP(QP(CD一)(CLP(M

个))) (NP(NN月))) (LC前))) (VP(VV宣布))))删除后的树库样本讨论:黎锦熙定义的补足语(黎锦熙1924:27)补足语总共有五种,都是用来补足句中谓语(动词)所没有完全表达出来的意思的,所以叫补足语。(简称足语,和后附于动词或形容词的‘副词性附加语’即一般所谓补语的性质不同,成分不同。) 黎氏句本位思想:要在句子的整体视野下考察句子的语法结构,否则句子意思是不完整的。从本质上讲,词组本位用上下文无关的眼光看待短语和句子的结构,因此它不描写跨短语或跨小句的谓词-论元关系。

讨论:黎著中的补足语例句黎氏把宾语和补足语都定义为动词的连带成分。如同动词(系词和动词“有”)后的名词性成分:○工人是劳动者。 ○空气也有重量。后来被称为递系句和兼语句的句型,黎氏当时称之为特定外动词及其连带成分所形成的句型: ○工人请我报告。 ○工人推举张同志作代表。 ○我爱他们诚实。讨论:用“补足语”取代“补语”

国内语法学界把补语定义为动词后面的副词性附加语,而补语和补足语的英译名都是complement。“前主后宾,前状后补”是结构主义留给我们的遗产吗?吕叔湘在“现代汉语语法(提纲)”(未发表)中主张完全抛弃“补语”的国内通行含义,重新将“补语”用于类似于“补足语”的含义。(《吕叔湘全集》第十三卷:452-475)CTB在大规模树库中完全不用“补语”这个概念,其利弊得失可供我们自由评说。北京大学中文树库(詹卫东2008)例4:赞扬侨胞台胞为支援祖国的社会主义建设做出了重要贡献。(小句兵)北京大学中文树库(PKU)詹坦言,北京大学和清华大学提出的句法标住体系,“主要是以结构主义语法理论为背景”,由于PKU的加工规范“不假设深层结构,因而也没有深层结构成分的标记”;并且“从资料的易维护性和易扩展性考虑”,“主张分层分级标注”短语的内部结构类型、语义角色等信息,“而不实行宾州树库那样将这些信息都以树节点标签的形式来反映”。(詹卫东2008)生成语法后期已放弃深层结构的假设,而且改变了前期把句法和语义割裂开来的错误做法,这一时期的重要进步是:用空语类和同指索引描写句子中的远距离依存关系。国内树库建设出现某些疏漏的主要原因是:对当代语言学理论存有不同认识。例4的CTB格式(兼语句)例4:赞扬侨胞台胞为支援

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论