自然语言理解-语料库_第1页
自然语言理解-语料库_第2页
自然语言理解-语料库_第3页
自然语言理解-语料库_第4页
自然语言理解-语料库_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库什么是语料库

语料库是语言材料的集合语料库的特点必须是真实语言环境中出现过的语言材料必须是以电子计算机为载体必须经过一定的分析、加工和处理语料库的类型1

按来源分类口语语料库书面语语料库按语言分类单语语料库双语语料库按加工分类生语料库熟语料库语料库的类型2按加工方式分单语原始语料库切分标注语料库句法树库语义标注语料库……双语篇章对齐语料库句子对齐语料库词语对齐语料库结构对齐语料库……语料库研究的历史第一代(1970-80年代)百万词级以语言研究为导向第二代(1980-90年代)千万词级词典编纂-应用导向第三代(1990年代-)超大规模(上亿词级)标准编码体系深度标注/多语种NLP应用第四代(?)互联网作为语料库第一代语料库1

Brown语料库始建于1960年代初W.N.Francis和H.Kucera发起美国Brown大学建立世界上第一个根据系统性原则采集样本的标准语料库主要代表当代美国英语规模100万词次第一代语料库2LOB语料库始建于1970年代初由英国Lancaster大学著名语言学家GeoffreyLeech倡议挪威Oslo大学StigJohansson主持完成安装在挪威Bergen大学挪威人文科学计算中心规模于Brown语料库相当主要代表当代英国英语第一代语料库3LLC语料库1960年代初,由RandolphQuirk主持收集2000小时的谈话和广播等口语素材并整理成书面材料由瑞典Lund大学J.Svartvik主持全部录入计算机1975年建成第二代语料库1COBUILD语料库建于1980年代以词典编撰为应用背景有英国Birminghan大学与Collins出版社合作完成规模达2000万词次基于该语料库出版的CollinsCobuild词典(1987)受到了广泛的好评第二代语料库2

Longman语料库建于1980年代包括三个语料库LLELC语料库(Longman/Lancaster英语语料库)LSC语料库(Longman口语语料库)LCLE(Longman英语学习语料库)目标是编撰英语学习词典,为外国人学习英语服务词典规模达5000万词次第三代语料库2

PennTreeBank(宾州大学树库)美国Pennsylvania大学1980年代末开始发起由该校计算机系M.Marcus主持1993年,完成了对近300万英语词的句子语法结构标注2000年完成了中文树库(第一版):10万词次,4185个句子第三代语料库1

ACL/DCI语料库美国ACL倡议发起收集语料范围广泛华尔街日报Collins英语词典Brown语料库PennTreeBank一些双语或多语文本等既有已标注的语料,也有未标注语料制定了语料库文件的格式标注采用统一的SGML标注语言语料标注依照TEI(TextEncodingInitiative)标准

语料库的收集、整理和应用

语料的选取

Summers,Longman/LancasterEnglishCorpus:CriteriaandDesign,Harlow:Longman–精品原则–有影响力原则–随机挑选原则–高流通度原则–典型性原则–易于获得原则–具有统计样本意义原则–符合语言规范原则平衡性:主观性强语料库的加工语料库标注(Annotation)1)词性标记(Part-of-speechtagging)2)句法层次和范畴标记(Grammaticalparsing)3)词义标记(Wordsensetagging)4)篇章指代标记(Anaphoricannotation)5)韵律标记(Prosodicannotation)语料库加工工具

分类工具名称功能描述A.文件处理工具文本过滤器 将不同的文件格式转成为纯文本文件格式文本分类器 自动判别文本领域语料库辅助校对工具及一致性检查工具 按照语料库加工规范,对语料质量进行管理B.语言处理工具分词与词性标注工具 对语料进行词语识别,词性标记处理词义标注工具 对词义进行标注浅层分析工具 对语块(chunk)进行标注句法分析工具 对句子进行完全句法分析双语语料对齐工具 对双语语料进行各个层级(段落、句子、小句、词的对齐加工双语语料库(BilingualCorpora)加工

段落对齐句子对齐词对齐短语对齐双语句子对齐

基于长度(length-based)的对齐方法Gale&Church(1993)纯粹基于句子的长度来估计对齐可能性资源要求少,算法效率相对较高基于词(word-based)的对齐方法一般要依赖词典资源,算法效率相对较低

《人民日报》语料库1

北京大学、富士通公司、人民日报社共同开发含《人民日报》1998年上半年全部文本(约1千7百万字)完整的词语切分和词性标注信息高准确率《人民日报》语料库2样例历史/n将/d铭记/v这个/r坐标/n:/w北纬/b41.1/m度/q、/w东经/b114.3/m度/q;/w人们/n将/d铭记/v这/r一/m时刻/n:/w1998年/t1月/t10日/t11时/t50分/t。/w……[中国/ns政府/n]nt顺利/ad恢复/v对/p香港/ns行使/v主权/n,/w并/c按照/p“/w一国两制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方针/n保持/v香港/ns的/u繁荣/an稳定/an。/wLondon-Lund英语口语语料库1

^whata_boutacigar\ette#./*((4sylls))*/*I^w\on'thaveoneth/anks#*---/^aren'tyou.goingtositd/own#-/^[/\m]#-/^havemy_coffeeinp=eace#---/^quiteanice.roomto!s\itin((actually))#/*^\isn't*it#/*^y/\es#*---/转引自TonyMcEnery&AndrewWilson,1996,CorpusLinguistics,p55,

London-Lund英语口语语料库2

语料库的编码体系

冯志伟,标准通用置标语言SGML及其在自然语言处理中的应用》,载《当代语言学》1998年第4期。SGML(标准置标语言)/MarkUp/SGML/•XML(可扩展的置标语言)/TR/REC-xmlTEI(文档编码计划)/CES(语料库编码标准)/Applications/index-co02.html

语料库检索

通常倒排表实现词语到文本的快速检索演示:语料库检索和集列(concordance)语料库检索(Demo)

语料库应用

支持自然语言处理应用系统开发支持语言学研究和语言教学研究语料库对NLP的支持

基于大规模语料库的语音识别;基于大规模语料库的音字转换技术(中文输入);基于大规模语料库的自动文本校对技术;利用语料库训练HMM模型进行分词,词性标注,词义标注,等等;基于语料库的句法分析;基于语料库的机器翻译;基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等;基于语料库的语言模型训练和语法模型评价;应用:词频统计与Zipf定律1998全年《人民日报》语料中频度最高的28个词(带词性)北京大学计算语言学研究所俞士汶教授提供齐普夫(Zipf)定律

齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……,频次最小的词等级为D。 若用f表示频次,r表示等级序号,则有 f(r)=cr-α,α≈1,c是常数 人们称该式为齐普夫定律。齐普夫(Zipf)定律

词语分布均匀度1998年《人民日报》语料库部分词语分布 北京大学计算语言学研究所俞士汶教授提供词语分布均匀度:如何衡量?

熵?北大提出流通度公式:词语均匀度WordPOSFrequencyDC中f444180.99989的u7368120.99988在p1546810.99985为p313940.99971等u352230.99970上f406450.99968个q357690.99968了u1417890.99968能v195740.99966也d372950.99964从p265760.99960大a278580.99952和c1478350.99951并c185850.99950WordPOSFrequencyDC都d243090.99949人n361280.99949对p544110.99946不d626760.99942把p199890.99942是v1387670.99942到v306110.99940记者n283240.99936地u280100.99935有v609010.99935一m900380.99934结束v32550.99931通过p81740.99928那些r18710.99928汉语语料库建设规范

——语料库分词和标注规范语料库建设规范选材规范文本描述规范加工规范体系构造规范主要内容已有的相关内容语料库的加工规范的总原则结构化词表构造原则切分标注原则已有的相关研究成果

1.《信息处理用现代汉语分词规范》

中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记集规范》

教育部语言文字应用研究所

2002年已有的相关研究成果3.《现代汉语语料库文本分词规范》

北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系1998年4.《北大语料库加工规范:切分、词性标注、注音》

北京大学计算语言学研究所2003年5.《資讯处理用中文分词标准》

台湾计算语言学学会,1996年语料库加工规范的总原则

不矛盾性原则:指切分标注时不能出现两可的情况,即可以同时适用两条或两条以上的规则的情况。完备性原则:指规范能够覆盖文本的全部,即不能出现没有适用的规则的情况。

词表原则切分标注一般都遵循一个原则——词表原则把词表中已经收录的词语都作为一个分词单位,不再切分,所以几乎每一个规范的背后都有一个相应的词表。此外切分标注要做的事情主要就是未登录词的处理。未登录词包括词的重叠形式(如“点点头、高高兴兴”)、附加形式构成的词(用前后缀构成的词,如“阿明、花儿、人民性、大众化”)、离合形式的词(词的离合形式,如“睡了一觉、理了个发”)、合成数词(如“三千四百五十六”)、新词。新词主要是人名、地名等专有名词和未收入词表中的一些低频词。

词表的构造原则(已有成果)孙宏林在《谈谈汉语分词的标准》(语言文字应用,1997.4)中提出确定词表的优先顺序:单用标准>扩展标准>语义标准>音节标准>频度标准。孙茂松、张磊在《人机并存,“质”“量”合一》(语言文字应用,1997.1)中,强调人的理性判断与机器的在“量”上的经验约定。孙宏林在《现代汉语语料库分词中的若干问题》(陈力为、袁琦:计算语言学进展与应用,1995)中,提出了指导分词的三个原则:词是一个句法·语义范畴;词的划分是相对的;应该区分语料中的不同层次。词表与收词原则词表分为通用词表、专名词表和领域词表。通用词表又分为原子词表、扩展词表

收词原则高频原则叠置原则叠置原则叠置原理是指复合成分的意义等于成分意义的组合。“复合”是指句法上的规则,“组合”是语义上的规则,这两者必须保持一一同构对应。凡是符合这个原则的就是复合结构——“短语”,否则就是转指义、特指义,只能作为“词”。收词原则高频原则指收入词表的词必须首先是个高频词或高通用度的词。叠置原则指符合叠置原理的不收入到原子词表中,不符合叠置原理的才收入到原子词表中。如原子词表收录“白菜、小鞋”而不收录“白纸、大鞋”。关于词的定义及认定词是最小的能够独立运用的语言单位。“最小的”是以符不符合叠置原理作为标准即凡是符合叠置原理的语言单位就是可分的,就不是最小的。词表的确定在确定通用词表时首先依据高频原则,确定要收录的词然后再依据叠置原则来确定这个词是收入原子词表还是扩展词表符合叠置原理的高频词收入扩展词表不符合叠置原理的高频词收入原子词表对于收入原子词表的高频词,在词表中要标注其词性对于收入扩展词表的高频词,依据系统对分词单位的定义,在词表中标注其处理方式

切分标注原则对登录词根据词表来进行切分标注具体是:

凡属于基本词表中的词,按词表给定的词性进行标注凡属于扩展词表中的词,按词表提供的处理方式切分标注。对未登录词:见相应的规范

结构化标注方法结构化标注方法:对扩展词采取先切分后(用方括号)组合的切分标注方法其中包含:最小标注:方括号内的标注,适用于语义分析最大标注:方括号外的标注,适用于句法分析结构化标注的意义这种或分或合的标注问题,直接影

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论