五-语料库汇总_第1页
五-语料库汇总_第2页
五-语料库汇总_第3页
五-语料库汇总_第4页
五-语料库汇总_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、五_语料库汇总五_语料库汇总1 什么是语料库2 语料库的发展3 语料的收集与加工4 语料库的应用5 小结第2页,共48页幻灯片。1 什么是语料库第2页,共48页幻灯片。1 什么是语料库语料库(corpus):存放语言材料的仓库现代的语料库是指存放在计算机里的原始语料文本 或 经过加工后带有语言学信息标注的语料文本。关于语料库的三点基本认识:语料库中存放的是在实际使用中真实出现过的语言材料;语料库是以计算机为载体承载语言知识的基础资源;真实语料需要经过分析、处理和加工,才能成为有用的资源。第3页,共48页幻灯片。1 什么是语料库语料库(corpus):存放语言材料的仓库1 什么是语料库北京大学计

2、算语言所富士通人民日报标注语料库样例:历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b /m 度/q 、/w 东经/b /m 度/q ;/w 人们/n 将/d 铭 记/v 这/r 一/m 时刻/n :/w 年/t 月/t 日/t 时/t 分/t 。/w中国/ns 政府/nnt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。/w第4页,共48页幻灯片。1 什么是语料库北京

3、大学计算语言所富士通人民日报标注语料库1 什么是语料库第5页,共48页幻灯片。1 什么是语料库第5页,共48页幻灯片。1 什么是语料库London-Lund英语口语语料库样例:what a_bout a cigarette# . /*(4 sylls)* /*I wont have one th/anks#* - - - /arent you .going to sit d/own# - /m# - /have my _coffee in p=eace# - - - /quite a nice .room to !sit in (actually)# /*isnt* it# /*y/es#*

4、- - - /第6页,共48页幻灯片。1 什么是语料库London-Lund英语口语语料库样例:1 什么是语料库London-Lund英语口语语料库部分标记:第7页,共48页幻灯片。1 什么是语料库London-Lund英语口语语料库部分标语料库的分类生语料库:未经加工的,没有任何切分、标注标记的原始语料库熟语料库:经过加工,带有切分、标注标记的语料库第8页,共48页幻灯片。语料库的分类第8页,共48页幻灯片。1 什么是语料库语料库的分类:口语语料书面语料 共时语料 历时语料 平衡语料 专门语料监控语料样本语料语料库的分类:生语料库:未经加工的,没有任何切分、标注标记的原始语料库熟语料库:经过

5、加工,带有切分、标注标记的语料库第9页,共48页幻灯片。1 什么是语料库语料库的分类:语料库的分类:第9页,共481 什么是语料库语料库与语言知识库:语料库:以语言的真实材料为基础来呈现语言知识,反映语言单位的用法和意义,基本以知识的原始形态表现语言的原貌;语言知识库:由专家从大量的实例中提炼、抽象、概括出来的系统的语言知识,如电子词典、句法规则库、词法分析规则库等。第10页,共48页幻灯片。1 什么是语料库语料库与语言知识库:第10页,共48页幻灯1 什么是语料库在新华字典中查询“语言学”: “yynxu philology;linguistics对文学的研究,包括或可能包括语法、评论、文学

6、史、语言史、文学体系及任何与文学有关或与使用于文学的语言有关的内容 ”在CCL语料库中:第11页,共48页幻灯片。1 什么是语料库在新华字典中查询“语言学”: 第11页,共1 什么是语料库2 语料库的发展3 语料的收集与加工4 语料库的应用5 小结第12页,共48页幻灯片。1 什么是语料库第12页,共48页幻灯片。2 语料库的发展第一代(197080年代) Brown语料库 LOB语料库 LLC语料库特点:百万词级,语言研究1960年代初,美国Brown大学,100万词次,当代美国英语,根据系统性原则采样1970年代初,英国Lancaster大学,挪威Oslo大学,挪威Bergen大学,当代英

7、国英语1960年代初,由London大学Randolph Quirk主持,收集2000小时的谈话和广播等口语素材并整理成书面材料,由瑞典Lund大学J.Svartvik主持全部录入计算机,1975年建成第13页,共48页幻灯片。2 语料库的发展第一代(197080年代)1960年代初2 语料库的发展第二代(198090年代) COBUILD语料库2000万词级 Longman语料库 特点:千万词级,词典编纂建于1980年代,由英国Birmingham大学与Collins出版社合作完成,规模达2000万词次,基于该语料库出版的CollinsCobuild词典(1987)受到了广泛的好评建于198

8、0年代,包括三个语料库:LLELC语料库(Longman/Lancaster英语语料库)、LSC语料库(Longman口语语料库)、LCLE(Longman英语学习语料库);目标是编撰英语学习词典,为外国人学习英语服务,词典规模达5000万词次第14页,共48页幻灯片。2 语料库的发展第二代(198090年代)建于1980年2 语料库的发展第三代(1990年代至今)ACL/DCI语料库 UPenn树库 LDC 美国Pennsylvania大学80年代末发起;1993年,完成了对近300万英语词的句子语法结构标注;2000年发布中文树库第一版(10万词,4185个句子,325 data file

9、s(新华社语料);2004年发布中文树库4.0版(404,156 words, 664,633 Hanzi, 15,162 sentences,and 838 data files(大陆、香港、台湾语料)LDC语言数据联合会,有163 个语料库 (包括Text 和 speech)美国计算语言学会倡议发起“数据采集计划” ,由宾州大学M.Liberman主持,保存语料原始文本形式以及SGML标注信息第15页,共48页幻灯片。2 语料库的发展第三代(1990年代至今)美国Pennsy2 语料库的发展中文树库示例:他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC

10、政策/NN 要点/NN 。/PU特点:超大规模(上亿词级)/ 标准编码体系 / 深度标注 / 多语种 / NLP应用第16页,共48页幻灯片。2 语料库的发展中文树库示例:第16页,共48页幻灯片。1 什么是语料库2 语料库的发展3 语料的收集与加工4 语料库的应用5 小结第17页,共48页幻灯片。1 什么是语料库第17页,共48页幻灯片。3 语料的收集与加工建库之前应考虑: 语料库的应用目标 语料库的规模 语料库的实施 语料库的可扩展性 软硬件兼容性 第18页,共48页幻灯片。3 语料的收集与加工建库之前应考虑:第18页,共48页幻灯第19页,共48页幻灯片。第19页,共48页幻灯片。3 语

11、料的收集与加工双语语料库:双语平行语料库:语料库中的文本构成译文关系 用于机器翻译、双语词典编撰双语比较语料库:将表述同样内容的不同语言文本收集到一起,这些不同语言文本之间不构成翻译关系 用于语言对比研究较少,英语国际语料库(100万词规模,收集全球许多英语变体语言的文本)第20页,共48页幻灯片。3 语料的收集与加工双语语料库:第20页,共48页幻灯片。3 语料的收集与加工收集语料的收集 获取语料的途径纸质媒介 人工录入 光学扫描、OCR软件电子语料:光盘语料 + 互联网语料双语平行语料库:大型国际组织(联合国、欧盟)双语社会(加拿大、新加坡、香港)第21页,共48页幻灯片。3 语料的收集与

12、加工收集语料的收集 获取语料的途3 语料的收集与加工收集语料的收集 语料文件的数据格式文件格式:.doc,txt,pdf,ps,rtf采用纯文本文件格式存放语料,便于计算机处理采用关系数据库组织语料,直接利用数据库的检索、统计等功能要考虑字符编码方式第22页,共48页幻灯片。3 语料的收集与加工收集语料的收集 语料文件的数据3 语料的收集与加工收集语料的收集 语料文件的大小 取样收集:将语料库中文件所包含的词数限制在一定范围内;选取长文语料的片段 原样收集:按原始文件大小原样收入语料库存储无问题;建库时需要考虑长文件的处理速度、对硬件性能的要求第23页,共48页幻灯片。3 语料的收集与加工收集

13、语料的收集 语料文件的大小3 语料的收集与加工收集语料的收集 语料的选取标准精品原则有影响力原则随机挑选原则高流通度原则典型性原则易于获得原则具有统计样本意义原则符合语言规范原则语料库中各类文本的比例均衡原则专业语料库的建设应有专业领域的专家参与第24页,共48页幻灯片。3 语料的收集与加工收集语料的收集 语料的选取标准3 语料的收集与加工编码语料库的编码问题提出:资源共享时的差异化语料文件的统一规范: TEI计划(Text Encoding Initiative) LDC要求其提交的语料库遵循SGML规范(Standard Generalized Mark-up Language)CES标准

14、(Corpus Encoding Standard)第25页,共48页幻灯片。3 语料的收集与加工编码语料库的编码第25页,共48页3 语料的收集与加工编码CES标准:第26页,共48页幻灯片。3 语料的收集与加工编码CES标准:第26页,共48页3 语料的收集与加工编码CES编码的语料中使用的标记需要进行说明DTD (Document Type Definition)第27页,共48页幻灯片。3 语料的收集与加工编码CES编码的语料中使用的标记需3 语料的收集与加工编码CES编码规范:一个DTD描述保存在*.dtd文件中;在语料库文件中加入声明语句:说明这个语料库文件所有标记的描述在文件co

15、rpus.dtd中,便于计算机处理第28页,共48页幻灯片。3 语料的收集与加工编码CES编码规范:第28页,共43 语料的收集与加工加工语料库加工/标注:隐形信息显性信息 词性标记(Part-of-speech tagging) 句法标记(Grammatical parsing) 词义标记(Word sense tagging) 篇章指代标记(Anaphoric annotation) 韵律标记(Prosodic annotation)第29页,共48页幻灯片。3 语料的收集与加工加工语料库加工/标注:隐形信息显3 语料的收集与加工加工构建大型标注语料库直接促进了NLP技术的发展:Brown

16、语料库直接促使基于统计的词性标注模型HMM和标注算法Viterbi的提出和完善;Upenn树库为基于统计的句法分析技术提供了训练素材;作为统一的训练和测试平台,评估各类NLP算法的性能。第30页,共48页幻灯片。3 语料的收集与加工加工构建大型标注语料库直接促进了N3 语料的收集与加工加工语料库加工工具用计算机软件辅助建库第31页,共48页幻灯片。3 语料的收集与加工加工语料库加工工具用计算机软件3 语料的收集与加工加工双语(平行)语料库的对齐:段落对齐句子对齐词对齐短语对齐双语(平行)语料库的句子对齐:原文句子译文句子:确定源语言文本中哪个/些句子和目标语言文本中哪个/些句子互为译文第32页

17、,共48页幻灯片。3 语料的收集与加工加工双语(平行)语料库的对齐:第33 语料的收集与加工加工第33页,共48页幻灯片。3 语料的收集与加工加工第33页,共48页幻灯片。3 语料的收集与加工加工(1) (1)+ (2);(2) (3) 两种语言的句子间对齐模式(x句:y句, x=1,2,;y=1,2,) 双语句子对齐的方法:基于长度(length-based)的对齐方法 纯粹基于句子的长度来估计对齐可能性; 资源要求少,算法效率相对较高基于词(word-based)的对齐方法 一般要依赖词典资源,算法效率相对较低平均准确率在90%以上第34页,共48页幻灯片。3 语料的收集与加工加工(1)

18、(1)+ (2);3 语料的收集与加工加工Gale & Church 基于长度的对齐方法:定义了六种配对模式,在实际UBS语料库的分布频度为:第35页,共48页幻灯片。3 语料的收集与加工加工Gale & Church 基3 语料的收集与加工加工任一个双语句子对( Si, Tj ),S表示原文,T表示译文S中任意一个字符在T中所对应的字符数是个随机变量XN(c,V2) 由此定义随机变量来度量两个句子之间的长度差距关系:随机变量N(0,1)第36页,共48页幻灯片。3 语料的收集与加工加工任一个双语句子对( Si, T此时句子Si与Tj对齐的可能性就可以表示为条件概率:P(Match)为常数;P

19、(|Match)根据下式进行估计:服从标准正态分布N(0,1),P(|) 可通过查标准正态函数分布表或数值计算得到。第37页,共48页幻灯片。此时句子Si与Tj对齐的可能性就可以表示为条件概率:第37页取对数:记D(i,j) = Score(si,tj),D(i,j)是对两个句子对齐可能性的一个评估,可以理解为两个句子之间的距离。值越低,表示两个句子之间距离越近,因而对齐的可能性越高。考虑不同的句子配对模式下的距离: d(x1,y1 ; 0,0) d(x1,y1; x2,0) d(x1,0 ; 0,0) d(x1,y1; 0,y2) d(0,y1; 0,0) d(x1,y1;x2,y2)第38

20、页,共48页幻灯片。取对数:第38页,共48页幻灯片。两个文本的最小距离可如下计算:其中si,tj (i=1,2,I ; j=1,2,J) 分别是两个文本中的句子,算法初始时D(i,j) = 0D(i,j) = minD(i,j-1) + d(0,tj ; 0,0)D(i-1,j) + d(si,0; 0,0)D(i-1,j-1) + d(si,tj ; 0,0) D(i-1,j-2) + d(si,tj ; 0,tj-1)D(i-2,j-1) + d(si,tj ; si-1,0)D(i-2,j-2) + d(si,tj ; si-1, tj-1)第39页,共48页幻灯片。两个文本的最小距离

21、可如下计算:D(i,j) = minD(iGale & Church (1993) 基于长度的对齐方法:Gale&Church 利用该算法对UBS和Canadian Hansard语料进行了对齐,准确率为96%;以字符为单位度量句长比以单词为单位 好;语言有关的参数c, v对结果影响不大。第40页,共48页幻灯片。Gale & Church (1993) 基于长度的对齐方法基于词的句子对齐方法:根据词汇对齐关系推导句子对齐关系利用词汇共现的统计特性确定句子的对齐关系,再利用句子和这些词之间的包含关系确定句子的对齐关系利用明显的词汇对齐关系来改进基于长度对齐方法人名、地名、数字、日期等第41页,共48页幻灯片。基于词的句子对齐方法:第41页,共48页幻灯片。1 什么是语料库2 语料库的发展3 语料的收集与加工4 语料库的应用5 小结第42页,共48页幻灯片。1 什么是语料库第42页,共48页幻灯片。语料库的作用: 支持语言学研究和语言教学研究 支持NLP系统的开发基于大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论