下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、兰开斯特汉语语料库介绍北京外国语大学 许家金1.0 前言兰开斯特汉语语料库(The Lancaster Corpus of Mandarin Chinese,简称 LCMC)是在 Tony McEnery教授指导下,由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现 代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担,由英国经社研究委员会 资助设立的。LCMC 语料库是严格按照 Freiburg-LOB Corpus of British English (即 FLOB) 模式编制的汉语书面语语料库,它的建成有助于我们从事基于语料库的汉语单语或汉英(英 汉)双语的对比研究。
2、2.0 LCMC语料库概况LCMC是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语 平衡语料库。起先建立时它是作为英国经社研究委员会资助项目 Contrasting Tense and Aspect in English and Chinese的一部分。最初的设想便是要将其建成同FLOB和FROWN对 等的现代汉语语料库。筹建这样的一个语料库的最初动因主要是:尽管已经有很多汉语语料 库存在(Yang 2003),但却没有一个完全免费对公众开放的平衡的汉语语料库2.1 取样模式与文本收集考虑到该语料库将来主要是要作对比研究之用,于是一开始就必须确定将来对比的对 象。一方
3、面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要 建立同 LOB 和 Brown 平行的语料库的问题在于很难找到 1961 年前后材料的电子文本。于 是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。 鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可以与美 国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型中选取 500篇2,000词左右的样本。样本的出版日期基本是1991年。LCMC 的筹建基本上是严格按照 FLOB 的取样模式来操作的,只是在两个方面做了微 调。第一、F
4、LOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改 成“武侠小说”。一方面由于中国没有所谓的“西部小说”;另一方面,“武侠小说”和“西 部和历险小说”从内容性质上同属一类,且在中国影响甚巨。有充足的理由将其收入LCMC 中。表 1:LCMC 取样范畴表代码取样类型代码取样类型A新闻报道J学术、科技B社论K一般小说C新闻评论L侦探小说D宗教M科幻小说E技术、商贸N武侠小说1 确切地说,台湾中央研究院 Sinica Corpus 也是一个免费对公众开放的平衡的汉语语料库。但是 它只能代表台湾地区的汉语,而无法反映中国大陆的汉语的情况。详情可以访问 Sinica Corpus 官
5、方网站 HYPERLINK .tw/ftms-bin/kiwi.sh .tw/ftms-bin/kiwi.sh 。F通俗社会生活P爱情小说G传记和杂文R幽默H其他:报告和公文等第二、由于受到文本来源的制约,肖忠华将样本的出版年代扩大至1991 年前后各两年 (即1989到 1993年)的跨度范围。他认为前后两年的幅度并不会影响整个语料的同质性为了保证取样内容的同质性,LCMC中选取的都是中国大陆的出版物。该语料库是书 面语语料库,选取文本时碰到图表一般使用vgap 来代替。为了保证所选文字是原汁原味的 汉语,如果在选文中遇到较长的译文或不是1989到1992年期间的引文,也采用gap来替 代,
6、以避免翻译腔和时间跨度上的不一致。 LCMC 中的电子文本除了部分取自互联网,其 他大部分语料取自超星图书馆()。肖忠华将超星图书馆提供的PDG格式 的电子文本经过OCR识别后转换成文本文件,由此产生的1-3%的识别错误率再经过人工校 对加以弥补。超星图书馆是一个巨大的电子书库,但是却很少包含新闻报刊。因此,LCMC 中新闻文体有三分之一的内容用的是新华社新闻(取自Guo Jin编写的PH2语料库)。表 2:LCMC 的取样时间跨度取样类型19891990199119921993A22.7%72.7%2.3%2.3%B7.4%14.8%51.9%3.70%22.2%C5.9%88.2%5.9%
7、D5.9%17.6%41.2%11.8%23.5%E23.7%44.7%10.5%21.1%F6.8%25%29.513.6%25%G1.3%10.4%64.9%16.9%6.5%H100%J1.2%7.5%72.5%17.5%1.3%K79.3%13.8%6.9%L8.3%62.5%16.7%12.5%M100%N3.4%13.8%48.3%31.1%3.4%P10.3%6.9%55.2%20.7%6.9%R44.4%22.2%33.3%在计算LCMC语料库的规模时,经过测算,采用了 1汉字:1英文单词=1:1.6的计算方 法。于是将FLOB的2,000字的样本大小确定为每个样本3,200个
8、汉字。当所选样本长度不 足3,200汉字时,则选取同一类型的其他文本补足。如果超过3,200字(比如一本书)则选 取开头、中间、结尾凑足3,200字。在样本的最末处,为保证句子的完整而不将句子人为切 断,因而样本会比3,200字略多或略少。2.2 标注和编码方式LCMC采用Unicode (UTF-8)而没有采用简体中文的GB2312和繁体中文的Big5编码, 原因有二:(1)为保证与非中文操作系统和其他中文编码形式的兼容性;(2)这样的话可以 充分利用可以读取Unicode字符的索引软件,像Xara和WordSmithTools version 4.0。为了2 PH 语料库包含的是 1990
9、 年 1 月至 1991 年 3 月新华社出版的新闻。该语料库大小为 3,260,416 中文字符。通过 ftp:/ftp.cogsci.ed.ac.uk/pub/chinese/ 可以获得该语料库。给非英语操作系统用户避免读取困难,肖忠华特意制作了完整的拼音版LCMC (也同样采取 Unicode UTF-8 编码形式),与汉字版的 LCMC 同步推出。汉字版和拼音版的CMC都分别分成15个文本类型(见表1),每一个类型存为一个单独的文件 并采取XML标注。每个文件包括一个头文件和文本本身。文本采取了五重标注3。见表表 3:文本的 XML 标注标注层代码代码意义属性含义1text文本类型TY
10、PE根据表1的取样范畴ID根据表1的取样代码2file语料库中的位置ID取样代码加上从01开始的文本编号3P段落-4s句子n从0001算起5w单词POS依据LCMC标注集的语法标注c标点或其他符号gaP省略-这样分层标注以后,非常有利于用户在检索时选择整个语料库或者一个子库甚至某个文 件进行分析。语法(POS)标注可以帮助我们检索某些汉字的特定词性的使用情况。2.3 语料深加工对于 LCMC 语料库,肖忠华还做了两重处理:即所有样本文句都依词断开(这是任何 成熟汉语语料库必需的一项工作)并标示词性(参见图 1)。对于汉语文本来说切分至关重 要,因为它没有类似英文的空格作为单词分隔符。LCMC所
11、采用的切分工具是由中科院计 算所开发的“汉语词汇分析系统”。这一系统的核心是由一个有词性和词频信息的8万字的 词库。这一系统是基于最大匹配的计算方法,包含汉字切分,词性标注和未登录词的识别等 模块。切分正确率可以达到 97.58%。但这一系统对词性的标注却不够精准。比如说它无法 区分介词“在”和表示体态的“在”。于是最后肖忠华对语料进行了大量的手工校对,词性 标注正确率基本可以达到98%以上。因为要研究汉语并对比汉英的时体标记,肖忠华对“了”、“过”、“着”、“在”进行了细致的校对。最后完成的语料全部保存为XML格式文件。图 1: LCMC 标注示例 淡泊 洒脱 : 笑 vw POS=p对 v
12、w POS=n人生 便是 淡泊 的 表现 , 淡泊 洒脱 能 拓展 片 宽松 美 好vlw 的 天地 , 使 v lw 人 在 开放 的 VW POS=n 田园 VW POS=f 里 找 准 自己 的 位置 , 使v/w 自己 与 同事 v/w 愉快 相处 V/p3.0 研究成果和目前进展因为该语料库刚刚建成,因此基于该语料库的研究成果并不多。主要是作为申请该项目 时的课题“汉英时体的对比研究”的相关成果。如 Aspect Marking in English and Chinese 。 不过我们有理由相信这样一个精心建设的语料库一定会产生出更多的汉语或汉英(英汉)对 比的研究成果。LCMC语
13、料库要求用户有可以读取XML的检索工具像Xara (是用于BNC的Sara软件 的改进版)或者有WordSmith Tools version 4.0。目前这两款软件都尚未完全发布。而LCMC 针对这些软件的后期测试也正在进行,估计于2003年8、9间最后推出。该语料库完全免费 提供,读者可以向本文作者索取。参考文献McEnery, Anthony, Zhonghua Xiao and Lili Mo. (under review). The Lancaster Corpus of Mandarin Chinese: A Corpus for Monolingual and Contrastive Studies J.Yang, Xiaojun. 20
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国轴承钢钢球市场发展格局及投资前景规划研究报告
- 2025-2030年中国超级铁精粉行业现状规模及发展潜力分析报告
- 2025-2030年中国螺纹钢行业市场发展趋势及前景调研分析报告
- 2025-2030年中国苯乙酸市场发展展望与投资策略建议报告
- 2025-2030年中国纯天然藏香盘香市场前景趋势与投资潜力分析报告
- 2025-2030年中国磁控管行业供需现状及投资发展规划研究报告
- 2025-2030年中国硝基氯苯市场竞争格局展望及投资策略分析报告
- 2025-2030年中国盐酸行业运行现状及发展前景预测报告
- 2025-2030年中国牙膏市场需求状况及投资战略研究报告
- 2025-2030年中国热处理炉行业市场运行动态分析与营销策略研究报告
- 2023年Web前端技术试题
- GB/T 20840.8-2007互感器第8部分:电子式电流互感器
- GB/T 14864-2013实心聚乙烯绝缘柔软射频电缆
- 品牌策划与推广-项目5-品牌推广课件
- 信息学奥赛-计算机基础知识(完整版)资料
- 发烟硫酸(CAS:8014-95-7)理化性质及危险特性表
- 数字信号处理(课件)
- 公路自然灾害防治对策课件
- 火灾报警应急处置程序流程图
- 耳鸣中医临床路径
- 安徽身份证号码前6位
评论
0/150
提交评论