(语言学及应用语言学专业论文)《现代蒙古语语料库管理平台》建设.pdf_第1页
(语言学及应用语言学专业论文)《现代蒙古语语料库管理平台》建设.pdf_第2页
(语言学及应用语言学专业论文)《现代蒙古语语料库管理平台》建设.pdf_第3页
(语言学及应用语言学专业论文)《现代蒙古语语料库管理平台》建设.pdf_第4页
(语言学及应用语言学专业论文)《现代蒙古语语料库管理平台》建设.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学校代码:1 0 1 2 6分类号:udc :学号:曼q z q ! q 鱼q密级:编号:论文题目研究生:逝旦直攫:指导教师:堡迦宝专业:蚤宣堂拯廑囝蚤宣堂研究方向:墓直窒信息处理学院:墓直堂堂陵2 0 1 0 年1 0 月2 5 日本文研究内容属国家教育部资助项目现代蒙语语料库的更新、扩充和研制新的标记集 ,项目批准号为2 0 5 1 7 3 在学期间研究成果使用承诺书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、j 箱学位论文为保护学院和导师的知识产权,作者在学期阀取得的研究成果属于内蒙古大学作者今后使用涉及在学期间主要研究内容或研究成果。须征得内蒙古大学就读期闻导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表学位论文作者签名:翟年! ! 王辑日期。吻吣汀指导教师签名丝馋! 望日期:而舢硝妻造;:善乏妻k耋量主c彳乏f擘冀拳;薹支!羞乏彳主:主,暑程步可应储散研接发目供未【c o n s t r u c t i o no f m o d e r nm o n g o l i a nc o r p u sm a n a g e m e n tp l a t f o r m a b s t r a c ti nc o n n e c t i o nw i t hm a n a g i n gt h ep r o b l e m st h a te n c o u n td u r i n gt h ed e v e l o p m e n to fc o r p u s ,b a s e do nt h et h e o r ya n dm e t h o d = o fb u i l d i n gt h ec o r p u s ,t h ea u t h o rd e v e l o p st h em o n g o l i a nc o r p u sm a n a g e m e n tp l a t f o r m w i t ht h ei n c r e a s i n go fc o r p u ss c a l e ,t h en e c e s s i t yo ft h ec o r p u sm a n a g e m e n tw i l lb em o r ec r i t i c a l c o r p u si sar c p r c s c n t a t i v cc o l l e c t i o no fl i g u i s t i cm a t e r i a lw i t hs o m em a t e r i a lw i t hs o m ek i n do fs t r u c t u r ef o ra p p l i c a t i o n c o r p u si sad a t a b a s es y s t e m ,f i o mt h ep e r s p e e f i - v eo ft h et y p eo ft h ec o r p u sm a n g e m e n t , a p p l i c a t i o nr e q u e s t ,t h em e t a d a t ai ss t o r e db yt h ef o r mo fd a t a b a s ea n dl i n g u i s t i cd a t ai ss t o r e di nt h ef o r mo ft e x tf i l e s i nt h i sp a p e r ,a i mt ot h el a c ko fau n i f i e dm a n a g e m e n tp l a t f o r mi nt h ec o n s t r u c t i o no ft h em o d e r nm o n g o l i a nl a n g u a g ec o r p u s ,t h ea u t h o rd e s i g n e sa n dd e v e l o p sa ni n t e g r a t e ds o f t w a r ep l a t f o r mf o ri m p r o v i n gt h es i t u a t i o n t h ep u r p o s eo ft h i ss t u d yi st oi n t e g r a t et h em a n a g e m e n t ,p r s e e s s i n g ,a p p l i c a t i o no ft h em o d e r nm o n g o l i a nc o r p u s ,t os a t i s f yt h eu s e r sa n dt h ec o n s t r u c t o ra n da d m i s t r a t o ro ft h em o r d e r nm o n g o l i a nc o r p u s i nc h a p t e r1 ,e l a b o r a t e st h es i g n i f i c a n c ee ft h er e s e a r c h ,t h es i t u a t i o no ft h er e l e v e n ts t u d y ,r e s e a r c hm e t h o d sa n dt h et a r g e t s i nc h a p t e r2 ,i n t r o d u c et h et h e o r yo fc o n s t r u c t i n gm o d e r nm o n g o l i a nc o r p u sm a n a g e m e n tp l a t f o r m ,a n dt h em a n a g e m e n tm o d eo fi t i nc h a p t e r3 ,i n t r o d u c e sm o d e r nm o n g o l i a ng e n e r a lf r a m e w o r k ,t h eb 囊l r i ef u n c t i o n so fc o r p u sm a n a g e m e n tp l a t f o r ma n dg i v ee x a m p l e s6 fs o m e -i n t c r f a c e i ns u m m a r y ,s u m m a r i z et h ec o r eq u e s t i o n st h a tr e s o l v e di nt h i ss t u d ya n dp r o p o s et h ef r o b l e m st h a tc a nn o tr e s o l v ea tt h em o m e n t ,a n dw h i c hh a v et oi m p r o v e0 nl a t e rs t u d y k e yw o r d s :m o n g o l i a nc o r p u s ,d a t am a n a g e m e n t ,s e a r c hs t a t i s t i c s一、管理平台总体框架k 文献数据和语料的存放2 、文献数据的管理一1 8 3 、语料加一l :软件一2 1 -4 、其他集成进来的应用程序二、管理平台基本功能。1 、录入模块:一:! :! 2 ,编辑模块( 添加、修改,删除) 3 ,更新( 可以批量更新)4 、查询模块s 、检索模块一6 、统计模块。7 、备份和恢复2 2 - 2 4 - 2 s - 2 s -三、管理平台操作界面示饲l 、语料文本操作1 工具软件管理2 5 2 5 。2 6 一- 2 7 3 、语料文献数据管理2 7 一2 7 :1 8 4 、关键词j :e 索,3 1 s 、语j : 数拓统计3 2 6 ,备份和恢复3 3 总结参考文献。致谢3 4 3 3 i 第一章导论一、选题意义,语料库建设是为语言文字信息处理的方方面由提供符种各样的知识资源而开展的基础工程建立高质量的、深加工的语料库,是自然i 吾音处理技术1 i 断发展的基本条件。然而,语料库建设是一个庞大的工程,建立和维护大规模的语言数据资源,匹配统,规范的管理措施和高端的管理技术是必需的语料库管理平台是一个专用的软件系统,由一组相互关联的计算机程序组成它能够对语料库进行有效的管理,包括加工管理、存储管理、检索管理、安全性管理、完整性管理等。语料库管理系统提供了一个软件环境,使语料库建设者能够快速方便地建立和维护语料库,使语料库用户能够高效率地检索和利用语料库中的语料蒙古语语料库的发展相对滞后,语料库的管理、加工至今还没有统。的标准和规范,至今还没有一个完整胸资源管理机锚,这严重制约了蒙古语语言资源的开发应用。针对现代蒙古语语料库建设的现状j 并考虑到它今后的健康发展,本文作者经过仔细观察认真分析,制定了一套切合实际需求的设计规划,研究开发了现代蒙古浯语料库管理、f 台这一平台的主要内容包括数据管理与信息采集、文本录入、信息提取的一系列方法措施等:语料样本的文献数据和语料文本文件是现代蒙古语语料库管理平台的两个基本数据针对用户需求,本文对这两个不同数据采取了关联的管理方式这样做,不仅条目清晰,对数据安全性的保障也会高一些现代蒙古语语料库管理平台是蒙古语语料库建设不可缺少的环节,希望该管理平台将成为一个典型的范例,能够为蒙古语语料库今后健康发展起到一个保驾护航的作用:、相关研究概况i 、国外典型语料库简介从上世纪6 0 年代开始,世界各国政府、企业集团和学术团体已经建成或在在建矗各式斧洋的语料毒。影响较大的语料库有:s e u 语料库:1 9 5 9 年伦敦大学夸克( q u i c k ) 组织发起了“英语用法调查”( t h es u r v e yo fe n g l i s hu s a g e 简称s e u ) 项目,有计划地收集不同语体的人量语料,并利用计算机对搜集到的语料进行存贮、分类这也成为了语言科学史上的第一个大型计算机语料库。$ e u 收集的语料包括书面语材料和口语材料在这两种语料中都收入了不同范畴( 或类型) 的文本书面语料1 0 0 篇,类型包括:a 、印刷品( 4 6 )呻人文科学、自然科学、教学、报刊、文书、法律、论说文、散文小说等;b 、非印刷品( 3 6 ) 叶连续书写品、社交书信、非社交书信、日记等;c 、口语( 1 8 )1 演和是)语料库b r o w n 语料库规模为1 0 0 万词级,收录了1 9 6 1 年问由美国人撰写并在美国出版的英文文章全部语料分成1 5 种载体,分别是a 、新闻报道;b 、社论;c 、评论;d 、宗教;e 、技能和爱好;f 、流行小说;g 、纯文木、传记、自传;:h 、混杂的;j 、教科书:k 、一般小说;l 、侦探小说;m 、科幻小说:n 、冒险或西部小说;p 、浪漫爱情故事;r 、幽默,共s 0 0 个样本,每个样本不少于2 0 0 0词次在语料的体裁、子范畴和样本数确定下来之后,样本通过随机采样方法得到。首先从各类体裁目录中按样本数要求随机地选出进入语科库的文本,然后从选中的文本中随机截取不少于2 0 0 0 词次的片段作为一个样本,采样时还要保证文本的虽后一个句子必须是完整的。指派给每个文本的编号,是在上述类型号后面加一个两位数字。b r o w n 语料库先后有六种版本,分别供各种研究目的的学者使用b r o w n 语料库从语料库的整体规模,语料的分布和语料的采样上都经过了精心的设计,一致被公认为是一个能够反映语言共性的平衡语料库 l l c 口语语料库:前面所说的语料库都是以书面语科为主,无法提供口语的材科,因此1 9 7 5年有些语言学家开始了口语语料库的建设l l c 口语语料库是由两部分组成的,第一部分是著名的语言学家夸克( q u i r k )1 9 5 9 年在伦敦大学发起组织的英语用法调查( s e u ) 其中收集了2 0 0 0 小时的对话和广播等口语素材,并随后整理成书面材料这监材料后来由瑞典隆德( l u n d )大学斯瓦特维克( s v a r t v i k ) 教授主持全部录入计算机第二部分是由瓦特维克教授发起组织的英语 1 语调奄( t h es u r v e yo fs p o k e ne n g t i s h ,缩写为s s e ) 。这项工程其实是前一:r = 程的赡妹工程建予1 9 8 1 年。目的是以计算饮伺魂佬芝懋方式获敬s e ui ;j ! 抖库的英语口语原始资料。语斟库的标注包括节律分析、语调单位、重音、语调等,这足很有价值的英语口语研究资源。l l c 最初包含8 7 个文本,每个文本约5 0 0 0 字左右为了检索方便,首先对它们进行了详细的分类编目这些文本被分为五大类,包括:a 、面对面交谈;b 、电话交谈;c 、谈论、采访、辩论;d 、未经准备的当众评论、论证、演讲;e 、经准备的当众演讲接着,又存这些分类后编上子目录。最后用字母s 和数字给每个文本部加上了标志。斯瓦特维克除了给文奉中的每个语段标出语调及节律外,还精心设计了一套检索程序,叫做关键词居中索引( k e yw o r di nc o n t e x t ,简称k w i c ) 。这样一来一i 仅为索引某个文本提供了方便,还可以用这套程序检索某个段落,共垒某个词在整个文本或段落中所处的位置、搭配关系、属f i 叮种阋类、h 现次数等。这就要求不仅对每个段落编码,而且还要设计相应船词类标记。在词类标记中j先用不同的英语大写字母来表示不周的词类,然后在每个大写字母后附加其他符号以衷示词的不同变化形式另外设计了。套语法标记,以区分句法分析单位;实现了一个短语分析程序l l c 语料库最终规模达到了s o 万词次c o b u t l d 语料库:c o b u i l d ( c o l l i n sb e r m i n h a nu n i v e r s i t yi n t e r n a t i o n a ll a n g u a g ed a t a b a s e ) 是英国科林斯出版社和伯明翰大学联合建造一个英语语料库,目的是在语料库支持下从事词典学研究研制开发了语料数据管理和分析的软件工具c o b u i l d 语料库在1 9 8 0 年指定的选材原则:a 、书而语7 5 ,口语2 s ;b 、收入的语料为“标准英语”,英国英语7 0 ,美国英语2 5 ,其他地逐英语5 :c 、反殃当代英语饷用法,收录的材料尽可能新;d 、不收诗歌、戏尉和科技方面的语料:e 、只收年龄1 6 岁以上成年人语料,女作者比例不低于2 s :f 、入选的语料不是样本或片段,丽是平均长度为7 万英语词次的全文或长篇选录,以利于在篇章层次上进行语言研究。最初规模为2 0 0 0 万词次,它是一个动态的语料库;目前这个语料库被称为。t h eb a n ko fe n g l i s h ”,语料规模为3 2 亿词次这一语料库已经经过词类标注,并且有近2 亿词次的语料已经进行了句法分析书面语材料包括:小说和非小说类的书籍、报纸、杂志、指南、传单和报告等;语音材料包括:日常谈话、广播、会议、接见和讨论等c o b u i l d 提供了一个对语料进行复杂分析的软件它可以完成以下功能:搜索特定词的组合模式、查找一个词的词频、找出一个词的使用实例并进行分析、把检索结果拷贝到硬盘上。英国国家语料库b n c s英国国家语料库( t h en a t i o n a lb d t t s hc o r p u s ,缩写为b n c ) ,建予1 9 9 1 - - 1 9 9 4年间规模达1 亿万词次,是世界最己雄心的语料库编攫:f 划。该计划r f l 政? 旁心资一半,出牛滓大学日:版; = 、明文集饼、饯纳斯( n 3 m b 坼;) 出版叠:、萸爱o ?图书馆和兰开斯特大学联合发起。这些单位分别贡献了他们各自在电子文本管理和出版、词典编纂和语料库分析方面的力量和经验,以便共同设计、开发和标注该语料库。b n c 共有4 1 2 4 个文本,9 0 书面语,。1 0 1 = i 语书面语语料库的文本特征是以下3 个:发表时间、发表的媒体和主题领域时闻上大多为1 9 7 5 - - 1 9 9 3 年闻:媒体主要包括:书本、报刊、教页( 广告、传单等) 、非公开的散页( 信函、随笔等) 、书面语化的口语。领域分布如下:想象类、自然科学、应用科学、社会科学、国际事务、商业金融、艺术、信仰与思想、休闲等等。b n c 中1 0 0 0万词次口语语料,有两个主要来源:语境管辖材料和统计聚样文奉。语境管辖材料包括了如下记录:讲课、辅导和教学;像演示、咨询和面试;像传道、政治演讲、公众会议和国会辩论;像体育现场评论、俱乐部集会、广播电台的电话发言和闲聊等。统计采样的u 语材料由1 2 4 个志愿者提供的、长达2 0 0 0 小时的录音转写材料。b n c 语料库中每个文本都按照国际标准( s g m l ) 进行了编码,使用c l a w 词性标注b n c 还提供了强大的b n c 语料库检索平台,能够完成对语科库的复杂检索。除了以上提到的语料库外,还有很多著名的语料库,像l o b 语料库、朗文( l o n g m a n ) 语料库、国际英语语料库i c e 和美国正在建立的美国国家语科库等等。2 、汉语语料库管理情况嗣家语委现代汉语语料库是从1 9 9 0 年开始由国家语言文字工作委员会主持,组织语言学界和计算机界的专家学者共同建立的国家级大型通用语料库。该语料库以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务对象:作为国家级语料库,它具有权威性和先进性,选材有足够的时问跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌一国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约个小类组成具体类别如下:a 人文与社会科学类,划分为8 个大类和3 0 个小类( 1 ) 政法:哲学、政治、宗教、法律;( 2 ) 历史:历史、考古、民族;( 3 ) 社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;( 4 ) 经济:工业经济、农业经济、政治经济、财贸经济; 5 ) 艺术:音乐、美术、舞蹈、戏尉l( 6 文学:小说、散文、传记、报告文学、科幻、口语材料;( 7 ) 军体:军事、体育;( 8 ) 生活。人文与社会科学类约占语料总量的5 0 b 自然科学,划分为6 个小类数理、生化、天文地理、海洋气象、农林、医药卫生自然科学类约占语料总量的3 0 c 综合类语料由应用文和难于归类的其他语料两部分组成应用文使用很广泛,主要涉及以下6 个小类t( 1 ) 行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等;( 2 ) 章程法规:章程、条例、细则、制度、公约、办法、法律条文等:( 劲司法文书:诉讼、辩护词、控告信、委托书等;( 4 ) 商业文告:说明、广告、调查报告、经济合同等:( s ) 礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等:( 6 ) 实用文书:请假条、检讨、中请书、请愿书等。,综合类约占语料总量的2 0 国家语委语料库的语料样本包括2 4 个详细信息:a 1 总号a 2 分类号a 3 样本名称a 4 类别a 5 作者a 6 写作时问a 7 书刊名称娼编著者a 9 出版社a l o 所在省a l l 出版日期a 1 2 期号a 1 3 版次( 初版印数)a 1 4 本版印数a 1 5 总印数a 1 6 总页数a 1 7 开本a 1 8 选择方式a 1 9 起止页数a 2 0 样本字数a 2 1 样本总字数a 2 2 文章总字数a 2 3 简繁体a 2 4 抽样文章分类的比较细;实现了比较完备的管理体系和管理榆索系统a =0中国传媒大学建立的传媒语言语料库是一个面向有声媒体、面向广播电视语言研究为特色的综合性语料库该语料库具有鲜明的领域特色,采集的语料全部都是在j 播和电视中播出的有声节目及其转写文本,语料的时间跨度是从1 9 9 9年至今文本语料包括来自伞国4 2 家电台、电视台的广播电视节日文档,截举2 0 0 7年底,文档篇目近5 万个,约2 亿字;音视频语料有2 千衾个文件,近1 0 0 0 小时另外,传媒语言语料库配套开发了完整的语料库管理系统,在技术上实现了从语音到字、词、语、旬、篇的多层级、一体化标注目前,传媒语言语料库开放了大约四千万字的语料和部分切分标注语料,对社会提供免费在线检索服务:( b 主羔乜;z z ! i 娶g :壁塑曼:曼重型:璺型z l 基z 耍旦! 垒坚! 主:垒墨巳)台湾中央研究院建立的 ( s i n i c ac o r p u s 是世界上第一个有完整词类标记的汉语平衡语料库于1 9 9 4 年公开提供给国内外学术研究使用。1 9 9 7 q e 丁f 放的中央研究院语糕瘁:j 0 皈已经达n 弓0 0 万词的彩 汁舰蜒。在2 0 0 3 年能够边到1 0 0 0 万训的规浚:在语料的管理上,s i n i c ac o r p u s 舍弃以往以档菜为单位的管理方式,而改j j文本为单位,并采用数据库( d a t a b a s e ) 的架构存储,一篇文本即为数据库的一个记录( r e c o r d ) ,其格式属性以此记录的栏位( f i e l d ) 加以存储s i n i c ac o r p u s 管理系统以视窗界面整合了断词标记模组、未知词截取模组与人工检验界面,提供使用者文本选取与查询界面、未知词编辑界面、人工检验界面与语料类别修改界面j + 1j枞l e n op i 由虹h d 疆e_ ,巾女舡_ e 穗h - q 一聊蚺h 痢奢魄砖q 止? i 和椭_ _ 簟和_ 哺斟h h 畦学_ 再尊专堑鏊:;。嚣l ! 金三堇! i 竖控。;-罄塞l ! 坚兰皇。;鼍:越二一扣芦- “? t 叫。1h 一“1 猢7 露a 研孵i ? 翻鲰,一一,鼍、? 叫“ :,。,图s i n i c ac o r p u s 文本选取与查询界面匕:l 惑器飘溉豫煮酸譬憋。攫冀寰嘲毛嚣8 砧i 搬,葛再双m m 怕笺啪4 :t。:z m 蹦璃强。= 鳓台:i :懒车学燃:豢疆甜彰帮嚣o 自葫芦谖彤驴囊隅。鹰稍妒鼍篇d 嘲瓣站蝌目融学凄嘛穆十$ 树 竹 $ ,t , t 漳,掣。y 孵哩乳黝。燃。燃。量熙脚鼍砦叠黝苏黪唆。,鑫熙懋瓣吾d 瓣一1 ,6 f ,。蝴镯自时”硼,* 辨”# 訇帮坤犯蝌彬p # 绅朴p u 峥蹦峄9 堋聊。峨* 冉- 蒯穗蝴叫嘲f 唯炉嘲- 謦馏- 串撼o 4 嘲、,伽僻帽5 壤- * - 4 一一椭呐- 一- 二捌躐“d 龋垃瑶出一幽撼勰“蝴虹畸o 二w 如础甜埘一, ,赫矗j 。自k z 二扎卫一m i 自 。z 一盈一。f p o 图s i n i c ac o r p u s 语科类别修改界面6 s i n i c ac o r p u s 系统的辅助功能仃:( a ) h e l p 功能:提供一些参考资料,如分词标准,新修订的词类,与以前做过的疑难杂症的判例等,供使用者参考,目的在让使用者于词类标记时有个统一的标准。( b )提醒存储功能:当使用者换幻编辑或离开系统时,若所编修f l ,j 文本有易动,系统会提礁使用者要做存储动作。( c )复原修改的功能:目前提供单次复原修改。3 、蒙古语语料库蒙古语是黏着语,词形变化多样彤态信息的自动处理,即自动完成词或词形形态信息的表示、获取、分析、识别、合成和转换是蒙古文信息处理中的一些基本操作:然而,2 0 世纪8 0 年代初,当刚开始建立蒙古语语料库时,世界上众多文字的输入输出技术不够成熟,蒙古文也小例外1 9 9 7 年我国颁布了蒙古文编码国家标准,但它没有体现同形异音字母的区别。因此,从1 9 8 3 年第一次往计算机输入蒙古秘史到后来建立现代蒙古语文数据库。蒙古涵语料库建设者一直采用了蒙古文拉丁转写方式二。0到目前为止,蒙古语语料库除了有规模较大的现代蒙古语语料库之外还有 是极为重要的中世纪蒙古语文献内蒙古大学蒙古学学院的语料库建设工作正是以它作为起点一步步向前迈进的元朝秘史 语科库有三个不同版本:第一版元朝秘史语料库( 元朝秘史文件索引) ,建于1 9 8 3 年,语料库采用李盖提拉丁转写体例1 ,用a s ci i 码转写录入第二版元朝秘史 语料库建于1 9 8 8 - - 1 9 8 9 年闯;按元朝秘史四部丛刊版本录入了汉字标音和旁译的同时,还爹照李盖提拉丁转写体例录入了拉丁转写部分。第兰版元朝秘史语料库,提取了第二皈的拉丁转写部分,对李盖提拉丁转写体例中的不当之处作了详细修改,添加了词尾切分、断句、引语、人名、地名标记。回鹘体蒙文文献语料库1 李盖提( l u g e t i 1 9 0 2 - - 1 9 8 7 ) ,东方学家。李盖提的最大贡献是蒙元时期蒙文文献的整理、翻译与研究有蒙占秘史拉j 字转写本( 1 9 7 1 ) 编入罗卜藏丹津黄金史) 中的 ( 拉r 字转写,1 9 7 4 )由“刚鹘体蒙古文文献( 道布) ”和“黄金史”嘶部分组成,建丁1 9 8 4 年,以蒙古文拉丁文转写法录入,添加了词二f 词尾切分标记、复合词标i 己断句、引语标记。八思巴字文献语料库建于2 0 0 1 - - - 2 0 0 4 年,语料库来源足八思巴宁蒙 语文献,可以对单词、附加成分、音节以及任意字符串进行查询,还可以建立词袭0托忒文语料库建于1 9 9 9 - - 2 0 0 0 年,语料来源是江格尔1 、江格尔2 ,以托忒蒙古文拉丁转写法录入,添加了词干词尾切分标记、复合词标记蒙古文口语材料语料库建于2 0 0 4 年,将录音材料以国际音标转写录入,添加了有词干词缀切分标记。( 1 7 世纪满蒙关系书信语料库语料来源是蒙古王公与满清统治者之间来往的书信档案( 中国第一史档案馆提供) 。蒙语部分以蒙古文拉丁文转写形式。添加有词干词缀切分标记、词性标记。”1 0 0 万词级现代蒙古语文数据库z:该语料的分布为蒙语文教材有5 0 万词左右,占5 0 3 ;政治类有2 0万词左右,占2 0 3 ;文学类2 0 万词左右,占1 9 6 ;报纸新闻类有1 0万词左右,占9 8 以蒙古文拉丁转写形式录入,经过了5 次人工校对:有谔千词缀切分标记、复合词标记和人名、地名标记:5 0 0 万词级现代蒙古语文数据库31 9 9 8 年建成。在1 0 0 万词级现代蒙古语文数据库的基础上增加约4 6 0万词的语料而成,其分布为文科教材类有3 4 万多词,占7 3 ;理科教材类4 5 万多,占9 6 ;文学类有7 9 万多词,占1 6 9 ;新闻类8 1 万多词,占1 7 4 ;政治类有7 2 万多词,占1 5 4 ;社会科学类1 2 9 万多词,占2 7 6 ;自然科学类2 6 万多词,占5 6 ;口语类约4 万词,占0 9 。语料的加工情况深浅不一1 9 9 8 年,内蒙古大学蒙古学学院承担了面向政府文献的汉蒙辅助机器翻译系统项目傲过一些汉案时照政碍事文蔽讲 :;库。2 0 0 3 年,他们又承担了一项8 6 3 项目,即基于实例的汉浆机器热聱襞缆酌研翩碲碍发,汉奠飘谬警繁! 警7的建设工作也随即正式开始。目前汉蒙双语语料库规模已达近1 s 万个句对,其蒙古语部分j h 蒙古文拉丁转写形式录入,现已对其l | l3 8 ,0 0 0 个汉蒙句对1 1 1 的蒙古语句子进行了词词缀切分标注以及词性标注总之,蒙古语语料库种类较多,但由于缺少一个统一的管理系统,至今还处于一种零散状态。21 9 8 8 - - 1 9 9 0 年,自治区。七五”霞点项目、中华社会科学基金资助项目1 9 9 卜1 9 9 5 年,嗣家教委项r l ,1 9 9 6 年完成- 8 4 、蒙古语语料库加工情况现代蒙古语文数据库一m d b这是针对现代蒙古语语料库开发的部功能较全的加工处理软件m d b 丰要有以下功能i萨字法校对一查找和分析音节划分和统计句孑统计和登陆建立词汇表统计正字法校对正字法校对是编辑工作的重要环节这部分丰要有三个内容:校对筛选括号检查校对程序,程序资源包括一部词于词典、两个构形附加成分毒,查找用到了h a s h 函数技术一校对错误结果分a 、b 、c3 类:词典里没有的词干放在a 类:附加成分表1 里没有、或跟词: :阴阳不搭配的构形附加成分放在b 类:附加成分表2 里没有、或跟词干阴阳不搭配的构形附加成分放在c 类在程序运行过程中i l l 、。b 、墨三类错误按顺序决定优先级筛选程序在录入过程中,可能会错按或多按特殊键( 屏幕上没有显示) 这会造成人眼无法校对出来的隐患筛选程序是专门处理这类特殊字符括号检查程序文件当中的开括号和闭括弧都是成对出现的人眼校对括弧匹配是一件困难的事括号检查程序会指出各种括号匹配错误发生的位置( 页数、行数) 查找和分析这罩金找是指从文本中检索整诃、诃千、词根7 、词尾、词素等讨薷分析是指查找结桨的乡,类存储。该程乎的运行翩象啄以足一个完整韵义件也埘以艟个文件的一部分。音节划分和统计音节划分和统计含以下几个内容:音节划分一根据蒙古语音节划分规则对语料库文本内容进行膏节划分,建立该语料库的音节库音节查找可以查找多种不同音节相关信息这些信息包括音节的词首、词中和词尾出现形式、单独出现形式的数量及在伞部音节库中所占比例9 音节库合并合并两个音节库。查看全部音节垒看音节库罩所有音节的相关信息。句子统计和登陆。把制定文件的句了分类统计,结果按农浒形式显示。以句子类别和句子所包含单词数为关锤- - 7 - ,壹找具体的句子。句子统计分i 带引语的句子i i 陈述句i i i 感叹句i v 疑问句v 超长甸子等五种。句子查找的条件有i 陈述句、感叹句、疑阀句当l f l 人选个;i i 句子的誓词数考虑与否;i i i 带引语的句子、不带引语的句子、不分带卜孑否引语等建立词汇表:建市词汇表部分主要包括以下几个内容:词性标注建立基本词典建立选项词典:比较两个词典要准确标注词性,对兼类词的识别是最为关键的m d b 确定兼类词的词性时采用了基于统计的“智能”处理和“人机对话”相结合的方式。基本词典指的是对一个文件进行词性标注后,根据词干和它的变形形式统计整理出来的结果文件。选项词典指的是以词干、词缀、题材、文件序号、词性等五个条件作为选项来挑选出来的结果文件用户根据自己的需要,从这五个条件当中选择一个或多个去挑选整理比较两个词典指的是对两个基本词典进行词干对比,得到两个文件的词汇包含关系。统计这部分包括以下三个内容:词性统计在建立基本词典f 0 过程中,对每个单词都f 髓嗣性标注和表示m 现次瓤,j 笺计数字。这里所i 照的词性统计不是按t 冉词来绕浮f 芎性,而是按潍性标记为芰壁饲来统计各个词性在文本中的出现情况。构形附加成分统汁构形附加成分的统计跟词性统计差不多。唯一不同的是,用户统计构形附加成分时根据其语法特征去细分统计时,需要查找构形附加成分分类表,确定其类别词性统计和构形附加成分的统计同时进行,每项的统计结果分别按表格形式表示,同时还给出一个统计总表句子统计根据表示句子种类的标点统计不i 刊类犁的句子在文奉中出现的次数。统计结果中还提供了每个句子所包含的单阋个数、足否包含引语等信息。m d b 程序是一部存d o s 系统环境下丌发的语料库加j 二软件,移植到w i n d o w s系统卜还需要做一些改动和优化。移植现代蒙古语语料库加工程序足必需韵,但更重要的怒改变稍前零街预蕊为蒙古语语料库建设匹配一个功能健全舱管理平台。这一点正是本文研究的主要口标三、研究方法本文以语料库建设通用方法和基本理论为指导,针对蒙古语语料库建设的实际需求,用v c + + 6 0 编写管理界面程序,a c c e s s 数据库的方法来实现对现代蒙古语语料库语料文件和语料文献数据文件的管理并集成语料库加工软件和应用软件为一体,形成现代蒙古语语料库管理平台。第二章理论依据和管理模式一、建立现代蒙古语语料库管理平台的理论依据语料库是语言学研究、自然语者处理缸j 芒的重要资源。近年来 对内外翻;作建设各种类型、各种规模和各种用途的语料库,语料库应用研究也取得了丰硕成果。但是,人们更多地去关注语料的结构、语料库的应用,很少玄注意语料库数据管理方式,语料库的物理结构、逻辑结构。然而,匹配一个性能良好的管理系统对于语料库的建设具有重要的意义。随着语料库建设规模的迅速膨胀,应用需求的日益增长语料库管霹系统的开发被提到了至关重要的地位目前语料库管理系统的方式主要有:文件管理方式、数据库管理方式、x m l 格式的文件管理方式、多媒体语料数据的管理等:1 、语料库的逻辑结构语料库的管理要从最基本的数据管理入于,而语料库的逻辑结构是确定数据组织形式语料库的逻辑结构是对语料数据的形式抽象,它要能够方便、直观地:表示语料的逻辑组织形式,容易转换成计算机能够处理的数据结构语料库中的数据一般包括两部分:语料文献数据( 或称元数据) 和谣料本身。文献数据是关于语料特性的描述,如语料来源、文体、主题、字数等等,语料库的用途不同,文献数据的定义也就不同一个语料文献数据和语料本身组成一条语料记录,这样语料库就是语料记录的集合。一个语料库可以是几个不同的子库的集合,每个子库的结构可以相同,也可以不同,如l c e 语料库是由柏个结构相同的平衡子库组成的,丽l o 哩m 柏语料库包含三个子库,每个子库的结构都不相同语料库的逻辑结构可以定义为:子库名i ( 语料记录号,文献数据1 ,文献数据2 ,文献数据n ,语料形式1 ,语料形式n 子库名2 ( 语科记录号,文献数据1 ,文献数据2 ,一,文献数据n ,语料形式1 语料形式n l予库名n f 语料i d 慕弓,文献数锚1 ,文献聂:j :2 ,文献数据:j 语 r 。r , r ,l , , - 式1 ,语料形式n l一般来说,每条语料记录应该有惟一的记录号,通过它,可以使语料的文献数据、语料的各种形式保持一致。记录号对一般用户来说,不一定有重要意义,可以是透明的,但对于语料库管理人员来说,记录号却是非常重要的,它是保证记录唯一性的重要手段按照数据库设计理论中实体完整性的原则,每条记录必须有一个唯一区别于其他记录的标记,这个标记称为主码,记录号往往是候选的主码之一,语料记录号不同于数据库系统中由数据库管理系统赋给记录的记录号,仅仅有物理意义,它是南语料库设计者按一定的规则赋予每条语料记录的,它的设计可以有很多技巧,可以用它来表达与语料记录有关的一些重要信息。女l i “国家现代汉语语料库”的记录号的设计就非常科学,该语料库的记录号也称作分类号,山h 位宁符组成。第一位表示样本的来源( b 表示报纸,j 表示教材,z 表示综合刊物,f 表示其他来源) ,第_ 位表示谮料的学科分类,第兰位是每个大的学科门类下的小类,以一位数字符号表示,分类号的前j 位形成的组合共有1 4 4 类,较好地表现了语料记录的来源和学科;分类号的第4 至第8 位表示某+ 类下的样本号,分类号的第9 至第1 1 位用来区分同一样本的多条记录一条语料在语料库中有多种存在形式,如未加工的形式、加了词性标注的形式、作了句法标注的形式,口语语料库中还有语料的录音文件、录像文件、波形图、人工或机器转录的文本、作了各种标注的文本文件等。每种语料形式互相参照、互相补充、各有其用途,形成有机的统一体。2 、语料库的物理结构语料库的物理结构是指语料数据的逻辑存储方式,它和具体的物理存储细节无关。概括起来,语料瘁町以有以下i 种物理存储结构( 1 ) 用文件集合管理语料库不管早期的还是现有的语料库一般都是以文本文件的形式存储语料一条语料记录作为一个文本文件,语料库是相l 司语料记录文件的集合。在这种方式下,一般要预先定义语料文本文件的格式。由于一个语料库一种文件格式,数据和程序依赖性强,一个程序对应一个语料库,共享性较差,系统的可扩展性差改进的方法是用通用的标记语言x m l 语言来组织语料文件图语料库物理结构示意图1使用x m l 语言组织语料库,可以减少程序和数据的依赖性,提高语料库的数据独市性,从而提高语科库的j 芒亭性。这时,一个语料库的文件是一个暨芯多个x m l 格式自,j 文件集合,d t d ( 数裕类型定义) 或等x m ls c h e m a ( x t 气:蔓:;来定义它们的结构,这样,通j 爿的软件( 如i e s o ) 就可以依据d t d 来俭企每个语料文件的结构是否规范,解读语料文件的程序就不用向传统系统那样,过多地,在程序中去解决物理存储结构的问题,从而提高语料数据和程序的独立性,提高共享性用户1 图语料库物理结构示意图2?( 2 用关系数据库管理系统管理语料库用关系数据库管理系统( r d b m s m r a l a t i o n a ld a t a b a s em a n a g e m e n ts y s t e m )来管理语料库时,语料库是一个关系数据库,每个子库是一个关系,一条语料记录是关系中的一个元组,多种形式的语料分别用能支持大文本、多媒体类型的数据字段来存放一:1 _ :用户1用户2j f j 户3图语料库物理结构示意图3用户通过r d b m s 访问数据库,只需了解语料库的逻辑结构,程序和数据具有较高的独立性。( 3 ) 文献数据用关系数据库管理,语料内容用文件存放上世纪九十年代以前,由于关系数据库系统要求数据有舰范的结构,它不能很好地处理语料库、网页等半结构化的数据,关系数据库系统也不能较好地处理大文本数据、多媒体数据这时,如果要用关系数据库系统管理语料库,当语料文件的规模过于大,或者无法预知时,则可以采用折衷的策略,用关系数据库存放语料记录的文献数据,而语料文本用文件形式存放,通过定义记录号和文件名的映射关系来实现语料文献数据和语料的匹配图语料库物理结构示意图4语料库文本用文件形式存放,其优点是比较容易按字或按词建枣索引,访闷速度快,存储结构灵活,开放性好,能方便的编写程序对其进行加工、检索、统计,现在的语料库加工程序的操作对象大多是纯文本文件。当语料库是纯文本文件的集合:也没有文献数据时,这种结构的优点表现明显。不足之处在于:当语料库记录包含文献数据、语料文本以及其他格式的语料载体时,控制比较复杂,数据的一致性较难控制;当语料库的数据结构改变时,程序要做较大的修改,系统的可扩充性差语料库文本利用数据库系统来存放,优点是可以充分利用数据库系统已有的功能,开发效率高,语料的插入、删除、更新、备份都很容易,特别是对于语料的文献数据的查询、更新、统计,非常方便不足之处在予:早期的关系数据库管理系统( r d b m s ) 对于大文本数据、音频数据、图形数据的支持不够得力( 现在这个问题已解决) ;r d b m s 一般都支持“大对象”这种数据类型,字段的宽度可以达到几个g ,能管理和支持多种媒体数据;另外,如何对于关系数据库中的大文本,按字或者按词建立索引,实现索引和关系数据库的无缝连接,还是一个有待研究的课题,但是这些软件缺少对语料库语言学研究的有效支持。二、现代蒙古语语料库管理平台的管理模式人部分语料库足以文件形式存储的,但从内容、管理方式、应用需求来看,语料库应该是一个数据库系统目前语料库领域的研究有一个重要趋势就是研究为特定应用需求服务的数据库管理系统,解决传统的关系数据库管理系统所不能很好地解决的问题,如空间数据库、统计数据库、时态数据库等基于这一思路,现代蒙古语语料库管理平台将要集成语料库建设所需要的各种功能,如语料库管理模块、语料库加工工具、语料库检索软件、语料库分析工具。1 s 具体说,现代蒙古语语料库管理平台具有以下几个力面的功能:语料库定义功能、词表定义功能、索引功能、数据仔储功能、语料加工功能、检索和统计功能。1 、语料库定义功能:现代蒙占语语料库管理平台要提供语料库定义语言,让用户定义语料库的数据结构包括命名文献数据字段名称、数据类颦、数据宽度等:一文献数据字段竹数据类型町以有:字符型、同期型、数值型、文本型、声音数据、波形数据。因为存储语料本身刖的文本型数据的长度不固定,所以与字符型数据区别开来,这样便于管理2 、词表定义功能,语言的基本组成单位足词对语料库进行加工、检索、统计、分析,都离不开词。现代蒙古语语料库管理j f 台提供一些基本的词表,也要提供词表定义、编辑功能,让用户自己设计专用的词表同时还要提供词表查找、捧序、统计等基本功能。3 、索弓f 功能没有索引的支持,就很难提高对大规模语料库进行数据检索的速度现代蒙古语语料库管理平台不仪要提供像关系数据库管理系统那样能够按数据项建立索引的功能,还要提供能够对语料样本按词建立索引的功能,以便提高按关键词查找的速度4 、数据存储功能现代蒙古语语料库管理j f 台为用户提供一个以二维表形式呈现的视图,用户可以直接对该表进行操作,不用了解具体的存储细节开头要说明究竟用什么存储形式s 、语料加工功能现代蒙古语语料库管理平台要具备一些语料加工功能,例如,词法标注、句法标注、语义标注、语用标注:口语语料的播放、转写、编辑等等现代蒙古语语料库管理平台要集成现有的比较成功的一些语料库加工工具,并提供开放的接口6 、检索和统计功能现代爹古语语料库管理平台要支持常规的关系数据痒管理系统已经只篱的检索阳统计功能,还要支持常用的i 磐 险褒统汁彰:汁,们如,按芙键:j 艺符串令j 建、按句型查找;统计词数、句子数、段落数,统计词 矗搭配等等第三章:现代蒙古语语料库管理平台设计针对现代蒙古语语料库建设至今还没有一个统一韵管理平台,管理手段滞后的问题,我们以第二章所述的理论依料和 1 3 :理摸式为棕绳? 采用数必! 翻端是矬术相结合的方式,设汁实现了现代蒙占语语料博管理平台。使用这种结构,语料的文献数据和语料文件的连接可以通过两种不同的乃。案来实现,一是通过语料i 己录号与文件名建屯一对一的映射关系,语料的几种不同形式靠扩展名来区分:二足通过关系数据库的属 牛字段的信息去连接这种语料和文献数据分丌存放结构的优点是语料文件结构单纯,一些和文献数据无关的研究可以直接用高级语言编:写程序对文件进行操作;对文献数扭柏,j 操作可以用关系数据库韵方法进行,效率较高。这种结构的不足之处跫,第一,肘户可以直接绕过关系数据库系统对语料进行操作,数据的一致性没有保障。例如,用户的误操作造成丢失语料文件或者随意改动语料文件名等,这些都会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论