语料库的发展和现状PPT_第1页
语料库的发展和现状PPT_第2页
语料库的发展和现状PPT_第3页
语料库的发展和现状PPT_第4页
语料库的发展和现状PPT_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库的发展和现状PPT第1页,课件共26页,创作于2023年2月国家语委语料库建设

1991年12月国家语委语言文字应用管理司提出立项建议1992年4月国家语委语言文字应用管理司在京组织召开了现代汉语语料库选材原则专家论证会1993年1月制订《现代汉语语料库选材原则》1993年9月召开了现代汉语语料库选材专家审定会2001年底建成7000万字的生语料库2003年底已完成4500万字语料的词语切分和词性标注加工第2页,课件共26页,创作于2023年2月现代汉语语料库的主要用途及选材规模主要用途语言文字的信息处理语言文字规范和标准的制定语言文字的学术研究语文教育语言文字的社会应用选材规模规模较大的通用语料库,其选材字数拟定在5000万字左右,包括抽样材料和整篇材料。教材字数另计。第3页,课件共26页,创作于2023年2月选材的分类

依据材料内容,选材大体作如下分类:教材大中小学教材单作一类,约2000万字。不计入5000万字的语料之内。人文与社会科学的语言材料,包括:政法(含哲学、政治、宗教、法律等);历史(含民族等)社会(含社会学、心理、语言、教育、文艺理论、新闻学、民俗学等);第4页,课件共26页,创作于2023年2月经济;艺术(含音乐、美术、舞蹈、戏剧等);文学(含口语);军体;生活(含衣食住行等方面的普及读物)。自然科学(含农业、医学、工程与技术)报刊应用文第5页,课件共26页,创作于2023年2月3.选材年限及密度教材类选取现在通用的教材为建库的语言材料。中小学课本所选内容涉及各个学科的基本知识,一般为典范的现代汉语作品,具有相当的普及性、代表性。人文与社会科学类以1919年为上限,选取五四以来的语言材料。对五四以来各个历史时期的语料采取不等密度选用的方式。第6页,课件共26页,创作于2023年2月1919——1925年 鉴于五四时期的白话文仍留有文言痕迹,拟选用少量的对后世影响较大的代表性作品。被选用的作品在行文上要尽量符合现代汉语的规范。这部分语料拟占人文与社会科学类的5%。1926——1949年 白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。这部分语料拟占人文与社会科学类的15%。1950——1965年 中华人民共和国的成立给社会文化生活带来巨大变化,新词新语大量涌现。这部分语料拟占人文与社会科学类的25%。1966——1976年 文化大革命时期产生的作品,其中许多随着文革的结束而仅作为历史词语存于现代汉语之中。这部分语料拟占人文与社会科学类的5%。1977——

新时期的语料代表了现代汉语的最新发展。这部分语料拟占人文与社会科学类的50%。第7页,课件共26页,创作于2023年2月自然科学(含农业、医学、工程与技术)类目前比较通用的中、小学各科教材。目前比较通用的具有通论性质的大学各科基础必修课程的教材。涉及自然科学各个门类的科普读物。第8页,课件共26页,创作于2023年2月现代汉语语料库选材字数的分布人文与社会科学的语言材料占全部5000万字语料的60%,为3000万字。这3000万字在各个学科的分布见表一。文学的语言材料占人文与社会科学类的50%,共1500万字。这1500万字在不同体裁、题材的语料的分布见表二。长、中、短篇小说的选取比例大致为:长:中:短=1:2:3第9页,课件共26页,创作于2023年2月语料的通用性原则和描述性原则语料的通用性原则作为通用型语料库,现代汉语语料库应真实地反映现代汉语在文字、词汇、语法、语义等方面的全貌。现代汉语语料库在语料的选择上,应当具有区别性特征。有别于专业性。有别于地域性。有别于纯口语性。为确保5000万字语料的质量,尽可能地提高所选语料在采字、采词、采句和采义等方面的涵盖量,选材不仅要考虑到语料的时间层次、文化层次和社会使用面层次,还应采取“抓住中心,其他补充”的方式。时间层次。文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程度为辅。社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体为辅,对门类进行补充。第10页,课件共26页,创作于2023年2月语料的描述性原则从现代汉语语料库建设的主要用途出发,语料应在必要的人工干预的前提下,做描述性选取,以便为语言文字的规范与科研提供客观的科学依据。为了保证现代汉语的字、词、句、义在语料中具有合理的出现频率,语料的选择应在控制比例的前提下,尽量做到采样广泛。第11页,课件共26页,创作于2023年2月样本原则

语言材料的多样性选用政论性文章、新闻报道、各类文学艺术作品、科普读物、通俗读物、学术专论及各种应用文语体等现代汉语作品。语言材料的完整性

2000字以下的文章原则上全篇采用。报纸可采取整篇文章、整版和整张相结合的方式。语言材料的遍历性选材要注意各学科,各学科分支,各行各业,以及社会生活各个领域的语言文字应用的代表性。第12页,课件共26页,创作于2023年2月语料抽样抽样的数量与方式书籍抽样数量一般占全书字数的3——5%,字数最多不超过10000字。样本容量2000字,允许±500字的伸缩。报纸采用整版(4版或8版)选用的方式。不同的报纸选用不同的月份,以免内容重复。报纸上的广告、启事等归在应用文类,不在报刊类语料的统计之列。刊物每本刊物上所选的总字数原则上不超过5000字。样本容量2000字,允许±500字的伸缩。第13页,课件共26页,创作于2023年2月对同一版面的不同文章,按从上至下、从左到右的顺序选取。一个样本必为同一作者的同一篇文章,限字数不限样本数(报刊除外)。每个样本之中必为连续的语料内容。应用文(包括广告、说明书等)2000字以内的应用文宜整篇选用。对于篇幅较长的应用文,所选样本的容量为2000字,允许±500字的伸缩。第14页,课件共26页,创作于2023年2月补充以上有关选材年限及密度的规定是着眼于科学的整体发展而制定的。各个学科的发展在不同的年代并不是齐头并进的,可根据具体情况适当调整依年限分布的比例、字数。调整的理由、调整后的比例和字数当详细说明,并作为附件收于清单之后。大学教材门类以国家规定的大学基础必修课为准。避免选取文言色彩较重的篇章作语料,例如鲁迅等作家的作品不宜用作语料。避免选取诗歌作语料;剔除篇章中诗歌形式的内容。第15页,课件共26页,创作于2023年2月设计样本分布表一:人文与社会科学类科目比例字数1919-19251926-19491950-19651966-19761977-5%15%25%5%50%哲学8.3%25012.537.562.512.5125历史8.3%25012.537.562.512.5125社会8.3%25012.537.562.512.5125经济8.3%25012.537.562.512.5125艺术8.3%25012.537.562.512.5125文学50%15007522537575750其他8.3%25012.537.562.512.5125第16页,课件共26页,创作于2023年2月设计样本分布表二:文学类(含口语)体题裁材比例1919-19251926-19491950-19651966-19761977-5%15%25%5%50%小说30%45022.567.5112.522.5225散文(杂文)20%30015457515150传记10%1501522.537.51575报告文学10%15050100科幻10%15050100口语20%30015457515150第17页,课件共26页,创作于2023年2月1993年1月制订《现代汉语语料库选材原则》具体选材任务分别由中国社会科学院语言所、北京师范大学中文系和中国人民大学中文系三个课题组承担。选材工作自1992年底开始,按照通用性、描述性、实用性等原则系统地抽样选择了1919-1992年的现代汉语语言材料7000万字,由人文与社会科学、自然科学及综合三个大类约40个小类组成。第18页,课件共26页,创作于2023年2月1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。第19页,课件共26页,创作于2023年2月2.自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。3.综合类语料由应用文和难于归类的其他语料两部分组成。应用文使用很广泛,主要涉及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等;(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等;(3)司法文书:诉讼、辩护词、控告信、委托书等;(4)商业文告:说明、广告、调查报告、经济合同等;(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等;(6)实用文书:请假条、检讨、申请书、请愿书等。第20页,课件共26页,创作于2023年2月语料来源包括教材、报纸、综合性刊物、专业刊物、图书等。每个样本的容量为2000字左右,书籍的抽样字数一般占全书总字数的3-5%,最多不超过10000字;每本刊物上所选的总字数原则上不超过5000字。各类语料所占比例如下:

人文与社会科学类语料占语料总量的59.6%,自然科学类语料占语料总量的17.24%,综合类语料占语料总量的9.36%,取材于报纸的语料,难于划分门类和语体,因此单独计算,报纸语料占语料总量的13.79%。另外,取材于教材的语料总量有2000万字,已经按学科计入各类语料。第21页,课件共26页,创作于2023年2月当前语料库样本分布-类别第22页,课件共26页,创作于2023年2月当前语料库样本分布-时间第23页,课件共26页,创作于2023年2月标注语料库词语切分分词词表词表结构化词类标注<信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论