(语言学及应用语言学专业论文)基于语料库的现代汉语准口语计量研究.pdf_第1页
(语言学及应用语言学专业论文)基于语料库的现代汉语准口语计量研究.pdf_第2页
(语言学及应用语言学专业论文)基于语料库的现代汉语准口语计量研究.pdf_第3页
(语言学及应用语言学专业论文)基于语料库的现代汉语准口语计量研究.pdf_第4页
(语言学及应用语言学专业论文)基于语料库的现代汉语准口语计量研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:曼垫叠 e t 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:量整望导师签名:论文作者签名:亟丝! 生导师签名: 期:巡 山东大学硕士学付论文 中文摘要 本文以现代汉语口语与书面语的“过渡状态”准口语为研究对象,在大规 模真实语料的支持下,在对准口语与书面语以及不同类型的准口语之间进行对比分 析的基础上,对现代汉语准口语的用字、用词情况和特点作了尽量详尽的动态描写 和计量分析,并试图在此基础上探索现代汉语书面语、口语的自动文体判断规则与 方法。全文共分五章z 第一章概论 本章首先概述了准口语的概念和性质、意义与研究方法。在对口语和书面语进 行了系统区分的基础上,对本文的研究对象准口语一进行了定义,即不同于 完全自然口语的、带有人为加工痕迹的口语。准口语不同于书面语,也不同于完全 自然状态下的口语,有独特的研究价值和意义。目前口语研究多为经验性的研究, 本文主张在以往经验性研究的基础上,利用大规模语料库结合基于规则的方法,对 准e l 语进行定量与定性分析,从语料库中发现问题,用语料库所提供的数据分析问 题。 第二章现代汉语准口语语料库的设计与建立 本章简述了建立现代汉语准口语语料库的目的、语料选取原则、语料类型与结 构、语料库自动分词与标注的基本情况。本章在考察和借鉴了目前已有的现代汉语 口语语科库的基础上,提出了“准口语语料库”的概念,并对服务于本研究的5 5 0 万字的现代汉语准口语语料库的建立、加工过程和情况做了介绍。 第三章现代汉语准口语的字频分析 由于汉字与汉语音节的对应性,考察汉字的情况,实际上反映了口语中音节的 使用情况。从这些高频字作为最常用的单音节词使用来看,其中代词的比例很大。 从音节结构来看,高频字的音节总体上比较简单。最高频字。的”的频率随准口语 类型逐渐接近日常自然口语而逐渐降低。准口语总用字数在2 0 0 0 左右,六种准口 语类型中出现1 2 次的最低频字平均为5 8 9 字,占总字种数的近3 0 。 第四章现代汉语准口语的词频分析 不同准口语类型的人名、地名,商标、机构名、数字、英文字符等具有不同的 使用情况和特点。准e l 语中后缀的使用较少,且切分错误较多。六种类型的准口语 前2 0 位高频词的累积覆盖率平均为2 7 7 1 ,高频词多为单音节词。只出现1 一4 次的低频词数占总词条数的比例平均高达6 8 3 9 。由高频词的高覆盖率及低频词 的高词种数,我们得出了准口语用词比较简单的结论。 第五章准口语特征与讨论 重叠形式词语、。子”后缀词、“说”系列词等从形式、内容、功能等方面体现 了口语特色。后缀“们”的不同使用情况体现了各种准e l 语类型的e l 语化程度的不 同。口语词也是准口语用词特色之一,应依靠口语词词库来进行判断。 结语 结语部分对本研究加以总体概括,并指出了研究中存在的不足之处,同时提出 了进一步研究的设想。 山东大学硬士学付论文 关键词:语料库准口语字频词频 2 山东大学硕士学付论文 a b s t r a c t b a s e d0 nt h ei o r g e - s c e l et e x tc o r p u sa n dt h ec o n t r a s to ft h eq u a s i - o r a la n d t h ew r i t t e n ,d i f f e r e n tt y p e so ft h eq u a s i - o r a l ,t a k i n gt h et r a n s i t i o nf o r mo ft h eo r a l a n dt h ew r i t i e r 卜一q u a s i - o r a la st h er e s e a r c ho b j e c t ,t h ed i s s e r t a t i o nm a k ea d e t a i t e dd y n a m i cd e p i c t i o na n da n a l y s i sa b o u tt h eu s i n gs t a t u so fc h a r a c t e ra n d w o r do ft h em o d e mc h i n e s eq u a s i - o r a l ,o nt h ef o u n d a t i o no fw h i c h ,w et r yt o d i s c o v e rm e t h o d sa n dr u l e st oa u t o - i d e n t i f yt ot h es t y l eo fd i f f e r e n tt e x t s t h e d i s s e r t a t i o nf a l l si n t of i v ec h a p t e r s , c h a p t e r0 n e :i n t r o d u c t j o n i nt h i sc h a p t e rt h ea u t h o rs u m m a r i z e st h ec o n c e p t ,c h a r a c t e r i s t i c s ,r e s e a r c h m e t h o da n dm e a n i n go ft h eq u a s i - o r a l b a s e do nt h ec o n t r a s lo ft h eo r a ia n dt h e w r i t t e nw ed e f i n et h er e s e a r c ho b j e c to ft h i sd i s s e r t a t i o n 。q u a s i - o r a l 。a st h eo r a i t h a td i 仟e r s 们mt h ec o m p l e t e ( 3 1 6 it h a ti su s e di nd a i l yi i f e ,w h i c ht a k e so nm o r e m a n m a d et r a i t t h eq u a s i - o r a ld i f f e r s 仃0 mt h ew r i t t e na n dt h ed a i l yo r a l a n di t h a si t su n i q u er e s e a r c hm e a n i n g t h ep r e s e n tr e s e a r c ho fo r a lm o s t l yi s i n t r o s p e c t i v ea n do ne x p e r i e n c e t h er e s e a r c hm e t h o do ft h i s d i s s e r t a t i o n c o m b i n e dc o r p u s - b a s e dm e t h o da n dr u l e j o a s e dm e t h o di sp o i n t e do u t w et r yt o f i n dp r o b l e m sf r o mc o r p u sa n da n a l y z ep r o b l e m su s i n gt h ed a t af r o mc o r p u s c h a p t e rt w o :t h ee s t a b l i s h m e n to fa n n o t a t e dc o r p u s i nc h a p t e rt w o ,t h ei n t e n t i o n ,p r i n c i p l e ,t y p ea n dt h ed i s t r i b u t i o no ft e x t , d e v e l o p i n gp r o c e d u r eo ft h ea n n o t a t e dc o r p u sa r ee x p o u n d e d r e v i e w i n ga n d r e f e d n gt h ef o u n d e do r a ic o r p u s e so fm o d e mc h i n e s e t h i sd i s s e r t a t i o np u t f o r w a r dt h ec o n c e p to f “c o r p u so fq u a s i - o r a l ”a n di n t r o d u c et h ec o n d i t i o no ft h e e s t a b l i s h m e n ta n d p r o c e s s i n go fa n n o t a t e d n ) u s c h a p t e rt h r e e :a n a l y s i so fc h a r a c t e r sf r e q u e n c y a st h ec h i n e s ec h a r a c t e ra c c o r d sw i t ht h es y l l a b l e 。t h ec o n d i t i o n so f c h a r a c t e rc a nr e f l e c tt h ec o n d i t i o no fs y l l a b l ei no r a l t h ec u m u l a t e df r e q u e n c yo f h i g h - f r e q u e n c yc h a r a c t e r si no r a ii sh i g h e rt h a nt h a li nt h ew r i t t e n 1 fw ec o n s i d e r t h eo n e - s y l l a b l ew o r d so ft h e m t h ep r o p o r t i o no fp r o n o u ni sm u c hm o r et h a n o t h e r s a sf a ra st h es y l l a b l e - s t r u c t u r ei sc o n c e r n e d 。a saw h o l e ,t h es y l l a b l e s t r u c t u r eo fh i g h - f r e q u e n c yc h a r a c t e rj ss i m p l e t h ef r e q u e n c yo ft h em o s t h i g h - f r e q u e n c yc h a r a c t e r d e i si o w e ra n di o w e rw h e nt h et y p eo fq u a s i - o r a li s n e a n n gt h ed a i l yo r a l t h en u m b e ro fc h a r a c t e ru s e di nq u a s i - e r a ii sa b o u t2 0 0 0 t h ea v e r a g en u m b e ro fm o s tl o w e s t - f r e q u e n c yc h a r a c t e ri nt h es i xt y p e si s5 8 9 , w h i c ht a k e sn e a r l y3 0 o ft h ea 1 1 c h a p t e rf o u r :a n a l y s i so fw o r d sf r e q u e n c y t h ep r o p e rn o u n s ( n a m eo fp e o p l e ,p l a c e ,b r a n d ,o r g a n i z a t i o n ,e t c ) , n u m e r a la n de n g l i s hc h a r a c t e r so fd i f f e r e n tq u a s i - o r a lt y p e s ,h a v ed i f f e r e n tu s i n g 3 山东大学硕士学付论文 s t a t u sa n dc h a r a c t e r i s t i c s t h e r ei sf e wp o s t f i xi nq u a s i - o r a ia n dn u m e r o u s m i s t a k e ns y n c o p a t i o n t h ea v e r a g ec o v e r i n g - r a t eo ft h ef i r s t2 0h i g hf r e q u e n c y w o r d si ns i xt y p e so fq u a s i - o r a lr e a c h e s2 7 7 1 m o s to ft h eh i g hf r e q u e n c y w o r d sa r es i n g l e s y l l a b l ew o r d s t h ea v e r a g er a t eo fl o wf r e q u e n c yw o r d sw h i c h a p p e a ro n et of o u rt i m e sj nt o t e in u m b e r so fw o r d sh a sb e e nh i g ht o6 8 3 9 f r o mt h eh i g hc o v e r i n g - r a t eo fh i g hf r e q u e n c yw o r d sa n dh u g et y p e so fl o w f r e q u e n c yw o r d s ,w ec o u l dg e tc o n c l u s i o nt h a tt h eu s a g eo fw o r do fq u a s i - o r a li s s i m p l e c h a p t e rf i v e :a n a l y s i sa n dd i s c u s so fq u a s i - o r a ic h a r a c t e d s t i c s t h eo v e r l a p w o r d s ,t h ep o s t f i x - w o r d so f “z ra n dt h es e r i e so fw o r d so f 。s h u o e m b o d yt h eo r a lc h a r a c t e r i s t i c sf r o mf o r m ,c o n t e n ta n df u n c t i o n ,e t c t h eu s a g e o fp o s t f i xo f 。m e r fe m b o d i e sd i f f e r e n tt y p e so fq u a s i - o r a l so r a l - b e i n gd e g r e e t h e u s a g eo fo r a lw o r d si sa l s oo n e o ft h ef e a t u r e so fq u a s i - o r a i a n dt h e ys h o u l db e j u d g e db yt h ew o r d s c o r p u so r a l e p i l o g u e : i nt h i sp a r tt h ea u t h o rs u m su pt h er e s e a r c hi ng e n e r a ia n dp o i n t so u tt h e s h o r t c o m i n g se x i s t i n gi nt h i sr e s e a r c h 1 1 1 e n t h ea u t h o rb r i n g sf o r w a r ds o m e a s s u m p t i o n so ff u r t h e rr e s e a r c h k e y w o r d s : c o r p u s 、q u a s i - o r a l 、c h a r a c t e rf r e q u e n c y 、w o r df r e q u e n c y 4 山东大学硕士学付论文 第一章概论 一、准口语的概念和性质 口语和书面语是语言学中经常使用的两个术语。然而,对两者进行严格的定义 和划分却是非常困难的,不同的学者从不同的研究角度对其进行定义,我们尽量详 尽地将其归纳为以下几个方面: 1 、使用的场合不同。通常情况下,口语是人们面对面地或者通过各种通讯工 具进行言语对话的语言形式。书面语是通过文字进行交际、沟通而形成的语言形式。 2 、产生时间不同。时间上来说,人们使用口语交际的历史是从语言诞生那一 刻起的,而书面语是从文字产生以后才出现的。 3 、载体形式不同。一般情况下,口语以声音为载体,书面语以文字为载体。 4 、诉诸感觉不同。口语是听说互动的过程,也就是说,口语诉诸听觉,时间 空间上是同时同地的。书面语是读写互动的过程,书面语诉诸视觉,时间空间上基 本是不同时同地的。 5 、常用性不同。口语交际是人们最基本、最常用的交流手段。书面语多为人 们获取知识和信息的手段。 6 ,风格不同。口语形式灵活、表达生动,书面语规范、严谨,精确。 7 、用词不同。口语中使用的词语多常用词理论文章、公文等书面语使用带有 书面语色彩的词语多一些。 8 、停顿表达方式不同。现代汉语口语中是词和词之间问隔,表现为时间上的 停顿;现代汉语书面语以句子为间隔,表现形式为标点符号。 9 、语法不同。在口语中,一些语法形式或表达方式使用频率比在书面语中要 高。口语中,成分的颠倒,补充说明,以及结构的中断现象很普遍。口语中不完整 的句子众多。口语中常常省略某些成分。 1 0 、相关因素不同。口语交际更加依赖具体的交际环境。口语中重要的相关因 素有;交际方式( 面对面、电话、其他工具等) 、交际主体( 说话者、听话者,双 方的关系、知识背景、生活阅历等、双方是否有准备) 等。书面语交际双方在时间 上和空间上是远离的。 以上区分只是从不同的方面进行的总体上的区分,仅从其中单一的某一点来区 分口语和书面语都是有失偏颇的,比如,我们不能说从口中。说”出来的话一定是 口语,也不能说文字形式的就一定是书面语。同时,我们不能因为研究两者的区分 和不同而忽视了它们更大程度上的相同和相似。但是,对于两者不同之处的研究是 非常必要和有用的,在1 2 1 语和书面语各自具有的不同特点基础上,形成了语言的两 种不同的语体。同时,口语和书面语之间并不是界限分明的,其间存在着一个过渡 形式,这些情形下的语言的使用,既具有口语的基本特点,又不同于完全自然状态 下的日常对话,我们将其定义为“准口语”。“准口语”具有以下几个特点: 1 、预先设定话题; 5 山东大学硕士学位论文 2 、较多与话题相关的思考和准备; 3 ,人为“创作”的口语。 以上特点决定了“准口语”既不同于书面语也不同于完全自然状态下的口语的 性质。比如教师授课时的语言、电视谈话节目、戏剧对白等都是属于“准口语”的 范畴。 二、研究现状及意义 ( 一) 现代汉语口语及准口语的研究现状 目前现代汉语口语研究主要有以下几个方面:教师口语;朗读演讲辩论公关技 巧;汉语作为第一语言的口语教学;对外汉语口语教学;口语本体研究等。具体成 果:如专著汉语口语语法、汉语口语等;学术论文中,关于英语口语习得的 研究最多。目前以上各种研究中,除口语本体研究中的一部分以纯口语为研究对象, 其他多为基于或服务于准口语研究,并且多为经验性的研究。 语料库方法用于口语研究的情况如下: 建立大规模语料库需要一定的经费和人力,建立大规模口语语料库需要更多, 比建立单纯的书面语语料库要费力和复杂。因此口语语料库目前并不多。刚刚完成 的。现代汉语口语语料库”为国家级的专门的口语语料库。另外一些研究机构基于 不同研究目的建立了一些中小型口语语料库,有些研究中,口语和准口语是作为全 部语料库中的一小部分。他们的语料来源、研究目的、语料加工情况等都不尽相同, 下面对现有的主要的现代汉语口语及准口语语料库作一下介绍: 1 ) “现代汉语口语语料库” “现代汉语口语语料库”为中国社科院语言研究所开发完成的国家级的大型口 语语料库。包括三个子库;北京地区现场即席话语语料库、汉语方言自然口语语料 库、汉语自然口语语音标注库。北京地区现场即席话语语料库采用现场录音方法采 集语料,汉语方言自然i ;3 语库中语料主要围绕一定的话题采集而来,以便于方言之 间的比较研究。汉语自然口语语音标注库对自然口语语料作了精细的语音韵律标 注。1 2 ) 其他语料库中的口语部分 2 0 0 万字次的北京语言大学 汉语频度词典项目专用语料库中,口语语料的 情况为:扎日常生活1 :3 语材料。选自反映社会生活各个侧面的剧本名作、相声、评 书等。b 专题采录和随机采录的部分口语材料。两类合计约为2 0 万字次,约占语 料总量的l o 9 9 6 。22 0 0 0 万字的。现代汉语研究语料库”中,准口语材料共1 0 0 万 字次,( 其中对话 话剧剧本) 6 0 万字次,独自( 单口相声、演讲词、对话、故事 等) 4 0 万字次) ,占总语料的5 。 3 ) 现代汉语方言口语语料库 6 山东大学硕士学静论文 口语研究与方言研究密不可分,很多学者、机构从方言研究的角度出发,涉及 到口语研究。 上世纪9 0 年代初完成的“当代北京口语语料库”,是较早的汉语口语语料库之 一。该语料库以话题为主进行了现场口语采录并进行了相应的文字转写,反映了北 京地区8 0 年代口语的使用情况。共约1 7 0 万字。 香港大学语言学系曾建立了第一个香港粤语口语语科库,并以真实的口语材料 为依据对粤语的历史、语音、词汇、语法以及会话、社会语言等方面进行研究。 4 ) 特定领域口语语料库 中科院自动化所建立了。旅馆预定”和“旅游咨询”两个特定领域的现代汉语 口语语料库,共1 5 0 段对话,6 0 0 0 个句子,是对两个领域的真实状态下的口语对 话的收集,并得出了一些口语的统计特性,通过对两个语科库的加工、处理和建模 使之可以应用于限定领域的口语理解模型、口语对话管理模型以及基于统计的口语 翻译技术。 5 ) 对比口语语料库 中国与日本合作建立了世界上最大的三语口语对比语料库,共有2 万多个口语 句子,有中文、日文和英文三种语言表示;同时针对汉语句子的灵活性,对2 万多 个句子采用了不同中文表示法,这些为中日自动翻译打下了扎实的基础。 由以上口语相关语料库的情况我们可以看出,现代汉语口语语料库经历了从无 到有并有了长足的发展,但总体来看,口语语料库的数量较少( 专门的口语语料库 更少) 、语料库规模不大、语料时间跨度较小,研究未能紧跟时代的发展和反映语 言的最新变化。其主要的制约因素是口语采集的困难。 ( 二) 意义 口语的复杂性和不确定性,使得口语研究成为目前语言学研究的一个难点。但 是,无论是从中文信息处理方面、还是从语言教学、语言应用的角度,都需要对口 语进行深入研究。然而,由于对真正自然状态下的口语进行大规模采集的难度非常 大,使纯自然口语的研究受到了很大的限制。前文所述的各种语料库中也极少自然 口语的采集。 口语是语言存在的最基本形式。从语言的起源与发展来看,口语是第位的, 书面语是第二位的。从实际的交际活动来看,大量使用的还是1 3 语。国外学者曾就 对英语为母语的一般成年人在听、说、读、写四个方面的交际活动作过调查,发现 “听”的活动占言语交际活动总和的4 5 ,“说”占3 0 ,。读”占1 6 ,“写” 只占9 。昕”与“说”是紧密地联系在一起的。听”“说”活动的总和可占语言 活动总量的7 5 。因此,我们不该像传统语言学派那样,轻视对口语体的分析与 研究。4 信息社会使人们在以往的人际信息交换系统外,又产生了人机信息交换系统, 并且使得两个系统中的信息量均大大增加。而口语信息是这两个系统中重要的信息 n j 东大学碗十学静论文 构成部分。为了在两个系统中都能够更好地使用和处理口语信息- 我们需要对口语 进行细致的研究( 包括描写和解释) ,其中口语语料库的作用是不可忽视和代替的。 1 ) 人际系统方面 信息化带动和加快了全球化的进程,同时增加了不同语言背景的人民之间的交 流,促进了语言教学的发展。随着中国的国际地位的日益提高,汉语作为第二语言 的学习越来越受到重视。现代汉语口语教学无疑是对外汉语教学中的一个重要的方 面。我们在调查中也发现,留学生十分愿意学习实用的汉语e l 语。如何做到“实用” 成为一个关键的问题。比如,究竟哪些词是现代汉语口语中的常用词,哪些口语句 式是最常见的旬式等等,仅靠教师或者几位教材编写者的主观经验决定是不科学 的,应该通过设计合理的口语语料库、用科学的统计数据来说话。现代汉语口语研 究对于现代汉语口语教学的各个方面都具有重要意义:如:口语教学大纲的制定、 教材编写和二次处理、课堂教学、考试及测评。就语言的一个方面而言,如词汇教 学,词在口语中的搭配问题、词语使用的场合和语域等问题,都可从准口语的研究 中获益。另外,口语研究对本国人的口语教学也有帮助,如小学生口语教学。从其 他应用方面来讲,准口语研究也将对教师口语、公关口语、普通话学习等具有参考 价值。 综上所述,口语及准口语的研究有助于提高和改善现代汉语口语教学;有助于 提高我们实际运用语言的能力以及运用的准确性和得体性,有助于我们实现各种交 际目的。 2 ) 人机系统方面 近年来,因特网迅速扩张,大量信息犹如潮水般涌来,这些信息的载体仍然是 自然语言,人们渴望发展自然语言的信息处理技术,以实现文本自动分类、文献检 索、信息提取、自动翻译、自动文摘、自动校勘,以加速信息、知识与文化的交流, 促进社会、经济、科学的进步,显然这是每个国家都面临的挑战。s 口语在人际系统中的主要功能是表情达意,虽然口语有很大的灵活性,很多省 略,也可以实现它的交际目的,是由人际系统的交际特点决定的。人际系统有很多 其他“副语言”方式,比如身体语言、实物等。而如果要想让计算机来理解和处理 口语,没有其他副语言方式存在,会产生很多的困难。这也需要我们对口语的各种 信息、特征、规则、语言与非语言方式如何相互作用等,做尽可能多的研究和掌握。 口语本身的研究对语音转写、口语机器翻译、口语考试自动测评等具有重要意义。 从中文信息处理的角度来说,准口语是中文信息处理对象中重要的一部分,它 的受众面很广,负载和传递的信息量巨大。因此,准口语研究将为准口语的信息处 理提供有益的帮助。 8 山东大学硕士学停论文 三、准口语研究的理论及方法 观察计算机系统所处理的语言信息,大致可以分为两类。一类是模式信息,如 声音和图像,它们是语音识别和文字识别的前期处理对象。另一类是符号信息,如 书面语的文本或者作为汉语语音识别结果的语音符号,它们是代码化的了,或者更 确切地说,计算机只能将每个字符的编码看作处理的对象。6 因此,我们用计算机 处理口语,或者说语音信息,一定要转换成代码化的字符,也就是语音转写,其过 程一定是费时费力的,因此个人建库具有很大难度。然而,广播电视、网络和多媒 体技术的发展可以便利地将真实的语言情景复现和传递,为“准口语”的研究提供 了可操作性。 由于传媒的发展,媒体中具有一定口语性的对话、谈话类节目逐渐增多,而且 这部分语料大部分已经经过文字转写,容易收集、保存和加工虽然这种类型的语 料经过事前考虑、准备和事后的加工处理,但其对话的性质、现场的气氛使它必然 具有一定的口语特点。我们将“准口语”定义为:不同于自然状态下的完全即兴的 口语,而是经过“修饰”的、带有一定人工痕迹的口语,如广播电视中的对话、电 影剧本、会议记录等。准口语与自然状态下的口语的共同之处有;在特定的环境下, 以特定的方式,同特定的对象,围绕特定的目的进行。本文试图以这种准口语语料 为研究对象,在数据库及统计的基础上。对现代汉语准1 3 语的特点进行尽量细致的 描写、归纳和研究。 在具体问题的研究中,本文将以现代汉语词汇学理论、语法理论、语用学理论, 以及信息接受理论等为基础,分析研究现代汉语准1 3 语的特点和规律。本文所采用 的研究方法主要有: 1 、语料库方法 充分利用各种信息资源及现代化手段,形成专门的准1 3 语语料库,为本研究提 供真实的口语素材。 2 、数据库统计的方法 借鉴以往语言学研究中所采用的统计分析的经验和方法,并根据本研究的需要 设计具有针对性的统计分析方案;数据库建立的过程做到准确、细致、有效;利用 统计学方法对结果进行科学全面的分析。 3 、对比的方法 对比分析不同形式的准1 3 语,如电视谈话、报纸访谈、网络对话、戏剧对自等; 对比分析准口语与书面语。 4 ,定量定性的方法 在数据库统计和对比研究的基础上,对准1 3 语在词汇等方面的某些特点做出具 体详细的定量定性的分析。 本研究的最终目的是从大规模真实文本出发,分析研究准口语的用字与词汇特 点。通过对准1 3 语语料进行科学的统计、描写和分析,揭示准口语的特点,准1 3 语 中的话语使用规律,并探求1 3 语和书面语的自动文体判别规则。 9 山东大学顾七学付论文 注释: 1 ,参见;中国社会科学院院报 2 、参见黄昌宁、李娟子语科库语言学 商务印书馆2 0 0 2 年4 月第一版第7 1 页 3 ,同上第9 口页 4 ,参见秦秀白文体学概论湖南教育出版社1 9 9 1 年第二版第5 次印刷第1 2 9 页 5 、同上第1 - 2 页 6 、参见俞士汶等现代汉语语法信息词典详解清华大学出版社2 0 0 3 年2 月第二版第4 页 1 0 山东大学磺七学仔论文 第二章现代汉语准口语语料库的设计与建立 一、选材与抽样 ( 一) 选材原则 建立现代汉语准口语语料库,除了应该遵循一般语料库的选材原则,如代表性 原则、均衡性原则、量的原则以外,还要充分考虑口语的特点,本文试图在个人准 口语语料库的建设和使用上做些有益的尝试。 1 ,规范性 服务于本研究的语料库的性质是“现代汉语准口语”语料库,因此,所选语料 应是符合“现代汉语”、“准1 3 语”两个条件的规范汉语。从准口语本身的性质来说, 由于使用场合等原因,一般规范性比较强,较少方言及不规范用法。总体上,我们 尽量做到不收方言性语料及古汉语语料。 2 、时代性 口语时刻都在变化,从体现语言变化来看,口语的灵敏性要高于书面语。社会 生活中出现的新事物、新现象,语言中的新的表达方式和用法,经常最先出现和应 用在口语中,因此应该特别强调和注意口语的时代性。我们的语料选择主要集中在 近1 2 年内的语言材料。 3 、代表性 口语在时间和空间上都被广泛长久地使用着,因此,选择哪个时期、哪些人的 关于什么问题的口语材料进入语料库至关重要。我们的选择侧重于国内比较有影响 力的媒体中的知名栏目。接受访谈的人物来自各行各业,政治家、经济学家、文学 家、歌星、影星、普通百姓等等。不收专业性特别强的语料。 4 、均衡性 准口语形式多样,不同形式的样本的数量、单个样本的大小,都会影响到整个 语料库的均衡性。但是我们不能简单地认为,各种类型语料数量相等就是均衡,我 们必须考虑不同形式的准口语在社会生活中的应用和对人们影响程度的大小。还应 该考虑它们口语化的程度问题。对于更接近自然口语对话的内容我们会加大选择的 权重。 ( 二) 语料的来源 由于传媒的发展,各种媒体中具有一定口语性的对话、谈话类节目逐渐增多, 可以说广播、电视、网络的发展为我们提供了丰富的语言资源。而且这部分语料大 部分已经经过文字转写,容易收集保存和加工。虽然这种类型的语料经过事前考 虑和加工,但对话的性质、现场的气氛使它必然具有一定的口语特点。本语料库的 主要来源为国内主要的电台、电视台、报纸、门户网站中的对话、访谈栏目,以及 电影,电视剧、相声,小品的剧本,还有汉语教材中的口语课本的内容等。 ( 三) 语料库的规模 在参考国内外诸多口语语料库建设经验的基础上,并结合我们实际的加工处理 山东大学顾士学付论文 1 i b _ - _ _ - _ _ _ i i l _ i _ _ _ _ _ - _ _ _ _ _ _ ,_ - ! ! ! ! ,! ! ! ! ! ! ! ! ! ! ! ! ! ! 能力,我们设计研制了总规模为5 5 0 ,0 0 0 字次的准口语语料库。语料的下载、收 集前后共大概经历了半年多的时间,在语料的收集和设计过程中,我们始终坚持语 料分布的通用性,均衡性和系统性原则,并充分考虑现代汉语准口语的特点和性质 的要求。可以说,该语料库基本上反映了近几年来现代汉语准口语在词汇、语法、 语义、语用方面的基本面貌。该语料库的语料分布情况见附录一。 二、分词与标注 ( 一) 分词 在语料库的实际建设过程中。我们采取了计算机自动处理与人工干预相结合的 策略。在处理语料过程中使用的文本合并、转换工具是t x t e a s y 文本转换器( v e r j s o n 1 5 5 ) ,批量重命名软件是f l a s hr e n a m e r3 0 。这两个软件互相搭配使用,完成 文本层面的处理,为以后的分词,词性标注、词频统计等打下基础。2 语料库自动分词和词性自动标注采用中国科学院计算技术研究所研制开发的 “汉语词法分析系统”( i n s t i t u t eo fc o m p u t i n gt e c h n o l o g y ,c h i n e s el e x i c a l a n a l y s i ss y s t e m ,i c t c l a s ) 。自动分词包括预处理过程的词语租切分、切分排歧 与未登录词识别两个部分,主要采用最短路径、概率统计、全切分等方法,得到一 个相对最好的租分结果,然后进行歧义排除、未登录词识别等工作,在此基础上进 行词性自动标注。 汉语的词与词之间没有明显的分词标志,自动分词是中文信息处理的基础性和 关键性工作。i c t c l a s 系统以国家标准g b l 3 7 1 5 ( 信息处理用现代汉语分词规范 和面向中文信息处理的词语切分和词性标注规范为基本参照,以空格作为分词 标志。语料中所切分出来的“词”,实际上是“分词单位”,即信息处理所使用的、 具有确定的语法和语义功能的基本单位,包括成语、惯用语、缩略语、语素字,前 接成分、后接成分等。 分词规范考虑的是汉语普遍适用性,其词库和规范要同时考虑书面语和口语两 种语体,同时在两种语体切分时也都存在一定数量的切分错误。对书面语有较强普 适性的规则,对口语不一定同样普遍适用。下文中我们谈到准口语中后缀以及部分 专有名词等的切分和标注错误等,可以给口语的分词问题提供些参考。 ( 二) 标注 在自动分词的基础上,i c t c i _ a s 系统对语料进行自动词性标注。带有词性标注 的语料库提供了比较丰富的句法和语义知识,可以从中获得相邻标记之间的共现概 率( c o n c u r r e n c ep o s s i b i l i t y ) 矩阵、兼类词典和非兼类词典等信息。词性自动标注 过程中共使用了3 5 个词性标记,是个小标记集。 表1 :现代汉语词语词类代码表 代 名称 代 名称 代 名称 代代 码 码 码码 名称名称 码 a 形容词 b区别词c连词 d 副词 e 叹词 f 方位词 g 语素字 h前接成分i 成语 j 简称略语 1 2 山东大学硕七学付论丈 k 后接成分 i 习用语m数词n名词 n r 人名 n s 地名 n t 机构团体 n z其他专名o拟声词 p介词 q 量词 r 代词 s 处所词 t时间词 u 助词 v动词w标点符号x非语素字 y 语气词 z 状态词 形容词性副词性名词性语 时间词动词性 a g d g n gt g v g 语素语素素 性语素语素 经过分词和标注的语料库,可以提供基于词和词性的检索和统计,例如:词频、 词类、词长、词类共现频率等的统计。5 由于注重了平衡性原则,所选取的语料具有通用性,自动分词和词性标注的正 确率达到9 0 以上,未登录词识别召回率高于9 0 。 下面我们以准口语语料中的部分多字词语为例,探讨一下口语分词与标注中存 在的部分问题( 灰色为标注错误) ; 冶皋着| n 詹| 上娃 放之四海而皆准i 不可同日而语i 失败y 是v 成功屈之u 母n 赶v 鸭子n 上,r 架v 老死不相往来i 秋风n 扫v 落叶n 京崦人融终随氓h 誊禹融 立于不败之地l 卑毛| n 妊| 、拄| e 每| n 复l l s 天时地利1 人n 和c 何乐而不为l 成败n 论v 荚雄n 隔h 待 n 如h 隔h 山 n 化h 千戈f n 为沁五年 n 有v 眼n 不d 识v 泰山n 赢 n 一| 诅搭| n 波| n 一| 啦j f | n 窍v - - m 条 q 裤子i n 井水n 不犯d 河水n 在汉语词法分析系统i c t c l a s 中,放之四海而皆准i 不可同日而语i 立于不 败之地l 何乐而不为1 等作为成语和习用语切分和标注。 后来者n 居v y _ r ;失e v 是v 成功a 之u 母n :秋风n 扫 v 落叶a ;有情a o 终d 成v 眷属n ;羊毛n 出i v 在,p 羊n 身 上s ;成败n 论v 英雄n ;隔v 行n 如v 隔v 山n 。 从口语中使用的结合紧密程度、意义理解等角度看,以上词语切分以后基本不 影响意义的理解,即原词意义基本等于切分出的意义相加。但是从机器翻译角度考 虑,最好作为一个词切分和标注。 伯 山东大学硕士学位论文 赶v 鸭子n 上f 架v ;化v 干戈n 为p 玉帛n ;有v 眼n 不| 矗识| y 泰山| n :亳v 一| m 搭l 、波| - - = 搭vj 骞v - - = 惫 q 裤子n ;井水n 不犯d 河水n 切分后完全影响意义的理解。即原词意义基本不等于切分出的意义相加。这类 词应建立专门的口语习用语词库,对提高口语的分词标注准确率及口语的机器翻译 很有益处。 有关口语中后缀、入名、地名等切分错误参见后面第四章第一节。 注释: 1 、主要来源:报纸类,北京青年报h t t p :w w w b j y o u t h c o m 计算机世界 h t t p :w w w c c w c o m c r l 广播类;中央人民广播电台h t t p :w w w c n r a d i o c o m 山东广播电台; h t t p :w w w 5 1 t i n g c o m电视类;中央电视台h t t p :w w w c c t v c o m 天津电视台 h t t p :w w w c t j t v c o m c n浙江电视台h t t p :w w w c z t v c o m山东电视台 h t t p :w w w , s d t v c o m c n m a i n h t m 风凰卫视中文台h t t p :w w w , p h o e n i x t v , c o m 安徽电视台 h t t p :w w w a h t v c o m c n 同络类t 新浪暇h t t p :l w w w s i n a c o m c n 搜狐 h t t p :w w w s o h u c o mt o m 网h t t p :w w w t o m c o m 新华网h t t p :w w w x i n h u a n e t c o m 戏剧类 , 中国剧本 周h t t p :w w w j u b e n c n 中国相声网 h t t p :w w w k p w o f l d c o m x i a n g s h e n c j i n d e x l h t m ) 。 鸣谢及声明:以上单位的口语语科对本研究有很大帮助,深表感谢! 另外,该语料库纯梓为了学术研究, 不涉及任何商业目的。如不同意使用,请告知,立即停止使用。 2 、这两种软件都可以从互联网上免费下载获得 3 、参见张华平、刘群基于h i - - - 最短路径方法的中文词语粗分模型,h l t p :w w w , n i po r gc n 。 4 、汉语词性标注目前有。北大标准”。9 7 3 标准”等处理模式,我们采用的是北大的分词标准,这个标 准共使用了3 5 个词性标记,是个小标记集有些标记系统采用的是大标记集,如北京语言大学。现代汉语研 究语料库”使用了1 1 2 个标记如动词的种类复杂,可以从不同的角度分出不同的小类,所以该系统使用不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论