汉语词频统计课件_第1页
汉语词频统计课件_第2页
汉语词频统计课件_第3页
汉语词频统计课件_第4页
汉语词频统计课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章汉语词语的信息处理

第一节汉语词语的词频统计授课时间:2006年10月9日授课人:徐艳华第二章汉语词语的信息处理第一节汉语1

内容提要:词频统计的方法与意义词表的建立词库的建立汉语统计的难题

内容提要:2一、词频统计的方法与意义

1、词频与频率

词频:

即词语的频度,是指每个词语在一定语料中出现的次数。

频率:每个词语的频度与总频度和之比。一、词频统计的方法与意义1、词频与频率32、汉语词频的统计方法词频统计就是抽样一定数量的语料,计算其中各个不同词语的出现次数,这是词频统计工程最主要的方法。词频统计的目的在于根据量的描述,对词的属性给出质的评价,即依靠定量分析得出定性分析。词频统计结果一般是做出各种频度表,供不同专业人员使用。用计算机统计词语使用频度的特点是速度快,准确率高,统计量大,而且能提供多种参数。

2、汉语词频的统计方法词频统计就是抽样一定数量的语料,计算其43、词频统计的发展词频统计已有悠久的历史。早在公元9世纪,评注《圣经》的希伯来学者就已经知道利用频度来计算不同版本经典中的用词情况,但大规模使用频度来进行词汇统计的,是德国人F.w.Kaeding,Kaeding于1989年出版的《德国词频词典》共抽样10,910,777词次的语料,截取频度在4次以上不同的词一共79716个。3、词频统计的发展词频统计已有悠久的历史。早在公元9世纪,评5

80年代以来,我国运用计算机进行词频统计发展很快。我国第一个最大的词频统计工程是北京航空航天大学在“六五”期间完成的。这次大规模的词频统计为建立我国常用词库具有重大意义。

80年代以来,我国运用计算机进行词频统计发展很快。我国第6我国第二个大规模的词频统计工程是由新华社等单位于“七五”期间完成的。1990年,新华社等单位公布了新闻语料词频统计结果,共选147,955条词条作为统计底表,词条出现的总次数达7,455,171次。北京语言学院也对200万字语料的词频进行了统计,出版了《现代汉语频率词典》(1986),收词31159条,这是中国正式出版的第一部汉语频率词典。我国第二个大规模的词频统计工程是由新华社等单位于“七五”期间74、词频统计的意义

词频统计对语言教学、语言信息处理、语言工程都具有重要意义。是语言教学中的课文编制的基本依据。我们正在进行“中学文言文词频的统计”。在语言信息处理中为词语的分级,词表、词库的建立提供一个基本依据。为一定的语言工程奠定初步的基础

4、词频统计的意义词频统计对语言教学、语言信息处理、8二、词的分级与词表、词库的建立

1、词的分级在词频统计的基础上,词语信息处理的工作就是词的分级工作,即把频度相等的词归为一级,频度最高者为第一级,依次排列,最低者(出现一次的)为最末一级。这样,我们就可以将汉语的词分成通用词、常用词、一级词或二级词,并相应地建立成现代汉语常用词表、词库,现代汉语通用词表、词库。二、词的分级与词表、词库的建立1、词的分级92、词表的建立

词表:就是通过词频统计给词语分级后,建立的一种语言基本词语的集合。词表的构成(1)词条,用1-7个汉字的代表的词语;(2)拼音,标注词语的拼音及声调;(3)标记,标注词语的分级标记。2、词表的建立词表:就是通过词频统计给词语分级后,建立的一10词表的分类通用词表

所谓现代汉语通用词,是指社会生活各个方面、各行各业都通用的现代汉语词汇。它是相对于流通性较窄的专业词汇而言,它有常用性、全民性。专业词表词表的分类113、词库的建立

词库(词语数据库)是语言信息处理最基本的资源。词库实际上就是机器可读的电子词典。把一部人用词典如《现代汉语词典》录入到计算机里,计算机当然也是可以阅读的。但这里所谓的“可以阅读”,还含有便于查找词语的各种信息的意思。因此最好是把词库划分为若干个相关的表。3、词库的建立词库(词语数据库)是语言信息处理最基本的资12词表:只存放词条及其频度,自动分词一般只需要访问这个表;词性表:存放词条的若干个词性标记及其频度,可供词性标注时使用;义项表:存放词条的若干个义项及其频度,可供义项标注时使用;句法分析时,这几个表都要用到。词表:只存放词条及其频度,自动分词一般只需要访问这个表;13对现代汉语词汇进行科学描述;建立各种信息处理系统的必要手段;为人工和机器分词建立一个标准底本,为分词提供方便和约束。建立词库的意义对现代汉语词汇进行科学描述;建立词库的意义14三、言语统计的特殊性(1)抽样问题。词频统计和字频统计一样,统计结果的准确性在很大程度上依赖于所选择的语料是否科学,频率误差多半是由于选材的不合理。一是选材的比例。二是均匀分布。三是抽样量的问题。(2)真实文本的问题。言语统计要保持统计语料的完整性和真实性。三、言语统计的特殊性(1)抽样问题。词频统计和字频统计一样,15(3)一般频度词表的内容:词的频度,即该词在语料中出现的次数;相对频度,即该词在统计出来的全部词中所占的百分比;累积频度,即对所列各员出现次数的累加数;分布范围及分布频度,即按不同风格或不同标准分别统计的篇章数及出现次数。(4)最新统计方法和科学技术的运用,比如语料库的使用。(3)一般频度词表的内容:16四、汉语统计的难题

(1)字形信息与语音信息有不同处理技术要求。拼音文字没有这个问题,只要用打字键盘直接往计算机内输入就行了。(2)词的划分问题。(3)如何区分同音词。四、汉语统计的难题(1)字形信息与语音信息有不同处理技术17第二章汉语词语的信息处理

第一节汉语词语的词频统计授课时间:2006年10月9日授课人:徐艳华第二章汉语词语的信息处理第一节汉语18

内容提要:词频统计的方法与意义词表的建立词库的建立汉语统计的难题

内容提要:19一、词频统计的方法与意义

1、词频与频率

词频:

即词语的频度,是指每个词语在一定语料中出现的次数。

频率:每个词语的频度与总频度和之比。一、词频统计的方法与意义1、词频与频率202、汉语词频的统计方法词频统计就是抽样一定数量的语料,计算其中各个不同词语的出现次数,这是词频统计工程最主要的方法。词频统计的目的在于根据量的描述,对词的属性给出质的评价,即依靠定量分析得出定性分析。词频统计结果一般是做出各种频度表,供不同专业人员使用。用计算机统计词语使用频度的特点是速度快,准确率高,统计量大,而且能提供多种参数。

2、汉语词频的统计方法词频统计就是抽样一定数量的语料,计算其213、词频统计的发展词频统计已有悠久的历史。早在公元9世纪,评注《圣经》的希伯来学者就已经知道利用频度来计算不同版本经典中的用词情况,但大规模使用频度来进行词汇统计的,是德国人F.w.Kaeding,Kaeding于1989年出版的《德国词频词典》共抽样10,910,777词次的语料,截取频度在4次以上不同的词一共79716个。3、词频统计的发展词频统计已有悠久的历史。早在公元9世纪,评22

80年代以来,我国运用计算机进行词频统计发展很快。我国第一个最大的词频统计工程是北京航空航天大学在“六五”期间完成的。这次大规模的词频统计为建立我国常用词库具有重大意义。

80年代以来,我国运用计算机进行词频统计发展很快。我国第23我国第二个大规模的词频统计工程是由新华社等单位于“七五”期间完成的。1990年,新华社等单位公布了新闻语料词频统计结果,共选147,955条词条作为统计底表,词条出现的总次数达7,455,171次。北京语言学院也对200万字语料的词频进行了统计,出版了《现代汉语频率词典》(1986),收词31159条,这是中国正式出版的第一部汉语频率词典。我国第二个大规模的词频统计工程是由新华社等单位于“七五”期间244、词频统计的意义

词频统计对语言教学、语言信息处理、语言工程都具有重要意义。是语言教学中的课文编制的基本依据。我们正在进行“中学文言文词频的统计”。在语言信息处理中为词语的分级,词表、词库的建立提供一个基本依据。为一定的语言工程奠定初步的基础

4、词频统计的意义词频统计对语言教学、语言信息处理、25二、词的分级与词表、词库的建立

1、词的分级在词频统计的基础上,词语信息处理的工作就是词的分级工作,即把频度相等的词归为一级,频度最高者为第一级,依次排列,最低者(出现一次的)为最末一级。这样,我们就可以将汉语的词分成通用词、常用词、一级词或二级词,并相应地建立成现代汉语常用词表、词库,现代汉语通用词表、词库。二、词的分级与词表、词库的建立1、词的分级262、词表的建立

词表:就是通过词频统计给词语分级后,建立的一种语言基本词语的集合。词表的构成(1)词条,用1-7个汉字的代表的词语;(2)拼音,标注词语的拼音及声调;(3)标记,标注词语的分级标记。2、词表的建立词表:就是通过词频统计给词语分级后,建立的一27词表的分类通用词表

所谓现代汉语通用词,是指社会生活各个方面、各行各业都通用的现代汉语词汇。它是相对于流通性较窄的专业词汇而言,它有常用性、全民性。专业词表词表的分类283、词库的建立

词库(词语数据库)是语言信息处理最基本的资源。词库实际上就是机器可读的电子词典。把一部人用词典如《现代汉语词典》录入到计算机里,计算机当然也是可以阅读的。但这里所谓的“可以阅读”,还含有便于查找词语的各种信息的意思。因此最好是把词库划分为若干个相关的表。3、词库的建立词库(词语数据库)是语言信息处理最基本的资29词表:只存放词条及其频度,自动分词一般只需要访问这个表;词性表:存放词条的若干个词性标记及其频度,可供词性标注时使用;义项表:存放词条的若干个义项及其频度,可供义项标注时使用;句法分析时,这几个表都要用到。词表:只存放词条及其频度,自动分词一般只需要访问这个表;30对现代汉语词汇进行科学描述;建立各种信息处理系统的必要手段;为人工和机器分词建立一个标准底本,为分词提供方便和约束。建立词库的意义对现代汉语词汇进行科学描述;建立词库的意义31三、言语统计的特殊性(1)抽样问题。词频统计和字频统计一样,统计结果的准确性在很大程度上依赖于所选择的语料是否科学,频率误差多半是由于选材的不合理。一是选材的比例。二是均匀分布。三是抽样量的问题。(2)真实文本的问题。言语统计要保持统计语料的完整性和真实性。三、言语统计的特殊性(1)抽样问题。词频统计和字频统计一样,32(3)一般频度词表的内容:词的频度,即该词在语料中出现的次数;相对频度,即该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论