现代汉语词典系列数据库课件_第1页
现代汉语词典系列数据库课件_第2页
现代汉语词典系列数据库课件_第3页
现代汉语词典系列数据库课件_第4页
现代汉语词典系列数据库课件_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《现代汉语词典》

系列数据库中国社会科学院语言研究所2006《现代汉语词典》

系列数据库中国社会科学院语言研究所概述来源:根据《现代汉语词典》的系列辞书建立的数据库;用途:电子辞书的查询和发布;

辞书编纂和修订的参考资料;

从聚合的角度研究汉语词汇的资料;

用比较的方法研究辞书的资料;概述《现代汉语词典》系列数据库一、数据库主要内容

二、数据的一致性

三、数据库的主要应用功能

四、关于缺字问题

《现代汉语词典》系列数据库一、数据库主要内容一、数据库主要内容词典的版本信息词条信息偏旁部首检字表其他一、数据库主要内容词典的版本信息一、数据库主要内容词典的版本信息(以第三版为例)包括:书号书名版次作者出版单位出版时间发行单位印刷单位印次印数开本字数印张定价防伪前言说明总目音节表检字表凡例附录等。词条信息包括:词目异体/繁体字拼音释义特征。一、数据库主要内容词典的版本信息(以第三版为例)包括:一、数据库主要内容偏旁部首:偏旁部首、偏旁部首笔画。检字表:归属于某偏旁部首的汉字、除去偏旁部首笔画外的汉字笔画。其他:词条中其他一些可供查询、统计的语法、语义、语用、构词等特征。

一、数据库主要内容偏旁部首:偏旁部首、偏旁部首笔画。二、数据库与辞书数据的一致性数据的原始排列顺序与辞书数据保持一致数据内容和辞书数据保持一致数据库主体结构保持一致各版本《现代汉语词典》辞书之间同种标记不同标法的数据在库中也要保持一致(主要表现在各种计算机字库中没有的标记、符号、序号等)。二、数据库与辞书数据的一致性数据的原始排列顺序与辞书数据保持三、数据库的主要应用功能经过对词典内容的结构化处理,数据库里有以下几类信息可以用于检索、统计、分析和比较:1、词目部分:字、词、语素、字数、偏旁部首、偏旁部首笔画、除去偏旁部首笔画外的汉字笔画、繁体字、异体字、可插入特征、结构词特征、重叠词特征、儿化等。2、语音部分:原拼音、转写拼音、同音、轻声、第二音节无辅音特征、重读、结构词发音等。

三、数据库的主要应用功能经过对词典内容的结构化处理,三、数据库的主要应用功能3、语用部分:学科分类(语、经、地质、地、等)。语用信息(<书>、<方>、<古>、<文>、<口>、<京>、<简>等)。4、词类部分:12个词类。5、释义部分:释义中所包含的字、词、短语、句子等字符串。6、其他部分:多音、近义词、从属条目、外来语、专有名词、义项数等。7、版本信息:凡例中的信息、偏旁部首、检字表、版次、时间、作者、前言、说明等。

三、数据库的主要应用功能3、语用部分:学科分类(语、经、地质三、数据库的主要应用功能1、查词释疑2、模糊查询3、类别查询4、比较查询5、统计查询6、逆序查询7、版本信息三、数据库的主要应用功能1、查词释疑2、模糊查询四、关于缺字问题在WINDOWSXP操作环境中,使用GBK宋体字库,以《现代汉语词典》第三版为例,缺字共计695个汉字(不包括各种符号)。我们对这些缺字逐个作了字形分析,决定用字形描述的办法来说明这些字。

四、关于缺字问题在WINDOWSXP操作环境中,使用G四、关于缺字问题1、缺字的分析695个缺字中,有399个汉字在计算机字库中没有对应的简体字、繁体字或异体字,我们称其为绝对缺字。另外296个缺字在计算机字库中可以找到各自对应的简体字、繁体字或异体字,我们称其为相对缺字。对这些缺字都要进行缺字描述。四、关于缺字问题1、缺字的分析四、关于缺字问题2、缺字的描述缺字描述公式=X[字型描述:结构描述]X=词典数据库中的缺字标记。字型描述=组成该字的若干个拆分的部首或字形。:=字形描述与结构描述的分隔符号结构描述=该字由若干个拆分的部首或字形所组成的方式。

四、关于缺字问题2、缺字的描述四、关于缺字问题2、缺字的描述A、绝对缺字的描述结构描述:左右、上下、外里、左中右、上中下、左上下、上下右、上外里等字形描述:直接对应结构顺序进行字形排列举例:X[是鸟:左右];tí

X[彳亢亍:左中右];háng

X[思:上下];sī

X[九田:上下];lā四、关于缺字问题2、缺字的描述四、关于缺字问题2、缺字的描述B、相对缺字的描述用修改汉字结构中部分部首或字形的办法来描述举例:X[鰶:魚改鱼];jì

X[顣:頁改页];cù

X[譆:訁改讠];xī四、关于缺字问题2、缺字的描述四、关于缺字问题3、计算机缺字分类统计:

A、绝对缺字399个:左右结构汉字有246个;左中右结构汉字有1个;左上下结构汉字有5个;外里结构汉字有16个;外里右结构汉字有1个;外里下结构汉字有1个;上下结构汉字有63个;上左中右结构汉字有1个;上下右结构汉字有2个;上外里结构汉字有1个;结构和修改结合及结构和短语描述结合的结构描述的汉字有7个;采用修改缺字结构中拆分部分的偏旁部首或字型来描述的汉字有55个;

四、关于缺字问题3、计算机缺字分类统计:四、关于缺字问题3、计算机缺字分类统计:

B、相对缺字296个:通过简写偏旁部首进行缺字描述的有142个;通过简写非偏旁部首部分进行缺字描述的有142个;通过繁写非偏旁部首部分进行缺字描述的有2个;即要简写偏旁部首部分又要简写非偏旁部首部分的有10个;

四、关于缺字问题3、计算机缺字分类统计:四、关于缺字问题3、计算机缺字分类统计:

C、几个因字体变化而产生的缺字:

计算机中的汉字由于字体的变化而字型有所改变的汉字有4个。这四个汉字在处于小四号字体时该字字型与词典中汉字字型不一致,而处于其他字号字体时该字字型则与词典中汉字字型相一致。这四个汉字是:四、关于缺字问题3、计算机缺字分类统计:四、关于缺字问题4、关于GB18030-2000大字符集695个缺字在GB18030-2000中的补充情况:GB18030-2000简体繁/异体总字数已补充

225145370仍然缺少

30322325四、关于缺字问题4、关于GB18030-2000大字符集GB四、关于缺字问题另外,在GBK和大字符集中有个别汉字字形与《现代汉语词典》中的字形有细微的差别,这会影响数据库与纸质词典在字形上的一致性:《现代汉语词典》拼音字符集差别最:日改宀zuì宀取:上下GB18030取与最的下半部分

忄朮:左右chù怵GBK术与朮

山厂火:上外里tàn炭GBK中间部分

四、关于缺字问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论