标准解读

《GB/T 20532-2006 信息处理用现代汉语词类标记规范》是一项由中国国家标准局发布的技术标准,旨在为自然语言处理、信息检索、机器翻译等领域的计算机信息系统提供一套统一的现代汉语词汇分类及标记方法。该标准详细定义了现代汉语中各类词的类别和相应的标记符号,以便于计算机程序能够准确理解和处理中文文本数据。以下是该标准的主要内容概述:

  1. 范围:标准明确了其适用范围,即针对信息处理领域中的现代汉语词汇进行分类和标记,不涉及古汉语或其他汉语变体。

  2. 术语和定义:首先对基本术语如“词类”、“标记”等进行了界定,为后续内容奠定基础。

  3. 词类划分原则:标准基于现代汉语语法特点,将词汇分为实词和虚词两大类,并进一步细分为若干小类。实词包括名词、动词、形容词、数词、量词、代词、区别词、副词、叹词;虚词则涵盖介词、连词、助词、语气词。每一类别都有明确的定义和特征描述。

  4. 词类标记符号:为每个词类分配了一个或多个简短的字母标记,例如名词用“n”表示,动词用“v”,形容词用“a”等。这些标记简洁明了,便于计算机程序识别和处理。

  5. 特殊词和未登录词处理:标准还涉及了特殊词汇(如专名、成语)和未在词库中登录的新词、外来词的处理规则,确保信息处理系统的灵活性和适应性。

  6. 标记规则与示例:提供了详细的标记规则说明,并通过具体实例演示如何将文本中的词语正确归类并标注。这有助于开发者和研究人员准确执行标准,保持数据处理的一致性。

  7. 附录:可能包含一些补充信息或参考词汇表,以帮助使用者更好地理解和应用标准中的规定。


如需获取更多详尽信息,请直接参考下方经官方授权发布的权威标准文档。

....

查看全部

  • 现行
  • 正在执行有效
  • 2006-09-18 颁布
  • 2007-03-01 实施
©正版授权
GB/T 20532-2006信息处理用现代汉语词类标记规范_第1页
GB/T 20532-2006信息处理用现代汉语词类标记规范_第2页
GB/T 20532-2006信息处理用现代汉语词类标记规范_第3页
GB/T 20532-2006信息处理用现代汉语词类标记规范_第4页
免费预览已结束,剩余8页可下载查看

下载本文档

文档简介

ICS01.040.01A22中华人民共和国国家标准GB/T20532—2006信息处理用现代汉语词类标记规范StandardofPOStagofcontemporaryChineseforCiP2006-09-18发布2007-03-01实施中华人民共和国国家质量监督检验检疫总局发布中国国家标准化管理委员会

GB/T20532—2006三次前言:::·范围2术语和定义3总则4词类及其他切分单位分类5词类及其他切分单位标记代码表

GB/T20532—2006前本标准由教育部语言文字信息管理司提出本标准由教育部语言文字信息管理司归口。本标准起草单位:教育部语言文字应用研究所。本标准主要起草人:靳光璜、肖航、郭曙伦、富丽、章云帆、于桂英、陈玉泉、王立.

GB/T20532-2006信息处理用现代汉语词类标记规范范范围本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码本标准适用于汉语信息处理.也可供现代汉语教学与研究参考。术语和定义下列术语和定义适用于本标准汉语信息处理Chineseinformationprocessing;CIP用计算机对汉语形、音、义等信息进行输入、排序、存储、输出、统计、提取等。2.2切分单位Segmentunit汉语信息处理使用的、具有确定语法功能的基本单位。它包括本标准的规则所限定的词、短语及其地单位。2.3词类spartsorspeech:POS词的语法分类,主要是根据语法功能划分出来的类2.4标记t对文本中切分单位的类别进行标注的代码3总则3.1切切分单位的范围本标准的切分单位包括词、短语和其他切分单位,如习用语、缩略语、前接成分、后接成分、语素字非语素字、标点符号、非汉字符号等3.2词类划分的原则本标准的词类分类体系参考了吕叔湘、朱德熙、胡裕树等先生的语法体系和《中学教学语法系统提本标准根据汉语信息处理的特点和要求.主要依据语法功能原则划分词类。3.3标记代码的制定原则依据国际通常做法,标记代码主要采用英文术语的字母。例如.名词”.采用英文术语"noun²的首字母"n”作为标记代码;“数词”,采用英文术语"numeral”的第三个字母"m”作为标记代码。汉语独有的,或使用英文术语字母不便的,依据国内通常做法,标记代码采用汉语拼音字母。如“缩略语".采用汉字“简“汉语拼音的首字母“作为标记代码:语素字”.采用汉字“根“汉语拼音的首字母“g”作为标记代码。词类及其他切分单位分类本标准

温馨提示

  • 1. 本站所提供的标准文本仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
  • 2. 本站所提供的标准均为PDF格式电子版文本(可阅读打印),因数字商品的特殊性,一经售出,不提供退换货服务。
  • 3. 标准文档要求电子版与印刷版保持一致,所以下载的文档中可能包含空白页,非文档质量问题。

评论

0/150

提交评论