标准解读
《GB/T 36452-2018 信息处理用藏文分词规范》是中国国家标准之一,旨在为藏文的信息处理提供统一的分词规则。该标准适用于藏文文本处理、机器翻译、信息检索等领域,有助于提高这些领域内藏文处理的一致性和准确性。
根据这一标准,藏文分词遵循一定的原则和方法。首先,在基本原则方面,强调了要依据语言学理论并结合计算机处理的实际需求来定义分词单位;同时考虑到藏文书写习惯及语法特点,确保分词结果能够反映原文的意义结构。其次,在具体操作层面,则是通过明确不同类型词语(如名词、动词等)及其组合形式(如复合词、派生词等)如何被切分为独立的词项来进行指导。此外,还特别指出了对于一些特殊字符或符号(比如标点符号),它们在句子中的作用也需要被正确识别,并据此做出相应的分割处理。
标准中还包含了详细的示例部分,通过对多个实际例子进行分析说明,帮助使用者更好地理解和应用上述原则与方法。例如,它会展示如何将一个完整的藏语文本段落按照规定的分词规则分解成一系列有意义的基本词汇单元,以及在这个过程中需要注意哪些细节问题。
如需获取更多详尽信息,请直接参考下方经官方授权发布的权威标准文档。
....
查看全部
- 现行
- 正在执行有效
- 2018-06-07 颁布
- 2019-01-01 实施
文档简介
ICS3524001
L70..
中华人民共和国国家标准
GB/T36452—2018
信息处理用藏文分词规范
SpecificationonTibetansegmentationforinformationprocessing
2018-06-07发布2019-01-01实施
国家市场监督管理总局发布
中国国家标准化管理委员会
GB/T36452—2018
目次
前言
…………………………Ⅰ
引言
…………………………Ⅱ
范围
1………………………1
规范性引用文件
2…………………………1
术语和定义
3………………1
分词规范
4…………………1
参考文献
……………………15
GB/T36452—2018
前言
本标准按照给出的规则起草
GB/T1.1—2009。
请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别这些专利的责任
。。
本标准由全国信息技术标准化技术委员会提出并归口
(SAC/TC28)。
本标准起草单位中国电子技术标准化研究院西藏大学西北民族大学西藏自治区藏语文工作委
:、、、
员会办公室青海师范大学青海民族大学中国科学院软件研究所西藏自治区工业和信息化厅
、、、、。
本标准主要起草人扎西加欧珠尼玛扎西熊涛格桑多吉多拉拉巴泽仁大罗桑朗杰高定国
:、、、、、、、、、
拉琼仁青诺布索南尖措旺堆小尼玛扎西普次仁顿珠次仁赵栋材边巴嘉措
、、、、、、、、。
Ⅰ
GB/T36452—2018
引言
本标准以现代藏语的词类和分词研究成果为基础根据藏文词汇特点与构词规律并参考汉语分词
,,
及词类标记相关标准见参考文献的部分内容规定了信息处理用藏文分词规范
(),。
Ⅱ
GB/T36452—2018
信息处理用藏文分词规范
1范围
本标准规定了信息处理用藏文分词规范
。
本标准适用于藏文信息处理各领域其他行业和有关学科可参照使用
,。
2规范性引用文件
下列文件对于本文件的应用是必不可少的凡是注日期的引用文件仅注日期的版本适用于本文
。,
件凡是不注日期的引用文件其最新版本包括所有的修改单适用于本文件
。,()。
信息处理用藏语词类标记集
GB/T36337—2018
3术语和定义
下列术语和定义适用于本文件
。
31
.
词word
区别事物意义的最小的语法单位
。
32
.
词组phrase
两个或更多词组合成的语言单位
。
注词组可以是实词与实词的组合也可以是实词和虚词的组合
:,。
33
.
藏文信息处理TibetaninformationprocessingTIP
;
用计算机对藏文的音形义等信息进行处理
、、。
34
.
分词单位segmentunit
在分词过程中出现的词
。
注分词单位不仅限于语法词其中也包含了信息处理所需的一部分结合紧密使用稳定的词组
:,、。
35
.
藏文分词Tibetansegmentation
将连续的藏文音节序列按照一定的规范重新组合词序列的过程
。
4分词规范
41藏文分词单位和词类的标记
.
本标准以作为藏文分词单位的标记藏语词类标记依据的规定
“/”,GB/T3633
温馨提示
- 1. 本站所提供的标准文本仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
- 2. 本站所提供的标准均为PDF格式电子版文本(可阅读打印),因数字商品的特殊性,一经售出,不提供退换货服务。
- 3. 标准文档要求电子版与印刷版保持一致,所以下载的文档中可能包含空白页,非文档质量问题。
评论
0/150
提交评论