CESA -2020-4-022 人工智能芯片应用 面向汉盲翻译系统的技术 征求意见稿_第1页
CESA -2020-4-022 人工智能芯片应用 面向汉盲翻译系统的技术 征求意见稿_第2页
CESA -2020-4-022 人工智能芯片应用 面向汉盲翻译系统的技术 征求意见稿_第3页
CESA -2020-4-022 人工智能芯片应用 面向汉盲翻译系统的技术 征求意见稿_第4页
CESA -2020-4-022 人工智能芯片应用 面向汉盲翻译系统的技术 征求意见稿_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS035.240

CCSL70

团体标准

T/CESAXXXX—202X

人工智能芯片应用面向汉盲翻译系统的

技术要求

Applicationofartificialintelligencechip-Technicalrequirementstosystemof

Chinese-Brailletranslation

征求意见稿

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申

请证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利

申请号和申请日期。

202X-XX-XX发布202X-XX-XX实施

中国电子工业标准化技术协会发布

T/CESAXXXX—202X

前  言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起

草。

本文件由中国科学院计算技术研究所提出。

本文件由中国电子工业标准化技术协会归口。

本文件起草单位:中国科学院计算技术研究所,中国盲文出版社,中科寒武纪科技股份有限公司,

浙江大学等。

本文件主要起草人:。

III

T/CESAXXXX—202X

人工智能芯片应用面向汉盲翻译系统的技术要求

1范围

本标准规定了在人工智能芯片应用方面,面向汉盲翻译系统的技术要求及规范,重点规定了输入/

输出、服务接口、功能模块设置、性能指标等方面的要求。

本文件适用于在智能芯片上进行汉盲翻译系统的部署、检验及应用。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T38640-2020盲用数字出版格式

3术语和定义

下列术语和定义适用于本文件。

3.1

机器学习Machinelearning

一种程序或系统,用于根据输入数据构建(训练)预测模型。这种系统会利用学到的模型根据从分

布(训练该模型时使用的同一分布)中提取的新数据(以前从未见过的数据)进行实用的预测。机器学

习还指与这些程序或系统相关的研究领域。

3.2

深度学习DeepLearning

机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属性

类别或特征,以发现数据的分布式特征表示。

3.3

电子盲文ElectronicBraille

以数字形式存储的盲文内容。

1

T/CESAXXXX—202X

4总体功能

4.1核心功能

汉盲翻译系统的功能为将输入的汉字文本翻译为对应的汉语盲文文本,基于智能芯片的汉盲翻译系

统可更为高效、充分地采用人工智能和机器学习技术,实现高效、高准确率的汉盲翻译。

虽然汉盲翻译系统也可集成相应的界面与用户进行交互(这种情况下,用户可在交互界面输入汉字

文本、发出翻译指令,系统在界面上显示盲文输出),但汉盲翻译当前主要以界面和功能分离的方式进

行,即一个核心的汉盲翻译系统只负责进行汉字文本到盲文文本的翻译转换,用于为文本阅读器、文本

编辑软件、网页浏览器等上层应用系统提供汉盲翻译服务,而与上层应用系统或交互界面分离。因此,

本标准只规范基于智能芯片的汉盲翻译系统的文本翻译方面的核心功能,重点明确在输入/输出、服务

接口、功能模块设置、性能指标等方面的要求,而不涉及用户交互方式与交互界面方面的要求。

4.2盲文标准

当前有3种汉语盲文标准,分别为现行盲文、双拼盲文和通用盲文,基于智能芯片的汉盲翻译系统

应至少支持现行盲文或通用盲文。

4.3输入输出形式

以输入和输出的形式来划分,基于智能芯片的汉盲翻译系统可以两种方式提供汉盲翻译服务:文件

翻译和字符串翻译。

文件翻译是指输入一个汉字文本文件,返回一个与之相应的盲文文本文件。

字符串翻译是指输入一个汉字文本字符串,返回一个与之相应的盲文字符串。

4.4服务方式及接口

以提供服务的方式和接口来划分,基于智能芯片的汉盲翻译系统可以两种方式提供汉盲翻译服务:

网络服务和本地服务。

网络服务是指基于网络通信接口提供服务。

本地服务是指基于本机的进程/线程/模块间的通信接口提供服务。

5输入和输出

5.1文件翻译

5.1.1输入文件

输入的文件应支持常用的文本文件格式中的至少一种,包括:txt格式、word格式(doc或docx)、

pdf格式。

对于包含格式和非文本内容的文件格式,如word格式和pdf格式,应至少可提取其中的所有标题和

正文文本作为翻译的输出。

2

T/CESAXXXX—202X

根据需要,输入文件中的文本应包含所需的非汉字字符,如标点符号、英文字母、阿拉伯数字符号

及其它可能用到的符号,而非只由汉字字符构成。

5.1.2输出文件

输出的文件应符合国家标准《盲用数字出版格式GB/T38640-2020》中盲用文本出版格式的要求。

可采用标准中定义的XML格式,DBO格式或其它符合标准的格式。

5.2字符串翻译

5.2.1输入字符串

输入字符串应采用UTF-8编码。一般为一个汉语句子。字符数不超过128。

根据需要,输入字符串应包含所需的非汉字字符,如标点符号、英文字母、阿拉伯数字符号及其它

可能用到的符号,而非只由汉字字符构成。

5.2.2输出字符串

输出字符串应支持常用的盲文编码,包括Unicode编码和ASCII编码。应支持包括Unicode编码和

ASCII编码中的至少一种。

6服务接口

6.1网络服务

网络服务采用网络服务接口,可基于socket接口或http服务。

6.2本地服务

本地服务除可采用运行于本地的网络接口外,也可采用本地接口。如作为SDK,以函数形式提供接

口服务。

6.3服务接口

6.3.1任务创建接口

调用此接口创建翻译任务,并在汉盲翻译服务器或本地进行翻译。

输入参数:输入文件或字符串、翻译目标(1:现行盲文;2:通用盲文;3、双拼盲文)、是否对

照翻译(true:对照翻译;false:非对照翻译)

输出参数:翻译任务标识符(任务ID)

6.3.2任务状态查询接口

3

T/CESAXXXX—202X

调用此接口查询翻译任务状态。

输入参数:翻译任务ID。

输出参数:任务状态(Y:转换完成;N:任务尚未开始;W:任务正在执行)、任务执行百分比(0-100)。

6.3.3翻译结果获取接口

调用此接口获取翻译结果。

输入参数:翻译任务ID。

输出参数:结果文件或字符串。

6.3.4翻译任务取消接口

调用此任务取消翻译任务。

输入参数:翻译任务ID。

输出参数:取消是否成功(true:成功,false:失败)。

7功能模块

7.1模块划分

基于智能芯片的汉盲翻译系统,应将机器学习模型与程序独立。

基于智能芯片的汉盲翻译系统,应至少划分为机器学习模型加载模块和翻译模块。机器学习模型加

载模块负责一次性将外部存储(硬盘)中的机器学习模型文件加载至内存;翻译模块负责使用加载的机

器学习模型执行翻译任务。在模型加载后,执行每次翻译任务时无需再次加载模型。

7.2模块划分

采用智能芯片时,机器学习模块应尽可能采用智能芯片运算。模型应尽可能加载至智能芯片。

8性能指标

8.1翻译准确率指标

自动翻译完成后,将翻译结果与标准答案进行比对。当翻译结果中的某个盲文词,当在不考虑标调

的情况下,该盲文词与答案中对应的盲文词一致时,认为该盲文词分词正确;当该盲文与答案中对应的

盲文词完全一致时,认为该盲文词分词与标调都正确。按下面的两个式子计算分词准确率和带调盲文准

确率。

分词准确率=分词正确的盲文词数/标准答案中盲文词总数

带调盲文准确率=分词和标调都正确的盲文词数/标准答案中盲文词总数

8.2时间效率指标

翻译时间:从开始翻译到结束翻译的时间。

4

T/CESAXXXX—202X

响应时间:从接收到翻译任务到返回结果的时间。

平均每秒翻译次数:平均每秒翻译的字数。

5

T/CESAXXXX—202X

参考文献

[1]GB/T5271.31-2006信息技术词汇第31部分:人工智能机器学习

[2]GB/T5271.34-2006信息技术词汇第34部分:人工智能神经网络

[3]20190851-T-469信息技术人工智能术语

[4]T/CESA1026-2018人工智能深度学习算法评估规范

6

T/CESAXXXX—202X

目  次

前  言.............................................................................................................................................................III

1范围...................................................................................................................................................................1

2规范性引用文件...............................................................................................................................................1

3术语和定义.......................................................................................................................................................1

4总体功能...........................................................................................................................................................2

5输入和输出.......................................................................................................................................................2

6服务接口...........................................................................................................................................................3

7功能模块...........................................................................................................................................................4

8性能指标...........................................................................................................................................................4

参考文献.............................................................................................................................................................7

II

T/CESAXXXX—202X

人工智能芯片应用面向汉盲翻译系统的技术要求

1范围

本标准规定了在人工智能芯片应用方面,面向汉盲翻译系统的技术要求及规范,重点规定了输入/

输出、服务接口、功能模块设置、性能指标等方面的要求。

本文件适用于在智能芯片上进行汉盲翻译系统的部署、检验及应用。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T38640-2020盲用数字出版格式

3术语和定义

下列术语和定义适用于本文件。

3.1

机器学习Machinelearning

一种程序或系统,用于根据输入数据构建(训练)预测模型。这种系统会利用学到的模型根据从分

布(训练该模型时使用的同一分布)中提取的新数据(以前从未见过的数据)进行实用的预测。机器学

习还指与这些程序或系统相关的研究领域。

3.2

深度学习DeepLearning

机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属性

类别或特征,以发现数据的分布式特征表示。

3.3

电子盲文ElectronicBraille

以数字形式存储的盲文内容。

1

T/CESAXXXX—202X

4总体功能

4.1核心功能

汉盲翻译系统的功能为将输入的汉字文本翻译为对应的汉语盲文文本,基于智能芯片的汉盲翻译系

统可更为高效、充分地采用人工智能和机器学习技术,实现高效、高准确率的汉盲翻译。

虽然汉盲翻译系统也可集成相应的界面与用户进行交互(这种情况下,用户可在交互界面输入汉字

文本、发出翻译指令,系统在界面上显示盲文输出),但汉盲翻译当前主要以界面和功能分离的方式进

行,即一个核心的汉盲翻译系统只负责进行汉字文本到盲文文本的翻译转换,用于为文本阅读器、文本

编辑软件、网页浏览器等上层应用系统提供汉盲翻译服务,而与上层应用系统或交互界面分离。因此,

本标准只规范基于智能芯片的汉盲翻译系统的文本翻译方面的核心功能,重点明确在输入/输出、服务

接口、功能模块设置、性能指标等方面的要求,而不涉及用户交互方式与交互界面方面的要求。

4.2盲文标准

当前有3种汉语盲文标准,分别为现行盲文、双拼盲文和通用盲文,基于智能芯片的汉盲翻译系统

应至少支持现行盲文或通用盲文。

4.3输入输出形式

以输入和输出的形式来划分,基于智能芯片的汉盲翻译系统可以两种方式提供汉盲翻译服务:文件

翻译和字符串翻译。

文件翻译是指输入一个汉字文本文件,返回一个与之相应的盲文文本文件。

字符串翻译是指输入一个汉字文本字符串,返回一个与之相应的盲文字符串。

4.4服务方式及接口

以提供服务的方式和接口来划分,基于智能芯片的汉盲翻译系统可以两种方式提供汉盲翻译服务:

网络服务和本地服务。

网络服务是指基于网络通信接口提供服务。

本地服务是指基于本机的进程/线程/模块间的通信接口提供服务。

5输入和输出

5.1文件翻译

5.1.1输入文件

输入的文件应支持常用的文本文件格式中的至少一种,包括:txt格式、word格式(doc或docx)、

pdf格式。

对于包含格式和非文本内容的文件格式,如word格式和pdf格式,应至少可提取其中的所有标题和

正文文本作为翻译的输出。

2

T/CESAXXXX—202X

根据需要,输入文件中的文本应包含所需的非汉字字符,如标点符号、英文字母、阿拉伯数字符号

及其它可能用到的符号,而非只由汉字字符构成。

5.1.2输出文件

输出的文件应符合国家标准《盲用数字出版格式GB/T38640-2020》中盲用文本出版格式的要求。

可采用标准中定义的XML格式,DBO格式或其它符合标准的格式。

5.2字符串翻译

5.2.1输入字符串

输入字符串应采用UTF-8编码。一般为一个汉语句子。字符数不超过128。

根据需要,输入字符串应包含所需的非汉字字符,如标点符号、英文字母、阿拉伯数字符号及其它

可能用到的符号,而非只由汉字字符构成。

5.2.2输出字符串

输出字符串应支持常用的盲文编码,包括Unicode编码和ASCII编码。应支持包括Unicode编码和

ASCII编码中的至少一种。

6服务接口

6.1网络服务

网络服务采用网络服务接口,可基于socket接口或http服务。

6.2本地服务

本地服务除可采用运行于本地的网络接口外,也可采用本地接口。如作为SDK,以函数形式提供接

口服务。

6.3服务接口

6.3.1任务创建接口

调用此接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论