




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS035.240
CCSL70
团体标准
T/CESAXXXX—202X
人工智能芯片应用面向汉盲翻译系统的
技术要求
Applicationofartificialintelligencechip-Technicalrequirementstosystemof
Chinese-Brailletranslation
征求意见稿
在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。
已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申
请证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利
申请号和申请日期。
202X-XX-XX发布202X-XX-XX实施
中国电子工业标准化技术协会发布
T/CESAXXXX—202X
前 言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起
草。
本文件由中国科学院计算技术研究所提出。
本文件由中国电子工业标准化技术协会归口。
本文件起草单位:中国科学院计算技术研究所,中国盲文出版社,中科寒武纪科技股份有限公司,
浙江大学等。
本文件主要起草人:。
III
T/CESAXXXX—202X
人工智能芯片应用面向汉盲翻译系统的技术要求
1范围
本标准规定了在人工智能芯片应用方面,面向汉盲翻译系统的技术要求及规范,重点规定了输入/
输出、服务接口、功能模块设置、性能指标等方面的要求。
本文件适用于在智能芯片上进行汉盲翻译系统的部署、检验及应用。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T38640-2020盲用数字出版格式
3术语和定义
下列术语和定义适用于本文件。
3.1
机器学习Machinelearning
一种程序或系统,用于根据输入数据构建(训练)预测模型。这种系统会利用学到的模型根据从分
布(训练该模型时使用的同一分布)中提取的新数据(以前从未见过的数据)进行实用的预测。机器学
习还指与这些程序或系统相关的研究领域。
3.2
深度学习DeepLearning
机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属性
类别或特征,以发现数据的分布式特征表示。
3.3
电子盲文ElectronicBraille
以数字形式存储的盲文内容。
1
T/CESAXXXX—202X
4总体功能
4.1核心功能
汉盲翻译系统的功能为将输入的汉字文本翻译为对应的汉语盲文文本,基于智能芯片的汉盲翻译系
统可更为高效、充分地采用人工智能和机器学习技术,实现高效、高准确率的汉盲翻译。
虽然汉盲翻译系统也可集成相应的界面与用户进行交互(这种情况下,用户可在交互界面输入汉字
文本、发出翻译指令,系统在界面上显示盲文输出),但汉盲翻译当前主要以界面和功能分离的方式进
行,即一个核心的汉盲翻译系统只负责进行汉字文本到盲文文本的翻译转换,用于为文本阅读器、文本
编辑软件、网页浏览器等上层应用系统提供汉盲翻译服务,而与上层应用系统或交互界面分离。因此,
本标准只规范基于智能芯片的汉盲翻译系统的文本翻译方面的核心功能,重点明确在输入/输出、服务
接口、功能模块设置、性能指标等方面的要求,而不涉及用户交互方式与交互界面方面的要求。
4.2盲文标准
当前有3种汉语盲文标准,分别为现行盲文、双拼盲文和通用盲文,基于智能芯片的汉盲翻译系统
应至少支持现行盲文或通用盲文。
4.3输入输出形式
以输入和输出的形式来划分,基于智能芯片的汉盲翻译系统可以两种方式提供汉盲翻译服务:文件
翻译和字符串翻译。
文件翻译是指输入一个汉字文本文件,返回一个与之相应的盲文文本文件。
字符串翻译是指输入一个汉字文本字符串,返回一个与之相应的盲文字符串。
4.4服务方式及接口
以提供服务的方式和接口来划分,基于智能芯片的汉盲翻译系统可以两种方式提供汉盲翻译服务:
网络服务和本地服务。
网络服务是指基于网络通信接口提供服务。
本地服务是指基于本机的进程/线程/模块间的通信接口提供服务。
5输入和输出
5.1文件翻译
5.1.1输入文件
输入的文件应支持常用的文本文件格式中的至少一种,包括:txt格式、word格式(doc或docx)、
pdf格式。
对于包含格式和非文本内容的文件格式,如word格式和pdf格式,应至少可提取其中的所有标题和
正文文本作为翻译的输出。
2
T/CESAXXXX—202X
根据需要,输入文件中的文本应包含所需的非汉字字符,如标点符号、英文字母、阿拉伯数字符号
及其它可能用到的符号,而非只由汉字字符构成。
5.1.2输出文件
输出的文件应符合国家标准《盲用数字出版格式GB/T38640-2020》中盲用文本出版格式的要求。
可采用标准中定义的XML格式,DBO格式或其它符合标准的格式。
5.2字符串翻译
5.2.1输入字符串
输入字符串应采用UTF-8编码。一般为一个汉语句子。字符数不超过128。
根据需要,输入字符串应包含所需的非汉字字符,如标点符号、英文字母、阿拉伯数字符号及其它
可能用到的符号,而非只由汉字字符构成。
5.2.2输出字符串
输出字符串应支持常用的盲文编码,包括Unicode编码和ASCII编码。应支持包括Unicode编码和
ASCII编码中的至少一种。
6服务接口
6.1网络服务
网络服务采用网络服务接口,可基于socket接口或http服务。
6.2本地服务
本地服务除可采用运行于本地的网络接口外,也可采用本地接口。如作为SDK,以函数形式提供接
口服务。
6.3服务接口
6.3.1任务创建接口
调用此接口创建翻译任务,并在汉盲翻译服务器或本地进行翻译。
输入参数:输入文件或字符串、翻译目标(1:现行盲文;2:通用盲文;3、双拼盲文)、是否对
照翻译(true:对照翻译;false:非对照翻译)
输出参数:翻译任务标识符(任务ID)
6.3.2任务状态查询接口
3
T/CESAXXXX—202X
调用此接口查询翻译任务状态。
输入参数:翻译任务ID。
输出参数:任务状态(Y:转换完成;N:任务尚未开始;W:任务正在执行)、任务执行百分比(0-100)。
6.3.3翻译结果获取接口
调用此接口获取翻译结果。
输入参数:翻译任务ID。
输出参数:结果文件或字符串。
6.3.4翻译任务取消接口
调用此任务取消翻译任务。
输入参数:翻译任务ID。
输出参数:取消是否成功(true:成功,false:失败)。
7功能模块
7.1模块划分
基于智能芯片的汉盲翻译系统,应将机器学习模型与程序独立。
基于智能芯片的汉盲翻译系统,应至少划分为机器学习模型加载模块和翻译模块。机器学习模型加
载模块负责一次性将外部存储(硬盘)中的机器学习模型文件加载至内存;翻译模块负责使用加载的机
器学习模型执行翻译任务。在模型加载后,执行每次翻译任务时无需再次加载模型。
7.2模块划分
采用智能芯片时,机器学习模块应尽可能采用智能芯片运算。模型应尽可能加载至智能芯片。
8性能指标
8.1翻译准确率指标
自动翻译完成后,将翻译结果与标准答案进行比对。当翻译结果中的某个盲文词,当在不考虑标调
的情况下,该盲文词与答案中对应的盲文词一致时,认为该盲文词分词正确;当该盲文与答案中对应的
盲文词完全一致时,认为该盲文词分词与标调都正确。按下面的两个式子计算分词准确率和带调盲文准
确率。
分词准确率=分词正确的盲文词数/标准答案中盲文词总数
带调盲文准确率=分词和标调都正确的盲文词数/标准答案中盲文词总数
8.2时间效率指标
翻译时间:从开始翻译到结束翻译的时间。
4
T/CESAXXXX—202X
响应时间:从接收到翻译任务到返回结果的时间。
平均每秒翻译次数:平均每秒翻译的字数。
5
T/CESAXXXX—202X
参考文献
[1]GB/T5271.31-2006信息技术词汇第31部分:人工智能机器学习
[2]GB/T5271.34-2006信息技术词汇第34部分:人工智能神经网络
[3]20190851-T-469信息技术人工智能术语
[4]T/CESA1026-2018人工智能深度学习算法评估规范
6
T/CESAXXXX—202X
目 次
前 言.............................................................................................................................................................III
1范围...................................................................................................................................................................1
2规范性引用文件...............................................................................................................................................1
3术语和定义.......................................................................................................................................................1
4总体功能...........................................................................................................................................................2
5输入和输出.......................................................................................................................................................2
6服务接口...........................................................................................................................................................3
7功能模块...........................................................................................................................................................4
8性能指标...........................................................................................................................................................4
参考文献.............................................................................................................................................................7
II
T/CESAXXXX—202X
人工智能芯片应用面向汉盲翻译系统的技术要求
1范围
本标准规定了在人工智能芯片应用方面,面向汉盲翻译系统的技术要求及规范,重点规定了输入/
输出、服务接口、功能模块设置、性能指标等方面的要求。
本文件适用于在智能芯片上进行汉盲翻译系统的部署、检验及应用。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T38640-2020盲用数字出版格式
3术语和定义
下列术语和定义适用于本文件。
3.1
机器学习Machinelearning
一种程序或系统,用于根据输入数据构建(训练)预测模型。这种系统会利用学到的模型根据从分
布(训练该模型时使用的同一分布)中提取的新数据(以前从未见过的数据)进行实用的预测。机器学
习还指与这些程序或系统相关的研究领域。
3.2
深度学习DeepLearning
机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属性
类别或特征,以发现数据的分布式特征表示。
3.3
电子盲文ElectronicBraille
以数字形式存储的盲文内容。
1
T/CESAXXXX—202X
4总体功能
4.1核心功能
汉盲翻译系统的功能为将输入的汉字文本翻译为对应的汉语盲文文本,基于智能芯片的汉盲翻译系
统可更为高效、充分地采用人工智能和机器学习技术,实现高效、高准确率的汉盲翻译。
虽然汉盲翻译系统也可集成相应的界面与用户进行交互(这种情况下,用户可在交互界面输入汉字
文本、发出翻译指令,系统在界面上显示盲文输出),但汉盲翻译当前主要以界面和功能分离的方式进
行,即一个核心的汉盲翻译系统只负责进行汉字文本到盲文文本的翻译转换,用于为文本阅读器、文本
编辑软件、网页浏览器等上层应用系统提供汉盲翻译服务,而与上层应用系统或交互界面分离。因此,
本标准只规范基于智能芯片的汉盲翻译系统的文本翻译方面的核心功能,重点明确在输入/输出、服务
接口、功能模块设置、性能指标等方面的要求,而不涉及用户交互方式与交互界面方面的要求。
4.2盲文标准
当前有3种汉语盲文标准,分别为现行盲文、双拼盲文和通用盲文,基于智能芯片的汉盲翻译系统
应至少支持现行盲文或通用盲文。
4.3输入输出形式
以输入和输出的形式来划分,基于智能芯片的汉盲翻译系统可以两种方式提供汉盲翻译服务:文件
翻译和字符串翻译。
文件翻译是指输入一个汉字文本文件,返回一个与之相应的盲文文本文件。
字符串翻译是指输入一个汉字文本字符串,返回一个与之相应的盲文字符串。
4.4服务方式及接口
以提供服务的方式和接口来划分,基于智能芯片的汉盲翻译系统可以两种方式提供汉盲翻译服务:
网络服务和本地服务。
网络服务是指基于网络通信接口提供服务。
本地服务是指基于本机的进程/线程/模块间的通信接口提供服务。
5输入和输出
5.1文件翻译
5.1.1输入文件
输入的文件应支持常用的文本文件格式中的至少一种,包括:txt格式、word格式(doc或docx)、
pdf格式。
对于包含格式和非文本内容的文件格式,如word格式和pdf格式,应至少可提取其中的所有标题和
正文文本作为翻译的输出。
2
T/CESAXXXX—202X
根据需要,输入文件中的文本应包含所需的非汉字字符,如标点符号、英文字母、阿拉伯数字符号
及其它可能用到的符号,而非只由汉字字符构成。
5.1.2输出文件
输出的文件应符合国家标准《盲用数字出版格式GB/T38640-2020》中盲用文本出版格式的要求。
可采用标准中定义的XML格式,DBO格式或其它符合标准的格式。
5.2字符串翻译
5.2.1输入字符串
输入字符串应采用UTF-8编码。一般为一个汉语句子。字符数不超过128。
根据需要,输入字符串应包含所需的非汉字字符,如标点符号、英文字母、阿拉伯数字符号及其它
可能用到的符号,而非只由汉字字符构成。
5.2.2输出字符串
输出字符串应支持常用的盲文编码,包括Unicode编码和ASCII编码。应支持包括Unicode编码和
ASCII编码中的至少一种。
6服务接口
6.1网络服务
网络服务采用网络服务接口,可基于socket接口或http服务。
6.2本地服务
本地服务除可采用运行于本地的网络接口外,也可采用本地接口。如作为SDK,以函数形式提供接
口服务。
6.3服务接口
6.3.1任务创建接口
调用此接
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年-云南省建筑安全员B证考试题库及答案
- 2025年兽医考试复习要点试题及答案
- 大学语文内容理解与分析试题及答案
- 价值投资与成长投资的区别试题及答案
- 2025企业汽车租赁合同【范本】
- 2025年版广东租赁合同范本
- 安全自检自查报告
- 2025新款办公室装修合同范本(权威版)
- 2025专业版商业办公空间装饰装修工程施工合同(示范文本)
- 2025年中国公民出国留学合同
- 城镇燃气安全技术与管理
- 初级会计实务全书电子教案
- 2025年安徽安徽省合肥汽车客运有限公司招聘笔试参考题库含答案解析
- 安徽省 2025 年九年级中考历史模拟试卷二(含答案)
- 武汉市部分学校2024-2025学年下学期3月考七年级数学试题(含答案)
- 2024-2030全球动态细胞分析行业调研及趋势分析报告
- 2025年临床试验数据保密协议
- 湖南中烟工业有限责任公司招聘考试真题2024
- 《X射线管原理与应用》课件
- 2024年湖北省襄阳市第四中学第五中学自主招生考试语文试卷
- 七年级下册《二元一次方程组》课件与练习
评论
0/150
提交评论