CESA-2022-1-004 《人工智能 智能字符识别技术规范》团体标准(征求意见稿)编制说明_第1页
CESA-2022-1-004 《人工智能 智能字符识别技术规范》团体标准(征求意见稿)编制说明_第2页
CESA-2022-1-004 《人工智能 智能字符识别技术规范》团体标准(征求意见稿)编制说明_第3页
CESA-2022-1-004 《人工智能 智能字符识别技术规范》团体标准(征求意见稿)编制说明_第4页
CESA-2022-1-004 《人工智能 智能字符识别技术规范》团体标准(征求意见稿)编制说明_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国电子工业标准化技术协会

一、工作简况

(一)产品和行业发展情况

智能字符识别(IntelligentCharacterRecognition,ICR)是利用人工智能技术,提

供手写字符识别、识别结果增强、端到端检测识别等能力的OCR技术,以实现对图像中的字

符识别并将其转换成二进制代码,便于机器读取和应用。相较于传统OCR,ICR不仅用于复杂

自然场景中印刷、手写等各类文本字符的识别,还可以对文件中的结构化对象进行识别和编

码,例如表格栏、非文字的图等。并且对于识别准确率和速度方面有大幅提升。

随着图像处理技术不断进步,特别是近年来人工智能理念和技术的应用,直接促进了ICR

技术及相关产品和服务的快速应用发展。以机器学习为代表的AI技术,将深度神经网络应用

于文字对象检测、字符切分、字符识别的一系列技术流程,为ICR提供了图文识别的高准确

率和速度;同时,ICR作为一种从像素/栅格文本到机器易读的数字文本转换技术,已成为AI

系统多模态数据采集和分析的重要手段之一。

目前,市场上出现了各种各样基于AI的ICR应用以及基于ICR的AI应用。然而,由于缺少

针对ICR的功能、性能及其试验方法等技术要求的统一标准,相关产品和服务的技术能力和

质量水平参差不齐,一方面不仅导致了重复研发的成本加大,另一方面也对基于AI的ICR产

品和服务市场以及基于ICR的AI系统应用质量提出了挑战,不利于产业正常发展。为解决上

述问题,目前亟需制定ICR技术要求和结果评价的国家统一标准,为规范市场准入、保障用

户权益、提高市场整体质量,提供标准依据;为整合产学研力量、促进人工智能产业发展,

提供标准引领

(二)任务来源

2022年2月21日,中国电子工业标准化技术协会下达2022年第一季度第一批团体标准,

拟研制《人工智能智能字符识别技术规范》相关标准。本标准为自主制定标准,计划编号

为CESA-2022-1-004,归口单位为中国电子技术标准化研究院,由腾讯云计算(北京)有限

责任公司、华为技术有限公司牵头组织编制。

(三)标准主要起草单位

中国电子工业标准化技术协会

本标准起草单位:中国电子技术标准化研究院、腾讯云计算(北京)有限责任公司、华

为技术有限公司、云从科技集团股份有限公司、西安深信科创信息技术有限公司、美的集团

(上海)有限公司、北京百度网讯科技有限公司、深圳市矽赫科技有限公司、北京旷视科技

有限公司、杭州海康威视数字技术股份有限公司、浙江大华技术股份有限公司、上海计算机

软件技术开发中心、上海依图网络科技有限公司、上海商汤智能科技有限公司、马上消费金

融股份有限公司、北京九章云极科技有限公司、西北工业大学、上海人工智能研究院有限公

司。

(四)标准主要起草人

本标准主要起草人及具体分工如下:马珊珊、杨晓光、蔡亚森(标准整个流程和资料编

写);马万忠、王彭、刘皓、李笑如、徐浩、刘志强、程战战(整体技术部分编写);李军、

刘志强、田富康、梅敬青(第4章);王光夫、胡蓉、毛玉婷(第5章);刘坤、陈媛媛、王

鹏(第6章);张小宝、洪鹏达、陈敏刚、马泽宇、陈文捷(第7章)。

(五)主要工作过程

2021年12月1日,联合发起单位、确定对该项标准进行研制,并公开征集参编单位。

2021年12月15日,第一次标准编制讨论会,标准参编单位对各标准的立项材料进行编写

讨论,并对标准草案进行编写讨论。

2021年12月24日,第二次标准编制讨论会,对标准草案进行编写讨论。

2022年1月12日,立项评审会,标准立项评审。

2022年2月21日,中国电子工业标准化技术协会下达2022年第一季度第一批团体标准计

划,拟研制《人工智能智能字符识别技术规范》相关标准。

2022年3月15日,第三次标准编制讨论会,起草组对标准草案的修改进行讨论。

2022年4月6日,对前期的意见进行修改,形式征求意见稿。。

二、标准编制原则和确定主要内容的论据及解决的主要问题

1、编制原则

先进性原则:本标准的制定与当前人工智能大趋势相匹配,为用户、市场的规范化提供

基础,为人工智能领域的发展提供标准支撑。

实用性原则:本标准制定时充分分析了众多应用领域对人员追踪的需求,标准制定着

力于解决用户、厂商实际应用中的共同问题,引导用户、厂商针对产品能力达成一致预期,

在实际项目中可直接落地应用。

中国电子工业标准化技术协会

可扩展性原则:本标准中在设计的时候,充分考虑到标准的可扩展性,可保证各厂商

在使用时兼顾规范性的同时具备可扩展能力。

2、确定主要内容的论据

主要内容:本标准规定了基于人工智能的字符识别技术框架、功能和性能要求、测试评

价方法。

适用范围:本文件适用于智能字符识别产品和服务的设计、开发、应用和测试评价。

3、主要解决的问题

目前,硬件设备厂商、软件厂商、云服务提供商提供了从终端设备、软件、云SAAS服务

等ToB、ToC不同形态的智能字符识别产品或服务。早期的OCR系统,由于识别率及产品化

等多方面的因素,未能达到实际要求;同时,由于硬件设备成本高,运行速度慢,也没有达

到实用的程度。

由于缺少针对ICR的功能、性能及其试验方法等技术要求的统一标准,相关产品和服务

的技术能力和质量水平参差不齐,一方面不仅导致了重复研发的成本加大,另一方面也对基

于AI的ICR产品和服务市场以及基于ICR的AI系统应用质量提出了挑战,不利于产业正常发

展。为解决上述问题,目前亟需制定ICR技术要求和结果评价的统一标准。

同时存在对ICR(智能字符识别)术语、定义描述不明晰,与OCR容易混淆、技术指标不

一致,没有统一评测方法,行业用户选型困难等难题。

三、主要试验[或验证]情况分析

无。

四、知识产权情况说明

无。

五、产业化情况、推广应用论证和预期达到的经济效果

该标准目前情况如下:

1)(法规符合)标准符合相应国家法律文件要求;

2)(应用面广、用户数量庞大)现已广泛在金融、交通、医疗、电力、教育等行业应

用;

3)(中立/经验丰富)CESA有丰富的技术试验筹备、实施经验;

4)(产业参与)国内智能字符识别的设备厂商、软件服务商、云服务商代表都有参与。

中国电子工业标准化技术协会

六、采用国际标准和国外先进标准情况

目前国际标准化工作主要集中在:

a)传统OCR基础领域,一方面包括通用术语标准和应用领域的OCR和ICR术语和定义,另

一方面包括OCR的载体字符集及其编码。

b)关联到OCR应用的相关技术,例如JTC1/SC17卡和身份识别分委会制定的部分标准,

表明了其技术内容可应用于诸如磁条、OCR、条形码、非接触式机读等,但并未针对OCR系统

或技术要求作出规范。

c)传统OCR测试技术,针对OCR质量的测试方法、参数和分级制定了标准,而没有对OCR

系统的技术要求和基准进行规范。

在国际标准组织中,专门针对此类标准尚属空白。已有的OCR国际标准与本标准的区别

如下:

标准名称标准内容,与本标准的区别

ISO1831:1980包括OCR纸张和印刷品的基本定义、测量要求、规格和建议,并处理OCR介质

的三个主要参数:纸张的光学特性;用作OCR字符的油墨图案的光学特性和尺

光学字符识别印刷规范寸;纸上OCR字符位置的基本要求。

ISO2033:1983定义了读取设备识别的印刷字符的编码表示。包括字体E13B;CMC7;OCR-A;

OCR-B。为读取设备识别的字符分配位模式。该信息然后通过不同的介质提供给

信息处理-机器可读字符的编接收者,并且可由打印设备使用。

码(MICR和OCR)

ISO12656:2001本国际标准规定了孔卡上编码的类型、尺寸和位置

显微图像——在孔径卡上使用符合ISO3272-3。

条形码

本国际标准适用于OCR字符、条形码、Hollerith和印刷的Hollerith代码。

不适用于压缩条形码

ISO/IEC30116:2016-规定了测量OCR-B字符串特定属性的方法,

信息技术—自动识别和数据采-定义了评估这些测量值和得出字符串质量的整体评估的方法,

集技术—光学字符识别(OCR)

质量测试-定义OCR-B的参考解码算法,以及

-提供有关偏离最佳等级的可能原因的信息,以帮助用户采取适当的纠正措施

中国电子工业标准化技术协会

七、与现行相关法律、法规、规章及相关标准的协调性

本标准与现行法律、法规、强制性国家标准,特别与信息技术相关的《网络安全法》、

《数据安全法》、《个人信息保护法》无冲突;

《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出

“十四五”期间将通过一批具有前瞻性、战略性的国家重大科技项目,带动产业界逐步突破

前沿基础理论和算法,研发专用芯片,构建深度学习框架等开源算法平台,并在学习推理决

策、图像图形、语音视频、自然语言识别处理等领域创新与迭代应用。推进智能医疗装备、

智能运载工具、智能识别系统等智能产品制造。

《国家新一代人工智能标准体系建设指南》中关键领域技术标准建设重点:

自然语言处理标准。重点开展光学字符识别、词于提取、词向量化、词性标注及描述等

语言信息提取标准,智能分词、文本语种识别、词法分析、句法分析、语法分析、内容相关

度分析、情感分析等文本处理标准,大规模智能语义库、语义数据、语义接口、语义标签、

语义理解、语义表达的框架和模型、数据格式、形式化表达等语义处理标准,自动问答,机

器翻译的系统架构、模型、技术要求和评价等应用扩展标准研制。

计算机视觉标准。重点开展图像传感设备、芯片、网络设施等视觉设施设备标准,视觉

数据库、数据描述、数据格式、视频接口、形状及空间建模等数据及模型标准,图像识别、

图像语义处理、图像合成鉴别等图像识别与处理标准研制。

八、重大分歧意见的处理经过和依据

无。

九、标准性质的建议

目前,ICR技术已在金融、保险、医疗、交通、教育等诸多行业有了深入成熟的应用。

未来随着传统行业的数字化转型,ICR应用范围和场景将进一步扩展,市场规模将进一步增

大。据预测,2025年全球ICR市场规模将达到133.81亿美元。在构建数据中国、数字政府过

程中发挥重要的作用,迫切需要行业标准的指引和规范。

十、贯彻标准的要求和措施建议

标准的实施可实现产业内的统一探讨,形成产业共认的标准规范,推动人工智能及计算

机视觉领域相关技术的良性合作和发展,具有不可取代的支撑作用。

待团体标准正式发布后,可以通过各级组织及科研单位进一步宣传贯彻和实施,推动各

级各类高校、科研机构、企事业单位在开发人员追踪系统时采用本标准。

中国电子工业标准化技术协会

本标准密级为“公开”,目的是最大效能地在团体内、外推广应用。

十一、替代或废止现行相关标准的建议

无。

十二、其它应予说明的事项

无。

《人工智能智能字符识别技术规范》

团体标准编制工作组

2022年4月6日

中国电子工业标准化技术协会

一、工作简况

(一)产品和行业发展情况

智能字符识别(IntelligentCharacterRecognition,ICR)是利用人工智能技术,提

供手写字符识别、识别结果增强、端到端检测识别等能力的OCR技术,以实现对图像中的字

符识别并将其转换成二进制代码,便于机器读取和应用。相较于传统OCR,ICR不仅用于复杂

自然场景中印刷、手写等各类文本字符的识别,还可以对文件中的结构化对象进行识别和编

码,例如表格栏、非文字的图等。并且对于识别准确率和速度方面有大幅提升。

随着图像处理技术不断进步,特别是近年来人工智能理念和技术的应用,直接促进了ICR

技术及相关产品和服务的快速应用发展。以机器学习为代表的AI技术,将深度神经网络应用

于文字对象检测、字符切分、字符识别的一系列技术流程,为ICR提供了图文识别的高准确

率和速度;同时,ICR作为一种从像素/栅格文本到机器易读的数字文本转换技术,已成为AI

系统多模态数据采集和分析的重要手段之一。

目前,市场上出现了各种各样基于AI的ICR应用以及基于ICR的AI应用。然而,由于缺少

针对ICR的功能、性能及其试验方法等技术要求的统一标准,相关产品和服务的技术能力和

质量水平参差不齐,一方面不仅导致了重复研发的成本加大,另一方面也对基于AI的ICR产

品和服务市场以及基于ICR的AI系统应用质量提出了挑战,不利于产业正常发展。为解决上

述问题,目前亟需制定ICR技术要求和结果评价的国家统一标准,为规范市场准入、保障用

户权益、提高市场整体质量,提供标准依据;为整合产学研力量、促进人工智能产业发展,

提供标准引领

(二)任务来源

2022年2月21日,中国电子工业标准化技术协会下达2022年第一季度第一批团体标准,

拟研制《人工智能智能字符识别技术规范》相关标准。本标准为自主制定标准,计划编号

为CESA-2022-1-004,归口单位为中国电子技术标准化研究院,由腾讯云计算(北京)有限

责任公司、华为技术有限公司牵头组织编制。

(三)标准主要起草单位

中国电子工业标准化技术协会

本标准起草单位:中国电子技术标准化研究院、腾讯云计算(北京)有限责任公司、华

为技术有限公司、云从科技集团股份有限公司、西安深信科创信息技术有限公司、美的集团

(上海)有限公司、北京百度网讯科技有限公司、深圳市矽赫科技有限公司、北京旷视科技

有限公司、杭州海康威视数字技术股份有限公司、浙江大华技术股份有限公司、上海计算机

软件技术开发中心、上海依图网络科技有限公司、上海商汤智能科技有限公司、马上消费金

融股份有限公司、北京九章云极科技有限公司、西北工业大学、上海人工智能研究院有限公

司。

(四)标准主要起草人

本标准主要起草人及具体分工如下:马珊珊、杨晓光、蔡亚森(标准整个流程和资料编

写);马万忠、王彭、刘皓、李笑如、徐浩、刘志强、程战战(整体技术部分编写);李军、

刘志强、田富康、梅敬青(第4章);王光夫、胡蓉、毛玉婷(第5章);刘坤、陈媛媛、王

鹏(第6章);张小宝、洪鹏达、陈敏刚、马泽宇、陈文捷(第7章)。

(五)主要工作过程

2021年12月1日,联合发起单位、确定对该项标准进行研制,并公开征集参编单位。

2021年12月15日,第一次标准编制讨论会,标准参编单位对各标准的立项材料进行编写

讨论,并对标准草案进行编写讨论。

2021年12月24日,第二次标准编制讨论会,对标准草案进行编写讨论。

2022年1月12日,立项评审会,标准立项评审。

2022年2月21日,中国电子工业标准化技术协会下达2022年第一季度第一批团体标准计

划,拟研制《人工智能智能字符识别技术规范》相关标准。

2022年3月15日,第三次标准编制讨论会,起草组对标准草案的修改进行讨论。

2022年4月6日,对前期的意见进行修改,形式征求意见稿。。

二、标准编制原则和确定主要内容的论据及解决的主要问题

1、编制原则

先进性原则:本标准的制定与当前人工智能大趋势相匹配,为用户、市场的规范化提供

基础,为人工智能领域的发展提供标准支撑。

实用性原则:本标准制定时充分分析了众多应用领域对人员追踪的需求,标准制定着

力于解决用户、厂商实际应用中的共同问题,引导用户、厂商针对产品能力达成一致预期,

在实际项目中可直接落地应用。

中国电子工业标准化技术协会

可扩展性原则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论