《电力人工智能训练数据集归集标准》标准_第1页
《电力人工智能训练数据集归集标准》标准_第2页
《电力人工智能训练数据集归集标准》标准_第3页
《电力人工智能训练数据集归集标准》标准_第4页
《电力人工智能训练数据集归集标准》标准_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

T/CEC

中国电力企业联合会标准

T/CEC2022-1139

电力人工智能训练数据集归集标准

(征求意见稿)

20XX—XX—XX发布20XX—XX—XX实施

中国电力企业联合会发布

T/CEC

前言

本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起

草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

本文件由中国电力企业联合会提出。

本文件由***技术委员会归口。

本文件起草单位:南方电网数字电网研究院有限公司

本文件主要起草人:

本文件首次发布。

本文件在执行过程中的意见或建议反馈至中国电力企业联合会标准化管理中心(北京市白广路二条

一号,100761)

II

T/CEC

电力人工智能训练数据集归集标准

1范围

人工智能图像、语音训练数据集归集标准明确了电力企业人工智能训练数据标注工作涉及的数据收

集整理、标注环境及工具选用、标注任务执行、标注结果质量控制、标注结果交付等技术要求。

本标准适用于电力业务场景下的人工智能训练数据集归集。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T38318-2019《电力监控系统网络安全评估指南》

GB/T15237.1《术语工作词汇第1部分:理论与应用》

GB/T5271.1《信息技术词汇第1部分:基本术语》

GB/T5271.28《信息技术词汇第28部分:人工智能基本概念与专家系统》

GB/T5271.29《信息技术词汇第29部分:人工智能语音识别与合成》

GB/T5271.31《信息技术词汇第31部分:人工智能机器学习》

GB/T5271.34《信息技术词汇第34部分:人工智能神经网络》

3术语和定义

下列术语和定义适用于本文件。

3.1

智能组件intelligentcomponent

智能组件是基于人工智能对数据和函数的封装。包括调用API组件、下载的工具组件、SDK组件。

3.2

图像分类imageclassification

图像分类通过手工特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别。

3.3

光学字符识别opticalcharacterrecognition(OCR)

光学字符识别,是指利用深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。

3.4

语音speech

某一给定自然语言的话音、模式、或模拟这类模式的声学信号。

3.5

语音识别speechrecognition

通过功能单元对人的语音所表示信息的感知与分析。要识别的信息可以是预定义的字序列中的一个

字,或是预定义的语言中的一个音素,有时可通过说话者的声音特征对说话者进行标识。

3.6

1

T/CEC

数据标注dataannotation

对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待

标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码。

3.7

标签label

标识数据的特征、类别和属性等,可用于建立数据及机器学习训练要求所定义的机器可读数据编码

间的联系。

3.8

标注任务annotationtask

按照数据标注规范对指定数据集进行标注的过程。

3.9

标注工具annotationtool

数据标注员完成标注任务产生标注结果时所需的工具和软件。标注工具可生成标签并提供参考模板。

不同的数据类型和标注任务需要不同的标注工具。标注工具按自动化程度可分为全人工标注、半自动标

注。

3.10

标注平台annotationplatform

开展标注任务的系统化框架。标注平台在包含标注工具全部功能的基础上将所有标注环节工具化,

可有效地对标注任务进行全局管理和跟踪。

3.11

标注描述说明annotationinstruction

数据需求方用于明确标注任务和标注数据的书面陈述,包含执行标注任务所需的标注工具、任务描

述、标注方法、正确示例、常见错误等内容。

3.12

标注方法annotationmethod

定义数据标注员进行数据标注时的环境和流程,应包含标注对象定义、所用标注工具和标注平台、

标注格式、标注前的准备工作、标注后的处理工作等。

3.13

全人工标注full-manualannotation

指完全依靠人力对全部待标注数据进行标注。

3.14

半自动标注semi-automaticannotation

使用人工结合自动化工具或训练模型的方式进行数据标注。

3.15

结果文件resultfile

指待标注数据在完成标注工作后产生带有标签信息的文件。

3.16

2

T/CEC

数据标注员datalabeler

负责对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作的

工作人员。

4标注任务技术说明文件要求

在进行相关机器学习数据标注任务前,应明确本次标注工作的技术标准,生成详细的技术说明文件。

标注任务的技术说明文件应包含本次描述文件的版本信息、标注工作的任务背景、标注数据的应用场景、

标注数据的类型、标注方式、导入导出格式、标注结果格式、标注结果可选值、标注工作的实施环境、

数据保密规则、标注的正确示例、标注的错误示例以及术语体系规范化要求。

(1)版本信息

描述说明文件应详细记录说明文件当前的版本、编辑时间、通过审批时间、修订时间等。

(2)工作背景

概括性描述本次任务的产生原因、标注数据的来源等。

(3)数据应用场景

概括性描述本次数据标注完成后的应用方式或应用场景。

(4)数据类型

确定本次标注数据的数据类型如图片、文字、语音、视频等,提供数据类型展示实例。

(5)标注方式

明确本次采用全人工或半人工方式进行标注并确定需要使用的工具。

(6)导入导出格式

应明确提出本次待标注数据导入或导出标注工具的格式。

(7)标注结果格式

应明确提出本次标注结果输出格式。

(8)标注结果可选值

如标注结果存在可选值范围,应明确列出。

(9)实施环境

描述标注工作的实施环境,如电力行业的敏感数据应在内网环境下进行标注工作,而非敏感数据则

可以到相关方任何的标注环境中进行标注。

(10)标注正确示例

应提供标注任务正确标注或有效标注的实例。

(11)标注错误示例

应提供标注任务错误标注或无效标注的实例。

(12)数据保密规则

应根据《数据资产管理办法》判定数据是否涉密,并根据规定对标注数据进行保护。

(13)标注开始时间

描述本次标注任务的具体开始时间。

(14)期望交付时间

3

T/CEC

描述本次标注任务的期望交付时间。

(15)术语体系规范化要求

在标注过程中使用的术语体系需要规范化,至少应满足下列要求:

1)应遵从国家法规和行业规范。

2)应符合企业内部管理规范及要求。

3)应建立统一的标注术语字典,确保数据标注人员对术语定义的理解一致。

4)在学习标注说明规则及进行相应的培训后,数据标注人员能够规范地使用标注术语完成任务。

5)应被标注任务的发布方及相关方认可。

5待标注数据整理技术要求

5.1电力业务数据收集

标注数据收集工作应以业务为导向开展,主要涉及生产领域图像、视频、点云数据,营销场景语音、

文本等,根据标注任务的业务场景、标注样本或前期经验进行数据收集分析,数据收集需明确的要素包

括但不限于类型、量级、数据涉密程度、工作量估算、用途及应用场景。

5.1.1类型

应明确标注数据类型如图像、音频、文本、视频等。

5.1.2量级

本次标注任务待标注数据的数量。

5.1.3来源业务系统

本次标注任务数据所产生的源业务系统,一般生产类数据来自电网管理平台相关应用系统,营销类

数据来自客户服务平台相关应用系统,例如变电站设备、表计读数图像来自变电站智能巡检系统、95598

语音数据来自95598智能客服系统等。

5.1.4数据产生方式

本次标注任务数据的产生方式,如客户来电录音、服务工单等。

5.1.5数据文件命名规则

本次标注任务数据文件的命名规律或规范说明。

5.1.6数据保密程度

应根据《数据资产管理办法》判定数据是否涉密。

5.1.7用途

确认标注结果将作为模型的测试集或训练集。

5.1.8应用场景

确认标注结果的应用场景如绝缘子的破损检测、施工人员人脸识别、设备仪表数值状态检测等。

5.1.9标注领域

应明确标注领域,如图片分类、语音识别、语音匹配等。

5.1.10工作量估算

根据标注数据的类型、量级、用途、标注任务人员来源、标注平台、标注组件等要素确定本次任务

工作量。

5.2电力业务数据整理

4

T/CEC

在进行标注数据整理过程中,应明确数据与结果文件存放目录结构,在任务分配与回收的时候按指

定的目录进行数据组织,数据的整理应体现业务需求,存放整理后有利于根据业务开展后续工作,例如

生产域不同类型场景分别存放,同样场景一起存放。

数据整理应符合以下要求:

(1)文件夹及各级子目录名称首选简洁的拼音首字母组合标识。

(2)数据整理目录首选按照类别分类,简化目录级别。

(3)子目录等级最深不超过4级。

5.3电力业务数据文件命名规则

标注任务的数据文件及结果文件命名规则应符合以下要求:

(1)要标注的文件名称应简短(最长不能超过32个字符)且只能包含字母、数字、下划线、中

间杠。

(2)待标注数据文件与结果文件命名应进行区分,数据文件应使用“data_”为前缀,结果文件应

使用“result_”为前缀。

(3)为避免出现标注数据重名,应在基础文件名后添加唯一标识码,标识码生成应按十进制顺序

递增规则生成四位数或以上唯一标识码,如:000001、000002、000003等等,标识码具体位数可根据

文件数据量级进行增加。

6标注环境及工具选用要求

6.1标注环境选择标准

数据标注任务具有一定特殊性,部分企业内部数据具有较高保密要求,应根据《数据资产管理办法》

规定对标注环境进行选择。

应根据标注数据不同涉密情况选择以下环境进行标注:

(1)涉密数据:标注工作应在可信任的企业内部环境或任务发布方指定的可信任外部环境下进行。

(2)非涉密数据:标注团队可根据具体情况选择标注环境。

6.2标注工具选择标准

在进行相关数据标注工作过程中,选择标注工具应符合安全性、易操作性、数据输入输出规范性、

统一性以及合法性标准。

6.2.1安全性

应选用安全可信的标注工具进行标注工作,避免数据泄露造成安全事故。

6.2.2易操作性

标注工具应具有提高标注效率的功能,在减少标注人员工作量的同时确保标注质量。

6.2.3数据输入输出规范性

标注工具应支持导入及导出功能,可导入指定格式的数据。可导出符合要求格式及质量要求的数据。

6.2.4统一性

标注工具应优先选用企业统一的人工智能平台提供的标注工具,若平台未包含特定数据类型的标注

工具,可选用其他标注工具进行标注,但同类型的数据标注工作应优先采用同款标注工具进行标示,确

保输入输出格式的统一。

6.2.5合法性

标注工具或平台应具备资质/资格证书、许可证、版权等。

7标注任务执行技术要求

7.1标注子任务创建

5

T/CEC

进行数据标注子任务创建时,应按照不同类别或任务编号对标注数据进行整理及划分,方便标注团

队按自身任务获取对应标注数据。

数据标注子任务目标说明宜采用文件形式进行描述,应至少包含明确的标注任务信息、标注方式指

引以及标注结果存放位置。

7.1.1明确的标注任务信息

包括本次标注的主要目标、标注需求(需要完成的标注数据量级、任务的优先级,对标注结果质量

的要求、对标注完成时间的要求)、任务描述等。

7.1.2标注方式指引

根据当前标注数据的任务,明确标注方式(全人工或半人工)、标注工具、标注环境的指引,方便

标注人员开展标注任务。

7.1.3标注结果存放位置

指定标注完成后的结果存放位置,方便标注结果的收集。

7.2标注数据移交

进行标注数据移交工作前,应先根据公司《数据资产管理办法》确认标注数据是否涉密再确定数据

移交方式。标注数据的移交工作应至少符合以下技术要求:

7.2.1使用可信存储设备

包括使用可信的办公电脑、安全移动硬盘、安全U盘进行标注文件的转移及提交。

7.2.2使用可信内部网络

包括使用可信的内部网络进行标注数据的传输、使用安全可信的内部沟通工具进行文件发送、使用

可信的软件平台进行上传及下载、使用已加密的共享目录进行数据共享。

7.3标注任务分发

根据标注发布者确定的要求及任务描述,应按之前的数据标注子任务目标说明把任务分派给标注人

员。标注任务发布者在进行标注数据分发时,宜采用文件形式,说明宜包括人员数量、任务数量、任务

节点、回收时间、结束时间以及标注任务开展方式等相关信息。

7.3.1人员数量

本次参与标注任务的标注人员数量。

7.3.2任务数量

本次任务主体划分后的子任务数量。

7.3.3任务节点

每位数据标注人员需完成的任务总数及每个时间节点要求完成的任务数。

7.3.4回收时间

任务目标回收时间及最迟回收时间。

7.3.5结束时间

任务整体结束时间。

7.4标注任务开展方式

在标注任务开展过程中,标注方式分为全人工方式标注及半人工方式标注两种方式,选择的标注方

式区别如下:

7.4.1全人工标注

6

T/CEC

全人工标注的方式指全部待标注的数据均由标注人员进行审核分类及标注。

7.4.2半人工标注方式

半人工标注方式指使用有一定判断能力训练模型,对待标注数据进行分类,标注人员只对模型识别

准确率较低或无法进行识别的数据进行人工识别。

8结果质量保障技术要求

8.1结果质量检查

在标注任务开展及回收的过程中,应对标注结果进行质量控制以确保最终的标注结果,达到交付标

准。标注结果的质量检查方法分为按比例抽查和机器验证。

8.1.1按比例抽查

按本次任务的准确度要求情况确定抽样比例,对抽样的标注结果进行人工检查。

8.1.2机器验证

通过已训练的模型对标注结果进行检查,对于机器标注与人工标注有差异的标注结果进行人工检查。

8.2质量控制

在标注任务开展过程中,除需要进行质量检查外,还需对标注结果进行质量控制。质量检查主要针

对标注结果,而质量控制主要面向标注过程,实时确保标注工作能产生预期结果。

标注任务质量控制方式可选用多人验证和埋题验证两种方式进行。

8.2.1多人验证

相同任务安排给不同的标注人员,关注标注结果不一致的情况。

8.2.2埋题验证

预先在任务中插入已知结果的标注任务,当完成标注任务时与已知结果进行比对,关注与已知结果

不一致的情况。

9结果交付技术要求

9.1数据标注结果通用技术要求

标注结果输出格式应使用易阅读、易解析、易存储的数据格式,格式包括但不限于excel、json

或xml等。输出的结果文件应包含以下内容:

9.1.1标签编号

每个标注对象的独立编号。

9.1.2标注人员

进行该对象标注的标注人员信息。

9.1.3标注审核人员

进行该标注结果审核的人员信息。

9.1.4原始待标注文件路径

待标注对象的名称或路径。

9.1.5标注结果文件存放路径

标注完成的结果存放路径。

7

T/CEC

9.1.6置信度

标签的置信度。

9.1.7备注

对该标注对象的补充说明信息。

9.2常见数据类型标注结果技术要求

常见数据类型包括图像类型数据、文本类型数据以及语音类型数据。

9.2.1图像类型数据标注结果技术要求

针对标注任务,进行图像类标注任务时,标注结果应包含图片信息标签及标签的具体图像范围与位

置(范围与位置可用矩形工具标出)。

图像类型数据标注结果文件应包含以下内容:

(1)图像对象类型:比如bounding_box或者keypoint。

(2)图像对象详情:为对象的空间信息、内容信息,或与其它对象的关系信息。每个对象的详情

因其类型而异。

9.2.2文本类型数据标注结果技术要求

针对标注任务,进行文本类标注任务时,标注结果应包含文本的意图匹配结果标识,有多个匹配结

果的应全部进行记录并确定置信度最高的匹配标签。

文本类型数据标注结果文件应包含以下内容:

(1)文本对象类型:比如text_classification或者text_tag。

(2)文本对象详情:对象的具体文本位置、分类信息、匹配信息,或与其它对象的关系信息。每

个对象的详情因其类型而异。

9.2.3语音类型数据标注结果技术要求

语音类标注任务的数据结果应包含但不限于语音标签的时间位置、转写内容、话者分离信息、话者

语速等信息。

语音类型数据标注结果文件应包含以下内容:

(1)语音对象类型:比如speech_to_text。

(2)语音对象详情:包括对象具体时间位置和转译内容信息,或与其他对象的关系信息,每个对

象的详情因其类型而异,话者分离信息以及噪音标签等如存在,则都应在对象详情中记录。

9.3数据交付技术参数要求

数据标注任务交付时应向任务发布方提供技术参数如下:

9.3.1计划标注数

统计本次标注任务原计划标注的数据总数。

9.3.2实际标注数

统计本次标注任务实际完成的标注数据总数。

9.3.3异常或无效数据数

统计本次标注任务过程中发现的异常或无效数据总数。

9.3.4异常或无效数据说明

描述本次标注任务过程中发现的异常或无效数据情况。

9.3.5标注数据类型

描述本次标注任务的标注数据类型。

8

T/CEC

9.3.6标注环境

描述本次标注任务的实际标注环境。

9.3.7标注工具

描述本次标注任务的实际使用的标注工具。

9.3.8标注人员

描述本次标注任务实际使用的标注人员情况。

9.3.9标注审核人员

描述本次标注任务标注结果审核人员的情况。

9.3.10数据总体置信度

统计本次标注任务标注结果的总体置信度。

9.3.11标注结果交付方式

描述本次标注任务完成后标注结果的交付方式。

9.3.12标注数据质检结果

描述本次标注任务的标注结果质量检查情况。

9.3.13标注开始时间

描述本次标注任务的实际开始时间。

9.3.14标注交付时间

描述本次标注任务的实际完成及交付时间。

10安全技术要求

(1)应根据企业《数据资产管理办法》对标注数据是否涉密进行判定,并根据办法对标注数据进行

保护。

(2)本标准的任何技术要求和工作均应符合电力企业信息化建设与网络安全管理原则要求。

9

T/CEC

目次

前言..............................................................................II

1.范围................................................................................1

2.规范性引用文件......................................................................1

3.术语和定义..........................................................................1

4.标注任务技术说明要求................................................................3

5.待标注数据整理技术要求..............................................................4

5.1.电力业务数据收集................................................................4

5.2.电力业务数据整理................................................................4

5.3.电力业务数据文件命名规则........................................................5

6.标注环境及工具选用要求...............................................................5

6.1.标注环境选择标准................................................................5

6.2.标注工具选择标准................................................................5

7.标注任务执行技术要求.................................................................5

7.1.标注子任务创建..................................................................5

7.2.标注数据移交....................................................................6

7.3.标注任务分发....................................................................6

7.4.标注任务开展....................................................................6

8.结果质量保障技术要求................................................................7

8.1.质量检查........................................................................7

8.2.质量控制........................................................................7

9.结果交付技术要求....................................................................7

9.1.数据标注结果通用技术要求........................................................7

9.2.常见数据类型标注结果技术要求....................................................8

9.3.数据交付技术参数要求............................................................8

10.安全技术要求........................................................................9

I

T/CEC

电力人工智能训练数据集归集标准

1范围

人工智能图像、语音训练数据集归集标准明确了电力企业人工智能训练数据标注工作涉及的数据收

集整理、标注环境及工具选用、标注任务执行、标注结果质量控制、标注结果交付等技术要求。

本标准适用于电力业务场景下的人工智能训练数据集归集。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T38318-2019《电力监控系统网络安全评估指南》

GB/T15237.1《术语工作词汇第1部分:理论与应用》

GB/T5271.1《信息技术词汇第1部分:基本术语》

GB/T5271.28《信息技术词汇第28部分:人工智能基本概念与专家系统》

GB/T5271.29《信息技术词汇第29部分:人工智能语音识别与合成》

GB/T5271.31《信息技术词汇第31部分:人工智能机器学习》

GB/T5271.34《信息技术词汇第34部分:人工智能神经网络》

3术语和定义

下列术语和定义适用于本文件。

3.1

智能组件intelligentcomponent

智能组件是基于人工智能对数据和函数的封装。包括调用API组件、下载的工具组件、SDK组件。

3.2

图像分类imageclassification

图像分类通过手工特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别。

3.3

光学字符识别opticalcharacterrecognition(OCR)

光学字符识别,是指利用深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。

3.4

语音speech

某一给定自然语言的话音、模式、或模拟这类模式的声学信号。

3.5

语音识别speechrecognition

通过功能单元对人的语音所表示信息的感知与分析。要识别的信息可以是预定义的字序列中的一个

字,或是预定义的语言中的一个音素,有时可通过说话者的声音特征对说话者进行标识。

3.6

1

T/CEC

数据标注dataannotation

对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待

标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码。

3.7

标签label

标识数据的特征、类别和属性等,可用于建立数据及机器学习训练要求所定义的机器可读数据编码

间的联系。

3.8

标注任务annotationtask

按照数据标注规范对指定数据集进行标注的过程。

3.9

标注工具annotationtool

数据标注员完成标注任务产生标注结果时所需的工具和软件。标注工具可生成标签并提供参考模板。

不同的数据类型和标注任务需要不同的标注工具。标注工具按自动化程度可分为全人工标注、半自动标

注。

3.10

标注平台annotationplatform

开展标注任务的系统化框架。标注平台在包含标注工具全部功能的基础上将所有标注环节工具化,

可有效地对标注任务进行全局管理和跟踪。

3.11

标注描述说明annotationinstruction

数据需求方用于明确标注任务和标注数据的书面陈述,包含执行标注任务所需的标注工具、任务描

述、标注方法、正确示例、常见错误等内容。

3.12

标注方法annotationmethod

定义数据标注员进行数据标注时的环境和流程,应包含标注对象定义、所用标注工具和标注平台、

标注格式、标注前的准备工作、标注后的处理工作等。

3.13

全人工标注full-manualannotation

指完全依靠人力对全部待标注数据进行标注。

3.14

半自动标注semi-automaticannotation

使用人工结合自动化工具或训练模型的方式进行数据标注。

3.15

结果文件resultfile

指待标注数据在完成标注工作后产生带有标签信息的文件。

3.16

2

T/CEC

数据标注员datalabeler

负责对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作的

工作人员。

4标注任务技术说明文件要求

在进行相关机器学习数据标注任务前,应明确本次标注工作的技术标准,生成详细的技术说明文件。

标注任务的技术说明文件应包含本次描述文件的版本信息、标注工作的任务背景、标注数据的应用场景、

标注数据的类型、标注方式、导入导出格式、标注结果格式、标注结果可选值、标注工作的实施环境、

数据保密规则、标注的正确示例、标注的错误示例以及术语体系规范化要求。

(1)版本信息

描述说明文件应详细记录说明文件当前的版本、编辑时间、通过审批时间、修订时间等。

(2)工作背景

概括性描述本次任务的产生原因、标注数据的来源等。

(3)数据应用场景

概括性描述本次数据标注完成后的应用方式或应用场景。

(4)数据类型

确定本次标注数据的数据类型如图片、文字、语音、视频等,提供数据类型展示实例。

(5)标注方式

明确本次采用全人工或半人工方式进行标注并确定需要使用的工具。

(6)导入导出格式

应明确提出本次待标注数据导入或导出标注工具的格式。

(7)标注结果格式

应明确提出本次标注结果输出格式。

(8)标注结果可选值

如标注结果存在可选值范围,应明确列出。

(9)实施环境

描述标注工作的实施环境,如电力行业的敏感数据应在内网环境下进行标注工作,而非敏感数据则

可以到相关方任何的标注环境中进行标注。

(10)标注正确示例

应提供标注任务正确标注或有效标注的实例。

(11)标注错误示例

应提供标注任务错误标注或无效标注的实例。

(12)数据保密规则

应根据《数据资产管理办法》判定数据是否涉密,并根据规定对标注数据进行保护。

(13)标注开始时间

描述本次标注任务的具体开始时间。

(14)期望交付时间

3

T/CEC

描述本次标注任务的期望交付时间。

(15)术语体系规范化要求

在标注过程中使用的术语体系需要规范化,至少应满足下列要求:

1)应遵从国家法规和行业规范。

2)应符合企业内部管理规范及要求。

3)应建立统一的标注术语字典,确保数据标注人员对术语定义的理解一致。

4)在学习标注说明规则及进行相应的培训后,数据标注人员能够规范地使用标注术语完成任务。

5)应被标注任务的发布方及相关方认可。

5待标注数据整理技术要求

5.1电力业务数据收集

标注数据收集工作应以业务为导向开展,主要涉及生产领域图像、视频、点云数据,营销场景语音、

文本等,根据标注任务的业务场景、标注样本或前期经验进行数据收集分析,数据收集需明确的要素包

括但不限于类型、量级、数据涉密程度、工作量估算、用途及应用场景。

5.1.1类型

应明确标注数据类型如图像、音频、文本、视频等。

5.1.2量级

本次标注任务待标注数据的数量。

5.1.3来源业务系统

本次标注任务数据所产生的源业务系统,一般生产类数据来自电网管理平台相关应用系统,营销类

数据来自客户服务平台相关应用系统,例如变电站设备、表计读数图像来自变电站智能巡检系统、95598

语音数据来自95598智能客服系统等。

5.1.4数据产生方式

本次标注任务数据的产生方式,如客户来电录音、服务工单等。

5.1.5数据文件命名规则

本次标注任务数据文件的命名规律或规范说明。

5.1.6数据保密程度

应根据《数据资产管理办法》判定数据是否涉密。

5.1.7用途

确认标注结果将作为模型的测试集或训练集。

5.1.8应用场景

确认标注结果的应用场景如绝缘子的破损检测、施工人员人脸识别、设备仪表数值状态检测等。

5.1.9标注领域

应明确标注领域,如图片分类、语音识别、语音匹配等。

5.1.10工作量估算

根据标注数据的类型、量级、用途、标注任务人员来源、标注平台、标注组件等要素确定本次任务

工作量。

5.2电力业务数据整理

4

T/CEC

在进行标注数据整理过程中,应明确数据与结果文件存放目录结构,在任务分配与回收的时候按指

定的目录进行数据组织,数据的整理应体现业务需求,存放整理后有利于根据业务开展后续工作,例如

生产域不同类型场景分别存放,同样场景一起存放。

数据整理应符合以下要求:

(1)文件夹及各级子目录名称首选简洁的拼音首字母组合标识。

(2)数据整理目录首选按照类别分类,简化目录级别。

(3)子目录等级最深不超过4级。

5.3电力业务数据文件命名规则

标注任务的数据文件及结果文件命名规则应符合以下要求:

(1)要标注的文件名称应简短(最长不能超过32个字符)且只能包含字母、数字、下划线、中

间杠。

(2)待标注数据文件与结果文件命名应进行区分,数据文件应使用“data_”为前缀,结果文件应

使用“result_”为前缀。

(3)为避免出现标注数据重名,应在基础文件名后添加唯一标识码,标识码生成应按十进制顺序

递增规则生成四位数或以上唯一标识码,如:000001、000002、000003等等,标识码具体位数可根据

文件数据量级进行增加。

6标注环境及工具选用要求

6.1标注环境选择标准

数据标注任务具有一定特殊性,部分企业内部数据具有较高保密要求,应根据《数据资产管理办法》

规定对标注环境进行选择。

应根据标注数据不同涉密情况选择以下环境进行标注:

(1)涉密数据:标注工作应在可信任的企业内部环境或任务发布方指定的可信任外部环境下进行。

(2)非涉密数据:标注团队可根据具体情况选择标注环境。

6.2标注工具选择标准

在进行相关数据标注工作过程中,选择标注工具应符合安全性、易操作性、数据输入输出规范性、

统一性以及合法性标准。

6.2.1安全性

应选用安全可信的标注工具进行标注工作,避免数据泄露造成安全事故。

6.2.2易操作性

标注工具应具有提高标注效率的功能,在减少标注人员工作量的同时确保标注质量。

6.2.3数据输入输出规范性

标注工具应支持导入及导出功能,可导入指定格式的数据。可导出符合要求格式及质量要求的数据。

6.2.4统一性

标注工具应优先选用企业统一的人工智能平台提供的标注工具,若平台未包含特定数据类型的标注

工具,可选用其他标注工具进行标注,但同类型的数据标注工作应优先采用同款标注工具进行标示,确

保输入输出格式的统一。

6.2.5合法性

标注工具或平台应具备资质/资格证书、许可证、版权等。

7标注任务执行技术要求

7.1标注子任务创建

5

T/CEC

进行数据标注子任务创建时,应按照不同类别或任务编号对标注数据进行整理及划分,方便标注团

队按自身任务获取对应标注数据。

数据标注子任务目标说明宜采用文件形式进行描述,应至少包含明确的标注任务信息、标注方式指

引以及标注结果存放位置。

7.1.1明确的标注任务信息

包括本次标注的主要目标、标注需求(需要完成的标注数据量级、任务的优先级,对标注结果质量

的要求、对标注完成时间的要求)、任务描述等。

7.1.2标注方式指引

根据当前标注数据的任务,明确标注方式(全人工或半人工)、标注工具、标注环境的指引,方便

标注人员开展标注任务。

7.1.3标注结果存放位置

指定标注完成后的结果存放位置,方便标注结果的收集。

7.2标注数据移交

进行标注数据移交工作前,应先根据公司《数据资产管理办法》确认标注数据是否涉密再确定数据

移交方式。标注数据的移交工作应至少符合以下技术要求:

7.2.1使用可信存储设备

包括使用可信的办公电脑、安全移动硬盘、安全U盘进行标注文件的转移及提交。

7.2.2使用可信内部网络

包括使用可信的内部网络进行标注数据的传输、使用安全可信的内部沟通工具进行文件发送、使用

可信的软件平台进行上传及下载、使用已加密的共享目录进行数据共享。

7.3标注任务分发

根据标注发布者确定的要求及任务描述,应按之前的数据标注子任务目标说明把任务分派给标注人

员。标注任务发布者在进行标注数据分发时,宜采用文件形式,说明宜包括人员数量、任务数量、任务

节点、回收时间、结束时间以及标注任务开展方式等相关信息。

7.3.1人员数量

本次参与标注任务的标注人员数量。

7.3.2任务数量

本次任务主体划分后的子任务数量。

7.3.3任务节点

每位数据标注人员需完成的任务总数及每个时间节点要求完成的任务数。

7.3.4回收时间

任务目标回收时间及最迟回收时间。

7.3.5结束时间

任务整体结束时间。

7.4标注任务开展方式

在标注任务开展过程中,标注方式分为全人工方式标注及半人工方式标注两种方式,选择的标注方

式区别如下:

7.4.1全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论