




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.240.01CCSL70T/CPRA2102.2—2024中华文化素材库技术要求第2部分:图片类书籍数据质量要求TechnicalrequirementsformaterialdatabaseofChineseculturePart2:Dataqualityrequirementsforimage-basedbooks中国公共关系协会文化大数据产业委员会发布I 2规范性引用文件 3术语和定义 3.1中华文化素材库 3.2文化数字内容 3.3文化资源数据 4总体要求 4.1数据范围 4.2数据入库格式 4.3数据命名原则 5图片类书籍数据入库流程 5.1入库流程 6数据要求 6.1平面数据 6.2文本数据 6.3表格数据 6.4书籍数据 7数据属性要求 7.1属性基本要求 7.2属性数据结构要求 本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国公共关系协会文化大数据产业委员会提出并归口。本文件起草单位:北京邮电大学、北京玖扬科技有限公司、伏羲云(北京)文化科技有限公本文件主要起草人:徐坤、高凯、赵海英、薛晓鹏、尹晖、侯小刚、徐鹏举、曹明炜、周月、张炼、崔义娜、陈磊、刘志军、李媛媛。1中华文化素材库技术要求第2部分:图片类书籍数据质量要求本文件规定了中华文化素材库中图片类书籍数据的质量要求,包括图片类书籍数据的入库数据类型、质量标准、以及相关的入库流程等内容。本文件适用于中华文化素材库构建过程中对于图片类书籍数据的采集、处理、存储、管理和应2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则T/CPRA1-2021国家文化大数据标准体系T/CPRA300-2023文化数字内容分类与代码T/CPRA301-2023文化资源数据分类与代码3术语和定义下列术语和定义适用于本文件。3.1中华文化素材库materialdatabaseofchineseculture以文化资源数字化成果为原料,集成运用各种新技术,萃取中华文化之要素,并分门别类标签化,进而形成的可组合使用的素材库。按照文化呈现要素中华文化素材库可划分为中华字库、中华音库、中华像库、中华乐库、中华舞库、中华剧库等。中华文化素材库的来源是多元的,中国文化遗产标本库和中华民族文化基因库的数据是重要来源,文化企事业单位已建成的文化艺术、新闻出版、广播电视、网络视听、电影等数据库,也是重要来源。相关数据通过国家文化专网实现共享。[来源:T/CPRA301-2023定义3.1.4]3.2文化数字内容culturaldigitalcontent以数字形式存在的文化产品,一般以文字、图片、音频、视频、多媒体和其他形式表现。通常包括传统文化产品的数字化以及以数字形式存在的文化产品。国家文化大数据体系下文化数字内容主要涵盖中华优秀传统文化、革命文化和社会主义先进文化等。文化数字内容作为数字化文化生产线的产出,由文化大数据服务平台管理与分发,并通过文化体验设施和设备消费。通常情况下,文化数字内容又称为文化数字产品、文化数字内容产品等。[来源:T/CPRA300-2023定义3.1.1]23.3文化资源数据culturalresourcesdata对人类文化中传承下来并可以传播利用的文化(包括物质的和非物质的)进行数字化采集后,所得到的用于识别和展现文化的图像、文字、声音、动画、影片、三维全景、三维模型等数据。国家文化大数据体系下文化资源数据主要包括中国文化遗产标本库、中华民族文化基因库、中华文化素材库中的数据。[来源:T/CPRA301-2023定义3.1.1]4总体要求4.1数据范围中华文化素材库中,图片类书籍数据的入库范围包括:a)图片类书籍相关素材,涵盖但不限于与中华字库、中华像库等具有图像特性关联的子库内b)中国文化遗产标本库、中华民族文化基因库中与图片类书籍直接相关的数据;c)文化企事业单位已建成的与图片类书籍相关的数据资源,包括图书馆馆藏的数字化书籍与期刊、文化研究机构或高校出版的图片类书籍与论文、电子书平台的数字出版内容,以及出版机构或文化博物馆等单位的图书插图、画册资源等。4.2数据入库格式4.2.1平面数据表1平面数据格式数据类型数据格式.jpg、.png、.tiff、.bmp、.svg矢量图.eps、.pdf4.2.2文本数据表2文本数据格式数据类型数据格式纯文本富文本.docx、.rtf排版数据.tex、.pdf4.2.3表格数据表3表格数据格式数据类型数据格式表格内容.xls、.xlsx、.csv34.2.4书籍数据表4书籍数据格式数据类型数据格式书籍文档.docx、.pdf、.epub4.3数据命名原则数据文件命名宜按照“数据类型+数据编号”两部分进行编码,共16位,使用char字符进行存储。数据类型字段与命名所属数据类型相关,编码对照表见表5。数据编号按照YYYY-MD-Number(2020-1201-00000001)的格式进行编码。该编码规则不同的数据类型每天可添加一千万个不同的数据。编码规则见图1。XXXXXXXX-XXXX-XXXXXXXXXXXX图1命名编码规则表5数据类型编码对照表数据类型数据编码平面数据PMSJ文本数据WBSJ表格数据BGSJ书籍数据SJSJ5图片类书籍数据入库流程5.1入库流程图片类书籍数据的入库流程包括文化素材数据准备、数据类型与质量校验、数据修改与优化,以及最终的数据录入。入库流程旨在确保图片类书籍数据符合文化素材库的数据管理规范,具体流程如图2所示。4!<>N<>合格Y↓合格合格Y图2图片类书籍数据入库流程5.1.1文化素材数据准备文化素材数据准备包括以下步骤:a)素材数据采集:从图片类书籍中提取与内容相关的图片、文字、表格等数据,确保素材完整性;b)数据整理与清洗:按照中华文化素材库的设计要求,对采集的素材数据进行清理,包括删除重复数据条目,避免冗余存储;填补缺失值,确保数据的完整性;纠正异常值,确保数据的准确性与一致性等步骤;c)数据分类:根据图片类书籍数据的属性特征,将数据初步划分为平面数据、文本数据、表格数据等类别,以便后续处理。5.1.2入库前类型校验在素材数据入库前,需进行严格的数据类型校验,具体包括:a)数据类型验证:依据素材的预期用途,对数据的格式和类型进行校验,确保其符合数据库设计的接受范围。具体数据类型要求参考4.2的相关内容;b)不匹配数据处理:对于不符合类型规范的素材数据,进行必要的转换与调整,确保数据类5型与标准一致;c)数据类型确认:校验无误后,确认素材数据的最终类型,以确保数据分类与数据库需求一致。5.1.3入库前质量校验入库前的质量校验旨在确保素材数据符合质量要求,具体步骤包括:a)数据类型确认:基于5.1.2的校验结果,明确数据的类型属性;b)质量校验内容确定:按照素材数据的类型,制定具体的质量校验标准,如平面数据的分辨率、文本数据的完整性、表格数据的结构化程度等,具体要求详见6;c)执行质量校验:依据校验标准对数据进行检查,不符合质量要求的数据标记为“需修改”,通过质量校验的数据进入后续流程。5.1.4数据修改数据修改是对未通过质量校验的素材数据进行优化和调整的关键步骤,具体包括以下内容:a)问题定位与修正:识别数据中存在的具体问题(如图像分辨率不足、文本内容不完整或表格字段缺失),并依据质量标准进行修正或补充;b)一致性检查:确保修改后的数据在格式、内容和结构上与数据库要求保持一致,例如统一命名规则、字符编码和字段顺序等;c)记录与复核:对修改过程及结果进行记录,并进行二次校验,确保所有调整后的数据符合入库质量要求。5.1.5数据录入经过类型校验、质量校验和数据修改的图片类书籍素材数据,可进行正式录入,具体要求包括:a)录入数据标准化:按照平面数据、文本数据、表格数据的分类,分别存储,并关联其原始书籍;b)录入元数据生成:生成包括数据标识符、格式、存储地址等在内的标准元数据,元数据规范参考7;c)数据存储与备案:将录入数据上传至指定的存储地址,并备案其入库时间、修改记录和版本信息,以便后续管理和追溯。6数据要求6.1平面数据表6平面数据质量要求级别峰值信噪比(PSNR)信号失真率结构相似度(SSIM)高质量图像≥30dB中等质量图像≥20dB且<30dB≥0.5且<0.8≥0.6且<0.85低质量图像<20dB66.2文本数据表7文本数据质量要求级别缺失数据比率一致性检验通过率平均误差率高<5%一般≥5%且<10%≥95%且<99%≥5%且<10%差<95%≥10%6.3表格数据表8表格数据质量要求级别缺失数据比率单元格完整率表格格式一致性数据准确率高<5%≥99%一般≥5%且<10%≥95%且<98%≥90%且<95%≥95%且<99%差≥10%<95%<90%<95%6.4书籍数据表9表格数据质量要求级别缺失数据比率元数据完整率格式一致性OCR识别准确率高<3%≥95%≥99%一般≥3%且<7%≥95%且<98%≥90%且<95%≥95%且<99%差<95%<90%<95%7数据属性要求7.1属性基本要求数据属性的基本要求是:a)每个数据体应包含完整的属性信息,确保可追溯性与准确性。详细属性信息要求见7.2。b)数据体样本编号符合本标准定义,详细定义见4.3。c)数据类型需匹配相应的入库格式(如图像、文本等),并符合4.2提出的具体数据格式7.2属性数据结构要求属性结构应满足表10、表11、表12、表13要求,如下表所示。表10平面数据属性结构表设计序号字段名称数据类型字段长度必填1名称字符串300是2文化数据标识符字符串是3来源书籍标识符字符串是4来源书籍名称字符串300是5描述字符串400是6服务类型字符串7贡献者字符串300是78著作权人字符串是9载体受控词是登记者字符串登记日期标签字符串否文件大小字符串格式字符串存储地址字符串分辨率字符串文件MD5字符串版权登记号字符串否版权归属字符串否20版权开始时间否21版权结束时间否文本数据属性结构要求如下表所示。表11文本数据属性结构表设计序号字段名称数据类型字段长度必填1名称字符串300是2文化数据标识符字符串是3来源书籍标识符字符串是4来源书籍名称字符串300是5描述字符串2000是6服务类型字符串7贡献者字符串300是8著作权人字符串是9载体受控词是登记者字符串登记日期标签字符串否文件大小字符串格式字符串语种受控词是存储地址字符串文件MD5字符串版权登记号字符串否版权归属字符串否20版权开始时间否21版权结束时间否表格数据属性结构要求如下表所示。表12表格数据属性结构表设计序号字段名称数据类型字段长度必填81名称字符串300是2文化数据标识符字符串是3来源书籍标识符字符串是4来源书籍名称字符串300是5描述字符串400是6服务类型字符串7贡献者字符串300是8著作权人字符串是9载体受控词是登记者字
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 平台的运营合同范本
- 住宅物业房租合同范本
- 仓储搬家服务合同范本
- 工程物资供货合同范本
- 化粪池改造合同范本
- 预防感冒班队会
- 零件加工流程
- 2021年对口招生基本文化素质测试卷(样题)
- 预防感冒安全班会
- 达州中医药职业学院《写作》2023-2024学年第一学期期末试卷
- 希沃白板5考题及答案
- 青岛市2025年高三年级第一次适应性检测语文试题及参考答案
- 2025年药物制剂工(中级)考试题库(附答案)
- DB11∕T1481-2024生产经营单位生产安全事故应急预案评审规范
- 上海市第一至十八届高一物理基础知识竞赛试题及答案
- 测量仪器自检记录表(全站仪)
- 工程质量目标质量管理体系及技术组织措施
- 风景园林管理与法规PPT课件全书课件完整版ppt全套教学教程最全电子教案电子讲义(最新)
- 部编版小学一年级下册写字表田字格版字帖
- 2022年垃圾房管理规定
- 标准田字格模板A4纸word
评论
0/150
提交评论