《党史资料数据规范 第2部分:数据采集》_第1页
《党史资料数据规范 第2部分:数据采集》_第2页
《党史资料数据规范 第2部分:数据采集》_第3页
《党史资料数据规范 第2部分:数据采集》_第4页
《党史资料数据规范 第2部分:数据采集》_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.040CCSA14DB32DataspecificationofPartyhistorymaterials-Part2:Dataacquisition江苏省市场监督管理局发布IDB32/TXXXX—2024前言 2规范性引用文件 3术语和定义 4缩略语 5总体要求 6组织与管理 7党史资料出库 8数字化前处理 9目录数据库建立 10资料扫描与采集 11资料处理 12数据挂接 13数字化成果验收与移交 14党史资料归还入库 附录A(规范性)党史资料数字化安全管理制度 18附录B(规范性)党史资料数字化加工保密管理制度 19附录C(资料性)党史资料出库申请单 20附录D(资料性)党史资料数字化加工登记单 21附录E(资料性)报刊数据标引生成文件XML样例 22附录F(资料性)党史资料数字化备份管理登记表 26DB32/TXXXX—2024本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。《党史资料数据规范》由3部分组成:——第1部分:数据编目;——第2部分:数据采集;——第3部分:数据标引。本文件为《党史资料数据规范》的第2部分。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中共江苏省委党史工作办公室提出并归口。本文件起草单位:中共江苏省委党史工作办公室、中电鸿信信息科技有限公司、江苏省质量和标准化研究院。本文件主要起草人:缪毅、耿学忠、孙正新、周小川、吴玉健、陈勇刚、王亚东、尹秋萍、吴练、张燕琴、阮舒曼、许萌君、刘珏、孔肖菡。DB32/TXXXX—2024为贯彻落实党史学习教育领导小组办公室、国家档案局印发的《关于做好党史学习教育文件材料收集归档工作的通知》,提升江苏省党史资料信息化管理水平,稳步推进传统介质的中共党史文献资料转化为数字化文献,并通过网络信息实现资源共享,推动江苏省党史资料数字化建设高质量发展,特制定本文件。在党史资料数据建设工作中,数据编目、数据采集、数据标引均为重要组成部分且内容相互协调补充,但由于标准文件篇幅限制且数据编目、数据采集、数据标引编制重点与要求均不相同,故《党史资料数据规范》分为以下三个部分。——第1部分:数据编目。旨在明确党史资料数据编目过程中的相关要求,包括编目项目的确定、编目主体分类、编目流程等,提高数据编目的科学性和准确性。——第2部分:数据采集。旨在明确党史资料数据采集过程中的相关要求,包含了从党史资料出库到党史资料归还入库的一系列采集流程和内容,提高数据采集的规范性和可操作性。——第3部分:数据标引。旨在明确党史资料数据标引过程中的相关要求,包括不同类型、不同主题党史资料数据的标引要求,提高数据标引的规范性和准确性。1DB32/TXXXX—2023党史资料数据规范第2部分:数据采集本文件确定了江苏省党史部门党史资料数据采集的总体要求、组织与管理、党史资料出库、数字化前处理、目录数据库建立、资料扫描与采集、资料处理、数据挂接、数字化成果验收与移交、党史资料归还入库的相关内容。本文件适用于江苏省党史部门对各类党史资料的采集与管理。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T20530文献档案资料数字化工作导则DA/T31-2017纸质档案数字化规范DBDB32/TXXXX-2024党史资料数据规范第1部分:数据编目ISO/TR13028:2010信息和文献--记录数字化实施指南(Informationanddocumentation--Implementationguidelinesfordigitizationofrecords)ISO19005-1:2005/Cor.2:2011文献管理--长期保存的电子文献文件格式--第1部分:PDF1.4的使用(PDF/A-1)(Documentmanagement--Electronicdocumentfileformatforlong-termpreservation--Part1:UseofPDF1.4(PDF/A-1))3术语和定义GB/T20530、DA/T31-2017、ISO19005-1:2005/Cor.2:2011界定的以及下列术语和定义适用于本文件。3.1党史资料数字化digitizationofpartyhistorymaterials对党史资料进行数字化加工,使其转化为存储在光盘、硬盘等载体上的数字资源,并按照党史资料的内在联系,建立起目录数据与数字资源关联关系的处理过程。3.2失真度distortiondegree对资料进行数字化转换后,数字图像与原件在色彩、几何等方面的偏离程度。2DB32/TXXXX—20233.3国际标准书号internationalstandardbooknumber国际上通用的出版物标识编码的标识符。采用ISBN编码系统的出版物有:图书、小册子、缩微出版物、盲文印刷品等。3.4便携式文档格式portabledocumentformat一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。3.5联合图像专家组jointphotographicexpertsgroup一种常用的图像有损压缩格式,可设置压缩率,压缩率越高,文件越小,图像品质越低。3.6Matroska多媒体容器multimediacontainer能够在一个文件中容纳无限数量的视频、音频、图片或字幕轨道的一种开放标准的自由的容器和文件格式,一种多媒体合并转化格式。Matroska的文件扩展名,对于携带了音频、字幕的视频文件是.mkv,对于单一的纯音频文件是.mka。4缩略语下列缩略语适用于本文件。AVI:音频视频交错格式(AudioVideoInterleaved)BOM:字节顺序标记(ByteOrderMark)COM:串行通讯端口(Commercial)DPI:每英寸点数(DotsPerInch)HTTPS:超文本传输安全协议(HypertextTransferProtocolSecure)ISBN:国际标准书号(InternationalStandardBookNumber)JPEG/JPG:联合图像专家组(JointPhotographicExpertsGroup)MXF:素材交换格式(MaterialeXchangeFormat)NTSC:美国国家电视标准委员会(NationalTelevisionStandardsCommittee)OFD:打开固定布局文档(OpenFixed-layoutDocument)PAL:电视广播制式(PhaseAlterationLine)PCM:脉冲编码调制(Pulse-CodeModulation)PDF:便携式文档格式(PortableDocumentFormat)SECAM:按顺序传送彩色与存储(SequentielCouleurAMemoire)SRT:文本格式字幕(SubRipText)TIFF:标签图像文件格式(TagImageFileFormat)XML:可扩展标记语言(EXtensibleMarkupLanguage)3DB32/TXXXX—20235总体要求5.1基本要求5.1.1利用数据库、数据压缩、高速扫描等技术,将纸质党史资料原件、未经数字化技术处理的声像党史资料,以及其他类型党史资料经过数字化处理后,以机读形式存储,实现信息资源共享。5.1.2各相关单位应根据党史资料的珍贵程度、开放程度、利用率、亟待抢救程度、数字化资金情况等因素统筹规划、科学开展党史资料数字化。党史资料数字化的开展应符合GB/T20530的相关要求。5.1.3应采取有效的管理和技术手段,确保党史资料数字化成果质量。党史资料数字化应遵循党史资料管理的客观规律,真实反映党史内容,最大程度地展现党史原貌。5.1.4文件以PDF/A形式保存,文件的内容应以标记形式嵌入党史资料,保留文字的逻辑结构,以便搜索引擎进行全文检索。5.2基本环节5.2.1党史资料数字化的基本环节主要包括:a)数字化前处理;b)目录数据库建立;c)资料扫描与信息采集;d)资料处理;e)数据挂接;f)数字化成果验收与移交等。5.2.2党史资料数字化过程中,各个环节均应进行详细的登记,并及时整理、汇总,装订成册,在数字化完成的同时建立完整、规范的记录。应保存数字化项目信息、技术环境、数字化各类技术参数等方面的元数据,元数据元素的确定应符合ISO/TR13028:2010的相关要求。5.3安全管理加强党史资料数字化各环节的安全管理,建立党史资料数字化安全管理制度(见附录A),党史资料实体和党史资料信息的安全应符合安全管理制度要求。5.4保密要求加工涉密党史资料时,应按照党史资料数字化加工保密管理制度(见附录B)开展工作。6组织与管理6.1机构及人员6.1.1应建立党史资料数字化组织,对数字化进行统筹规划、组织实施、协调管理、安全保障、技术保障、监督检查、成果验收等,确保数字化顺利开展。6.1.2应配备具有相应能力的工作人员,包括:a)熟悉党史业务并具有较高的调查研究水平和良好的组织领导能力的管理人员;b)熟悉相关标准规范并能为党史资料数字化各环节提供技术支持的技术人员;c)掌握一定数字化基础知识并熟悉本职工作的操作人员等。6.1.3应通过科学规范的管理制度,对工作人员进行规范化管理。应加强对外聘工作人员的审核,强化数字化的安全性。4DB32/TXXXX—20236.2基础设施6.2.1应配备专用加工场地,并进行合理布局,形成党史资料存放、数字化前处理、党史资料编目、党史资料扫描、图像处理、质量检查等工作区域。6.2.2加工场地的选择及温湿度等环境的控制应利于党史资料实体的保护。场地内应配备可覆盖全部场地的防火、防水、防有害生物、防盗报警、视频监控等安全管理的设施设备。6.2.3应合理规划、配备和管理党史资料数字化设施设备,确保设施设备安全、先进,满足数字化需要。6.2.4加工涉密音视频党史和文献资料时,应由党史部门提供场地和电脑、存储设备等具备记忆功能的存储与处理设备,音视频读取和转换设备由制作单位自备。6.3工作方案6.3.1应在充分调研的基础上,制定科学合理的工作方案,确保党史资料数字化达到预期目标。6.3.2党史资料数字化方案应包括数字化对象、工作目标、工作内容、成本核算、数字化技术方法和主要技术指标、验收依据、人员安排、责任分工、进度安排、安全管理措施等内容。数字化对象的确定应综合考虑党史资料的珍贵程度、开放程度、利用率、亟待抢救程度、数字化资金情况等因素。6.3.3宜对党史资料数字化方案进行专家论证,确保其科学、规范、合理。6.3.4党史资料数字化方案应经审批后严格执行。工作方案审批结果应与数字化过程中形成的其他文件一并保存。6.4管理制度6.4.1应制定科学化、规范化的管理制度,并在工作过程中严格执行,保障党史资料安全和党史资料数字化成果质量。6.4.2党史资料数字化管理制度应包含岗位管理、人员管理、场地管理、设备管理、数据管理、党史资料实体管理等方面的制度:a)岗位管理制度对各数字化岗位的工作目标和职责进行规范,形成明确的岗位业务流程规范、考核标准、奖惩办法等;b)人员管理制度对人员的安全责任、日常行为、外聘人员信息审核及管理、非工作人员来访登记等进行规范;c)场地管理制度对人员出入和工作场地内基础设施、环境、网络、监控设施、现场物品、证件等的管理工作进行规范;d)设备管理制度对数字化各环节涉及的全部设备的管理工作进行规范;e)数据管理制度对数字化各环节所产生的数据的管理工作进行规范;f)党史资料实体管理制度对党史资料实体在数字化过程中的交接、管理、存放等工作进行规范。6.5工作流程控制6.5.1应制定党史资料数字化流程和各环节操作规范,对党史资料数字化全过程进行有效的控制,确保数字化成果质量。6.5.2应加强对党史资料数字化的全流程安全管理。6.5.3应建立完善的问题反馈机制,对党史资料数字化过程中后端环节发现前端环节中产生的问题进行及时反馈和修正。6.6工作资料管理5DB32/TXXXX—20236.6.1应根据情况制定符合实际要求的党史资料数字化工作资料,加强对数字化的管理。工作资料主要包括:a)党史资料数字化方案;b)党史资料数字化审批书;c)党史资料数字化流程单;d)数据验收单;e)项目验收报告;f)党史资料数字化成果移交清单等。6.6.2应加强对党史资料数字化工作资料的管理,明确数字化过程中形成的工作资料的整理、归档、移交等管理要求。7党史资料出库7.1党史资料保管部门应按照党史资料数字化方案确定的数字化对象开展党史资料调取、清点、登记等前期准备工作,并提交《党史资料出库申请单》(参见附录C),经相关责任人批准后,按照各地党史资料库房管理要求为数字化对象办理出库手续,并与数字化部门共同清点无误后,对党史资料进行交接出库。7.2党史资料数字化过程中,应设置距离数字化加工场所较近的保管库以临时存放党史资料,对党史资料的领取与归还进行严格管理,做好检查、清点、登记等工作,确保党史资料的安全。7.3党史资料按介质可分为以下几类:a)纸质资料,根据纸质资料的出版情况进行分类,一般分为以下三类:1)公开出版物,经国家审定的出版单位出版、能向社会公开发行的出版物,主要包括公开出版的拥有ISBN的图书、各公开发表的报纸杂志等;2)内部资料性出版物,在本行业、本系统、本单位内部,用于指导工作、交流信息的非卖性单本成册或连续性折页、散页印刷品,一般拥有指定的内部标准号;3)其他出版物,主要包括手写书稿、剪报等;b)图像资料,主要包括图片、照片、幻灯片、胶卷等;c)视频资料,主要包括录像带、胶片等;d)音频资料,主要包括录音卡带、胶带(开盘带)等;e)实物资料,主要包括征集到的各种实物,拍照后以数字化照片形式导入数据库。8数字化前处理8.1确定扫描页宜将确定为数字化对象的党史资料全部扫描。如有不需要扫描的页面应加以标注。8.2编制页号8.2.1应对没有页号或页号不正确的党史资料重新编制页号。8.2.2重新编制页号时,应在统一位置书写页号,且不压盖党史资料内容。8.2.3书写页号所使用的笔、墨等不应破坏党史资料原件或对党史资料长期保存造成影响。8.2.4应将破损页面、缺页等特殊情况进行登记。6DB32/TXXXX—20238.3目录数据准备8.3.1按照目录数据库建立时制定的数据规则,对照党史资料原件内容,规范党史资料中的目录内容。8.3.2应对需要在目录数据库中进行标记的情况进行标记。8.4拆除装订8.4.1应以对党史资料的保护为原则确定是否拆除装订。如需拆除装订物,应注意保护党史资料不受损害,并对排列顺序不准确的党史资料进行重排。8.4.2特殊装订且拆除装订后需恢复的党史资料,在拆除装订物时应采用拍照等方式记录党史资料原貌,以便于恢复。8.5技术修复8.5.1纸质资料破损严重、无法直接进行扫描的资料,应先进行技术修复,对折皱、夹页、连页等影响扫描质量的原文件进行相应处理(如压平、单页分离),再进行扫描。8.5.2图像资料对残缺、褪色、偏色的进行补充和校色。如需提供原片,应补充相关资料。8.5.3音视频资料对音视频党史和文献资料载体进行外观检查,如出现以下情况,应对音视频党史和文献资料载体进行适度清洁或修复等技术处理:a)资料载体物理形态出现卷曲、变形、划伤、脆裂、粘连、磁粉脱落等情况;b)资料载体出现可见性微斑、变色、生霉等情况;c)资料载体出现断磁、受潮、消磁、灰尘附着等情况;d)影响音视频资料数字化的其他情况。检查资料载体是否存在已经损毁无法数字化的情况,对于认定为不能数字化的资料载体,送到省级党史部门做进一步检查认定。如遇恢复率较低的情况,应与提供单位协商解决。8.5.4实物资料对实物资料进行拍照,标注实物的尺寸大小质地,体现实物资料的形状和内容。8.6资料登记按照DB32/TXXXX-2023《党史资料数据规范第1部分:数据编目》第6章、第7章的要求,制作并填写《党史资料数字化加工登记单》(参见附录D),详细记录资料相关信息。8.7恢复装订扫描工作完成后,拆除装订物的资料应重新进行装订。恢复装订时,应注意保持资料的排列顺序不变,案卷左边和底边整齐,做到完整、准确、无遗漏。9目录数据库建立7DB32/TXXXX—20239.1应制定包括数据字段长度、字段类型、字段内容要求等的目录数据库数据规则,其制定应符合DB32/TXXXX-2023《党史资料数据规范第1部分:数据编目》对党史资料编目的要求。9.2应选择可转换为通用数据格式的数据库,数据库结构设计时应注意保持党史资料的内在联系。9.3将党史资料数字化前工作中对党史资料目录进行修改、补充的结果录入数据库,形成准确、完整的目录数据。9.4可采用计算机自动校对与人工校对相结合的方式,对目录数据的质量进行检查,检查内容包括编目项目的完整性、编目内容的规范性和准确性等。发现不合格的数据应及时进行修改。10资料扫描与采集10.1基本要求10.1.1党史资料扫描应根据党史资料原件实际情况、数字化目的、数字化规模、计算机网络和存储条件等选择相应的扫描设备,进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近党史资料原貌。10.1.2分幅扫描时,相邻图像之间应留有足够的重叠,并采用标板等方式明确说明分幅方法;同页有两个以上文件时,应分别扫描。若后期采用软件自动拼接的方式,重叠尺寸应不小于单幅图像对应原件尺寸的1/3。10.1.3利用专业的读取设备采集音视频信息,并采用正版软件进行数字化,可进行降噪、画面平滑等技术处理。10.2扫描设备10.2.1宜选择对党史资料实体破坏性小的扫描设备进行数字化,保护党史资料实体。10.2.2应采用平板扫描仪、专业不拆卷非接触光源扫描仪及高分辨率的拍摄机进行扫描,不应采用滚筒式扫描仪。超出所使用扫描仪扫描尺寸的党史资料可采用更大幅面扫描仪进行扫描,也可采用小幅面扫描仪分幅扫描后进行图像拼接的方式处理。10.2.3应遵循相关设备的使用规律,并进行定期维护、保养。10.3扫描色彩模式10.3.1宜全部采用彩色模式进行扫描,最大限度保留党史资料原件信息。10.3.2页面中有红头、印章或插有照片、彩色插图、多色彩文字等的党史资料,应采用彩色模式进行扫描。10.3.3页面为黑白两色,并且字迹清晰、不带插图的党史资料,可采用黑白二值模式进行扫描。10.3.4页面为黑白两色,但字迹清晰度差或带有插图的党史资料,可采用灰度模式进行扫描。10.4扫描分辨率10.4.1应综合考虑扫描后图像的清晰度、完整度和数字图像后期利用方式等因素进行扫描分辨率的选10.4.2扫描分辨率不应小于300dpi。如文字偏小、密集、清晰度较差时,扫描分辨率不宜小于600dpi。10.4.3如有COM输出、仿真复制、印刷出版等其他用途,可根据需要调整扫描分辨率:a)进行COM输出的党史资料,扫描分辨率不应小于300dpi;b)进行高精度仿真复制的党史资料,扫描分辨率不应小于600dpi;8DB32/TXXXX—2023c)进行印刷出版的党史资料,可结合党史资料幅面、印刷出版幅面、印刷精度要求等选择合适的分辨率。10.5存储格式10.5.1党史资料数字图像长期保存格式为JPG格式,保存任一方向上的尺寸误差不应超过3%,水平倾斜角度不应超过1°。图像压缩率的选择可根据实际应用的需求而定。10.5.2党史资料数字图像利用时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为OFD、PDF等其他格式。若转化则所有JPG图片应合并转化成PDF文件。10.5.3同一批党史资料应采用相同的存储格式。10.6扫描图像命名10.6.1应在资料编号为主文件名的基础上对数字图像命名。10.6.2应将数字图像存储为单页文件,并按主文件名与图像流水号的组合对图像命名。例如:命名为xxxxxxxx-xxx.jpg。10.6.3数字图像确需存储为多页文件时,可采用该党史资料的资料编号+4位序号对图像命名。示例1:97875118960870001.jpg、9787511896087示例2:320000_01_02_01_03_00000010001.jpg、320000_01_02_0110.7纸质资料扫描10.7.1常规纸质资料扫描按照10.2.2要求的扫描设备和扫描方式进行扫描,彩色模式下扫描精度不应低于300dpi,按照10.5要求进行存储,主文件名采取8位格式,文件名按约定的命名方法,命名为xxxxxxxxx.jpg。所有JPG图片合并转化成PDF文件。应在未改变原扫描图像的色彩、分辨率、格式、压缩等情况下进行数字图像处理。图像处理后应保证图像信息与原资料图像内容完全一致,不应删除页面任何有用信息,包括正文内容、页眉、页脚、手写注释和印鉴等。应清除干净扫描留下的所有黑线、指印或阴影,图像剪裁应保留到该页文献的外边缘(不包括书本叠页部分)。扫描图像整体倾斜不应超过1°;不应出现图像一部分倾斜或扭曲而影响阅读的情况。图片页面存在部分倾斜的,以页面中的文字纠正为准。方向不正确的图像应进行旋转还原,以符合阅读习惯。纸张质量造成的页面上零星的污点,若在页面视图下看不清楚,或该污点嵌在文本行中无法清除,可不清除,但应保证图像可读。10.7.2特殊纸质资料扫描年代久远、纸张状况较差,以及过薄、过软等的资料,若不适宜拆装和扫描的,可先使用拍照设备(高拍仪)进行拍照扫描,后将扫描文件组织成PDF文件。10.8图像资料扫描10.8.1传统冲洗的图像资料扫描精度不应低于600dpi,2寸以下的照片用600~1200dpi以上精度扫描,扫描后应对图片进行文字说明,包括:时间、地点、人物、事件、来源、单位等,而后以专题形式集结成册,附上必要的登记表、标题和说明,转换为PDF文件。图像格式可采用JPEG,应保证扫描精度。9DB32/TXXXX—202310.8.2幻灯片可通过幻灯机等设备进行数字化,在原有图像精度下转换为JPEG格式的文件,而后以专题形式集结成册,附上标题和说明,转换为PDF文件。10.8.3数字化的图像数码设备拍摄的,应在原有图像精度下转换为JPEG格式的文件;数字化矢量图像文件,应在600dpi下进行栅格化,保存为JPEG文件,而后以专题形式集结成册,附上标题和说明,转换为PDF文件,不应改变内嵌图像的格式与精度,图像容量不受限制。10.8.4图像存储所有资料(纸质、照片、底片等)形成的图像文件均应采用JPG格式存储。转存一套双层PDF格式。图像文件以文件夹命名,文件夹命名应与文件级目录中的ISBN命名相一致,文件夹内单页图像以8位流水号命名。图像排序不应出现颠倒、缺页、重页或错页等情况,扫描无漏页,扫描图像完整性、准确率应达到100%。应科学建立党史资料数字图像的存储路径,确保数据挂接的准确性。10.8.5图像检查数字化单位应在扫描完成后立即进行质检,检查各级别图像数据的质量。数据检查的内容和要求如a)图像文件(各种格式)放大到1:1状态,逐页检查。检查文件是否有透光、透字、彩点、彩线、太淡、太浓、黑边、污点、歪斜、模糊(马赛克等)或图像内容不完整等现象。若不符合图像质量要求应进行图像校正或重新扫描(拍照);b)发现文件漏扫时,应及时补扫并正确插入图像;c)拼接图像接缝处无错位、无缝吻合,不应出现白边、内容缺失和明显的歪斜;d)是否符合扫描(拍照)规格要求和技术参数;e)所有文件保存位置正确,可有效打开和显示;f)图像名称正确,同一数据流水号按顺序排列命名,不应有跳号情况;图像文件的排列顺序应与原资料一致;g)按照命名规则,检查目录、文件、数据库、文档、介质等名称是否正确。检查各类说明、统计、验收等文档是否齐全。10.9报纸资料扫描10.9.1扫描版面图像,按400dpi精度对报纸整版扫描,确保版面文件的完整性。10.9.2保留400dpi精度的原始扫描版面图像文件,修图后版面图不低于400dpi精度,PDF版面数据不低于400dpi。10.9.3图片数据库资料格式采用JPG压缩格式。黑白版面及图片采用灰度技术,套红、彩色版面及图片采用彩色技术。10.9.4纠正扫描图像的倾斜度,纠正后倾斜度不超过2°。10.9.5全部图片均应裁切,标引后以原扫描大小原色彩交付。DB32/TXXXX—202310.10音视频资料采集10.10.1模拟信号的音视频资料载体信息采集后,应保留一份原始档案资料,再进行数据压缩处理、建立字幕文件,实现文字搜索定位。应按照11.3音视频资料处理中的技术参数要求进行数字化转换形成数字副本,并建立目录数据库。10.10.2数字信号的音视频资料拷贝采集后,按原格式保留一份资料后进行降噪、建立字幕文件等数字化处理。10.10.3有多件录音录像电子文件反映相同场景或主题内容的,应挑选一件影像清晰、人物端正、声音清楚、画面构图平衡的收集、归档。10.10.4原始的录音录像文件素材和后期编辑制作的录音录像文件都应收集保存,并对档案实体进行系统分类、组合、排列、编号,使之有序化。10.11实物资料扫描10.11.1对实物资料进行数码拍照。一个角度无法反映实物形状的,应多个角度进行拍照。印章等实物,应将印章内容体现出来。10.11.2拍照后的实物资料数字化制作过程同图片资料类处理方法。10.11.3珍贵且尺寸不规则的党史资料,可采用标板、标尺等方式标识原件大小等信息,以直观显示原件大小。10.12扫描后图像处理10.12.1图像拼接对分幅扫描形成的多幅数字图像,应进行拼接处理,合并为一个完整的图像,保证党史资料数字图像的整体性。拼接时应确保拼接处平滑地融合,拼接后整幅图像无明显拼接痕迹。10.12.2旋转及纠偏对不符合阅读方向的数字图像应进行旋转还原。对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。10.12.3裁边如需对数字图像进行裁边处理,应在距页边最外延至少2~3mm处裁剪图像。10.12.4去污去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,应遵循展现党史资料原貌的原则,处理过程中不应去除党史资料页面原有的纸张褪变斑点、水渍、污点、装订孔等痕迹。10.12.5图像质量检查应进行图像质量检查,发现质量问题及时进行整改:a)数字图像不完整、无法清晰识别或图像失真度较大时,应重新扫描;b)对于漏扫、重扫、多扫等情况,应及时改正;c)数字图像的排列顺序与党史资料原件不一致时,应及时进行调整;d)对数字图像拼接、旋转及纠偏、裁边、去污等处理情况进行检查,发现不符合图像质量要求时,应重新进行图像处理。DB32/TXXXX—202311资料处理11.1除报纸外的文字及图像资料处理11.1.1OCR识别依据数字化加工登记单,将需要OCR的资料进行OCR逐页识别校对,差错率应保持在千分之一以内。PDF文件应根据图像尺寸、颜色、数据存储量,在确保图像清晰的情况下,压缩图像文件所占空间至最小。手写文档等不适宜OCR识别的资料,应将每份资料的标题、目录等通过人工干预方式进行识别标注。11.1.2PDF合并转化成册装订的资料,一册资料合并转化为一个多页的PDF文件;按卷归档的资料由多个成册资料按照顺序进行编号组成。PDF文件的命名即该资料的加工编号。11.1.3目录导航编辑成册装订的资料,应将输出后的双层PDF进行目录标签提取,提取级别上限为三级。提取过程中应按照原书页面顺序进行提取,不应出现章节丢失或级别划分错误等情况,若书本目录缺失,则由人工编制两级目录进行编目。11.2报纸资料处理11.2.1文字处理应按照以下要求进行文字处理:a)全文数字化。应扫描报纸中缝,并进行数字化加工;b)全文数字化部分的文字处理差错率应在万分之一以下;c)标引文字差错率应在万分之一以下;d)文章按照主报、子报、日期、版次、栏目等层次组织;e)转版文章应连成一篇文章,在两个版面上,点击都能看到文章全文;f)特定文章的差错标准如下:1)政治人物——历届党和国家领导人名单,历届省/市委和省/市政府领导人名单,全国人大、政协领导人名单,省/市人大、政协的领导人和主席团人员名单,应正确无误;2)国家及本省领导人的讲话、报告,党章、政府工作报告,国家及本省颁布的法令法规、行政条例、规章(含公告),应正确无误;3)版名、栏目、出版日期应正确无误;4)易引起国际、地区、民族、宗教等纠纷的国名、地区名、人名等词句,应正确无误。11.2.2版面文件制作将纸质报纸制作生成双层PDF格式文件,版面数据完整性应达到100%。11.2.3文件夹命名及存放文件夹命名应遵循以下要求:a)以报纸为单位组织成文件的第一层目录,目录名称为报名简称。如:江苏日报,命名为jsrb;DB32/TXXXX—2023b)在报名简称的目录下,以年月日为组织单位形成第二层目录,目录名为YYYY-MM-DD,其中MM和DD表示2位的日期,如:2022年12月12日,表示为2022-12-12。单位数的日期表示为0+日期,如:2022年9月9日,表示为2022-09-09;c)在年月日形成的目录下,以各版版名形成第三层目录:1)若为纯数字,如:01版,应命名为01;2)若为字母加数字命名的版面,如:第A02版,应命名为A02;3)无明显版名的版面,版名按版次名命名,如:01版,02版,03版;4)通版版次命名,选择序号比较小的作为版次,如:A2A3,应命名为A02;5)版面版次为单位数,按两位数补齐,如:01;6)有叠次的按实际命名,如:A01,B01。文件夹存放应遵循以下要求:a)所有文件(除分类规则文件外)均存放在年月日表示的第四层目录下,包括:XML文件,PDF版面文件,JPG版面文件,新闻图文件;b)表格、公式可作图片处理;c)去掉版面上笔记、公章等痕迹。有排版生成的报刊电子数据,宜使用对应的标引工具进行反解。没有排版报刊数据或不使用推荐标引系统的,可参照附录E生成XML文件。交付成果标引好的XML、双层PDF、JPG版面文件、JPG插图文件,彩色版面的色彩模式为RGB,黑白版面色彩模式为Grayscale。11.3音视频资料处理11.3.1基本要求采集完成后的原始音视频文件在提供利用前,可针对原始音视频文件的拷贝文件进行文件转换、降噪、校色及画面稳定等处理。用于长期保存的音视频文件应是原始音视频文件,而非处理后的文件。11.3.2信息处理音频资料数字化的技术参数应满足以下要求:a)采样率:不低于44.1kHz。对于珍贵或有特别用途的音频资料,采样率不低于96kHz;b)量化位数:24位;c)声道:以原始声道数记录;d)文件格式:模拟信号原始档案资料采用WAVE格式,数字资料按原格式数据采集与保存;e)数字化处理:所有采集到的资料采用MPEG-4AAC编码处理,应采用可变码率压缩,平均码率为160kbps。数字化成果资料用Matroska多媒体容器合并转化音频文件和字幕文件,音频文件是MKA格式,字幕文件是SRT格式,背景可配上相关人物相片或相关图片。对于配套的字幕数据,字符编码采用UTF-8,保存时不可添加BOM。视频资料数字化的技术参数应满足以下要求:a)视频编码格式:采用H.264标准编码。特别珍贵和特殊用途的录像资料,可采用无压缩的方式;b)帧率:与原录像资料相同;c)画面宽高比:与原录像资料相同;DB32/TXXXX—2023d)分辨率:采集为标清视频时为720×576(原资料为PAL制式和SECAM制式)或720×480(原资料为NTSC制式);采集为高清视频时分辨率不低于1920×1080;e)色彩采样率:采集为标清视频时不低于4:2:0,采集为高清视频时不低于4:2:2;f)视频量化位数:不低于8bit。对于特别珍贵的资料应不低于10bit;g)视频比特率:采集为标清视频时不低于8Mbit/s,采集为高清视频时不低于16Mbit/s;h)音频编码格式:PCM;i)音频采样率:不低于48kHz;j)音频量化位数:不低于16bit。对于特别珍贵的资料应不低于24bit;k)声道:以原始声道数记录;l)文件格式:AVI或MXF格式;m)数字化成果:以Matroska格式合并转化,视频文件的扩展名为.mkv;字幕文件采用SRT格式,字符编码采用UTF-8,保存时不可添加BOM。11.4资料存储11.4.1存储要求文字及图像资料.1所有经过识别和标注的资料内容,文字差错率应控制在千分之一以内。元数据编目差错率在千分之一以内。.2双层PDF数据应完整,不应出现缺页、重页、页码顺序颠倒等问题。双层PDF文件的图像层和文字层的文字对位准确。.3整本PDF应制作书签。书签是电子书的目录,内容和纸质书的目录一致。书签的功能是用户点击书签的某一章节,电子书会自动显示为相应页。打开PDF文件时,自动显示书签,书签只展开到第一级目录。成册资料的PDF目录导航文字内容差错率千分之一以内,链接要求100%准确。.4打开一本电子文献阅览并对文字放大时,应保证在放大到200%的时候,字迹清晰,笔画连续,无断裂、缺块的现象。音视频资料.1音视频数据最终都应以Matroska格式合并转化为文件形式,3D内容使用左右格式编码,可在其中合并转化相关的章节信息与图片文件,图片文件精度应不低于300dpi,以JPEG格式编码。.2将音视频文件的作者、标题、说明、关键字等属性加入Matroska容器的标签中,属性名称应遵循Matroska可扩展的开放标准音视频容器中的定义。11.4.2存储格式所有文字及图像数字化资料以PDF/A-1a格式存储;视频数字化资料以MKV格式存储;音频数字化资料以MKA格式存储;配套字幕数据以SRT格式存储。11.4.3文件命名规则数字化资料命名.1数字化资料按照命名规则进行命名:6位当地行政区划代码+2位资料大类区分码+2位出版内外区分码+2位资料时期区分码+2位资料细类区分码+7位顺序区分码。具体见下图1。DB32/TXXXX—2023图1数字化资料命名规则.2行政区划代码、大类区分码等编制说明见表1。表1数字化资料命名说明123456实物资料标签命名DB32/TXXXX—2023实物资料应加贴标签。标签的命名和数字化资料命名一致。12数据挂接12.1数字化转换过程中形成的目录数据库与图像数据库,通过质检环节确认为合格后,应借助相关软件进行批量挂接,比对、剔除重复件,实现目录数据与数字图像的关联。12.2逐条对挂接结果进行检查,发现错误及时进行纠正,编目条目与对应图像文件挂接正确率应达到100%。检查内容包括:a)目录数据与党史资料数字图像对应的准确性;b)已挂接数字图像与实际扫描数量的一致性;c)数字图像是否能正常打开等。13数字化成果验收与移交13.1验收方式党史部门应成立专门的验收组,采用系统自动检验与人工检验相结合的方式对党史资料数字化成果进行验收检验。13.2验收内容13.2.1党史资料数字化成果包括党史资料目录数据、元数据、数字图像、数字化中产生的工作文件、存储载体等。13.2.2应对目录数据进行验收,主要包括数据库中各条目的内容、格式等的准确程度,必填项是否填写等。13.2.3应对元数据进行验收,主要包括元数据元素的完整性和赋值规范性等。13.2.4应对数字图像进行验收,主要包括数字化参数、存储路径、命名的准确性、图像的完整性、排列顺序的准确性、图像质量等。13.2.5应对音视频文件进行验收,主要包括清晰度、完整性、字幕的准确性、音画是否同步等。13.2.6应对数据挂接进行验收,主要包括目录数据与其对应的数字图像的挂接的准确性等。13.2.7应对工作文件进行验收,主要包括工作文件的完整性、规范性等。13.2.8应对存储载体进行验收,主要包括载体的可用性、有无病毒等。13.3验收指标13.3.1总体要求能采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验,检验合格率应为100%。不能用计算机自动检验的项目,可根据情况以件或卷为单位采用抽检的方式进行人工检验,抽检比率不应低于5%,对于数据库条目与数字图像内容对应的准确性,抽检合格率应为100%,其他内容的抽检合格率应不低于95%。13.3.2图像扫描和目录建库数据验收经数字化单位自检符合要求后,在数字化单位无偿提供的客户质检管理终端上,每批以抽检50%的方式进行图像扫描和目录建库数据的验收,其中:党史资料号、文件夹命名、扫描无漏页、扫描图像完DB32/TXXXX—2023整性的准确率应达到100%。如发现一条错误应退回重检,且检查验收方不提供错误数据。其他数据项允许差错率控制在1%以内。13.3.3文件完整性检查对PDF文件的清晰度、倾斜度、失真度等进行检查。如发现不符合质量要求的文件,应重新进行扫描处理。由于操作不当导致扫描文件不完整或无法清晰识别时,应重新扫描。检查验收方不提供错误信13.3.4资料数据挂接验收数字化单位自检符合规定要求后,每批以抽检50%的方式进行数据验收。数据挂接准确率应达到100%,如发现一条未挂接数据,退回重检,且检查验收方不提供错误数据。13.3.5资料实体验收资料实体验收应逐卷清点,按资料数量、文件状况、卷内文件页数与顺序、装订要求等进行检查,如发现资料丢失、损坏、圈划或涂改等应追究法律责任;顺序错误、装订不符要求、掉页、卷间文件颠倒等视为差错,合格率达到98%(含)以上予以验收通过。13.4验收结论13.4.1党史资料数字化成果质量检验达到本文件13.2和13.3的要求,予以验收“通过”。验收未通过应视情况进行返工或修改,后重新进行验收。13.4.2验收完成后应经验收组成员签字。验收“通过”的结论,应经相关项目负责人和质检人员审查签字,并提交党史部门审核确认后方有效。13.5移交13.5.1数字化成果资料验收合格后,制作单位应按照应标党史资料数字化方案完善各种文件资料,连同原始资料、数字化资料一起移交给各市党史部门,履行交接手续,并上交省级党史部门一份。13.5.2省级党史部门将统一对各市采集处理完成的原始资料和数字化资料进行专业存储和开放应用。14党史资料归还入库14.1原始资料归还入库14.1.1资料装订党史资料数字化完成后,拆除过装订物的党史资料如需装订,应保持党史资料原貌,做到安全、准确、无遗漏。14.1.2资料归还入库对党史资料进行处理和清点,并履行党史资料入库手续。14.2数字化资料备份14.2.1备份范围经验收合格的完整数据。DB32/TXXXX—202314.2.2备份方式每完成一个类别的数据验收后,保存未经压缩的单页TIFF格式硬盘两套,另转存两套双层PDF格式硬盘。存储数据的硬盘由数字化单位无偿提供。为保证数据安全性,备份可选择多样化的载体,可采用在线、离线等多种方式相结合进行多套备份,并注意异地保存。14.2.3备份数据检验检验内容主要包括备份数据能否打开、数据信息是否完整、文件数量及大小是否准确等。对移交的硬盘进行质量检查,检查硬盘外观及硬盘质量,目录完整性、图像是否可以打开等情况。如发现硬盘损坏、目录数据不完整、图像不能打开,图像不完整等情况,数字化单位应按要求无偿对数据重新进行备份。14.2.4备份标签离线备份,如移动硬盘、光盘、磁带存储等,应做好介质上的标签,以便查找和管理。14.2.5备份登记应进行备份登记,填写《党史资料数字化备份管理登记表》(参见附录F),做好备份时间、备份人员、所属系统、备份方式、备份内容、存储介质、检查人等内容的登记工作。DB32/TXXXX—2023(规范性)党史资料数字化安全管理制度A.1党史资料数字化安全管理制度A.1.1工作区域应安装无死角监控探头全天监控。A.1.2工作人员应佩戴工牌,非工作人员不应进入作业区。A.1.3工作人员应签订保密协议。A.1.4在作业区不应携带及使用电子设备,如手机、U盘等。A.1.5工作电脑只提供内网,不应开通因特网权限。A.1.6不应携带任何火源、食品、饮料等进入加工场所。A.1.7信息内容的收集、分析、分类、汇总应由单位或部门指定的专人进行监管。A.1.8在省市县之间通过网络传输数据时,应采用HTTPS协议。传输前应根据省级党史部门规定的统一加解密方法和密钥,对内容进行加密。通过物理介质传递电子资料时,也应对内容进行加密。A.1.9数字化竣工移交后应格式化本地存储。DB32/TXXXX—2023(规范性)党史资料数字化加工保密管理制度B.1党史资料数字化加工保密管理制度B.1.1党史资料管理人员和数字化加工单位均应树立保密观念,共同保守党史资料机密。B.1.2对各类党史资料均应按合同规定的范围进行出入库、扫描,并严格履行手续。不应对不在扫描范围的党史资料进行翻阅、摘抄、拍照、翻印或复制。B.1.3应严格管理扫描的党史资料,不准许将党史资料私自外传,对党史资料内容不准许摘抄、拍照、翻印或复制。B.1.4凡涉及党史机密的人员一律不准许在家庭、子女及无关人员面前谈论有关党史机密内容,不应在普通电话、明码电报和私人通信中暴露党史机密。B.1.5数字化加工单位对所扫描党史资料应妥善保管,及时入库,不准许转借他人,不准许携带公出、探亲访友、出入公共场所等。B.1.6对目录有错误、失去保存价值的党史资料文件应及时沟通处理,不应以废纸出售。B.1.7发生失密、泄密和资料被盗事件时,应立即报告主管领导。当事者应写出书面报告。对违反保密规定、造成失泄密和被盗密者,应按其性质及情节给予严肃处理。B.1.8对电子化扫描的党史资料在扫描后宜按原顺序入库;对需要作出调整的党史资料,应及时向领导报告,协商出对问题资料的处理办法。不应私自处理解决。B.1.9在党史资料加工场所不应携带手机、U盘、相机等可存储设备。在加工期间所需要的电子设备、存储装置不应携带出加工场所。B.1.10出入库的党史资料应做好出入库登记,并且做好每日扫描进度的登记。B.1.11党史资料加工场所工作人员上下班及中午休息时间应严格签到。B.1.12在党史资料数字化加工工作结束后,所有在期间使用的、具有存储功能的设备,都应将存储介质移交党史部门接收,不准许带出。在加工期间产生的废弃的资料应统一交由党史部门处理。DB32/TXXXX—2023(资料性)党史资料出库申请单C.1党史资料出库申请单党史资料出库申请单见表C.1。表C.1党史资料出库申请单1234DB32/TXXXX—2023(资料性)党史资料数字化加工登记单D.1党史资料数字化加工登记单党史资料数字化加工登记单见表D.1。表D.1党史资料数字化加工登记单格隔开)开)(多个用*****变是DB32/TXXXX—2023(资料性)报刊数据标引生成文件XML样例E.1报刊数据标引生成文件XML样例<?xmlversion="1.0"encoding="utf-8"?><版面><大样><日期>2022-04-25</日期><版次>01</版次><版名>要闻</版名><组版人/><报名>人民日报</报名><版面真名/><文件名>rb01RBXW1C425.fit</文件名><签发部门/><签发人/><版面编辑>鞠鹏</版面编辑><版面高>14605</版面高><版面宽>9384</版面宽><文本篇数>8</文本篇数><图片篇数>3</图片篇数><PDF><文件名>rb01RBXW1C425.pdf</文件名></PDF><版面图><文件名>rb01RBXW1C425b.jpg</文件名><高>544</高><宽>350</宽><真图><文件名>rb01RBXW1C425.jpg</文件名><高>5905</高><宽>3795</宽></真图><简图><文件名>rb01RBXW1C425b.jpg</文件名><高>544</高><宽>350</宽></简图><图标>DB32/TXXXX—2023<文件名>rb01RBXW1C425i.jpg</文件名><高>100</高><宽>64</宽></图标></版面图></大样><小样><发布类型>发布类型</发布类型><发布>1</发布><信息ID>人民日报012021-04-2500033</信息ID><来源/><引题><![CDATA[]]></引题><标题><![CDATA[国家主席习近平发表二〇二一年新年贺词]]></标题><副题><![CDATA[]]></副题><摘要><![CDATA[]]></摘要><作者>鞠鹏</作者><通讯员/><栏目/><图片说明/><下转/><上接/><序号>1</序号><分类/><体裁/><转载/><文件名>zll7465.txt</文件名><字数>1244</字数><版面图映射><顶点个数>10</顶点个数><顶点>0.01%,11.81%</顶点><顶点>70.59%,11.81%</顶点><顶点>70.59%,38.58%</顶点><顶点>0.01%,38.58%</顶点><顶点>0.01%,11.81%</顶点><顶点>-0.01%,11.81%</顶点><顶点>0.01%,11.81%</顶点><顶点>0.01%,24.41%</顶点><顶点>-0.01%,24.41%</顶点><顶点>-0.01%,11.81%</顶点></版面图映射><内容><![CDATA[■记者鞠鹏DB32/TXXXX—2023■2020年是极不平凡的一年。面对突如其来的新冠肺炎疫情,我们以人民至上、生命至上诠释了人间大爱,用众志成城、坚忍不拔书写了抗疫史诗。我们克服疫情影响,统筹疫情防控和经济社会发展取得重大成果。“十三五”圆满收官,“十四五”全面擘画。全面建成小康社会取得伟大历史性成就,决战脱贫攻坚取得决定性胜利。改革开放创造了发展奇迹,今后还要以更大气魄深化改革、扩大开放,续写更多“春天的故事”。经历了一年来的风雨,我们比任何时候都更加深切体会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论