版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章数字内容加工、管理技术本章学习要点●掌握数字内容加工与管理工作内容;●了解数字内容加工技术及其应用状况;●了解数字内容管理技术及其应用状况。第一节数字内容加工与管理概述数字内容加工与管理是数字出版的基础工作。数字内容加工即按照一定规范,将数字内容进行统一生产、制作、修改、拆分、整合,以满足用户的使用目的或达到行业常用标准水平的过程。数字内容管理即将数字内容按照一定的逻辑组织方式,进行收集、整理、存贮、利用的过程。数字内容加工一般要通过系列软件加以实现,如OCR软件、格式转换软件等;数字内容管理一般依托一个大型的资源管理系统,如知识库、数据库系统等。第二节数字内容加工技术数字内容加工技术包含三种类型:版面理解技术、编辑工具集和XML编辑工具集。而在一些数字出版实践中,经常根据复杂程度将数字内容加工技术分为初加工深加工两种类型。国家数字复合出版系统工程的相关技术可以看作一种理论性技术,而初加工与深加工技术可以看作一种操作技术。一、国家数字复合出版系统工程的内容加工技术二、数字出版实践中常用的相关技术三、数字内容加工技术的作用一、国家数字复合出版系统工程的内容加工技术国家数字复合出版系统工程可以理解为一种理论性、通用性的技术。首先,版面理解技术,主要指文档资产结构化整理工作;其次,编辑工具集,主要为作者和编辑提供一组专业化的内容编辑工具;最后,XML编辑工具集,主要用于图书、期刊和新闻文稿的XML格式转换和编辑处理过程,包括Word或Excel文件转换为XML文件之前的整理工作、XML转换工作、转换后的XML整理工作和XML编辑工作。在实际应用中,内容加工技术也可以分为以下八种类型:一是文档编辑工具类二是辅助翻译工具类三是文件格式转换工具类四是缺字补字管理工具类五是特征抽取与检查工具类六是水印处理工具类七是版面理解技术类八是自动标引工具类二、数字出版实践中常用的相关技术(一)OCR技术OCR技术主要利用光学技术和计算机技术,通过检测印刷体字符每个像素的亮、暗模式,将其转换成一个黑白图像的文件,然后再使用识别手段将黑白图像文件转换成计算机可以识别的文字。其工业化流程主要包括六个方面:1文件扫描和图像处理(一)OCR技术1文件扫描和图像处理首先是扫描前的文件整理环节。对纸质文件逐页检查并把影响扫描的污损、粘连等问题页处理好。如果文件可以拆分扫描则要将文件拆分好,并在扫描结束后重新装订。接着是文件扫描环节。目前的快速扫描技术可以每秒钟完成50页A4纸的扫描工作。扫描后的图片一般会按照设定格式存在规定存储设备中,图片的像素要求一般在300dpi以上。文件扫描常用的图像格式有TIF、JPEG、PNG等,目前较为通用的是无损压缩的TIF格式。扫描完成后是图像处理环节。这一环节的主要工作是对扫描后的图像去脏、纠偏,调整版心,使图像更适合阅读和识别。图像处理环节可以使用通用图像处理软件(Photoshop、InDesign、AI等)或专门工具软件。(一)OCR技术2版面分析图像处理后的数据在进行OCR识别前需要进行版面分析。版面分析就是标记各类内容区域并确定其属性的过程。例如,横排文本区、竖排文本区、公式区、表格区和图像区等。OCR识别引擎会根据区域的属性识别需要识别的区域,而公式、分子式等不易识别区域就会以图片的方式存储并应用。版面分析使用专门软件工具处理,可以自动处理,也可以手动处理。(一)OCR技术3
OCR识别OCR识别是指把图像中的文字、符号等转化为计算机编码的过程。现代OCR识别技术已经可以处理多语种混排、多字体混排、简繁体混排和表格等复杂的文本类型,同时识别率可达到95%以上。在纸质图书加工系统中,一般都会采用多个识别技术方案同时识别,再对识别结果进行智能比较,以提高识别率。OCR识别过程是全自动批量处理的。OCR识别后的文本还会有较多的编码错误和格式错误,需要人工校对和修改。校对分为横向校对和纵向校对。(一)OCR技术4纵向校对纵向校对是将文件中的每个字符逐个切分成小图形,并将程序认为相同的图形逐一排列。当我们打开这一工序的界面时,屏幕显示的都是同样的字符。但在其中会含有一些相似的字符,如汉字中的“土”和“士”,英文中的“X”与“x”等。这就要求操作人员对照原图形文件。如果是程序转换错误,要根据图像加以改正,从而保持与原文一致。由于同一屏幕出现的是同一个字符,因此,如有不同,操作人员极易发现并加以改正。经过这道工序,可基本完成错字符的校对修改。(一)OCR技术5横向校对横向校对采用类似传统的人工校对方法,即通过人工逐字逐句地将识别结果与原始图像进行比对,找到错误的地方并修改。基于前道工序(纵向校对)的工作,横向校对工作是将转换后的文本文件对照原文件,在版式上加以修正。要求操作时,现有文件尽量保持原版式。操作界面分为上下两个部分:上半部分是已经转换完成、需要校对的文本文件,下半部分则是用来对照的原文件的扫描图像。在上半部分我们同时可以看到一行底色略深的文字,它与下面紧挨的一行内容相同。这是在程序设计时,将当前校对一行的图像剪切提取,摆放在正在校对一行的上面,便于操作员比照校对,相当于纸件校对的折校。(一)OCR技术6文审与校验最后要对数字化的文件进行文审校验,根据质检标准调整数据的格式,改正之前未能发现的错误,差错率一般要求控制在万分之三以内。OCR技术能够提供基础的TXT文件,然后再根据客户要求,进行深加工,形成最终数据文件。OCR技术对应国家数字复合出版系统工程中的版面理解技术,是对版面理解技术的深化。多核心(多重)OCR技术则进一步提高了识别效率。多核心OCR技术即利用多个不同OCR系统进行文字识别处理,然后将多个系统的文字识别结果进行比对。通常,经三个系统识别一致的文件,文字差错率不超过十万分之一,因此不需要进行人工校对。这样,多核心的比对过滤掉了大量有错误的文字,大大提高了识别和校对效率。(二)XML技术1
XML概念XML(ExtensibleMarkupLanguage),即可扩展标记语言。标记指计算机所能理解的信息符号,可以用来标记数据和定义数据类型。通过此种标记,计算机可以处理包含各种信息的文本等。(二)XML技术2
XML发展XML是从标准通用标记语言(SGML)演化而来的。SGML是一种在Web出现之前就早已存在的用标记来描述文档资料的通用语言。由于SGML比较复杂,人们推出了HTML。随着Web应用的不断深入,HTML也难以适应技术发展需要。于是Web标准化组织W3C建议使用一种精简的SGML版本——XML。XML与SGML一样,是一个用来定义其他语言的元语言。与SGML相比,XML开放性强,简单易懂,是一门既无标签集也无语法的新一代标记语言。(二)XML技术3
XML功能(1)XML可以从HTML中分离数据,即能够在HTML文件之外将数据存储在XML文档中,这样可以使开发者集中精力使用HTML做好数据的显示和布局工作,并确保数据改动时不会导致HTML文件也需要改动,从而方便维护页面。(2)XML可用于数据共享。(3)XML可应用于B2B商业模式中,例如在网络中交换金融信息。(4)XML可以充分利用数据。(5)XML可以用于创建新的语言。比如,WAP和WML语言都由XML发展而来。(二)XML技术4XML编辑加工的流程对XML的编辑加工即内容结构化加工。首先,根据不同类型图书的知识体系特点,通过自动分析和人机交互两种方式对图书资源进行元数据标引。然后,按照图书目录拆分章节内容,包括章节下的文本段落、图片、表格、公式等内容。最后,将标引和拆分完后生成的数据导出为XML、PDF、EPUB、Word等文档格式。图书的XML加工流程如下:(1)安装编辑加工软件;(2)分析文件;(3)制作;(4)设置目录级别;(5)元数据提取;(6)导出XML;(7)使用XML编辑器检查文件;(8)使用DTD/Schema校验XML结构规范。(二)XML技术5
XML数字出版标准按照2014年国家新闻出版广电总局数字出版司发布的《图书数字资源内容标引规则》,结合图书的结构建立DTD/Schema。DTD(DocumentTypeDefinition)是一种定义标记语言的语言,它可以定义XML文件使用的标记、属性和实体以及它们之间的嵌套关系。DTD相当于XML的法律性文件,如果不满足DTD文件的约束,就不能称为一个有效的XML文件。(二)XML技术6
XML数据转换一个基于XML的内容深加工系统,包含了内容预处理、格式转换、内容校验等环节。内容前期处理以兼容多种源文件格式的内容预处理系统为核心。该系统采用转换模板配置的方式,以满足不同项目对各类排版文件前期预处理的转换要求。数据成品转换以兼容多项目标准的多格式数字内容制作系统为核心。该系统采用输出标准模板配置的方式来满足各项目多格式产品输出标准。纸质资源利用扫描识别系统实现高效转换,电子资源利用排版文件反解技术实现高效转换。质检管理以兼容多项目标准的加工数据内容校验系统为核心。该系统可针对XML、HTML、EPUB等格式电子书、图片、封面等,分别按照各项目标准配置质检指标,实现批量数据一次处理,保障数据质检效果。基于XML的内容加工界面三、数字内容加工技术的作用数字内容加工的目标是实现数字内容产品更好地传播和利用。目前产业环境中,相关技术能够实现以下目标。(一)高效实现数据格式转换(二)精准实现内容结构标引(一)高效实现数据格式转换数字出版中的经常性数据转换是将方正书版文件、飞翔文件、WPS文件、InDesign文件和Word文件等排版文件转换输出为PDF格式的文件。在实际工作中,会经常出现的问题有文字乱码、内容缺失、版面错页(跑版)、英文单词间空格丢失等。数字内容加工工具有效地解决了这些问题。格式转换后的PDF文件按其中图片的质量可分为浏览级PDF和印刷级PDF,浏览级可作为成品数据应用到电子图书产品中。数字内容也包括图像及音视频内容,如图像处理技术涉及图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等,音视频处理技术涉及音视频的编码、压缩、转换、还原等,这些也属于广义的数据格式转换范畴。(二)精准实现内容结构标引传统出版物的内容标引受限于载体,所以多数侧重于内容的外部特征,例如标题、关键词、作者、作品分类、载体以及出版者等。而数字内容拓展到了用户生成内容、专业生成内容、职业生成内容(Occupationally
GeneratedContent,OGC)以及设备驱动内容(DeviceGeneratedContent,DGC)等多种内容生成模式。同时,数字内容既有文字、图像、音频、视频以及AR/VR等不同形式,也有融这些交付形式于一体的综合形式。借助于当前的标引工具,可以精准地对这些内容进行有序化处理,并利用一定的规则、技术和方法,通过对内容的深度挖掘,精确表达内容之间的逻辑关系。第三节数字内容管理技术一、信息资源管理系统二、出版ERP一、信息资源管理系统(一)信息资源管理系统概述信息资源管理系统是对加工后的数字内容进行全面管理的系统,它对数字内容进行采集、分类、存储、发布等流程化管理。信息资源管理系统的目标是为数字出版单位提供一整套统一编目、统一存储、统一管理的平台,将数字化的图书、期刊、图像、音频、视频等多种资源建立关联关系,实现数字资源快速、便捷、高效地调用和产品重组,为出版单位的数字资源长期保存、检索、加工、发布、服务提供数据支撑。信息资源管理系统一般由底层数据库及平台页面、应用软件等部分组装在一起形成完整的平台。(二)信息资源管理系统运行1数字内容的采集在信息资源管理系统进行数字内容采集时,需要内容使用权所有者运用模板采集、标准采集或直接上传等方式上传内容。模板采集指上传者从系统下载符合XML要求的Excel表单,填写数字内容的元数据信息和资源路径,然后上传数字内容。标准采集指在选定资源类型后,指定文件路径,系统将数字内容元数据信息、源文件和成品文件同时采集入库。除了内容上传之外,还有数据转储与网络爬虫采集等数字内容采集方式。(二)信息资源管理系统运行2数字内容的存储经过分类或者主题标引的数字内容采集完成后,就进入了存储环节。数字内容存储对象包括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。这些内容以某种格式记录在计算机内部或外部存储介质上,如磁盘和磁带都属于存储介质。数字内容存储组织方式因存储介质而异。数字内容存储过程中,经常会涉及数据迁移和云存储两种存储模式。数据迁移,又称分级存储管理(HerarchicalStorageManagement),是一种将离线存储与在线存储融合的技术。云存储是一种网上在线存储的模式,即把数字内容存放在第三方托管的多台虚拟服务器(非专属的服务器)上。(二)信息资源管理系统运行3数字内容的管理信息资源管理系统采用源文档库、中间文档库、产品文档库的三级库结构对数字内容资源实施管理。源文档库将存储所有电子文档和其他数字资源,以方便后续数字内容产品的编辑工作;中间文档库将根据开发需求,构建各类素材库,将加工完成的素材分别存储于相应素材库中,以供数字内容产品研发使用;产品文档存储于用于分发的第三级文档库,如基于电子书的EPUB、MOBI、OCF等文档,基于POD的PDF文档,基于各类数据库产品的特定数据文档等。数字内容管理包括图书资源的元数据信息和采集的资源文件的管理。(二)信息资源管理系统运行4数字内容的发布数字内容的发布通常都是通过一个直接面向用户的网站实现的,网站会提供数字内容搜索引擎,同时也会直接推送数字内容到客户端。全媒体数字内容管理系统二、出版ERP(一)出版ERP系统总体描述出版ERP系统将出版企业所有资源进行整合集成管理,以信息管理为核心、生产活动为主导,推动出版企业管理信息的标准化,业务流程的规范化,财务、业务整体化和一体化,保障全流程的单品种管理,促进构建以出版物单品种的准确可量化核算为基础的全方位业务绩效体系。出版ERP系统建设的总体目标是:建立综合业务管理平台,实现对图书产销存全流程的监控,实现图书单品种的考核,提高预算与绩效考核制度的可执行性。(二)ERP系统主要功能1加强数字内容统一管理ERP系统对于每个产品都提供了单独的附件管理功能,其中与数字内容相关的管理内容包括合同扫描件、多种格式的加工文件(PDF、XML、EPUB、MOBI
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度版租用协议:个人租赁企业商务车合同2篇
- 2024年度上海沿海运输应急响应协议3篇
- 2024年城市分租房法律适用型协议样本版B版
- 2024年度广告发布的合作协议3篇
- 2024年度室内装修工程合同变更管理协议
- 2024年定制接入系统设计方案协议范本版B版
- 2024年度高端数控设备技术引进与合资生产合同
- 2024年度城市基础设施建设项目合作与投标协议2篇
- 2024年度国际贸易实务教学资源库建设合同
- 基于2024年度规定的产品代理销售合同3篇
- 【拓展阅读】快乐读书吧:狗熊请客
- 军队文职人员招聘之军队文职公共科目试题+答案(得分题)
- 正确把握专业建设的核心要素
- 演讲学知到章节答案智慧树2023年同济大学
- 浅谈篮球游戏促幼儿快乐成长 论文
- 电火花线切割加工-特种加工课件
- 心理健康教育课生命的意义
- 常见微生物的界、门、纲、目、科、属、种中英文对照及高考语文试卷
- 铝材厂煲模作业指导书
- 隧道测量方案
- 上海交通大学自主招生考试试题及答案
评论
0/150
提交评论