




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、附件:地方资料数字化加工处理招标及技术要求 投标供应商资质要求 1、投标供应商注册资金在50万兀以上。 2、投标供应商应提供至少两个从业人员资格证明文件。 地方资料数字化加工技术解决方案 11 通过对项目加工要求的仔细分析,本次地方资料数字化加工的内容主要为地 方资料图书进行扫描加工,完成的数据应用于数字图书馆平台发布, 具体详细实 施方案如下: 1.1生产流程 对图书馆地方资料进行数字化加工,其加工流程如下: 隹隹隹隹隹隹隹隹隹隹隹隹隹隹隹隹隹 集 集 集集集集 集集集集集集集 集:7集集集 工程规划和预处理 一、分析理解加工要求 二、配置流水工艺 三、制定加工环节质量控制标准 四、建立数据
2、规范、配置标引数据库 过程管理 一、项目进度管理 二、信息安全管理 三、过程改进和工艺配置 四、数据核算管理 五、项目通报 数据验收和交付 一、数据内部验收 二、数据备份 三、数据交付和验收 四、资料归还和移交 五、备份移交 工程后期服务 一、项目总结和报告 二、各类文档提交 三、方案建议 四、服务和维护阶段 古籍整理扫描 一、清单核对 二、扫描加工 三、图像质量检测 四、加工分类 五、交接信息记录 图像处理 一、去污 二、纠斜 三、清晰度 四、尺寸 图像版面分析 一、文字图像版面分析 二、插图版面分析 三、纹饰版面分析 数据调整 一、规范性和完整性检查 二、文字质量检查,文字差错率 低于万分
3、之三 PDF合成打版 成品数据提交 一、图像文件 二、造字列表 三、单层矢量PDF 四、XM文件 五、IDS描述文件 六、古籍清单 七、认同字列表 单页图像TIFF文件 插图TIFF文件 全文识别和编改 一、图表信息处理 二、标引信息著录 三、认同字记录 四、IDS信息描述 五、贴图处理 地方资料数据加工工艺流程 根据地方资料文件全文转换及版式还原的技术要求和工作特点制定如下工 作流程: 补字并编制认同 字表 1.2地方资料数字化加工数据标准 1.2.1图像 序号 制作标准 1 :全部页面扫描成 300DPI的彩色TIF图像 2 图像清晰,版心居中,无视觉倾斜,无污点,无颜色失真现象。 3 :
4、图像版心大小统一,图像尺寸相同,图像完整无缺损。 4 图片分页问题按实际页展现。 122 MARC文件 包含有元数据项目的图书索引信息,正确率须达到100% 1.2.3 PDF文件 序号 制作标准 1 在PDF还原过程中,对原书版式进行一定的统一和规范处理,包括对鱼尾、版 框、版心和书口的处理按照原书还原。 2 所有版面文字均用宋体字还原,文字的颜色一律为黑色。文字的位置按原书还 原。双行小字和多行小字按原书版式和比例还原。 3 版面插图、牌记、印章、草书和行草序按照图片处理,信息必须在XML文件 中体现。 4 贴字图均为二值图像,按原书位置做贴图处理,PDF文件米用100%显示比例 时,贴字
5、图与其他文字大小相当,对贴字图中的文字进行IDS描述。 5 PDF要完整,保证无缺页、重页,页码顺序颠倒的情况发生。 6 生成的电子文档格式是版式重构PDF,每页文件的大小不超过100K,图像清 晰。 7 PDF文档保持原纸质文档简繁体属性。 8 PDF文档要符合相关的国际、国内、行业标准,文字错误率低于万分之三,生 成版式重构的单层 PDF。必须加上采购人版权水印。 124技术元数据标准 针对需进行加工的纸质地方资料原始资料,建立基本属性对应的著录项目, 并生成基本地方资料附属信息、目次信息等规范数据,同时为规范数据建立相应 的代码识别体系,该代码识别体系将贯穿整个工程的信息交换和数据交换,
6、避免 出现信息和数据不一致的情况。结合计算元数据标准并通过智能检测模块可以有 效的避免在数字化过程中可能出现的漏扫、重扫等情况。 针对需进行加工的地方资料,建立基本属性对应的著录项目,并生成规范数 据,为各规范数据建立相应的代码识别体系, 同时建立辅助信息标引库。本次加 工的地方资料图书所需著录的字段如下表: 图书必备检索字段 A 书名 B 责任者 C 版本类型 D 出版责任 E、 出版时间 F、 版本形式 G 所属丛书 H 卷数 I、 卷次 125工程信息库 通过对地方资料纸质资料和文档进行归类整理,在技术元数据标准基础上, 根据工程各环节所需要公用的基础信息,将地方资料的基础著录项目抽取成
7、为资 料内部特征,建立信息标引配置数据库和相关流水线工艺文档, 制定项目评价标 准和环节控制标准等。 工程信息库与方正业务流程管理系统挂接,工程信息库在整个工程实施中会 围绕基础信息,随着数据流转不断增加相关的信息,通过方正业务流程管理系统, 可以实时的掌握每一批次、每本地方资料的生产进展和所处的生产环节,也能掌 握到数据的状态、收发时间、生产责任人等相关信息。 126管理元数据标准 序号 管理兀数据标准 1 每本地方资料建立一个文件夹(示例:SZFZ2908,按照地方资料卷的顺序建 立子文件夹(例如:00000001卷),该卷的图片文件、PDF文件和XML文件 都存放在此文件夹中按照流水累加
8、编号(示例: SZFZ2908-00000001-00000001)。文件夹命名须包含图书的完整编号和子文件 夹流水号。 2 集外字表命名取每本地方资料后四位编号(示例:2098 (国图外字表)。 3 字频统计列表名取每本地方资料后四位编号(示例:2098 (字频统计) 4 总PDF文件与总XML文件与地方资料文件同名(示例:SZFZ2908(总PDF)、 SZFZ2908 (总 XML 文件) 5 地方资料子册PDF文件命名示例: SZFZ2908-00000001 (第一册子 PDF) SZFZ2908-00000002 (第二册子 PDF) 1.3 数字化工程管理、资料管理和工程信息预处
9、理 为保障地方资料数字化加工过程的有效性, 成立工程管理部门。该部门按照 地方资料数字化工程的需求,全面负责具体工程的实施,包括生产工艺调整,工 程调度,组织具体的数字化及标引著录等生产工作, 进行环节控制,数据合成和 测试,以及最终数据的提交。 全面负责工程进度和质量、考核和评价环节衔接、协调衔接问题,帮助环节 内部整理影响进度和质量的因素,并出具各种进度和质量报告。 建立整体工程的信息库,为整个生产流水线提供生产任务规划。 在工程完毕 之后,负责回收原始资料并进行整理归还。 对原始资料进行归类整理,并按图书地方资料的书名、书号、作者、版别、 出版时间、版次、页数、加工后文件夹名等著录项目的
10、要求抽取资料内部特征建 立信息标引配置数据库和相关流水线工艺文档, 制定项目评价标准和环节控制标 准等。 加工前的准备: 1.3.1 地方资料整理 由方正项目经理和用户方指定人员进行地方资料/ 卷的领用、归还交接工 作。地方资料实体出库时应由用户方人员填写“领用交接单”注明地方资料 / 卷 类型、卷号、数量等具体信息。由我方接收人员清点后签字确认。最终归还时以 领用时的交接单作为标准核查无误后才准入库。 领用完毕后根据用户方提供的工作单核对目录,检查地方资料质量、保存 状况、缺失情况等等信息进行登记反馈。 1.3.2 拆卷处理 地方资料部分原则上一般不进行拆卷处理,若因为特殊情况需要拆卷,在
11、获得用户同意下, 通过专业人员指导进行。 在拆卷过程中, 如发现原案卷整理有 问题的,比如文件顺序明显错误、装订漏页、装订压字而右边较宽等,经请示用 户同意后我们会予以纠正。整个加工过程中不伤及页面、损坏原文、不丢页、混 页。 1.3.3 地方资料页面修整 对地方资料页面的褶皱、折角、折痕进行平整处理,对于破损部分进行裱 糊处理,以防止在扫描工序中对纸张造成二次伤害。 1.3.4 地方资料整理登记 制作并填写地方资料数字化加工过程交接登记表单,详细记录地方资料整 理后每份资料的起始页号和页数, 登记信息随着原始文件一起流转保障地方资料 在下一环节扫描过程中不出现漏扫和重扫的现象。 1.4 图像
12、扫描和预处理 1.4.1 工作内容 假设加工周期为 6 个月,我们计划安装 3 台零边距扫描仪进场进行地方资料 数字化的扫描工作,扫描仪选用虹光扫描仪,其特点是 A3 大幅面,结构简洁而 操作方便,600X 1200dpi高光学分辨率,A3大幅面超快速扫描,并保证影像扫 描的品质与速度同时并具。 专利设计的扫描仪正面端书刊零边距放置全幅无损完 美扫描方式,可以实现 A3幅面书刊无损完整扫描。同时具有良好的产品性能, 高可靠性, 结实耐用, 非常适合大量图书、 地方资料期刊等的不拆装无损扫描数 据加工。其指标如下: 1) 按照地方资料标明的顺序扫描。对于附着在主页上的小纸片作为另页扫 描,另页扫
13、描的命名时放在主页之前。 2) 对于同一份地方资料中有批注存在的, 以地方资料主要部分的清晰为准, 需进行灰度补偿处理。 3) 扫描时为了保证地方资料资料的载体安全应根据纸张情况选用合适的扫 描生产线,对于纸张较薄或较脆容易破损的要使用平板扫描。 4) 使用300dpi扫描成彩色TIF图像,作为原始的数字馆藏形态(馆藏图像), 在后续加工过程中根据实际情况在馆藏图像基础上进行抽线处理(抽线图像) 。 特殊纸张或地方资料原件清晰度不高的, 可通过增加分辨率, 调整亮度、 对比度 等技术参数, 直至扫描图像清晰为止。 对于同一份地方资料筒子页, 清晰度不同, 特别是批注存在的,以文件主要部分的清晰
14、为准。 5) 保持上下左右四边尺寸合理,边距过宽的进行裁边,边距过窄的进行加 宽; 6) 对于纸质发黄,很多还沾有各种污渍,且地方资料信息中包含了诸如毛 笔等多种类型的字迹,还有印鉴、插图等图形,通过手动修整、调整阈值、调节 色彩和对比度等处理,提高地方资料图像的清晰度和美观度,达到能清晰阅读; 7) 对于珍椠善本可以采用地方资料专用的无接触扫描仪进行扫描或使用专 用数码相机进行拍照获取图像。 若原书有残缺、污损等影响阅读的情况,若扫描处理无法解决时,在相应版 面处添加说明,同时在readme, txt文件中记录说明,并及时与用户联系协商处 理办法。 142特殊情况处理 保护措施 使用零边距扫
15、描仪,破损严重的地方资料使用拍照的方法 数据备份 出于对地方资料保护的需要,将地方资料资料扫描一套300DPI彩 色TIF图供用户备份;可以满足按需印刷的需求。冋时生成一套 300DPI的JPG文件做加工处理 特殊页扫描 筒子页中存在透纸的现象,可以在筒子页中间插入白纸(最好用宣 纸)后进行扫描 破损严重页面 采用无闪光灯拍照或者非接触性扫描仪 143影像监控及存储 本项目中需数字化的地方资料主要是纸张,数字化工作人员可通过本系统直 接进行地方资料扫描,生成TIFF影像存储。 地方资料扫描平台主要完成纸张文档的扫描录入,形成标准压缩格式的电子 影像文件。同时,地方资料扫描平台具有丰富的图像处理
16、功能, 能监控扫描质量, 如发现存在清晰度不够、缺损、偏斜、缺页等情况,能灵活地对重新扫描、补扫 等进行控制,同时系统具备辅助纠偏及图像拼接功能,大大提高了扫描图像的品 质与生产效率。 馆藏地方资料具有重要的史料价值和很高文化价值,是不可再生的宝贵财 富,由于年代久远,纸张极易风化粉碎、残破、变形、霉变,或不能进行拆页, 这类地方资料不能使用中高速扫描仪进行扫描,可采用平板扫描仪进行扫描,也 可使用数码相机进行影像拍摄。 对于幅面较大、超出扫描仪扫描范围的地方资料,系统提供影像无缝拼接功 能,即可将大幅面地方资料分成几部分进行扫描,最后使用软件进行拼接处理, 形成完整的图像。由于系统使用先进的
17、图像处理及优化技术, 拼接的图像效果与 完整扫描的图像效果相近。 推荐图像格式:单页的TIF 影像捕获软件提供了很多已经定义好的应用设置,屏蔽实际硬件操作的控 制。使系统支持TWAIh标准或者兼容ISIS接口标准的扫描仪(注:现在大部分 扫描仪均遵循这两种标准中的一种),因此本系统可以说支持现在市面上几乎所 有的高中低端扫描仪。 影像捕获软件是一款32位的应用程序,能够充分利用操作系统如Microsoft Windows和PC机的特性。同时,基于图标的工具条,上下文敏感的菜单和在线的 帮助的软件操作的学习和培训变得更加简单。 1.5影像处理 1.5.1工作内容 对地方资料图像文件按照加工标准进
18、行图像处理包括:去污、版心调整、纠 斜和尺寸调整等等为后期版面分析和全文识别提供满足要求的图像文件。 1.5.2制作标准 分类 标准 页面尺寸 同一本书的每一页图像版心大小统一,图像尺寸相同 图像歪斜 米用自动或手动纠偏功能,调整图像角度。图像偏斜度不超过1度, 对方向不正确的图像应进行旋转还原,以符合阅读习惯 图像清晰度 图像脏点、脏斑:对图像页面中出现的影响图像质量的杂点如黑点、 墨线、黑框、黑边等应进行去污处理。处理过程中应遵循保持图书原 貌的原则。为了节省存储空间,应对图像进行裁边处理,去除多余白 边 字迹洇透 米用字迹锐化的功能,清晰字迹笔画 图像深浅不一 采用平衡功能,调整图像深浅
19、一致 大幅图像处理 图像拼接处信息要完整,不能缺少信息 图像完整性 图像做到完整无缺 1.5.3实现方法 影像处理软件的多页显示功能最多可以在屏幕上一次显示8个影像,便于在 同时显示多个影像和进行质量检查。 影像调整:在每个窗口中动态地调整影像的大小。 去除黑边:去除影像周围的黑边,在扫描混合纸张的时候不用调整扫描的 参数。 纠偏:扫描过程中将歪斜的影像纠正,减少扫描后的处理。 灰阶补偿:把二值图像进行256阶的灰级化,从而进行图像缩小时利用 象素点周围的值进行增强,达到视觉上对内容的识别。 旋转:(90 ,180 , 270 )支持横向扫描,使产量最大化。 影像调整和编辑工具:拥有旋转,顺序
20、调整,删除等操作。 正反面合并:将正面和反面的单个影像合并成单个影像。 划分正反面:将一个长文档的引线划分成效影像。 例如,软件可以将一张 A3的纸张自动分成两张 A4的纸张.同时效果也可以在屏幕上立刻显示 出来。 用户设置可以控制特殊应用的存取和影像采集软件的各种属性。 自动识别扫描仪的SCSI ID使得影像采集软件能够即插即用。 1.5.4特殊情况处理 图像拼接 我公司自主研发的图像拼接软件,可以实现每个筒子页的拼接 图像处理 地方资料图像一般只调整对比度、底色 版面分析 地方资料排版的字与字之间连接很紧密不利于识别,因此在版面分 析中需要将每个字画框隔离 1.5.5输出数据 通过精细加工
21、和处理后生成和原始图命名和存放规则一致的TIFF图像。 1.6版面分析和基础信息提取 1.6.1工作内容 对图像处理完成的图像文件进行版面分析和信息提取工作,主要标注地方资 料版面文字块、图像块、页面块、纹饰块和颜色信息等等版面信息,为后期版面 识别和版面重构提供数据基础。 162制作标准 分类 标准 版面画框 根据文字区域、插图区域和纹饰区域进行画框 批注、印章标注 对于版面中的批注、印章按照要求标注为贴图 手写“点”标注 对于版面中的后批注的“点”按照文字进行标注处理 图像属性标注 标注图像的精度、图像模式(黑白、灰度和彩色) 163地方资料书目数据著录工作 作内容 对本项目承接的全部地方
22、资料图书按照地方资料册为单位制作每本地方资 料的书目清单以EXCELS式文件输出。图书地方资料按照书名、书号、作者、版 别、出版时间、版次、页数、加工后文件夹名等著录项目,要求信息准确,无差 错。 164制作标准 分类 标准 书目数据格式 地方资料制作完成后提供书目信息,采用EXCEL格式 数据项 按照书名、书号、作者、版别、出版时间、版次、页数、加工后文件 夹名等著录 文字正确率 要求信息准确,无差错 使用方正元数据标引模块是对地方资料的元数据进行标引的工具制作完成 后导出EXCEI格式文件。 特殊情况处理标准: 出版时间出现多次,以最近一次出版时间为著录内容 地方资料作者出现多人,需全部著录 1.7数据整合与测试 对每道工序进行严格的测试,全面进行工程质量考核,评价数据质量,及时 发现环节疏漏,并出具各种质量测试和检验报告; 收集各环
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 代卖公司合同范本
- 产品抵押工资合同范本
- 内部购买服务合同范本
- 999玫瑰买卖合同范本
- 云南土地流转合同范本
- 04购房合同范例
- 无锡锦鲤池过滤器施工方案
- 主体盖房合同范本
- app监控合同范本
- 公司安全协议合同范本
- 接触网设备结构-接触网的组成
- 全国青少年机器人技术等级考试二级第一课-直升机课件
- 数学原来可以这样学:小学篇
- 建设用地报批服务投标方案(技术方案)
- 史赛克关节镜系统
- 大豆玉米带状复合种植技术
- 2024届高考语文一轮复习:现代诗歌 专练(含答案)
- 初中生物学七年级下册第四单元《生物圈中的人》 单元作业设计
- 《公路桥涵养护规范》(5120-2021)【可编辑】
- 2023年中国(安徽)大学生茶文化创新大赛试题库
- 锂离子电池简介课件
评论
0/150
提交评论