档案数字化加工方案计划_第1页
档案数字化加工方案计划_第2页
档案数字化加工方案计划_第3页
档案数字化加工方案计划_第4页
档案数字化加工方案计划_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TOC\o"1-5"\h\z(三)数字化加工部分 2需求分析与总结 2参考的国家标准及技术规范 2数字化加工实施细则 3\o"CurrentDocument"本项的扫描加工流程 3\o"CurrentDocument"生产流程有以下几个主要的步骤组成: 4\o"CurrentDocument"档案整理 5\o"CurrentDocument"著录标引 6\o"CurrentDocument"纸件扫描 7\o"CurrentDocument"图像处理 8\o"CurrentDocument"质量检验 10\o"CurrentDocument"档案还原装订 10\o"CurrentDocument"数据存储与备份 12\o"CurrentDocument"档案电子数据与XXXXXX烟草档案系统的无缝挂接 12项目所采用的OCR处理技术介绍 12\o"CurrentDocument". OCR(光学字符识别)技术 12.所采用的OCR及双层PDF生产流程 13\o"CurrentDocument". 生产流程逻辑示意图 14XXXXXX档案数字化服务特点 15\o"CurrentDocument". 自动化程度高 15\o"CurrentDocument". 标准化程度高 15\o"CurrentDocument". 严格的质量控制 15\o"CurrentDocument". 文档安全性高 15\o"CurrentDocument". 标准的格式 15\o"CurrentDocument". 方便存储与管理 16(三)数字化加工部分需求分析与总结此次项目是将中国烟草总公司XXXXXX省公司及所属11个市烟草公司的约183万页纸质档案进行数字化加工并将成品数据挂接到档案管理系统中,纸质档案的折分整理、扫描与图像处理、数据的挂接与光盘备份都将严格按照国家档案局相关标准及XXXXXX省档案局相关规定,结合XXXXXX烟草档案现状定制加工技术规范与生产加工流程。。据上述现状,具体人员安排,项目实施周期,采用标准及实施细则如下。参考的国家标准及技术规范《纸质档案数字化技术规范》(DA/T31—2005)《连续色调静态图像的数字压缩及编码》(GB/T17235.1-1998)《电子文件归档与管理规范》(GB/T18894-2002)《中央档案馆接收档案的标准》《XXXXXX省档案接收和收集管理相关规定《归档文件整理规则》(DA/T22-2000)《档案著录规则》(da/t18-1999)《无酸档案卷皮卷盒用纸及纸板》(DA/T24-2000)《档案修裱技术规范》(DA/T25-2000)《XXXXXXXXXXXX档案数字化技术规范》《XXXXXX烟草档案数字化技术规范》6.3.6.3.数字化加工实施细则本项的扫描加工流程梢集原件整理coco棍卷>r档案还原H档案管理系址GD刻录机分解档全校对页号质楂系统工人腰餐检则曳像扫描和处稗,校也全面质量祗M梢集原件整理coco棍卷>r档案还原H档案管理系址GD刻录机分解档全校对页号质楂系统工人腰餐检则曳像扫描和处稗,校也全面质量祗M生产流程有以下几个主要的步骤组成:纸质档案的整理从档案室进行档案提卷,并记录提卷的内容,接着拆卷,并进行去污、平整化,并依据档案纸张的大小和厚薄分类。档案的整理工作主要是为了以后档案的扫描做准备。扫描及图像处理根据不同档案纸张的大小和厚薄,选择不同的扫描仪,较为规整的选择快速扫描仪,较薄、较厚和不规整的用平板扫描仪,这样既能达到保护档案(高速扫描仪会发生卷纸,损坏档案)的目的,也能提高档案数字化加工的速度。查重查漏在扫描的过程中,难免会发生重复扫描和漏扫的现象,人工的再次校对能够发现档案数字化过程中出现的情况,并即使纠正。数据项录入依据档案著录规范或者依据客户档案的实际著录项,录入标题、责任者、归档时间、档号等各种信息。质量检测对扫描图像和著录的标引数据进行检验,图像主要是检验其扫描和净化处理质量,数据项的质量检测主要是检测其录入正确率。档案还原完成档案数字化后,要把原先的档案原件还原成原样。档案整理档案交接档案按年度、案卷提档,提档时数字化实施方的提卷人员对每卷的所有页面进行统一的编号,全卷所有文件页号编写完成后,再依据XXXXXX烟草的要求抽出不需要扫描的文件页,然后再次按序编写需要扫描的文件页号,页号编写完成后,按实际文件页数填写详细的纸质档案交按清单,并由双方主管人员签字。档案拆分档案拆分前要对档案进行统一的编号,编制总页号后,要从中选中需要扫描的页面。再一次编制所需扫描的页号,两个页号需用铅笔的颜色或位置区分,以确保档案还原时能够清楚区别和核时页数。目录数据准备按照《档案著录规则》(DA/T18)等的要求,规范档案中的目录内容。包括确定档案目录的著录项、字段长度和内容要求。如有错误或不规范的案卷题名、文件名、责任者、起止页号和页数等,应进行修改。拆除装订在不去除装订物情况下,影响扫描工作进行的档案,应拆除装订物。拆除装订物时应注意保护档案不受损害。区分扫描件和非扫描件按要求把同一案卷中的扫描件和非扫描件区分开。普发性文件区分的原则是:无关和重份的文件要剔除,有正式件的文件可以不扫描原稿。页面修整破损严重、无法直接进行扫描的档案,应先进行技术修复,折皱不平影响扫描质量的原件应先进行相应处理(压平或熨平等)后再进行扫描。档案整理登记制作并填写纸质档案数字化加工过程交接登记表单,详细记录档案整理后每份文件的起始页号和页数。著录标引标引著录标引著录为了方便查阅与管理,打印制作档案目录及档案封面,对文字录入的准确性要求较高,但要录的文本域并不是完全统一的在某一页面上,一些文本域要在多个文件中选择,所以录入时需要相关学部专家进行指导,确保文本域录入的准确率。对所需录入的文本进行标引、或对不同类别的档案录入特征制作相应的《文字录入工作说明书》,供录入员和校对人员参考。录入方式由于文本类型不一,有印刷体、手写体、有表格内的也有表格外的文本信息,所以采用手工录入和OCR(光学字符识别)软件相结合的方式录入。即手写体或不清晰的印刷体采用手工录入,较规整的印刷体采用OCR技术的录入方式。校对方式校对以软件校对和打印输出对比校对相结合的方式,即对手工录入和OCR自动录入的文本打印输出进行对比校对的一校、二校、抽查校对,确保索引信息达到出版质量万分之一以下。纸件扫描原件的扫描与存储格式完全按照国家档案管理的统一标准和XXXXXX烟草的相关要求扫描。扫描人员按照《扫描与处理工作说明书》的要求,填写移交清单(此移交清单是档案拆分人员和扫描人员共同填写)并签字领取并进行纸件扫描。扫描图像使用先进的图像扫描处理软件(快图像系统),扫描人员可根据原稿质量,对系统进行定义,如自动倾斜校正、自动去污、自动分文件等批处理功能。在由系统自动处理功能的同时,扫描人员根据原件的实际情况做相应的调整,如超大页面的处理、纸张颜色深浅及薄厚的处理、扫描时可根据不同原件的情况,调整图像的分辨率、阀值、明亮度以及扫描方式和扫描速度,确保在扫描图像质量清晰的情况下,使原件完好无损。图像的分辨率正常情况下为300dpi,如遇字间距和行行距过密、原件本身是复印件等字迹不清楚的情况,可适当增加扫描的分辨率但要保正图像清晰的同时,又不影响远程查询和游览的速度。扫描方式根据档案幅面的大小(A4、A3、A0等)选择相应规格的扫描仪或专业扫描仪(如工程图纸可采用0号图纸扫描仪)进行扫描。大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率。扫描色彩模式扫描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值。页面为黑白两色,并且字迹清晰、不带插图的档案.可采用黑白二值模式进行扫描。页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可以采用灰度模式扫描。页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。扫描分辨率扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择大于或等于200dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。需要进行OCR汉字识别的档案,扫描分辨率建议选择大于或等于300dpi。扫描登记认真填写纸质档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。图像处理XXXXXXXXXXXX档案数字化工厂采用自动化处理和人工处理相结合的方式,确保图像质量的完美。通过校对系统对图像进行校对,确保图像顺序正确、去斑点、校验。,在校对时发现不合格图像及时返回前一工序进行改正。污渍、黑边、偏斜处理数字化加工系统会根据原件质量的好坏对污渍的情况进行自动轻度、中度、高度去污,对纸质变质或扫描时的黑边完全自动清除、自动进行偏斜校正处理。系统支持局部去污、并能对不能够自动处理的页面进行单页多次修正。图像处理人员在发现扫描不合格的文件,进行登记后交扫描人员处理,双方签字确认后的表单留存备查。使因扫描造成的不合格图像机时返回上一生产流程。6.9.6.2.6.9.6.2.全文字面的扫描密度图像处理人员在进行处理前,扫描人员会根据不同原件的情况,提高图像扫描的分辨率、阀值、明亮度以及扫描方式,如遇字间距和行行距过密、原件本身是复印件等字迹不清楚的情况,对手写过密的要对图像进行细致的修正,确保各书写工具写出的不同颜色、深浅的文字及图像信息清晰可辩。粘帖页与表格对粘帖页面的处理先用XXXXXX数字化加工软件系统进行自动处理,在扫描的时消除粘帖重叠的曲线,不能自动处理的放大后人工处理。对字迹与表格线颜色深浅不一在扫描时进行细微调整后,图像处理时再进行局部调整。以确保数字档案的可阅读性。一般性文本流程图提高图像扫描的分辨率,调整阀值、明亮度以及扫描方式,采用局部处理技术对图像进行修正。以确保数字档案游览时辨认流程图的流程线。插图页面处理档案中有插图的要在扫描时对提高分辨率及相应调整,图文混排的页面不做拆分,在保持原始页面信息的同时使图像清晰可辩。照片页的处理根据黑白或彩色图像对页面进行调整,对特殊照片的处理,必要时采用专业的图像处理软件进行处理,确保照片的清晰度。存储格式与页面空间分辨率:200dpi图像格式:TIFF、JPG储存空间:B5或A4,20-30KB/页质量检验对扫描处理完成后的图像页进行检验,对档案拆分、扫描、修正、去污、文本流程图的处理、插图、照片的处理以及文本和图像页的匹配进行检验等质量进行全面检验。对文本域录入与文本录入域的标引、文件的页号及页数进行对比,对扫描前的图像页的标引与扫描后的图像页的编号与页数进行对比,发现不合格的登记清单并退回上一流程重新处理。档案还原装订档案整理工作严格按照中央档案馆进馆标准规定的相关标准和XXXXXX烟草的实际情况进行有序的整理,XXXXXXXXXXXX档案数字化中心安排专人负责案卷合并与整理。原件合并把扫描时挑出的页面插入到原来的页面位置中去,将扫描时展开的超大页面还原到扫描前的原样,把数字化中挑出的不要的多余页面提出。全卷整理将每卷文件按形成的时间、顺序、文件类别进行整理。编写页号按重新整理页面上按顺序统一的编写页号。6.9.8.4.6.9.8.4.案卷目录和卷内目录按顺序将一个项目文件的合并到一卷中,并按中央档案馆进馆标准和XXXXXX烟草特有字段组成案卷目录和卷内目录。打印案卷封面和卷内目录对案卷目录和卷内目录与卷内文件进行匹配后打印案卷目录和卷内目录以备装订使用。装订严格按照中央档案馆进馆标准和XXXXXX烟草的要求将每卷档案的封面、卷内目录、卷内文件、左下角对齐打成三孔一线装订还原档案。案卷分盒按年度、案卷、类别、机构等有规则地按顺序装入定制的档案盒。打印装箱单按年度、箱号、盒号、卷号、总页数打印装箱清单。或按档案档案馆的要求制作打印装箱单。按顺序装箱按箱子编号、年度、箱内盒数、案卷数与总页数装箱,参照国家档案馆的要求结合XXXXXX烟草的实际情况按序装箱。编制目录(年度目录)制作出XXXXXX烟草档案装箱目录,合并各箱清单,统一编制页码,形成装箱目录,并按通用格式存储装箱目录的电子文件,以便检索与查找,或按档案馆进馆要求编制。数据存储与备份在生产过程中,XXXXXX扫描加工中心是一个基于网络化流程化生产管理系统,我们在扫描的同时就同时产生两份备原始图像数据的备份数据。在经过生产系统质量验收合格的电子文件后,我们将把扫描的成品数据与XXXXXX烟草的档案管理系统挂接,将按规则生产原始图像光盘及具备单盘检索的数据光盘。档案电子数据与XXXXXX烟草档案系统的无缝挂接文本域录入和扫描处理检验后的图像成品,按年度进行文字图像与系统的挂接,不需手工挂接即可实现文本与图像页与系统的挂接。挂接到XXXXXX烟草档案管理系统中后,进行再次的成品验收,对各种使用习惯逐页进行检验,验收合格后移交到由XXXXXX烟草专家组成的验收小组验收。确保完美无缝挂接因为XXXXXX烟草档案管理系统是采用XXXXXX软件的档案管理软件系统,XXXXXX档案扫描加工系统和XXXXXX档案管理系统可以实现自动批量挂接,无需人工干预即可实施目录数据与原文电子数据的无缝挂接。项目所采用的OCR处理技术介绍.OCR(光学字符识别)技术OCR是英文OpticalCharacterRecognition的缩写,中文意思就是通过光学技术对文字进行识别。OCR概念的产生是在1929年,德国的科学家Tausheck首先提出了OCR的概念,并且申请了专利。几年后,美国科学家Handel也提出了利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。

现在这一技术已经由计算机来实现,OCR的意思就演变成为利用光学技术对文字和字符进行扫描识别,转化成计算机内码。. 所采用的OCR及双层PDF生产流程6.10.2.1.识别模块具有超强的识别核心.可以识别简、繁体汉字2万多,识别的语言包括中文简、繁体、英文、日文、韩文,自动版面分析能力大大增强最大限度减少手工操作量。'曲6.10.2.1.识别模块具有超强的识别核心.可以识别简、繁体汉字2万多,识别的语言包括中文简、繁体、英文、日文、韩文,自动版面分析能力大大增强最大限度减少手工操作量。'曲6.10.2.2.纵向校对模块可以将成百上千张图像一起校对6.10.2.2.纵向校对模块可以将成百上千张图像一起校对将识别成同一个字的图像集中在一个窗口内,先标记错误,再自动与横校进行合并,后统一改正,校对工作量减少80%,错误率可控制在万分之一。6.10.2.2.1.版面恢复模块通过版面恢复编辑器,可以将原始图像的所有信息恢复过来。比如:字体、颜色、花边”二^工:.二一朝

6.10.2.2.1.版面恢复模块通过版面恢复编辑器,可以将原始图像的所有信息恢复过来。比如:字体、颜色、花边”二^工:.二一朝

廿?用;'■蜕/;上雁。秋泊豆北・■」=一-1n:”二• 『l,千・——.丽i丽丽丽・京善嫉金■、.会呼记廿二必求第三行蕨追口生4I11・・4皿・…J”.]等。6.10.2.3.双层PDF生成模块可直接在程序中进行后台PDF处理,无需在Acrobat中生成,方便而快捷。可以选择生成多种PDF格式:双层PDF文档包括图文混排的PDF、图在文上的PDF、图在文下的PDF等。6.10.2.4.自动处理模块可以实现图像文件到PDF文件的自动转换,生成的PDF文件能够实现全文检索,可以复制贴贴,也可以对某个指定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论