公共文化资源采集规范管理制度_第1页
公共文化资源采集规范管理制度_第2页
公共文化资源采集规范管理制度_第3页
公共文化资源采集规范管理制度_第4页
公共文化资源采集规范管理制度_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、标准草案文化馆数字资源采集规范(草案稿)目次 HYPERLINK l _bookmark0 目次 . 1 HYPERLINK l _bookmark1 前 言 . 2 HYPERLINK l _bookmark2 文化馆数字资源采集规范. 3 HYPERLINK l _bookmark3 1 范 围 . 3 HYPERLINK l _bookmark4 2 规范性引用文件. 3 HYPERLINK l _bookmark5 3 术 语 和 定 义 . 3 HYPERLINK l _bookmark6 3.1 数字资源. 3 HYPERLINK l _bookmark7 4 数字资源采集技术要求

2、. 3 HYPERLINK l _bookmark8 4.1 梳理采集数据. 3 HYPERLINK l _bookmark9 4.2 清洗采集数据. 5 HYPERLINK l _bookmark10 4.3 转换数据格式. 5 HYPERLINK l _bookmark11 4.4 传输数据文件. 6 HYPERLINK l _bookmark12 4.5 设置调度计划. 6 HYPERLINK l _bookmark13 5 数字资源采集运维要求. 6前 言本文件根据 GB/T 1.1-2009 给出的规则起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任

3、。本文件由中华人民共和国文化部提出。本文件由全国文化馆标准化技术委员会(SAC/TC390)归口。本文件起草单位:文化部全国公共文化发展中心本文件主要起草人:课题组文化馆数字资源采集规范范围本文件规定了文化馆数字资源采集规范,包括文化馆数字资源采集技术要求以及运维要求。本文件既可在全国文化馆数字资源信息采集工作中使用,同时也可供其他从事公共文化服务相关业务的机构参考使用。规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。本文引用:基层公共文化数据采集及文化馆基础数据分析研究课

4、题报告术语和定义下列术语和定义适用于本文件。数字资源数字资源是文献信息的表现形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布、存取、利用的信息资源总和。数字资源采集技术要求文化馆数字资源信息采集工作包括梳理、清洗、转换、传输、调度多个步骤,最后实现数字资源信息的汇聚存储。梳理采集数据文化馆数字资源信息采集内容包括数字资源的建设情况、用户检索、用户访问、用户评价以及访问用户等信息,随着文化馆数字资源采集与分析的深入,采集数据的类型和内容也会越来越多。基础的采集字段包括如下内容:资源建设信息序号字段备注1.资源 ID资源编码,资源在系统内的唯一标识例如:404861e5

5、-baf8-4e9d-bddb-8f0dddb2fe632.资源类型(文本、音频、视频、图片),例如:视频3.资源题名例如:北京曲剧艺术赏析4.系列题名例如:中华戏曲荟萃5.分集总数例如:996.分集次数例如:837.资源 URL资源访问的 URL8.广电分类例如:J8 戏剧艺术9.中图分类例如:J22 戏曲10.关键词例如:戏曲|地方戏曲|北京曲剧11.节目类型例如:中国戏剧12.节目形态例如:专题13.时长时长,单位:分钟14.文件格式文件名后缀,例如:MP415.文件大小文件大小,单位:兆16.受众受众,例如:戏曲爱好者17.资源获得方式资源获得方式18.资源提供者资源制作人或单位等19

6、.资源发布时间资源发布的时间,格式:2016-09-01 18:23:19用户检索信息序号字段备注20.访问终端类型参见终端设备类型编码表,例如:PC21.用户 ID用户 ID22.访问地址访问地址23.检索时间用户执行检索的时间,格式:2016-09-01 18:23:1924.检索条件用户检索时输入的检索条件25.检索用时用户检索用时, 单位:毫秒26.检索结果数量用户执行检索操作后,系统返回结果的数量27.用户 IP用户访问来源 IP,例如:1528.浏览器类型参见浏览器类型编码表,例如:IE用户访问信息序号字段备注29.访问终端类型参见终端设备类型编码表,例如:PC30.用户 ID用户

7、 ID31.资源 ID用户访问的资源 ID32.资源访问地址资源访问地址33.用户浏览资源时间用户浏览资源的时间,格式:2016-09-01 18:23:1934.用户 IP用户访问来源 IP,例如:1535.浏览器类型参见浏览器类型编码表,例如:IE用户评价信息序号字段备注36.访问终端类型参见终端设备类型编码表,例如:PC37.用户 ID用户 ID38.资源 ID资源唯一 ID39.访问地址访问地址40.评价用户打分41.评价时间评价操作时间,格式:2016-09-01 18:23:1942.用户 IP用户访问来源 IP,例如:1543.浏览器类型参见浏览器类型编码表,例如:IE访问用户信

8、息序号字段备注44.用户 ID用户 ID45.用户姓名用户的姓名46.用户学历用户的学历,例如:本科47.用户出生日期用户出生日期48.用户性别用户的性别,例如:男49.用户民族用户的民族,例如:汉族50.用户职业用户的职业,例如:教师51.政治面貌用户的政治面貌,例如:党员52.用户职称用户的职称,例如:教授53.注册时间用户的注册时间,格式:2016-09-01 18:23:19清洗采集数据清洗采集数据是指对需要采集的文化馆数字资源数据进行审查和校验,纠正存在的错误, 包括不完整的数据、错误的数据、重复的数据等。过滤那些不符合要求的数据,将过滤的结 果交给文化馆业务部门,确认是否由人工修正

9、之后再进行抽取采集。对于过滤掉的数据,记 录到工作日志,作为数据的清洗记录。转换数据格式为了实现采集数据的汇聚与共享,采集的数据格式需要统一,遵守如下规则:1)内容编码格式内容编码统一设置为UTF-8;2)日期类型日期类型统一采用YYYY-MM-DD格式,不允许出现空值,且YYYY-MM-DD必须为有意义的日期:YYYY为四位数字,必须是有效的年份MM为两位数字,必须是有效的月份(01-12)DD为两位数字,必须是有效的日期(01-31)对于不符合日期约束规则的日期值,处理方式存在以下两种情况:(1)无值的日期或者无意义的日期,这时在接口中一律以“1970-01-01”填充;(2)接口中的“失

10、效日期”在表示“未失效”含义时,一律以“2999-12-31”填充。 3)时间类型统一采用HH:MM:SS格式:HH为两位数字,必须是有效的小时(00-23),24小时制;MM为两位数字,必须是有效的分钟(00-59);SS为两位数字,必须是有效的秒(00-59)。4)日期时间类型统一采用YYYY-MM-DD HH:MM:SS格式,格式要求见日期类型和时间类型。注意,日期与时间中间有一个半角空格符。5)内容字段内容字段中不可以包含回车换行符(0 x0D0A),如果包含,需要替换成半角空格符号。传输数据文件为了保证数据传输过程安全,使用SFTP(Secure File Transfer Prot

11、ocol)协议传输采集的数据。将文化馆数字资源数据通过接口文件进行传输,定时传输数据文件,确保文化馆数字资源数据有序、安全的传输并存储。接口文件中数据分隔符要求如下:1)记录间分隔符:回车换行符(0 x0D0A);2) 字段间分隔符:ASCII码0 x01(不可见字符),每行数据最后一个字段后也带“0 x01”。3)为了保证数据的准确性以及接口文件中的记录各值域在有效的取值范围内,数据中均不能包含0 x0D0A(回车换行符)、0 x0D(回车符)、0 x0A(换行符)和字段间分隔符。4)字段数量及顺序应该绝对固定,接口数据中不可省略,无值就留空。设置调度计划根据采集调度要求设置不同的采集调度计划,包括准实时,每小时、每天、每月等调度方式:1)准实时方式:将产生的数据在5分钟延迟内完成传输;2)每小时方式:每个小时整点的30分钟前需要传输完成前一个小时的数据;3)每天方式:每日6点前传输完前一天的增量或全量数据;4)每月方式:每月1日6点前需要传输完成前一个月的增量或全量数据。数字资源采集运维要求负责维护和监控数据采集服务,包括:维护数据采集调度计划,每天检查采集接口运行状态,初步分析采集接口运行失败原因,每天填写巡检报告。巡检报告包括:1)系统运行状况:指采集系统运行:良好、正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论