爬虫接入规范_第1页
爬虫接入规范_第2页
爬虫接入规范_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3页 共3页爬虫接入标准爬虫接入标准 修订历史 日期 修改说明 部门 修改人 2022.06.12 大数据中心 李永波 数据接入需求 基于数据采集需求,初步判断数据的接入是否从业务数据库中获取。 联络技术研发部同事,恳求数据接入的位置参数,通过配置化方式到达将数据从业务系统拉取、装载到数据仓库贴层的目的。 数据接入流程 1. 与爬虫组和平台组进展沟通,确定提供数据的方式数据库、文件、接口等,让需求发起人补充详细的数据口径,补充到需求要求里面,指定数据仓库组或平台组的一个人进展转发。 2. 数据仓库组或平台组根据需求描绘。跟数据提供方可以是需求发起方、也可以是技术研发部门沟通,让其补充模板里的

2、位置参数。 3. 数据提供方根据模板要求,提供位置配置参数。 4. 数据仓库组或平台组根据已经得到的位置参数、需求数据指标等信息,设计接入模型和抽取参数。 5. 数据仓库组或平台组在接入数据后,整理数据格式,制定清洗转换规那么,并补充装载目的表信息。 ? 提供数据方式: 数据库、文件、接口 详细的数据口径:? 位置配置参数平台部补充 配置参数 参数取值 效劳器地址 必填 数据库端口 必填 数据库名称 必填 用户名 必填 密码 必填 表名 必填,test1 必填,test2 取数口径sql或者文字说明 选填,单表局部字段、多表关联的请填写。 接入模型字段仓库组补填 字段名 注释 字段类型 表字段

3、 必填 必填 必填 必填 必填 必填 必填 必填 抽取参数仓库组补填 配置参数 参数取值 抽数周期 每天 抽数时间 7:00 增量标识 1:全量,2:增量 数据日期格式 增量数据,需要提供数据日期格式,可选如下。 时间戳 Yyyymmdd Yyyy-mm-dd 清洗转换规那么仓库组补填 由仓库组补充,不限于数据清洗过滤、字段编码转换、敏感信息转换、接入阀值设置等等。 装载目的表仓库组补填 配置参数 参数取值 stg层表名称 必填 stg层表描绘 必填 ods层表名称 必填 ods层表描绘 必填 取数位置平台组组补充,仓库组验收 密码等验证信息私下提供。 数据库方式: 数据库连接方式: 表名: 字段名 注释 字段类型 必填 必填 必填

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论