《乡村文旅多源异构数据融合方法与流程标准规范》_第1页
《乡村文旅多源异构数据融合方法与流程标准规范》_第2页
《乡村文旅多源异构数据融合方法与流程标准规范》_第3页
《乡村文旅多源异构数据融合方法与流程标准规范》_第4页
《乡村文旅多源异构数据融合方法与流程标准规范》_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS

CCS

T/OTOP

团体标准

T/OTOP-XXXXXX

乡村文旅多源异构数据融合方法与流程标

准规范

Specificationforfundamentalcultureandtourismsupervisioninformation

(征求意见稿)

2023-XX-XX发布2023-XX-XX实施

中国民族贸易促进会发布

T/OTOP-XXXXXX

乡村文旅多源异构数据融合方法与流程标准规范

1范围

本标准规定了乡村文旅多源异构数据融合的融合方法、流程规范、系统架构、功能要求及融合数据

的统一表达。

本标准适用于乡村文旅多源异构数据融合与规范,提供面向经营者、游客和管理者以统一标准的数

据融合实践。

本标准用于指导“乡村文化旅游云服务技术集成与应用示范平台”参加建设单位完成相关数据的采

集、融合与组织。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T36625.1智慧城市数据融合第1部分:概念模型

GB/T36625.3智慧城市数据融合第3部分:数据采集规范

GB/T20273信息安全技术数据库管理系统安全技术要求

GB/T12991.1信息技术数据库语言SQL第1部分:框架3术语和定义及缩略语

3术语和定义

下列术语和定义适用于本文件。

3.1

数据采集dataacquisition

从数据源中得到原始数据,通过标准化处理并转化为满足数据共享与利用需求的过程。

3.2

数据清洗datacleaning

通过数据清洗,完成查重纠错,剔除数据文件中可识别的重复和错误。错误包括但不限于:检查数

据一致性、处理无效值和缺失值等。

3.3

数据转换datatransformation

通过数据转换,实现对标准代码、格式、类型等信息的标准化转换处理。

3.4

数据融合datafusion

2

T/OTOP-XXXXXX

在一定的准则下,集成不同种类采集系统的数据和信息,通过关联、校验、综合和填补等多级多方

面处理,获得比任何单一的数据源更为准确、完整、及时的信息,并统一表达的过程。

3.5

数据仓库datawarehouse

数据仓库是所有业务数据存储载体,是企业级的数据集合。

3.6

ETLExtract-Transform-Load

ETL是指数据的抽取(Extract),转换(Transform)和加载(Loading),它是一个数据转移、重

组的过程,是数据仓库系统实施的一个非常重要的环节。

3.7

ODS操作数据存储operationaldatastore

操作数据存储是数据仓库体系结构中的一个部分,ODS层用于接收并处理需要存储至数据仓库系

统的原始数据,其数据表的结构与原始数据所在的数据系统中的表结构一致,是数据仓库的数据准

备区。

3.8

DWD数据明细层DataWarehouseDetail

DWD层通过企业的业务活动事件构建数据模型。基于具体业务事件的特点,构建最细粒度的明细数

据表。

3.9

DWS数据服务层DataWareHouseServic

DWS层通过分析的主题对象构建数据模型。基于上层的应用和产品的指标需求,构建公共粒度的汇

总指标事实表。

3.10

ADS应用服务层Applicantdataservice

ADS层进行个性化维度汇总,用于存放数据仓库中非通用统计维度的数据,计算只有当前业务关注

的维度和指标,与其他业务线无交集。

3.11

DIM维表层Dimension

DIM层使用维度构建数据模型。基于实际业务,通过定义维度,确定维度主键,添加维度属性,关

联不同维度等操作,构建整个业务数据的一致性数据分析维表,降低数据计算口径和算法不统一的风险。

4一般规定

3

T/OTOP-XXXXXX

4.1基本要求

平台应符合如下基本要求:

——应能够真实的反映乡村文旅运行状况,具备历史、实时查询功能;

——应遵循本标准第8章节的要求构建统一的乡村文旅数字化表达,通过数据融合规则,生成统一

的乡村文旅运行状况。

4.2效能要求

与单一数据源相比,乡村文旅数据融合,应实现以下效能:

——扩展数据的空间覆盖范围;

——扩展数据的时间覆盖范围;

——提高准确度;

——提高连续性。

4.3可靠性要求

应满足以下可靠性要求:

——可追溯性:融合数据及相关数据源数据应至少保留3年;

——容错性:保证当部分数据存在异常、错误的情况下,仍能够得到比较准确的融合结论;

——冗余性:对系统中关键信息进行备份或采取冗余措施,具备系统容错能力。

5数据融合流程规范

5.1总体架构

乡村文旅数据采集与融合从业务流程上可分为数据采集层、数据处理层、数据集成层、数据应用层,

如图1所示。其中数据采集层是经由各旅游OTA平台、综合文旅平台、社交媒体平台等各种数据采集平

台,采用信息爬取手段来采集乡村文旅相关数据;初步采集的数据进入到数据集成层,在这里完成基本

的数据处理操作,并进行ETL(抽取、转换、加载)操作,并对数据流建模分层,数据模型整体上分为五

层(ODS、DWD、DWS、ADS、DIM);数据融合层指对分层建模后的数据进行集成并存储,通常是存

储于数据仓库或数据集市;进一步地,构建分布式实时检索引擎,向数据应用层提供数据存储、特征分

析、数据模型、流量监测等数据能力开放服务。

4

T/OTOP-XXXXXX

图1总体架构图

5.2功能架构

乡村文旅数据融合流程具体地可包含数据采集、数据处理和数据集成流程模块。应遵循本标准第8

章节的要求构建统一的乡村文旅数字化表达,在此基础上,加载景区信息、产品信息、游客信息;数据

处理中,对非结构化数据进行数据描述产生结构化数据;通过数据抽取、清洗和转换对数据进行分类整

理存储于数据集市,并产生统一的乡村文旅监测技术指标信息。搭建智慧景区门户平台,提供围绕经营

者、游客、管理者三个参与主体的商业智能核心需求,整合实现面向不同群体的智能分析工具与服务。

6功能要求

6.1基本功能

6.1.1数据采集

应能采用信息爬取手段对经由旅游OTA平台、综合文旅平台、社交媒体平台等数据采集平台的乡村

文旅数据进行采集。

6.1.2数据处理:ETL

5

T/OTOP-XXXXXX

应能对各类数据进行清理、标准化和汇总,为基于数据仓库的决策分析应用提供符合要求、高质量

的数据。

2

6.1.3数据融合

应具备对ETL数据抽取、加载、转换后的数据进行接收、集成和存储的能力,融合后的数据通常存

储于数据仓库或数据集市中。

6.1.4数据仓库

应具备反映全方位信息能力,将各种业务系统中积累的历史数据进行集成、转换和管理,以便于进

行数据分析。

6.1.5数据集市

应能对数据按照多维的方式进行存储,生成面向决策分析的数据立方体,满足“乡村文化旅游大数

据商业智能分析与服务”系统中经营者、游客、管理者三方用户的功能需求

6.2基本性能指标

6.2.1数据量支持

系统对结构化数据的存储量支持能力不小于1PB;对图片等非结构化数据的支持能力不小于100PB;。

6.2.2数据存储时间

6

T/OTOP-XXXXXX

系统数据存储年限应不低于5年。

6.2.3查询响应

数据查询响应时间应不超过2秒。

6.2.4制表速度

一般固定表格制表不超过10秒,复杂统计汇集表格不超过5分钟。

6.2.5调度任务

数据仓库调度任务运行时长应该小于30分钟。

6.3数据接入

6.3.1数据源

应具备接入来自业务系统、日志系统、景区信息系统等数据源的实时、离线数据的能力。

6.3.2数据类型

应具备接入景区数据(地理信息、运营信息、天气信息等)、产品数据(商品信息、商铺信息等)、

游客数据(游客基本信息、搜索行为信息、浏览行为信息等)以及一些来自业务系统和日志系统的多源

异构信息数据的能力。

6.3.3数据接口

应采用总体架构中要求的数据接口进行数据接入。

6.3.4数据映射

接入的数据应与第7章相关的信息单元相互对应。

6.3.5数据检查

应具备根据已配置的接入信息扫描数据库后台,检查数据接入状态的能力。

7乡村文旅数据融合开发规范

构建数据仓库是实现多源异构数据融合、满足多维度数据分析和智能化服务的有效途径。乡村文旅

数据仓库的开发过程中为了保证数据结构的清晰,数据血缘的可追踪,应对数据进行分层建模,统一数

据口径,将复杂业务拆解为多个步骤逐一实现,提高中间层的利用效率。故乡村文旅数据仓库的建设应

包含五层(ODS、DWD,DWS,ADSD,DIM)体系结构。

7

T/OTOP-XXXXXX

7.1数据仓库体系结构

7.1.1ODS层

ODS属于数据操作层,该层用于接收并处理需要存储至数据仓库系统的原始数据,其数据表的结构

应与原始数据所在的数据系统中的表结构一致,包含所有的业务变更过程。ODS层对原始数据的操作应

包括但不限于如下流程:

a)将原始的结构化数据增量或全量同步至数据仓库中。

b)对原始的非结构化数据(如,日志信息)进行结构化处理,并存储至MaxCompute。

c)根据实际业务需求,记录原始数据的历史变化或对原始数据进行简单的清洗。

d)按照指定的生命周期保存。

7.1.2DWD层

DWD层应基于具体业务的特点,以业务过程驱动建模,基于每个具体的业务过程特点,构建最细粒度

的明细层事实表。应结合乡村文旅的数据使用特点,将明细数据表的某些重要维度属性字段适当冗余,

即宽表化处理。同时,也应当适当减少明细数据表及维度表的关联,提高明细表的易用性。

7.1.3DWS层

DWS层通过分析的主题对象构建数据模型。基于上层的应用和产品的指标需求,构建公共粒度的汇

总指标事实表。在乡村文旅数据仓库的DWS层的设计中应满足如下原则:

a)数据公用性:需考虑汇总的聚集是否可以提供给第三方使用。若基于某个维度的聚集是否经常

用于数据分析中。则应把明细数据经过汇总沉淀到聚集表中。

b)不跨数据域:数据域是在较高层次上对数据进行分类聚集的抽象。乡村文旅数据库设计过程中

数据域通常以业务过程进行分类,如交易统一划到交易域下,商品的新增、修改放到商品域下。

7.1.4ADS层

ADS层是乡村文旅数据仓库的个性化维度汇总层,应用于存放数据产品个性化的统计指标数据,输

出各种报表。在这里计算的应为仅有自身业务关注的维度和指标,与其他业务线一般不应存在交集。

7.1.5DIM层

DIM层主要由维度表(维表)构成。这一层相对实时应用来说应为静态。乡村文旅数据仓库的DIM层在

建设过程中应遵循但不限于以下原则:

a)数据的准确性:维度表中的数据应该准确、完整、一致。通常可以通过数据清洗、校验等方式来

确保数据的质量。

b)数据的可扩展性:维度表应该具有可扩展性,能够支持快速地添加新的维度和层次

c)数据的性能:维度表应该具有良好的查询性能,通常可以采用列式存储、分区、索引等方式来优

化查询性能。

d)数据的易用性:维度表中的字段应该易于使用和理解,通常可以通过命名规范(见7.3节)、字

段注释等方式来提高数据的易用性。

8

T/OTOP-XXXXXX

7.2主题域划分

乡村文旅数据仓库的主题域应为联系较为紧密的数据主题的集合,须根据业务需求分析的视角进行

划分抽象归类。在划分的过程中应结合具体实际按照业务过程,业务部门或业务系统进行划分。

乡村文旅数据仓库在规划主题域时应作出充分考虑,主题域划分和主题划分要尽可能地涵盖所有业

务,并要求可以无影响的保证新业务进入时主题和主题域的拓展,避免频繁变动。

乡村文旅数据仓库主题域的划分应包含但不限于以下内容:

表1乡村文旅数据仓库主题域

数据域数据域缩

数据域描述包含业务过程

名称写

加购、下单、下单取消、支付、支付取消、

交易域TRDE各类业务产生订单交易过程产生的相关数据

完单

流量域FLOW业务开展过程中产生的各类日志数据登录、曝光、点击、分享

产品:发布产品、审核、上架、下架

产品域PROD提供的sku、商品以及对应的类目等信息商品:报名活动、售卖、退回活动、活动

结束

会员(MBR):注册、激活、签到、注销、

开展各类业务的买家、卖家、店铺等各种个人或团体,升级、降级

用户域USER

分为会员和商家两个子域商家(SLR):申请、审核、缴纳保证金、

入驻、退回、清退

券:领取、使用、分享、券过期

营销域MKT各类营销以及促销活动,主要是特卖、优惠券等

促销活动:创建活动、活动完结

通用的时间、地理区域、天气、手机号归属等公共信

公共域PUB/

金融域FIN相关金融产品现金贷、消费贷、订单贷

售后:申请、审核、回寄、举证、赔付、

服务域SERV买家关于产品与商家产生的售后相关信息

客服

7.3命名规范

7.3.1表命名规范

乡村文旅数据仓库创建的表类型应为内部表,原则上不允许创建外部表。除部分DIM静态维表,其

余的表都须为分区表且分区字段须要包含时间分区字段,格式为yyyy-mm-dd。各数仓分层的表名严格遵

循以下各层级的表命规范。

乡村文旅数据仓库在建设仓库过程中,数据仓库五层体系结构上的所有表命名必须遵循如下通用公

式,并在不同数据仓库分层层次上具体区分,各分层在命名的过程将必要属性以下划线的方式连接。

Name()=F(模型层次,业务归属/需求方,数据域,维度,粒度,场景,统计周期/更新周+增全量)

ODS层表命名规范

ODS层存储与源系统结构相同的数据,某些少量数据可能发生物理存储结构上变化。乡村文旅数据

仓库在该分层中的命名遵循以下规范:

9

T/OTOP-XXXXXX

Name(ods)=F(模型层次,库名编码,系统源表名,更新周期+增|全量)

DIM层表命名规范

DIM层中所需实体的命名仅允许使用小写字母,单词之间以下划线分隔,且须满足总名称长度不能

超过30个英文字符。乡村文旅数据仓库在该分层中的的命名遵循以下规范:

Name(dim)=F(模型层次,业务归属,数据域,维度或实体,更新周期+增|全量)

DWD层表命名规范

DWD层中所需实体的命名仅允许使用小写字母,单词之间以下划线分隔,且须满足总名称长度不能

超过50个英文字符。乡村文旅数据仓库在该分层中的的命名遵循以下规范:

Name(dwd)=F(模型层次,业务归属,数据域,维度|粒度|实体|场景,更新周期+增|全量)

DWS层表命名规范

DWS层的表命名应使用英文小写字母,单词之间以下划线分开,长度不超过50个字符。乡村文旅

数据仓库在该分层中的的命名遵循以下规范:

Name(dws)=F(模型层次,业务归属,主题域|数据域,维度|粒度|实体|场景,统计周期)

ADS层表命名规范

ADS层的表命名应使用英文小写字母,单词之间以下划线连接,长度不要超过50个字符。乡村文旅

数据仓库在该分层中的的命名遵循以下规范:

Name(ads)=F(模型层次,业务需求描述,需求归属,更新周期+增|全量)

非核心cdm表命名规范

Name()=F(模型层次,需求归属,维度|粒度|实体|场景,更新周期,增|全量)

临时表命名规范

临时表存储数据加工中产生的临时数据、乡村文旅数据仓库开发过程中基于优化需要创建的中间结

果表及临时数据须存储于临时表,且临时表不允许跨ETL任务使用。

Name()=tmp_<主表名>_${bizdate}_<序号>

主表为加工的目标表名,序号为从00开始依次递增的两位数字

数据校验表命名规范

乡村文旅数据仓库开发过程中的数据校验表表名应以check开头。

7.3.2字段命名规范

乡村文旅数据仓库各字段的命名过程中,各属性(列)的名称须按公共字段词库约定的缩写命名,

对于非公共字段词库中不含属性(列)的名字可自行确定,英文名应为该字段的小写全称,单词间以下

划线连接,若字段名超过40个字符,则采用缩写命名。

公共字段命名与数据类型规范

乡村文旅数据仓库各字段的命名应优先采取以下常见公共字段库中的命名方式:

10

T/OTOP-XXXXXX

表2公共字段命名方式

字段类型英文简称数据类型

Xx名称xx_nameString

Xx描述xx_descString

XX数(不可累加)xx_numBigint

XX数(可累加)xx_cntBigint

Xx日期xx_dateString

Xx时长xx_durBigint

Xx时间xx_timeString

Xx标识xx_flagBigint

XX比率xx_ratedecimal(38,4)

Xx类型xx_typeString、Bigint

Xx纬度xx_latString

Xx经度xx_lngString

xx编号xx_idBigint

Xx距离xx_disdecimal(38,6)

Xx金额xx_amtdecimal(38,2)

时间周期字段编码规范

对于乡村文旅中涉及到时间周期的各字段,均应采取如下的编码方式:

表3时间周期字段编码方式

中文名英文缩写中文名英文缩写

小时h自然周cw

天d自然月cm

周w自然季度cq

月m自然年cy

年y零点截止到当前tt

最近1小时1h零点截止到当前小时th

最近1天1d历史截止到当日td

最近3天3d周初截止到当日wd

最近1周1w月初截止到当日md

最近2周2w年初截止到当日yd

最近一个月1m半年以前bhy

最近三个月3m未来1天f1d

最近六个月6m未来1周f1w

最近1年1y未来一个月f1m

财年fy未来一年f1y

周同比wow周环比wow

月同比mom月环比mom

11

T/OTOP-XXXXXX

特殊字段命名规范

一些特殊的字段命名规范应满足如下要求:

a)编号作为标识符的属性(列),应统一命名为"××id"。

b)代码表的列属性中文名与实体的中文名保持一致,代码表列属性英文名为实体名去掉前缀,单

词字母小写,相应的描述字段属性后缀是desc。

c)没有单独的代码表,取值只有"是/非"的属性(列),中文名必须以"标志"结尾,英文名后缀应是

flag,并且标志位的取值必须满足"是(1)/非(0)"。

d)日期类型的属性(列)后缀应是date,时间类型的属性(列)后缀应是time。

7.4代码规范

7.4.1SQL编码规范

乡村文旅数据库SQL代码的编写应满足如下要求:

a)所使用的代码须功能完善。应具有清晰、整齐的格式,缩进按照代码层次对齐。并添加详细的

注释。

b)编写过程中充分考虑执行速度最优的原则。禁止使用select*操作,所有操作必须明确指定列

名。

c)SQL代码中应用到的所有SQL关键字、保留字都需使用全大写,不应出现大小写混合的方式。

7.4.2一致性保障

为了保证乡村文旅数据仓库的数据一致性,所使用的代码应满足如下要求:

a)代码应支持可重复执行,且保证每次执行结果一致。

b)不应使用DDL语句,不应使用INSERTINTO的写法。

c)与row_number/rank/dense_rank相关排序,应确保每次排序结果一致。

d)若进行两表关联,关联条件两边的数据类型应保证一致。关联条件应做防倾斜处理,不应使用

rand()。

7.5模型依赖规范

在乡村文旅数据仓库的开发过程中,除DWS层外,不应直接依赖ODS层。

7.6数据质量规范

乡村文旅数据仓库需要面向表进行数据质量校验,对表规则进行不同等级的校验,从而对应不同的

报警策略及任务处理策略。对于数据质量的监测指标及其校验规则应包含但不限于下表类目。

表4数据质量监测指标

数据质量监测指标数据质量校验规则

12

T/OTOP-XXXXXX

字段平均值,相比1天、1周和1个月前的取该字段的平均值,同1天、7天和1个月的周期进行比较,计算波动率。再与

波动率。阈值进行比较,只要有一个不符合规则即可触发报警。

字段汇总值,相比1天、1周和1个月前的取该字段的sum值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈

波动率。值进行比较,只要有一个不符合规则即可触发报警。

字段最小值,相比1天、1周和1个月前的取该字段的最小值,同1天、7天和1个月的周期进行比较,计算波动率。再与

波动率。阈值进行比较,只要有一个不符合规则即可触发报警。

字段最大值,相比1天、1周和1个月前的取该字段的最大值,同1天、7天和1个月的周期进行比较,计算波动率。再与

波动率。阈值进行比较,只要有一个不符合规则即可触发报警。

字段唯一值的个数。去重后的count数与一个期望数字进行比较,即固定值校检。

字段唯一值的个数,相比1天、1周和1个

去重后的count数与1天、1周和1个月前进行比较,即固定值校检。

月前的波动率。

表行数,相比1天、1周和1个月前的波动

同1天、1周和1个月前采集的表行数进行比较,对比波动率。

率。

取该字段的空值数与固定值进行比较。是否为空值,是通过转换为SQL的isnull

字段空值个数。

进行判断。

字段空值个数/总行数。空值的个数与行总数的比率与一个固定值进行比较。该固定值是一个小数。

字段重复值个数/总行数。重复值个数与总行数的比率与一个固定值进行比较。

字段重复值个数。总行数减去重后的个数,即字段重复值的个数。重复值个数与固定值进行比较。

字段唯一值个数/总行数。唯一值个数与总行数的比率与一个固定值进行比较。

字段平均值,相比1天前的波动率。取该字段的平均值,与前1天进行比较,计算出波动率后,再与阈值进行比较。

字段汇总值,相比1天前的波动率。取该字段的sum值,与前1天进行比较,计算出波动率后,再与阈值进行比较。

字段最小值,相比1天前的波动率。取该字段的最小值,与前1天进行比较,计算出波动率后,再与阈值进行比较。

字段最大值,相比1天前的波动率。取该字段的最大值,与前1天进行比较,计算出波动率后,再与阈值进行比较。

取该字段的sum值,与上一周期进行比较,计算出波动率后,再与阈值进行比

字段汇总值,相比上一周期的波动率。

较,只要有一个不符合规则即可触发报警。

取该字段的最小值,与上一周期进行比较,计算出波动率后,再与阈值进行比

字段最小值,相比上一周期的波动率。

较,只要有一个不符合规则即可触发报警。

13

T/OTOP-XXXXXX

取该字段的最大值,与上一周期进行比较,计算出波动率后,再与阈值进行比

字段最大值,相比上一周期的波动率。

较,只要有一个不符合规则即可触发报警。

字段分组,各离散点count值。字段分组,各离散点count值。

字段分组,各离散点count值,相比1天、

字段分组,各离散点count值,相比1天、1周和1个月前的波动率。

1周和1个月前的波动率。

字段分组,离散点总数。字段分组,离散点总数。

字段分组,离散点总数,相比1天前的波

字段分组,离散点总数,相比1天前的波动率。

动率。

相比上一周期,表大小不变(字节)。相比上一周期,表大小不变(字节)。

相比上一周期,表大小变化(字节)。相比上一周期,表大小变化(字节)。

相比上一周期,表行数变化。相比上一周期,表行数变化。

相比上一周期,表行数不变。相比上一周期,表行数不变。

表大小,相比上一周期的差值(字节)。表大小,相比上一周期的差值(字节)。

表行数,相比上一周期的差值。基准值为上一周期产生的分区的表行数,比较当天采集的表行数,对比差值。

表行数,相比1天前的差值。基准值为昨天产生的分区的表行数,比较当天采集的表行数,对比差值。

表的空间大小,相比1天前的差值(字节)。表的空间大小,相比1天前的差值(字节)。

监控表大小的波动情况,基准值为最近一天的额度样本。大于阈值则进行数据

表的空间大小,相比1天前的波动率。

质量警告

监控表大小的波动情况,基准值为最近一周的额度样本。大于阈值则进行数据

表的空间大小,相比1周前的波动率。

质量警告

监控表大小的波动情况,基准值为最近一月的额度样本。大于阈值则进行数据

表的空间大小,相比1个月前的波动率。

质量警告

表行数,相比最近7天平均值的波动率。基准值是最近7天的表行数的平均值。

表行数,相比最近30天平均值的波动率。基准值是最近30天的表行数的平均值。

表行数,相比1天前的波动率。基准值为昨天产生的分区的表行数,比较当天采集的表行数,对比波动率。

表行数,相比1周前的波动率。基准值为1周前产生的分区的表行数,比较当天采集的表行数,对比波动率。

表行数,相比1个月前的波动率。基准值为1个月前产生的分区的表行数,比较当天采集的表行数,对比波动率。

表行数,相比1天、1周、1个月前和本月

与1天、1周、1个月前和本月1号采集的表行数进行比较,对比波动率。

1号的波动率。

表行数,相比上一周期的波动率。基准值为上一周期产生的分区的表行数,比较当天采集的表行数,对比波动率。

8统一表达

8.1一般规定

14

T/OTOP-XXXXXX

针对乡村文旅数据关联融合及商业智能分析问题,在突破文旅全业务流程多源异构大数据关联融合

技术的基础上,围绕景区、游客、产品三个参与主体的商业智能核心需求,分别开展智能营销与服务、

精准推荐、智能监测与管理辅助等关键共性技术研发,实现文旅全业务流程的商业智能分析,并整合实

现面向景区、游客、产品的智能分析工具与服务。故乡村文旅多源异构数据融合统一表达应符合如下要

求:

a.乡村文旅异构数据网络拓扑信息应根据数据采集信息单元,进行统一的结构化表达、存储、交互

以及使用;

b.数据采集信息单元应包括景区平台基础信息单元、业务运营数据信息单元、爬虫数据信息单元。

c.各信息单元的属性可根据需要进一步扩展;

d.应能够将相关数据采集信息单元得到的原始数据,纳入依据融合准则,进行自动化关联、相关、

估计、组合,从而实现面向经营者、游客和管理者的智能分析;

8.2数据采集信息单元

数据采集信息单元应满足如下要求:

a.数据采集信息单元包含景区平台基础信息单元、业务运营数据信息单元、爬虫数据信息单元;

b.数据采集信息单元所收集的数据来源应满足表5,数据类型应满足表6。

c.数据采集信息单元应尽可能面向景区、产品、游客分别从多个数据来源采集多种不同类型的数

据。

表5多源异构数据采集来源表

面向对象数据所属单元具体来源

基本数据景区平台基础信息单元景区在平台上的注册数据

运营数据业务运营数据信息单元景区信息系统业务数据

旅游目的地(景

景区提供或从中国天气网等渠

区)天气数据爬虫数据信息单元

道爬取

投诉数据业务运营数据信息单元景区信息系统业务数据

商品数据业务运营数据信息单元景区信息系统业务数据

产品

商铺数据业务运营数据信息单元景区信息系统业务数据

基本数据业务运营数据信息单元游客在平台上的注册数据

搜索行为数据业务运营数据信息单元平台日志数据

浏览行为数据业务运营数据信息单元平台日志数据

游客

购票行为数据业务运营数据信息单元平台业务数据

消费行为数据业务运营数据信息单元景区信息系统业务数据

评论行为数据业务运营数据信息单元平台业务数据

15

T/OTOP-XXXXXX

评论内容数据业务运营数据信息单元平台业务数据

收藏行为数据业务运营数据信息单元平台业务数据

点赞行为数据业务运营数据信息单元平台业务数据

分享行为数据业务运营数据信息单元平台业务数据

8.2.1景点基础信息单元

景区平台基础信息单元应满足以下要求:

a)景区平台基础信息单元应包含景区基本信息、景区客流量。

b)景区平台基础信息单元的详细定义、数据要求应符合表6、表7。

表6景区单元结构表

字段名称字段英文名类型描述选取原则

景区idspot_idbigint景区的唯一编号必选

景区名spot_namevarchar唯一编号景区的对应名称必选

开放时间open_timevarchar格式:HH:mm—HH:mm必选

简介introtext景区介绍必选

唯一编号景区的对应OTA平台的网站

OTA链接OTA_linkvarchar必选

链接

表7景区客流量表

字段名字段英文名类型备注选取原则

景区idspot_idbigint关联spots表必选

日期datedate以天为统计单元,格式:yyyy:MM:dd必选

游客数volumebigint该景区在日期下的游客数统计必选

8.2.2关注指数数据信息单元

网络关注数据主要基于搜索引擎上网民对旅游目的地的关注指数,应符合以下要求:

a)景区指数数据应符合表8要求;

b)搜索指数、媒体指数、资讯指数数据与实际景区相对应关联。

16

T/OTOP-XXXXXX

表8指数值单元字段属性

字段名称字段英文名类型描述选取原则

用户相关检索词的记录,一般为“景区

关键词keywordvarchar必选

名(+延申关键词)”

收集到的搜索指数所属端口平台,包括

系统platformvarchar可选

全系统、电脑端和移动端

日期datedate格式:yyyy:MM:dd必选

省份idprovince_idint全国及34个省份的记录数据可选

关注指数值index_numbigint关键词在日期当天的搜索数据值必选

媒体指数值关键词在日期当天的媒体数据值必选

news_numbigint

资讯指数值关键词在日期当天的资讯指数值必选

feed_numbigint

8.2.3评论数据信息单元

社交数据信息单元主要基于第三方平台的景区评论数据,应符合以下要求:

a)景区评论数据应符合表9要求;

b)景区评论数据单元应与发表评论的评论景区单元数据信息相关联,应符合表10要求。

表9景区评论单元结构表

字段名称字段英文名类型描述选取原则

评论idreview_idbigint评论的唯一编号必选

景区idspot_idbigint景区的唯一编号必选

格式:yyyy:MM:dd

评论发布时间review_timedatetime必选

HH:mm:ss

点赞数like_numint评论下的点赞数记录可选

17

T/OTOP-XXXXXX

评论中图片数images_numint评论下的评论数记录可选

总评分scorevarchar评论下的评分记录可选

景色评分sight_scorevarchar评论下的景色评分记录可选

趣味评分fun_scorevarchar评论下的趣味评分记录可选

性价比评分cost_scorevarchar评论下的性价比评分记录可选

评论内容contenttext该条评论的具体内容必选

表10景点与评论单元映射关系

字段名称字段英文名类型备注选取原则

评论idreview_idbigint评论的唯一编号必选

景区idspot_idbigint景区的唯一编号必选

包括携程、去哪儿、大众

第三方系统platformvarchar(10)可选

点评、美团等

评论数量comment_numint某平台下的评论数量统计必选

8.2.4业务运营数据信息单元

业务运营数据信息单元分为乡村文旅电商实时运营基础数据与游客相关实时电商分析数据。乡村文

旅电商实时运营基础数据应满足以下要求:

a)乡村文旅电商实时运营基础数据应包含景区运营数据、景区运营数据、景区投诉数据、产品商

品数据、产品商铺数据;

b)乡村文旅电商实时运营基础数据的具体模块、计算指标和详细定义应符合表11要求。

表11电商实时基础运营数据表

区域模块指标定义

运营视实时数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论