版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS
CCS
T/OTOP
团体标准
T/OTOP-XXXXXX
乡村文旅多源异构数据融合方法与流程标
准规范
Specificationforfundamentalcultureandtourismsupervisioninformation
(征求意见稿)
2023-XX-XX发布2023-XX-XX实施
中国民族贸易促进会发布
T/OTOP-XXXXXX
乡村文旅多源异构数据融合方法与流程标准规范
1范围
本标准规定了乡村文旅多源异构数据融合的融合方法、流程规范、系统架构、功能要求及融合数据
的统一表达。
本标准适用于乡村文旅多源异构数据融合与规范,提供面向经营者、游客和管理者以统一标准的数
据融合实践。
本标准用于指导“乡村文化旅游云服务技术集成与应用示范平台”参加建设单位完成相关数据的采
集、融合与组织。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T36625.1智慧城市数据融合第1部分:概念模型
GB/T36625.3智慧城市数据融合第3部分:数据采集规范
GB/T20273信息安全技术数据库管理系统安全技术要求
GB/T12991.1信息技术数据库语言SQL第1部分:框架3术语和定义及缩略语
3术语和定义
下列术语和定义适用于本文件。
3.1
数据采集dataacquisition
从数据源中得到原始数据,通过标准化处理并转化为满足数据共享与利用需求的过程。
3.2
数据清洗datacleaning
通过数据清洗,完成查重纠错,剔除数据文件中可识别的重复和错误。错误包括但不限于:检查数
据一致性、处理无效值和缺失值等。
3.3
数据转换datatransformation
通过数据转换,实现对标准代码、格式、类型等信息的标准化转换处理。
3.4
数据融合datafusion
2
T/OTOP-XXXXXX
在一定的准则下,集成不同种类采集系统的数据和信息,通过关联、校验、综合和填补等多级多方
面处理,获得比任何单一的数据源更为准确、完整、及时的信息,并统一表达的过程。
3.5
数据仓库datawarehouse
数据仓库是所有业务数据存储载体,是企业级的数据集合。
3.6
ETLExtract-Transform-Load
ETL是指数据的抽取(Extract),转换(Transform)和加载(Loading),它是一个数据转移、重
组的过程,是数据仓库系统实施的一个非常重要的环节。
3.7
ODS操作数据存储operationaldatastore
操作数据存储是数据仓库体系结构中的一个部分,ODS层用于接收并处理需要存储至数据仓库系
统的原始数据,其数据表的结构与原始数据所在的数据系统中的表结构一致,是数据仓库的数据准
备区。
3.8
DWD数据明细层DataWarehouseDetail
DWD层通过企业的业务活动事件构建数据模型。基于具体业务事件的特点,构建最细粒度的明细数
据表。
3.9
DWS数据服务层DataWareHouseServic
DWS层通过分析的主题对象构建数据模型。基于上层的应用和产品的指标需求,构建公共粒度的汇
总指标事实表。
3.10
ADS应用服务层Applicantdataservice
ADS层进行个性化维度汇总,用于存放数据仓库中非通用统计维度的数据,计算只有当前业务关注
的维度和指标,与其他业务线无交集。
3.11
DIM维表层Dimension
DIM层使用维度构建数据模型。基于实际业务,通过定义维度,确定维度主键,添加维度属性,关
联不同维度等操作,构建整个业务数据的一致性数据分析维表,降低数据计算口径和算法不统一的风险。
4一般规定
3
T/OTOP-XXXXXX
4.1基本要求
平台应符合如下基本要求:
——应能够真实的反映乡村文旅运行状况,具备历史、实时查询功能;
——应遵循本标准第8章节的要求构建统一的乡村文旅数字化表达,通过数据融合规则,生成统一
的乡村文旅运行状况。
4.2效能要求
与单一数据源相比,乡村文旅数据融合,应实现以下效能:
——扩展数据的空间覆盖范围;
——扩展数据的时间覆盖范围;
——提高准确度;
——提高连续性。
4.3可靠性要求
应满足以下可靠性要求:
——可追溯性:融合数据及相关数据源数据应至少保留3年;
——容错性:保证当部分数据存在异常、错误的情况下,仍能够得到比较准确的融合结论;
——冗余性:对系统中关键信息进行备份或采取冗余措施,具备系统容错能力。
5数据融合流程规范
5.1总体架构
乡村文旅数据采集与融合从业务流程上可分为数据采集层、数据处理层、数据集成层、数据应用层,
如图1所示。其中数据采集层是经由各旅游OTA平台、综合文旅平台、社交媒体平台等各种数据采集平
台,采用信息爬取手段来采集乡村文旅相关数据;初步采集的数据进入到数据集成层,在这里完成基本
的数据处理操作,并进行ETL(抽取、转换、加载)操作,并对数据流建模分层,数据模型整体上分为五
层(ODS、DWD、DWS、ADS、DIM);数据融合层指对分层建模后的数据进行集成并存储,通常是存
储于数据仓库或数据集市;进一步地,构建分布式实时检索引擎,向数据应用层提供数据存储、特征分
析、数据模型、流量监测等数据能力开放服务。
4
T/OTOP-XXXXXX
图1总体架构图
5.2功能架构
乡村文旅数据融合流程具体地可包含数据采集、数据处理和数据集成流程模块。应遵循本标准第8
章节的要求构建统一的乡村文旅数字化表达,在此基础上,加载景区信息、产品信息、游客信息;数据
处理中,对非结构化数据进行数据描述产生结构化数据;通过数据抽取、清洗和转换对数据进行分类整
理存储于数据集市,并产生统一的乡村文旅监测技术指标信息。搭建智慧景区门户平台,提供围绕经营
者、游客、管理者三个参与主体的商业智能核心需求,整合实现面向不同群体的智能分析工具与服务。
6功能要求
6.1基本功能
6.1.1数据采集
应能采用信息爬取手段对经由旅游OTA平台、综合文旅平台、社交媒体平台等数据采集平台的乡村
文旅数据进行采集。
6.1.2数据处理:ETL
5
T/OTOP-XXXXXX
应能对各类数据进行清理、标准化和汇总,为基于数据仓库的决策分析应用提供符合要求、高质量
的数据。
2
6.1.3数据融合
应具备对ETL数据抽取、加载、转换后的数据进行接收、集成和存储的能力,融合后的数据通常存
储于数据仓库或数据集市中。
6.1.4数据仓库
应具备反映全方位信息能力,将各种业务系统中积累的历史数据进行集成、转换和管理,以便于进
行数据分析。
6.1.5数据集市
应能对数据按照多维的方式进行存储,生成面向决策分析的数据立方体,满足“乡村文化旅游大数
据商业智能分析与服务”系统中经营者、游客、管理者三方用户的功能需求
6.2基本性能指标
6.2.1数据量支持
系统对结构化数据的存储量支持能力不小于1PB;对图片等非结构化数据的支持能力不小于100PB;。
6.2.2数据存储时间
6
T/OTOP-XXXXXX
系统数据存储年限应不低于5年。
6.2.3查询响应
数据查询响应时间应不超过2秒。
6.2.4制表速度
一般固定表格制表不超过10秒,复杂统计汇集表格不超过5分钟。
6.2.5调度任务
数据仓库调度任务运行时长应该小于30分钟。
6.3数据接入
6.3.1数据源
应具备接入来自业务系统、日志系统、景区信息系统等数据源的实时、离线数据的能力。
6.3.2数据类型
应具备接入景区数据(地理信息、运营信息、天气信息等)、产品数据(商品信息、商铺信息等)、
游客数据(游客基本信息、搜索行为信息、浏览行为信息等)以及一些来自业务系统和日志系统的多源
异构信息数据的能力。
6.3.3数据接口
应采用总体架构中要求的数据接口进行数据接入。
6.3.4数据映射
接入的数据应与第7章相关的信息单元相互对应。
6.3.5数据检查
应具备根据已配置的接入信息扫描数据库后台,检查数据接入状态的能力。
7乡村文旅数据融合开发规范
构建数据仓库是实现多源异构数据融合、满足多维度数据分析和智能化服务的有效途径。乡村文旅
数据仓库的开发过程中为了保证数据结构的清晰,数据血缘的可追踪,应对数据进行分层建模,统一数
据口径,将复杂业务拆解为多个步骤逐一实现,提高中间层的利用效率。故乡村文旅数据仓库的建设应
包含五层(ODS、DWD,DWS,ADSD,DIM)体系结构。
7
T/OTOP-XXXXXX
7.1数据仓库体系结构
7.1.1ODS层
ODS属于数据操作层,该层用于接收并处理需要存储至数据仓库系统的原始数据,其数据表的结构
应与原始数据所在的数据系统中的表结构一致,包含所有的业务变更过程。ODS层对原始数据的操作应
包括但不限于如下流程:
a)将原始的结构化数据增量或全量同步至数据仓库中。
b)对原始的非结构化数据(如,日志信息)进行结构化处理,并存储至MaxCompute。
c)根据实际业务需求,记录原始数据的历史变化或对原始数据进行简单的清洗。
d)按照指定的生命周期保存。
7.1.2DWD层
DWD层应基于具体业务的特点,以业务过程驱动建模,基于每个具体的业务过程特点,构建最细粒度
的明细层事实表。应结合乡村文旅的数据使用特点,将明细数据表的某些重要维度属性字段适当冗余,
即宽表化处理。同时,也应当适当减少明细数据表及维度表的关联,提高明细表的易用性。
7.1.3DWS层
DWS层通过分析的主题对象构建数据模型。基于上层的应用和产品的指标需求,构建公共粒度的汇
总指标事实表。在乡村文旅数据仓库的DWS层的设计中应满足如下原则:
a)数据公用性:需考虑汇总的聚集是否可以提供给第三方使用。若基于某个维度的聚集是否经常
用于数据分析中。则应把明细数据经过汇总沉淀到聚集表中。
b)不跨数据域:数据域是在较高层次上对数据进行分类聚集的抽象。乡村文旅数据库设计过程中
数据域通常以业务过程进行分类,如交易统一划到交易域下,商品的新增、修改放到商品域下。
7.1.4ADS层
ADS层是乡村文旅数据仓库的个性化维度汇总层,应用于存放数据产品个性化的统计指标数据,输
出各种报表。在这里计算的应为仅有自身业务关注的维度和指标,与其他业务线一般不应存在交集。
7.1.5DIM层
DIM层主要由维度表(维表)构成。这一层相对实时应用来说应为静态。乡村文旅数据仓库的DIM层在
建设过程中应遵循但不限于以下原则:
a)数据的准确性:维度表中的数据应该准确、完整、一致。通常可以通过数据清洗、校验等方式来
确保数据的质量。
b)数据的可扩展性:维度表应该具有可扩展性,能够支持快速地添加新的维度和层次
c)数据的性能:维度表应该具有良好的查询性能,通常可以采用列式存储、分区、索引等方式来优
化查询性能。
d)数据的易用性:维度表中的字段应该易于使用和理解,通常可以通过命名规范(见7.3节)、字
段注释等方式来提高数据的易用性。
8
T/OTOP-XXXXXX
7.2主题域划分
乡村文旅数据仓库的主题域应为联系较为紧密的数据主题的集合,须根据业务需求分析的视角进行
划分抽象归类。在划分的过程中应结合具体实际按照业务过程,业务部门或业务系统进行划分。
乡村文旅数据仓库在规划主题域时应作出充分考虑,主题域划分和主题划分要尽可能地涵盖所有业
务,并要求可以无影响的保证新业务进入时主题和主题域的拓展,避免频繁变动。
乡村文旅数据仓库主题域的划分应包含但不限于以下内容:
表1乡村文旅数据仓库主题域
数据域数据域缩
数据域描述包含业务过程
名称写
加购、下单、下单取消、支付、支付取消、
交易域TRDE各类业务产生订单交易过程产生的相关数据
完单
流量域FLOW业务开展过程中产生的各类日志数据登录、曝光、点击、分享
产品:发布产品、审核、上架、下架
产品域PROD提供的sku、商品以及对应的类目等信息商品:报名活动、售卖、退回活动、活动
结束
会员(MBR):注册、激活、签到、注销、
开展各类业务的买家、卖家、店铺等各种个人或团体,升级、降级
用户域USER
分为会员和商家两个子域商家(SLR):申请、审核、缴纳保证金、
入驻、退回、清退
券:领取、使用、分享、券过期
营销域MKT各类营销以及促销活动,主要是特卖、优惠券等
促销活动:创建活动、活动完结
通用的时间、地理区域、天气、手机号归属等公共信
公共域PUB/
息
金融域FIN相关金融产品现金贷、消费贷、订单贷
售后:申请、审核、回寄、举证、赔付、
服务域SERV买家关于产品与商家产生的售后相关信息
客服
7.3命名规范
7.3.1表命名规范
乡村文旅数据仓库创建的表类型应为内部表,原则上不允许创建外部表。除部分DIM静态维表,其
余的表都须为分区表且分区字段须要包含时间分区字段,格式为yyyy-mm-dd。各数仓分层的表名严格遵
循以下各层级的表命规范。
乡村文旅数据仓库在建设仓库过程中,数据仓库五层体系结构上的所有表命名必须遵循如下通用公
式,并在不同数据仓库分层层次上具体区分,各分层在命名的过程将必要属性以下划线的方式连接。
Name()=F(模型层次,业务归属/需求方,数据域,维度,粒度,场景,统计周期/更新周+增全量)
ODS层表命名规范
ODS层存储与源系统结构相同的数据,某些少量数据可能发生物理存储结构上变化。乡村文旅数据
仓库在该分层中的命名遵循以下规范:
9
T/OTOP-XXXXXX
Name(ods)=F(模型层次,库名编码,系统源表名,更新周期+增|全量)
DIM层表命名规范
DIM层中所需实体的命名仅允许使用小写字母,单词之间以下划线分隔,且须满足总名称长度不能
超过30个英文字符。乡村文旅数据仓库在该分层中的的命名遵循以下规范:
Name(dim)=F(模型层次,业务归属,数据域,维度或实体,更新周期+增|全量)
DWD层表命名规范
DWD层中所需实体的命名仅允许使用小写字母,单词之间以下划线分隔,且须满足总名称长度不能
超过50个英文字符。乡村文旅数据仓库在该分层中的的命名遵循以下规范:
Name(dwd)=F(模型层次,业务归属,数据域,维度|粒度|实体|场景,更新周期+增|全量)
DWS层表命名规范
DWS层的表命名应使用英文小写字母,单词之间以下划线分开,长度不超过50个字符。乡村文旅
数据仓库在该分层中的的命名遵循以下规范:
Name(dws)=F(模型层次,业务归属,主题域|数据域,维度|粒度|实体|场景,统计周期)
ADS层表命名规范
ADS层的表命名应使用英文小写字母,单词之间以下划线连接,长度不要超过50个字符。乡村文旅
数据仓库在该分层中的的命名遵循以下规范:
Name(ads)=F(模型层次,业务需求描述,需求归属,更新周期+增|全量)
非核心cdm表命名规范
Name()=F(模型层次,需求归属,维度|粒度|实体|场景,更新周期,增|全量)
临时表命名规范
临时表存储数据加工中产生的临时数据、乡村文旅数据仓库开发过程中基于优化需要创建的中间结
果表及临时数据须存储于临时表,且临时表不允许跨ETL任务使用。
Name()=tmp_<主表名>_${bizdate}_<序号>
主表为加工的目标表名,序号为从00开始依次递增的两位数字
数据校验表命名规范
乡村文旅数据仓库开发过程中的数据校验表表名应以check开头。
7.3.2字段命名规范
乡村文旅数据仓库各字段的命名过程中,各属性(列)的名称须按公共字段词库约定的缩写命名,
对于非公共字段词库中不含属性(列)的名字可自行确定,英文名应为该字段的小写全称,单词间以下
划线连接,若字段名超过40个字符,则采用缩写命名。
公共字段命名与数据类型规范
乡村文旅数据仓库各字段的命名应优先采取以下常见公共字段库中的命名方式:
10
T/OTOP-XXXXXX
表2公共字段命名方式
字段类型英文简称数据类型
Xx名称xx_nameString
Xx描述xx_descString
XX数(不可累加)xx_numBigint
XX数(可累加)xx_cntBigint
Xx日期xx_dateString
Xx时长xx_durBigint
Xx时间xx_timeString
Xx标识xx_flagBigint
XX比率xx_ratedecimal(38,4)
Xx类型xx_typeString、Bigint
Xx纬度xx_latString
Xx经度xx_lngString
xx编号xx_idBigint
Xx距离xx_disdecimal(38,6)
Xx金额xx_amtdecimal(38,2)
时间周期字段编码规范
对于乡村文旅中涉及到时间周期的各字段,均应采取如下的编码方式:
表3时间周期字段编码方式
中文名英文缩写中文名英文缩写
小时h自然周cw
天d自然月cm
周w自然季度cq
月m自然年cy
年y零点截止到当前tt
最近1小时1h零点截止到当前小时th
最近1天1d历史截止到当日td
最近3天3d周初截止到当日wd
最近1周1w月初截止到当日md
最近2周2w年初截止到当日yd
最近一个月1m半年以前bhy
最近三个月3m未来1天f1d
最近六个月6m未来1周f1w
最近1年1y未来一个月f1m
财年fy未来一年f1y
周同比wow周环比wow
月同比mom月环比mom
11
T/OTOP-XXXXXX
特殊字段命名规范
一些特殊的字段命名规范应满足如下要求:
a)编号作为标识符的属性(列),应统一命名为"××id"。
b)代码表的列属性中文名与实体的中文名保持一致,代码表列属性英文名为实体名去掉前缀,单
词字母小写,相应的描述字段属性后缀是desc。
c)没有单独的代码表,取值只有"是/非"的属性(列),中文名必须以"标志"结尾,英文名后缀应是
flag,并且标志位的取值必须满足"是(1)/非(0)"。
d)日期类型的属性(列)后缀应是date,时间类型的属性(列)后缀应是time。
7.4代码规范
7.4.1SQL编码规范
乡村文旅数据库SQL代码的编写应满足如下要求:
a)所使用的代码须功能完善。应具有清晰、整齐的格式,缩进按照代码层次对齐。并添加详细的
注释。
b)编写过程中充分考虑执行速度最优的原则。禁止使用select*操作,所有操作必须明确指定列
名。
c)SQL代码中应用到的所有SQL关键字、保留字都需使用全大写,不应出现大小写混合的方式。
7.4.2一致性保障
为了保证乡村文旅数据仓库的数据一致性,所使用的代码应满足如下要求:
a)代码应支持可重复执行,且保证每次执行结果一致。
b)不应使用DDL语句,不应使用INSERTINTO的写法。
c)与row_number/rank/dense_rank相关排序,应确保每次排序结果一致。
d)若进行两表关联,关联条件两边的数据类型应保证一致。关联条件应做防倾斜处理,不应使用
rand()。
7.5模型依赖规范
在乡村文旅数据仓库的开发过程中,除DWS层外,不应直接依赖ODS层。
7.6数据质量规范
乡村文旅数据仓库需要面向表进行数据质量校验,对表规则进行不同等级的校验,从而对应不同的
报警策略及任务处理策略。对于数据质量的监测指标及其校验规则应包含但不限于下表类目。
表4数据质量监测指标
数据质量监测指标数据质量校验规则
12
T/OTOP-XXXXXX
字段平均值,相比1天、1周和1个月前的取该字段的平均值,同1天、7天和1个月的周期进行比较,计算波动率。再与
波动率。阈值进行比较,只要有一个不符合规则即可触发报警。
字段汇总值,相比1天、1周和1个月前的取该字段的sum值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈
波动率。值进行比较,只要有一个不符合规则即可触发报警。
字段最小值,相比1天、1周和1个月前的取该字段的最小值,同1天、7天和1个月的周期进行比较,计算波动率。再与
波动率。阈值进行比较,只要有一个不符合规则即可触发报警。
字段最大值,相比1天、1周和1个月前的取该字段的最大值,同1天、7天和1个月的周期进行比较,计算波动率。再与
波动率。阈值进行比较,只要有一个不符合规则即可触发报警。
字段唯一值的个数。去重后的count数与一个期望数字进行比较,即固定值校检。
字段唯一值的个数,相比1天、1周和1个
去重后的count数与1天、1周和1个月前进行比较,即固定值校检。
月前的波动率。
表行数,相比1天、1周和1个月前的波动
同1天、1周和1个月前采集的表行数进行比较,对比波动率。
率。
取该字段的空值数与固定值进行比较。是否为空值,是通过转换为SQL的isnull
字段空值个数。
进行判断。
字段空值个数/总行数。空值的个数与行总数的比率与一个固定值进行比较。该固定值是一个小数。
字段重复值个数/总行数。重复值个数与总行数的比率与一个固定值进行比较。
字段重复值个数。总行数减去重后的个数,即字段重复值的个数。重复值个数与固定值进行比较。
字段唯一值个数/总行数。唯一值个数与总行数的比率与一个固定值进行比较。
字段平均值,相比1天前的波动率。取该字段的平均值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段汇总值,相比1天前的波动率。取该字段的sum值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段最小值,相比1天前的波动率。取该字段的最小值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段最大值,相比1天前的波动率。取该字段的最大值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
取该字段的sum值,与上一周期进行比较,计算出波动率后,再与阈值进行比
字段汇总值,相比上一周期的波动率。
较,只要有一个不符合规则即可触发报警。
取该字段的最小值,与上一周期进行比较,计算出波动率后,再与阈值进行比
字段最小值,相比上一周期的波动率。
较,只要有一个不符合规则即可触发报警。
13
T/OTOP-XXXXXX
取该字段的最大值,与上一周期进行比较,计算出波动率后,再与阈值进行比
字段最大值,相比上一周期的波动率。
较,只要有一个不符合规则即可触发报警。
字段分组,各离散点count值。字段分组,各离散点count值。
字段分组,各离散点count值,相比1天、
字段分组,各离散点count值,相比1天、1周和1个月前的波动率。
1周和1个月前的波动率。
字段分组,离散点总数。字段分组,离散点总数。
字段分组,离散点总数,相比1天前的波
字段分组,离散点总数,相比1天前的波动率。
动率。
相比上一周期,表大小不变(字节)。相比上一周期,表大小不变(字节)。
相比上一周期,表大小变化(字节)。相比上一周期,表大小变化(字节)。
相比上一周期,表行数变化。相比上一周期,表行数变化。
相比上一周期,表行数不变。相比上一周期,表行数不变。
表大小,相比上一周期的差值(字节)。表大小,相比上一周期的差值(字节)。
表行数,相比上一周期的差值。基准值为上一周期产生的分区的表行数,比较当天采集的表行数,对比差值。
表行数,相比1天前的差值。基准值为昨天产生的分区的表行数,比较当天采集的表行数,对比差值。
表的空间大小,相比1天前的差值(字节)。表的空间大小,相比1天前的差值(字节)。
监控表大小的波动情况,基准值为最近一天的额度样本。大于阈值则进行数据
表的空间大小,相比1天前的波动率。
质量警告
监控表大小的波动情况,基准值为最近一周的额度样本。大于阈值则进行数据
表的空间大小,相比1周前的波动率。
质量警告
监控表大小的波动情况,基准值为最近一月的额度样本。大于阈值则进行数据
表的空间大小,相比1个月前的波动率。
质量警告
表行数,相比最近7天平均值的波动率。基准值是最近7天的表行数的平均值。
表行数,相比最近30天平均值的波动率。基准值是最近30天的表行数的平均值。
表行数,相比1天前的波动率。基准值为昨天产生的分区的表行数,比较当天采集的表行数,对比波动率。
表行数,相比1周前的波动率。基准值为1周前产生的分区的表行数,比较当天采集的表行数,对比波动率。
表行数,相比1个月前的波动率。基准值为1个月前产生的分区的表行数,比较当天采集的表行数,对比波动率。
表行数,相比1天、1周、1个月前和本月
与1天、1周、1个月前和本月1号采集的表行数进行比较,对比波动率。
1号的波动率。
表行数,相比上一周期的波动率。基准值为上一周期产生的分区的表行数,比较当天采集的表行数,对比波动率。
8统一表达
8.1一般规定
14
T/OTOP-XXXXXX
针对乡村文旅数据关联融合及商业智能分析问题,在突破文旅全业务流程多源异构大数据关联融合
技术的基础上,围绕景区、游客、产品三个参与主体的商业智能核心需求,分别开展智能营销与服务、
精准推荐、智能监测与管理辅助等关键共性技术研发,实现文旅全业务流程的商业智能分析,并整合实
现面向景区、游客、产品的智能分析工具与服务。故乡村文旅多源异构数据融合统一表达应符合如下要
求:
a.乡村文旅异构数据网络拓扑信息应根据数据采集信息单元,进行统一的结构化表达、存储、交互
以及使用;
b.数据采集信息单元应包括景区平台基础信息单元、业务运营数据信息单元、爬虫数据信息单元。
c.各信息单元的属性可根据需要进一步扩展;
d.应能够将相关数据采集信息单元得到的原始数据,纳入依据融合准则,进行自动化关联、相关、
估计、组合,从而实现面向经营者、游客和管理者的智能分析;
8.2数据采集信息单元
数据采集信息单元应满足如下要求:
a.数据采集信息单元包含景区平台基础信息单元、业务运营数据信息单元、爬虫数据信息单元;
b.数据采集信息单元所收集的数据来源应满足表5,数据类型应满足表6。
c.数据采集信息单元应尽可能面向景区、产品、游客分别从多个数据来源采集多种不同类型的数
据。
表5多源异构数据采集来源表
面向对象数据所属单元具体来源
基本数据景区平台基础信息单元景区在平台上的注册数据
运营数据业务运营数据信息单元景区信息系统业务数据
旅游目的地(景
景区提供或从中国天气网等渠
区)天气数据爬虫数据信息单元
道爬取
投诉数据业务运营数据信息单元景区信息系统业务数据
商品数据业务运营数据信息单元景区信息系统业务数据
产品
商铺数据业务运营数据信息单元景区信息系统业务数据
基本数据业务运营数据信息单元游客在平台上的注册数据
搜索行为数据业务运营数据信息单元平台日志数据
浏览行为数据业务运营数据信息单元平台日志数据
游客
购票行为数据业务运营数据信息单元平台业务数据
消费行为数据业务运营数据信息单元景区信息系统业务数据
评论行为数据业务运营数据信息单元平台业务数据
15
T/OTOP-XXXXXX
评论内容数据业务运营数据信息单元平台业务数据
收藏行为数据业务运营数据信息单元平台业务数据
点赞行为数据业务运营数据信息单元平台业务数据
分享行为数据业务运营数据信息单元平台业务数据
8.2.1景点基础信息单元
景区平台基础信息单元应满足以下要求:
a)景区平台基础信息单元应包含景区基本信息、景区客流量。
b)景区平台基础信息单元的详细定义、数据要求应符合表6、表7。
表6景区单元结构表
字段名称字段英文名类型描述选取原则
景区idspot_idbigint景区的唯一编号必选
景区名spot_namevarchar唯一编号景区的对应名称必选
开放时间open_timevarchar格式:HH:mm—HH:mm必选
简介introtext景区介绍必选
唯一编号景区的对应OTA平台的网站
OTA链接OTA_linkvarchar必选
链接
表7景区客流量表
字段名字段英文名类型备注选取原则
景区idspot_idbigint关联spots表必选
日期datedate以天为统计单元,格式:yyyy:MM:dd必选
游客数volumebigint该景区在日期下的游客数统计必选
8.2.2关注指数数据信息单元
网络关注数据主要基于搜索引擎上网民对旅游目的地的关注指数,应符合以下要求:
a)景区指数数据应符合表8要求;
b)搜索指数、媒体指数、资讯指数数据与实际景区相对应关联。
16
T/OTOP-XXXXXX
表8指数值单元字段属性
字段名称字段英文名类型描述选取原则
用户相关检索词的记录,一般为“景区
关键词keywordvarchar必选
名(+延申关键词)”
收集到的搜索指数所属端口平台,包括
系统platformvarchar可选
全系统、电脑端和移动端
日期datedate格式:yyyy:MM:dd必选
省份idprovince_idint全国及34个省份的记录数据可选
关注指数值index_numbigint关键词在日期当天的搜索数据值必选
媒体指数值关键词在日期当天的媒体数据值必选
news_numbigint
资讯指数值关键词在日期当天的资讯指数值必选
feed_numbigint
8.2.3评论数据信息单元
社交数据信息单元主要基于第三方平台的景区评论数据,应符合以下要求:
a)景区评论数据应符合表9要求;
b)景区评论数据单元应与发表评论的评论景区单元数据信息相关联,应符合表10要求。
表9景区评论单元结构表
字段名称字段英文名类型描述选取原则
评论idreview_idbigint评论的唯一编号必选
景区idspot_idbigint景区的唯一编号必选
格式:yyyy:MM:dd
评论发布时间review_timedatetime必选
HH:mm:ss
点赞数like_numint评论下的点赞数记录可选
17
T/OTOP-XXXXXX
评论中图片数images_numint评论下的评论数记录可选
总评分scorevarchar评论下的评分记录可选
景色评分sight_scorevarchar评论下的景色评分记录可选
趣味评分fun_scorevarchar评论下的趣味评分记录可选
性价比评分cost_scorevarchar评论下的性价比评分记录可选
评论内容contenttext该条评论的具体内容必选
表10景点与评论单元映射关系
字段名称字段英文名类型备注选取原则
评论idreview_idbigint评论的唯一编号必选
景区idspot_idbigint景区的唯一编号必选
包括携程、去哪儿、大众
第三方系统platformvarchar(10)可选
点评、美团等
评论数量comment_numint某平台下的评论数量统计必选
8.2.4业务运营数据信息单元
业务运营数据信息单元分为乡村文旅电商实时运营基础数据与游客相关实时电商分析数据。乡村文
旅电商实时运营基础数据应满足以下要求:
a)乡村文旅电商实时运营基础数据应包含景区运营数据、景区运营数据、景区投诉数据、产品商
品数据、产品商铺数据;
b)乡村文旅电商实时运营基础数据的具体模块、计算指标和详细定义应符合表11要求。
表11电商实时基础运营数据表
区域模块指标定义
运营视实时数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年山东建筑安全员C证考试题库
- 2025年云南省安全员-B证(项目经理)考试题库
- 【课件】搜索引擎营销的部分问题探讨
- DB14T-红地球葡萄主要病虫害综合防控技术规程编制说明
- 单位人力资源管理制度集合大全十篇
- 单位管理制度展示大全人员管理十篇
- 2024年土地登记代理人题库附参考答案(巩固)
- 2025年社会服务行业寻找弹性与韧性中的结构机会
- 单位管理制度展示大合集人员管理十篇
- 比高矮比长短课件
- 箱变迁移工程施工方案
- 北师大版九年级数学下册《圆的对称性》评课稿
- 《遥感原理与应用》期末考试试卷附答案
- 物流无人机垂直起降场选址与建设规范(征求意见稿)
- 工程分包管理制度
- 2023年湖南成人学位英语考试真题
- GB/T 9452-2023热处理炉有效加热区测定方法
- 肺炎支原体肺炎诊治专家共识
- 药物化学(第七版)(全套课件1364P)
- 能源中国(上海电力大学)超星尔雅学习通网课章节测试答案
- 采购计划流程图
评论
0/150
提交评论