文旅大数据平台V4_第1页
文旅大数据平台V4_第2页
文旅大数据平台V4_第3页
文旅大数据平台V4_第4页
文旅大数据平台V4_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文旅大数据平台

解决方案依托大数据技术,提供多样的旅游大数据应用能力CONTENTS目录01平台概述02平台架构03平台应用01平台概述建设背景

随着信息化社会的快速发展,旅游行业信息量爆发式的快速增长。这些数据的特征表现为数量大,数据类型多,衍生了旅游大数据。江西省面对庞大而复杂信息数据体系,逐步分层次的整理相关数据,基础数据:酒店信息、地图、POI、景区信息及景区周边环境信息;应用基于数据:游客酒店预订、景区购票消费交易等数据;行为数据:游客通过使用高度地图等LBS行为数据。为此,通过整合交通、气象、酒店、餐饮、景区、旅行社等相关数据,形成江西省旅游大数据。通过对各行业务、数据清洗治理形成数据标准,并接入到大数据平台。同时利用大数据可视化分析平台对数据筛选、分析,提供景区、酒店等行业发展动态、服务模式、旅游偏好热度数据分析报告,为江西省旅游局决策提供数据、研判支撑。建设目标通过对旅游景区进行实时客流监控,及时掌握客流分布及密度。根据历史游客量变化对景区的游客趋势进行预测及预警,挖掘热门景点、热门旅游路线。通过对游客属性、来源地、出行工具、住宿及消费等分析,洞察游客画像,挖掘游客多方面行为特征,揭示旅游规律及因素关系、游客商业影响力,拉动区域商业影响力。通过大数据能力整合区域涉旅要素,运用大数据实现产业、市场监测管控运用行业大数据,整合OTA数据以及行业权威数据,辅助管理部门掌握旅游行业实时动态以及历史动态321402平台架构平台架构构建统一标准、打通数据通道、突破信息孤岛效应,在具体的业务部门和技术之间搭建起一个灵活度高、效率高、可复用的组件化平台,面向不同业务部门,快速提供数据服务支持,调取所需数据高效完成数据分析挖掘。公共文旅服务数据输出文旅企业运营数据输出文旅产业监管数据输出数据中台面向公众服务数据

面向企业营销数据面向政府监管数据

高德数据源数据源1数据源2数据源3

腾讯数据源数据源1数据源2数据源3

其他数据源数据源1数据源2数据源3平台架构03平台应用数据采集中心多种方式和多种平台,完成对数据的采集以及对接3爬虫抓取携程、去哪儿、同程、艺龙、欣欣旅游、驴妈妈、马蜂窝、途牛、阿里旅游等等OTA平台抓取4公共数据源对接导入天气数据、人口分布数据、交通数据等等数据接入12对政府或者企业内部数据进行对接采集内部数据对接合作伙伴接口对接高德、腾讯、百度、大众点评、友盟、360携程、去哪儿、等等对接5自定义API对接日志数据、业务数据、大数据文件等等自定义对接6人工导入EXCEL,CSV,TXT等文件人工导入数据管理-建模和ETL业务数据任务调度

数据建模ETL数据建模ETL任务调度通过平台的工作表管理模块,创建工作表•

多表关联:多张表根据关联条件进行join处理•数据聚合:将一张工作表按照指定的纬度进行聚合处理•

追加合并:将多张表进行union处理•SQL:通过用户自己些SQL的方式创建新表建模的结果为一张新的工作表,用户可以基于此表进行作图分析,当基础数据更新后,平台会根据建模关系完成此表的数据更新通过平台的工作表管理模块,在相关的工作表上添加计算字段进行初步的数据清洗操作以便后续的数据建模数据管理-数据存储计算基于云服务器的统一数据池的基础之上,使用已经经过数据质管理平台治理后的数据,通过统一的数据出口接入数据,并且构建基于挖掘分析场景的业务分析专题库。计算引擎SQL计算:用户数据会被平台处理为Parquet表,通过SparkSQL进行数据计算高级计算:为满足留存率、桑基图等复杂业务对外提供的高级计算服务UDF:对外提供除常见的SQL函数之外的实用函数数据存储平台采用HDFS存储用户数据,数据格式为平台自有格式数据管理-数据质量管理数据源质量分析方法数据源质量的分析方法主要从数据集市对数据源质量要求的几个方面进行分析,即:检查数据的完整性、检验数据的准确性、查看数据是否一致、推断数据逻辑是否合理。根据这些方面的要求,每个字段进行数据质量分析。数据清洗和匹配数据清洗数据清洗是对数据进行校验和标准化,比如地址邮编是否存在等等。数据匹配:数据匹配是找出有可能重复的记录。数据源数据量主要分析数据源中,涉及到的每一个表的记录总数。在这一步,形成数据量文件。文件内包含每一个表的记录总数。数据源物理范围、数据源格式分析、数据源更新频率、数据源更新方式、数据源数据量这五个分析项的分析记录可以整合为一个表格,记录每一个数据项的这五项分析记录。数据源更新方式数据源的更新方式是指数据在应用系统运行时,如何发生变化。针对每个数据表,数据可以为增量更新,可以为随机更新。增量更新是指数据只要插入数据表,就不再发生变化,系统只是往数据表中追加数据,而不会更改历史数据。随机更新是指系统随时会更改表中的数据,而且被更改的数据没有规律。数据源更新频率和存储周期确定数据源的物理范围后,需要确定数据源的更新频率。这一步可以和数据源格式分析并行进行。数据源的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论