大数据导论 课件 第2章 大数据采集_第1页
大数据导论 课件 第2章 大数据采集_第2页
大数据导论 课件 第2章 大数据采集_第3页
大数据导论 课件 第2章 大数据采集_第4页
大数据导论 课件 第2章 大数据采集_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据采集实例引入:在线旅行社的用户访问行为数据采集大数据采集技术主流的大数据采集框架实例引入:在线旅行社的用户访问行为数据采集近年来,伴随着国内经济的持续增长,居民的消费水平逐渐提升,我国旅游市场也持续升温,旅游成为我国居民日常生活的选择。随着大数据应用的普及,新时代赋予了大数据更重要的社会责任。例如,在线旅行社为了把握旅游产业发展趋势,通过对用户访问行为数据的采集,研判增长趋势、个性化及品质型消费的发展以及旅游消费新热点的转化等。我们通过梳理在线旅行社的用户访问行为数据来源,对特定用户行为或事件设定埋点,根据运营定义好的埋点接口形式采集用户的访问日志数据。用户访问行为数据分析的价值用户访问行为数据分析的指标主要包括页面访问量、独立访客数、跳出率、访问深度、停留时长等。总地来说,这些都属于统计指标,反映的是用户访问页面的总体情况。但是数据的价值除了反映现状,更重要的是应用。统计是数据汇总整理的结果,分析是促进业务增长的依据,因此可以利用从用户访问行为数据分析出的价值来指导业务活动。用户访问行为数据分析的价值1.什么是用户行为分析用户行为分析是指对用户在网站、应用、社交媒体等平台上产生的行为及行为背后的数据进行深入的研究和分析。其目的是发现用户的行为规律、偏好和需求,以便企业能够更精准地制定产品策略、营销策略和运营策略,实现业务的增长和优化。用户行为分析可以对用户画像进行关键补充,构建更精细、完整的用户画像。用户访问行为数据分析的价值2.用户行为分析在应用中的价值自定义留存分析;精细化渠道质量评估;产品分析;精准营销。用户访问行为数据分析的价值2.用户行为分析在应用中的价值自定义留存分析;

定义:自定义留存分析是通过对用户行为数据的深入分析,设定特定的条件或事件,以评估用户在这些条件下的留存情况。目的:帮助企业更精准地了解用户在不同场景下的留存表现,从而优化产品或服务,提升用户体验和留存率。用户访问行为数据分析的价值2.用户行为分析在应用中的价值自定义留存分析;分析步骤确定分析主体;设定初始行为和后续行为;添加筛选条件;选择时间范围;分组展示。用户访问行为数据分析的价值2.用户行为分析在应用中的价值自定义留存分析;精细化渠道质量评估;产品分析;精准营销。定义:精细化渠道质量评估是确保企业产品在运营和推广中能够找到高质量渠道的重要步骤。原则:用户群体匹配:确保渠道的用户群体与产品的目标人群和产品调性相匹配。数据量化监控:结合定量数据进行监控,持续优化投放策略。用户访问行为数据分析的价值2.用户行为分析在应用中的价值自定义留存分析;精细化渠道质量评估;产品分析;精准营销。定义:产品分析是对产品进行全面、系统的评估和研究,以便了解产品的优点、缺点、市场定位、竞争环境等,从而为企业制定产品策略、优化产品设计、提升市场竞争力提供依据。目的:明确产品的名称,确定产品所属的行业或细分市场,简要介绍产品的功能、特点、用途等。用户访问行为数据分析的价值2.用户行为分析在应用中的价值自定义留存分析;精细化渠道质量评估;产品分析;精准营销。定义:精细化渠道质量评估是确保企业产品在运营和推广中能够找到高质量渠道的重要步骤。原则:用户群体匹配:确保渠道的用户群体与产品的目标人群和产品调性相匹配。数据量化监控:结合定量数据进行监控,持续优化投放策略。指标:流量规模、拉新能力、渠道质量。用户行为分析在产品分析中的价值用户行为分析在产品分析中的主要价值如下表。价值体现说明优化用户体验分析用户行为路径、使用习惯和反馈找出潜在的问题和痛点,有针对性地优化产品设计,提升用户体验精细化运营了解不同用户群体的特点和需求,根据不同群体的行为特征精细化运营,提高运营效果指导产品迭代方向了解用户对产品的满意度、核心功能的使用情况等,得出产品迭代的优先级和方向,产品的更新更加符合用户的需求和市场的发展预测用户需求通过对用户行为数据的深入挖掘,产品团队可以预测用户未来的需求,提前做好功能储备和优化,提升产品的竞争力和市场占有率发现增长机会通过对比不同用户群体的行为模式和转化率,产品团队可以发现新的增长机会,例如,哪些功能或服务对用户的吸引力不足,哪些运营活动可以带来更多的收益等,从而制定更加有效的增长策略用户访问行为数据采集方案的设计1.用户访问行为分析指标指标指标说明示例WHO获取登录用户的个人信息用户名称、角色WHEN获取用户访问页面每个模块的时间开始时间、结束时间WHAT获取用户登录页面后的具体操作单击页面行为,单击模块行为WHERE确定用户访问页面的具体网址和链接情况页面URLWHY分析用户单击该模块的目的用户单击意图HOW用户通过什么方式访问的系统Web、App、小程序HOWLONG用户访问某个模块、浏览某个页面的时间长度时间(小时、分钟、秒)WHO获取登录用户的个人信息用户名称、角色用户访问行为数据采集方案的设计2.用户访问行为数据采集选择埋点方式全埋点;代码埋点;全埋点是前端的一种埋点方式,在产品中调用软件开发工具包(SoftwareDevelopmentKit,SDK),通过界面配置的方式对关键的行为进行定义,完成埋点采集。用户访问行为数据采集方案的设计2.用户访问行为数据采集选择埋点方式全埋点;代码埋点;代码埋点是经常使用的埋点方式。代码埋点分为前端代码埋点和后端代码埋点。前端埋点类似于全埋点,需要调用前端埋点SDK。后端埋点则将事件、属性通过后端程序调用后端埋点SDK发送到后台服务器。用户访问行为数据采集方案的设计2.用户访问行为数据采集选择埋点方式埋点协作用户访问行为数据采集方案的设计2.用户访问行为数据采集选择埋点方式埋点协作数据采集过程实例引入:在线旅行社的用户访问行为数据采集大数据采集技术主流的大数据采集框架了解大数据采集1.传统的数据采集方式说明问卷调查问卷调查是指制定详细周密的问卷,要求被调查者据此进行回答以收集数据的方法。问卷调查是数据收集最常用的一种方式,操作方便,缺点是数据没有针对性,无法得到深层次的数据。人工方式推广时间比较慢,很耗人力,网上问卷通过自动化实现了过程集成,更方便快速查阅资料查阅资料是最古老的数据收集的方式,通过查阅书籍、记录等资料来得到想要的数据。查阅资料本来就有筛选性和分析性,所得到的数据可能更接近想要得到的结果。查阅资料的缺点是对操作者要求较高,并且现在的资料烦琐、真假参半,需要操作者有很强的判断力。目前,网络查询非常方便,给查阅资料提供了很好的环境实地考察实地考察是为了深入了解特定地点的研究行为,旨在揭示事物的真相、发展过程和现状。通过直接观察和详细了解局部情况,实地考察提供了直观的数据支持。在考察过程中,要随时对自己观察到的现象进行分析,努力把握考察对象特点。实地考察的优点是可以得到第一手资料,缺点是比较耗时耗力,需要考察人员之间相互配合,因为考察过程中变数很大,可能没有办法达到目标实验根据科学研究的目的,尽可能地排除外界的影响,突出主要因素并利用一些专门的仪器设备,人为地变革、控制或模拟研究对象,使某一些事物(或过程)发生或再现,从而去认识自然现象、自然性质、自然规律。实验是4种方法中最耗时间的一种。缺点是未知性很大,不管是实验周期还是实验结果都是不确定的了解大数据采集2.大数据采集线上行为数据机器系统中的内容数据企业系统中的业务数据了解大数据采集3.大数据采集与传统数据采集的区别采集对象采集数据量采集的数据结构采集的效率大数据采集的数据对象包括射频识别(Radio-FrequencyIdentification,RFID)数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化和非结构化的海量数据。传统数据采集的数据对象单一,包括从传统企业的客户关系管理系统、企业资源计划系统及相关业务系统中获取数据。了解大数据采集3.大数据采集与传统数据采集的区别采集对象采集数据量采集的数据结构采集的效率尽管企业系统的数据量与日俱增,但其仍属于传统数据采集的范畴。不过系统日志除外,原因是系统日志的增长趋势大,极容易形成大规模数据。互联网系统和机器系统产生的数据量要远远大于企业系统的数据量,而针对互联网和机器系统的数据采集已经达到大数据规模,数量级达PB级。了解大数据采集3.大数据采集与传统数据采集的区别采集对象采集数据量采集的数据结构采集的效率传统数据采集的数据大部分是结构化的数据,而大数据采集系统不仅能采集结构化的数据,还能采集大量的视频、音频、照片等非结构化数据,以及网页、博客、日志等半结构化数据。了解大数据采集3.大数据采集与传统数据采集的区别采集对象采集数据量采集的数据结构采集的效率传统数据采集的数据几乎都是人为操作生成的,远远低于大数据采集时系统自动化采集数据的效率。大数据采集的数据来源1.数据种类和示例数据种类示例业务数据消费者数据、客户关系数据、库存数据、账目数据等行业数据车流量数据、能耗数据、PM2.5数据等线下行为数据车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等线上行为数据页面数据、交互数据、表单数据、会话数据、反馈数据等内容数据应用日志、电子文档、语音数据、社交媒体数据等大数据采集的数据来源1.数据种类和示例企业系统机器系统互联网系统企业在运营时产生的数据、企业与其他企业合作时获得的数据等。大数据采集的数据来源1.数据种类和示例企业系统机器系统互联网系统交通流量仪获取的车流量数据、智能电表获取的用电量、智能交通监控摄像机自动识别的人和交通工具的属性和轨迹信息、野生动物监控摄像头获知的动物活动轨迹信息。大数据采集的数据来源1.数据种类和示例企业系统机器系统互联网系统用户的反馈信息、评价信息、购买的产品信息、品牌信息、视频与照片等。基于数据仓库的数据批量采集1.传统数据仓库的体系架构数据源数据存储和管理联机分析处理服务器前端工具和应用数据源是数据仓库的基础,即系统的数据来源,通常包含企业的各种外部数据和包括订单系统、商家系统、客户系统、客服系统等联机事务处理(OnlineTransactionProcessing,OLTP)系统的数据以及文档资料的内部数据。基于数据仓库的数据批量采集1.传统数据仓库的体系架构数据源数据存储和管理联机分析处理服务器前端工具和应用数据存储和管理是整个数据仓库的核心,是指在现有各业务系统的基础上,周期性地对数据进行抽取、转换、加载(ExtractTranformLoad,ETL),按照主题进行重新组织,最终确定数据仓库的物理存储结构,将数据存储在数据仓库管理系统中,并在面向如销售、财务、市场等单一主题域时,建立各类数据集。数据仓库管理系统的检测与运维由数据仓库检测、运行与维护工具负责。元数据是描述数据仓库内数据的结构和建立方法的数据,由元数据管理系统负责管理。基于数据仓库的数据批量采集1.传统数据仓库的体系架构数据源数据存储和管理联机分析处理服务器前端工具和应用OLAP服务器将需要分析的数据按照多维数据模型进行重组,以服务的形式支持用户随时多角度、多层次分析数据,面向前端工具和应用。基于数据仓库的数据批量采集1.传统数据仓库的体系架构数据源数据存储和管理联机分析处理服务器前端工具和应用前端工具和应用主要包括数据查询工具、自由报表工具、数据分析工具、数据挖掘工具和各类应用系统等。基于数据仓库的数据批量采集2.实时主动数据仓库基于数据仓库的数据批量采集2.实时主动数据仓库方法说明数据整合利用数据仓库技术的ETL工具将数据源中的数据批量地加载到数据仓库数据联邦在多个数据源的基础上建立统一的逻辑视图,对应用而言,只有一个数据访问入口,但在物理上被请求的数据仍然分布在各个数据源中数据传播指数据在多个应用之间传播,不同应用之间可以通过传播消息交互数据混合区分数据使用范围,对于公用数据采取数据整合的方式进行采集,对于特定应用数据采取数据联邦方式进行采集网络数据实时采集1.网络数据实时采集方法网络数据实时采集方法是指通过:网络爬虫;网站公开API;等方式从网站上获取数据信息的方法。网络数据实时采集2.网络爬虫原理一个通用的网络爬虫框架包括3个部分:Web接口;

索引与检索;

信息采集。通过网络爬虫可自动下载索引所链接的网页,并将下载网页的索引存放在索引库,将网页信息保存到文档库中。用户通过用户接口,可依次读取索引库中的索引,并利用索引指向文档库中的网页信息。网络数据实时采集3.网络爬虫工作流程网络数据实时采集4.网络爬虫爬取策略遍历策略是网络爬虫的核心问题,决定URL排列顺序的方法叫作网络爬虫爬取策略,主要包括以下5种策略。0203广度优先遍历深度优先遍历PartialPageRank010405OPIC大站优先网络数据实时采集5.网络爬虫系统按照网络爬虫的功能可以将其分为3类爬虫:批量型爬虫;

增量型爬虫;

垂直型爬虫。实例引入:在线旅行社的用户访问行为数据采集大数据采集技术主流的大数据采集框架Flume1.Flume设计动机日志采集面临以下问题:数据源种类繁多。各种服务均会产生日志,日志格式不同,采集日志的方式也不同,有的写到本地日志文件中,有的通过HTTP发到远端等。

数据源是物理分布的。各种服务运行在不同机器上,有的甚至是跨机房的。

数据是流式的,不间断产生。日志是实时产生的,需要实时或近实时采集,以便于后端的分析和挖掘。

对可靠性有一定要求。日志采集过程中,希望能做到不丢失数据,或只丢失可控的少量数据。Flume1.Flume设计动机日志采集面临以下问题,Flume系统可以较好地解决以上日志采集问题。Flume2.Flume基本思想及特点日志采集面临以下问题,Flume系统可以较好地解决以上日志采集问题。Flume采用了插拔式软件架构,所有组件均是可插拔的,用户可以根据需求定制每个组件。Flume本质上是一个中间件,屏蔽了流式数据源和后端中心化存储系统之间的异构性,使得整个数据流非常容易扩展。Flume2.Flume基本思想及特点Flume主要具备以下几个特点。良好的扩展性;

高度定制化;

声明式动态化配置;

语意路由;

良好的可靠性。

Flume架构是完全分布式的,没有任何中心化组件,非常容易扩展。Flume2.Flume基本思想及特点Flume主要具备以下几个特点。良好的扩展性;

高度定制化;

声明式动态化配置;

语意路由;

良好的可靠性。

各个组件,如Source、Channel和Sink等,均是可插拔的,用户很容易根据需求定制组件。Flume2.Flume基本思想及特点Flume主要具备以下几个特点。良好的扩展性;

高度定制化;

声明式动态化配置;

语意路由;

良好的可靠性。

Flume提供了一套声明式配置语言,用户可根据需求动态配置一个基于Flume的数据流拓扑结构。Flume2.Flume基本思想及特点Flume主要具备以下几个特点。良好的扩展性;

高度定制化;

声明式动态化配置;

语意路由;

良好的可靠性。

Flume可根据用户的设置,将流式数据路由到不同的组件或存储系统中,使得搭建一个支持异构的数据流变得非常容易。Flume2.Flume基本思想及特点Flume主要具备以下几个特点。良好的扩展性;

高度定制化;

声明式动态化配置;

语意路由;

良好的可靠性。

Flume内置了事务支持,能够保证发送的每条数据能够被下一环节接收而不会丢失。Flume3.FlumeNG基本架构Flume是由一系列称为Agent的组件构成的,一个Agent可从客户端(如网页日志)或前一个Agent接收数据,经过过滤(可选)、路由等操作后,传递给下一个或多个Agent(完全分布式),直到抵达指定的目标系统,如HDFS。用户可根据需要拼接任意多个Agent构成一个数据流水线。Flume3.FlumeNG基本架构Agent内部的组件构成:Sqoop1.Sqoop设计动机Sqoop是连接关系数据库和Hadoop的桥梁,主要功能是将关系数据库的数据导入Hadoop及其相关的系统中(如Hive和HBase),或将数据从Hadoop系统里抽取并导出到关系数据库。Sqoop1.Sqoop设计动机Sqoop从工程角度解决了关系数据库与Hadoop之间的数据传输问题,构建了两者之间的“桥梁”,使得数据迁移工作变得异常简单。在实际项目中,如果遇到数据迁移、结果可视化分析、数据增量导入等任务,可尝试使用Sqoop完成。Sqoop2.Sqoop基本思想及特点Sqoop采用插拔式连接器(Connector)架构。Connecto

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论