大数据分析与应用微课版-课件 项目1 初识电商产品数据的处理与分析_第1页
大数据分析与应用微课版-课件 项目1 初识电商产品数据的处理与分析_第2页
大数据分析与应用微课版-课件 项目1 初识电商产品数据的处理与分析_第3页
大数据分析与应用微课版-课件 项目1 初识电商产品数据的处理与分析_第4页
大数据分析与应用微课版-课件 项目1 初识电商产品数据的处理与分析_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目一

初识电商产品数据的处理与分析2023年2月电商产品数据处理与分析项目准备目录Content1电商产品数据背景及数据分析概述2大数据技术出现数据来源较多项目导言零依据大数据分析定制个性化推荐大数据可视化学习目标零知识目标了解大数据分析相关知识;熟悉大数据分析应用场景;熟悉大数据分析指标;掌握大数据分析常用组件及其功能;具有实现Hadoop相关服务启动的能力。技能目标具备熟悉大数据分析在不同领域具体应用的能力;具备熟悉大数据分析工具及其生态组件的作用能力;具备了解大数据分析企业级应用内部结构的能力。素养目标具备良好的职业道德和敬业精神;具有组织协调能力;具备沟通与交流能力。任务1-1:电商产品数据背景及数据分析概述壹电商产品数据背景任务技能利用大数据分析进行商品的精准营销、实现营销流程的优化、为企业提供数据服务等大数据分析概念随着大数据商业应用逐渐成为焦点,大数据时代就此到来,而大数据分析也应运而生大数据分析应用场景大数据分析可应用于各行各业,将人们收集到的庞大数据进行分析整理,实现资讯的有效利用大数据分析指标数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解任务1-1:电商产品数据背景及数据分析概述壹1电商产品数据背景随着移动互联网的发展,网购已经成为生活中不可获取的一部分,在这期间必定产生大量的交易数据,其中包含着大量可挖掘的信息(1)商品精准营销任务1-1:电商产品数据背景及数据分析概述壹(2)营销流程优化在营销流程上,通过对商品库存的实时监控,并联合多个部门,综合整体数据分析和预测评,降低库存管理成本,合理优化库存,提高效率任务1-1:电商产品数据背景及数据分析概述壹(3)为企业提供数据服务通过大数据分析,能够帮助一些电商平台提升商品承担的转化率以及增加销售额,不仅提升了收益,还可以帮助商家获取消费者的消费喜好、产品喜爱程度等信息,从而对商品类型以及销售方式做出及时调整0102任务1-1:电商产品数据背景及数据分析概述壹2大数据分析概念大数据分析就是指对规模巨大的数据进行数据分析,可以将大数据分析分为大数据和分析两个方面(1)大数据大数据用户在一定的时间范围内通过常规软件工具不能进行获取、管理和处理的海量、高增长率和多样化的信息资产,是能够从中分析出对决策有利数据的庞大数据集合任务1-1:电商产品数据背景及数据分析概述壹(2)数据分析对大数据进行分析是最重要的一个过程,目的是从海量数据中提取有用信息形成结论帮助人们更好地解读数据,从而做出预测性的推论,这也从侧面说明只有经过分析操作后的数据,才能产生重要价值任务1-1:电商产品数据背景及数据分析概述壹3大数据分析应用场景大数据分析可应用于各行各业,将人们收集到的庞大数据进行分析整理,实现资讯的有效利用。(1)金融领域在金融领域,面对庞大的交易、报价、业绩报告、消费者研究报告、各类统计数据、各类指数等数据,主要包括客户画像、精准营销、风险管控、欺诈行为分析、股价预测等任务1-1:电商产品数据背景及数据分析概述壹(2)医疗领域通过对医疗数据的分析,可以预测流行疾病的爆发趋势、避免感染、降低医疗成本、实时健康状况告警、医学影像诊断等任务1-1:电商产品数据背景及数据分析概述壹(3)农牧领域借助大数据分析提供的消费能力和趋势报告,为农牧行业生产进行引导,根据需求最大化进行生产,以避免产能过剩而造成资源和社会财富的浪费,实现农业的精细化管理和科学决策任务1-1:电商产品数据背景及数据分析概述壹(4)电子商务领域传统的零售业在互联网迅速发展的冲刷下变得岌岌可危,通过把传统的零售业与大数据分析的结合,可以完成用户需求分析、用户体验分析、精确宣传、减少成本等操作任务1-1:电商产品数据背景及数据分析概述壹(5)交通领域在交通领域,大数据分析主要体现在道路信息的智能监测、城市道路信号灯智能调节、交通事故的风险预警等场景任务1-1:电商产品数据背景及数据分析概述壹(6)广告领域通过对用户搜索数据的分析,构建用户画像,然后进行个性化的推荐,实现精准化广告投放,提升广告投放效率,进而提升用户体验,提高用户留存率任务1-1:电商产品数据背景及数据分析概述壹3大数据分析指标数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解(1)数据总体概览指标反映整体规模大小、总量多少的指标,能够直接表示总体情况,通常使用在报表中,如销售总额、订单数量等任务1-1:电商产品数据背景及数据分析概述壹(2)对比性指标根据对比情况可以分为同比和环比,其中,同比也就是同期相比,是指不同时间相同时间点的对比,环比则是指相邻时间段内指标的对比同比环比任务1-1:电商产品数据背景及数据分析概述壹(3)集中趋势指标平均指标分为数值平均和位置平均两种,其中,数值平均针对数据进行计算,被分为普通平均和加权平均;而位置平均通常表示出现次数最多的数或者某一个特殊位置上的数,分别通过众数指标和中位数指标(表示整体的一般水平)表示集中趋势指标任务1-1:电商产品数据背景及数据分析概述壹(4)用户数据指标用户数据指标主要反映用户静态情况,包括新增用户、活跃用户、留存用户等新增用户新增用户所选渠道存率活跃用户用户数据指标①新增用户:每日新增用户的数量,一般为第一整天新登录应用的用户数。②新增用户所选渠道:根据渠道维度进行拆解,查看不同渠道新增用户数,判断不同渠道的推广效果。③活跃用户:用户活跃度,根据周期的不同,可分为日活跃用户数(DAU)和月活跃用户数(MAU)。需要注意的是,不同的产品活跃用户的定义不同。④存率:7日留存率、30日留存率、N日留存率等。任务1-1:电商产品数据背景及数据分析概述壹(5)行为数据指标用户行为数据指标主要反映用户的动态情况,如用户在网站上的停留时间、页面浏览量、页面访问人数等类别指标描述网站分析指标UV(浏览数量)用户每打开一个网站,记录1次UV,多次打开同一页面多次累计PV(独立访客)1天内,访问网站的不重复用户数访问深度体现网站对用户的吸引程度单击率(CTR)指用户单击某个链接、页面、banner的次数,可重复累计网页停留时间某个页面被用户访问,在页面停留时长网站停留时间某个网站被用户访问,在页面停留时长跳出率只浏览一个页面便离开网站的访问次数占总访问次数的百分比退出率指用户访问某网站的某个页面之后,从浏览器中将与此网站相关的所有页面全部关闭的次数占PV的百分比访问次数访问网站次数,可多次访问转换次数用户到达转化目标页面的次数转化率指在产生指定行为的用户与访问用户之比活动效果指标活动单击率用户单击活动链接的次数占总单击次数的百分比活动参与人数参与活动的总人数活动转化率用户到达转化目标的次数与活动用户之比活动ROI(投资回报率)反映投入和产出的关系类别指标描述收入指标付费人数确认付费的总人数订单数订单的总数量,不包含退货的订单客单价每一个顾客平均购买商品的金额GMV(成交总额)指下单产生的总金额复购频次重复购买同一商品的次数毛利额即“毛利润”,是指销售收入扣除主营业务的直接成本后的利润部分毛利率毛利与销售收入(或营业收入)的百分比用户价值指标下单时间用户最近一次的下单时间用户下单频次用户下单的次数用户消费总金额用户同一地点消费的总金额任务1-2:电商产品数据处理与分析项目准备贰大数据分析工具简介任务技能Hadoop是最为常用的一款大数据分析工具,通过与不同组件的相互配合完成海量数据的分析大数据分析组件现在的Hadoop已经不再是单纯的HDFS和MapReduce,而是一种标准,是其所支持的一系列数据操作技术的集合,其周边生态囊括了流计算、OLAP、消息系统等等,这些技术被称为组件大数据分析流程大数据分析可以分为六个阶段,包括数据采集、数据集成、数据处理、数据分析、数据迁移、数据解释大数据分析企业级应用数字经济是全球未来的发展方向,新一代信息技术同实体经济加速融合,数据作为新生产要素的创新引擎作用日益凸显,将不断为经济高质量发展注入新动能任务1-2:电商产品数据处理与分析项目准备贰1大数据分析工具简介由于数据量庞大,因此在生产环境中需要通过集群的方式完成数据的分析操作(1)Hadoop简介Hadoop起源于Lucene的子项目Nutch,由DougCutting推出,最初作为一个开源的Web搜索引擎项目,但随着网页数量的不断增加,可扩展性性出现问题,无法对海量的网页进行存储和索引任务1-2:电商产品数据处理与分析项目准备贰(1)Hadoop简介在Nutch项目被重构后,性能飙升,可以运行在更多的机器上,并与雅虎组建开发团队将分布式计算模块从Nutch中剥离,被命名为“Hadoop”,最终实现了海量Web数据的处理任务1-2:电商产品数据处理与分析项目准备贰(2)Hadoop优势Hadoop是一个分布式计算平台,用户可以轻松地在Hadoop上开发和运行用于操作海量数据的应用程序,具有高扩展性、高效性和高容错性等特点,给大数据的开发带来了很多的方便易于使用高吞吐量开源支持多种语言高性价比高扩展性高效性高容错性任务1-2:电商产品数据处理与分析项目准备贰(3)Hadoop版本Hadoop从问世至今,一共经历了3个大版本,分别是Hadoop1.0、Hadoop2.0和Hadoop3.0,其中,Hadoop1.0、Hadoop2.0是最有代表性的,目前最高版本即为Hadoop3.0任务1-2:电商产品数据处理与分析项目准备贰2大数据分析组件现在的Hadoop是其所支持的一系列数据操作技术的集合,其周边生态囊括了流计算、OLAP、消息系统等等,这些技术被称为组件(1)HDFSHDFS是一个分布式文件系统,Hadoop核心组件之一,主要用于数据文件的分布式存储,提高了Hadoop数据读写的吞吐率,具有可扩展性、可靠性和高容错性等特点任务1-2:电商产品数据处理与分析项目准备贰(2)MapReduceMapReduce是Hadoop的分布式计算框架,Hadoop核心组件之一,主要面向大型数据的并行计算和处理,提高了大数据分析的计算速度和可靠性,具有使用简单、可大规模扩展、容错能力强等优势任务1-2:电商产品数据处理与分析项目准备贰(3)YARNYARN是基于MapReduce演变而来,同样是Hadoop核心组件之一,是一个通用的运行框架,为运算程序调度所需资源,例如MapReduce、Spark等实现数据的处理和运算就需要Yarn的支持任务1-2:电商产品数据处理与分析项目准备贰(4)HBaseHBase是一个建立在HDFS之上,面向列的针对结构化数据的分布式列存储数据库,具有高可靠、高性能、分布式存储等优点,可以实现海量数据的存储任务1-2:电商产品数据处理与分析项目准备贰(5)RedisRedis是一个基于ANSIC语言开发的、开源的Key-Value内存数据库,是NoSQL数据库的一种,具有性能高、数据类型丰富、原子操作等优势,并提供了多种语言的API任务1-2:电商产品数据处理与分析项目准备贰(6)StormStorm是一个分布式实时大数据处理系统,具有容错性高、处理速度快、部署简单等优点,主要用于流计算,通常用于实时分析、在线机器学习、持续计算等场景任务1-2:电商产品数据处理与分析项目准备贰(7)HamaHama是基于BSP(BulkSynchronousParallel)计算技术建立在Hadoop上的分布式并行计算框架,主要用于大规模的科学计算(比如矩阵、图论、网络等),运行环境需要关联Zookeeper、HBase、HDFS组件任务1-2:电商产品数据处理与分析项目准备贰(8)HiveHive是一种由facebook开源的、构建在Hadoop之上的数据仓库工具,通过使用与SQL几乎完全相同的HiveQL语言,能够实现海量结构化的日志数据统计,通常用于大数据的离线分析任务1-2:电商产品数据处理与分析项目准备贰(9)PigPig是由雅虎开源的一种基于MapReduce的并行数据分析工具,使用类似于SQL的面向数据流的语言PigLatin,通常用于分析较大数据集,并将其表示为数据流任务1-2:电商产品数据处理与分析项目准备贰(10)SparkSpark是一个基于内存的、通用并行的分布式计算框架,可高速对海量数据进行分析,具有低延迟、分布式内存计算、简单易用等优点,通常应用于批处理、迭代计算、交互式查询、流处理等场景中任务1-2:电商产品数据处理与分析项目准备贰(11)SqoopSqoop是Hadoop中的一款数据库操作工具,主要用于传统关系数据库、数据仓库和Hadoop之间数据的传输任务1-2:电商产品数据处理与分析项目准备贰(12)MahoutMahout是ASF(ApacheSoftwareFoundation)推出的一个开源的、可扩展的机器学习和数据挖掘库,提供了多种机器学习的经典算法在,帮助开发人员更加方便快捷地进行机器学习的开发任务1-2:电商产品数据处理与分析项目准备贰(13)DrillDrill是一个开源的、低延迟的分布式海量数据交互式SQL查询和分析引擎,不仅允许查询任何结构的数据,还适用于各种非关系型数据存储任务1-2:电商产品数据处理与分析项目准备贰(14)CrunchCrunch是一款架构在Hadoop之上的数据采集与分析框架,用于简化MapReduce作业的编写和执行,可以实现日志数据的采集与分析任务1-2:电商产品数据处理与分析项目准备贰(15)LuceneLucene是Apache下的一个基于Java开发的、开源的全文搜索引擎开发工具包,包含完整的查询引擎、索引引擎以及部分文本分词引擎,具有稳定性高、索引性能优越、搜索算法高效、准确以及跨平台的特性任务1-2:电商产品

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论