基于python解析用户画像大数据项目实战_第1页
基于python解析用户画像大数据项目实战_第2页
基于python解析用户画像大数据项目实战_第3页
基于python解析用户画像大数据项目实战_第4页
基于python解析用户画像大数据项目实战_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、王新强 12月大数据BIG DATA 基于Hadoop项目实战第1页大数据分析借贷情况兴趣兴趣关重视点网购情况交叉信息其它行为第2页精准营销用户统计数据挖掘效果评定指导产品研发优化用户体验大数据价值第3页应用案例-用户画像用户画像用大数据知识解析当前网站用户访问状态可视化数据数据标签化数据统计第4页用户画像技术Hadoop生态组成第5页什么是HadoopHadoop是一个由Apache基金会所开发可靠,可扩展,分布式计算开源软件处理问题:海量数据存放(HDFS)海量数据分析(MapReduce)资源管理调度(YARN)Google三篇论文GFSMapReduceBigTable(Hbase)D

2、oug Cutting开源实现第6页Hadoop特点Hadoop按位存放和处理数据能力值得人们信赖Hadoop是在可用计算机集群间分配数据并完成计算任务Hadoop能够自动保留数据多个副本,而且能够自动将失败任务重新分配Hadoop能够在节点之间动态地移动数据,并确保各个节点动态平衡Hadoop依赖于小区服务,它成本比较低高可靠性高扩展性高容错性高效性低成本第7页用户画像应用案例分析用户画像构建流程基础数据搜集网络行为数据服务内行为数据用户内容偏好数据用户交易数据行为建模文本挖掘自然语言处理机器学习预测算法构建画像聚类算法基本属性购置能力行为特征兴趣兴趣心理特征社交网络第8页大数据应用案例分析

3、数据挖掘指标分析页面浏览量即为PV(Page View),是指全部用户浏览页面总和,一个独立用户每打开一个页面就被统计1 次1.浏览量PV2、注册用户数3、IP数4、跳出率网站后续发展都是经过网站注册用户表达对访问member.php?mod=registerurl,计数一天之内,访问网站不一样独立 IP 个数加和。其中同一IP不论访问了几个页面,独立IP 数均为1只浏览了一个页面便离开了网站访问次数占总访问次数百分比,即只浏览了一个页面访问次数 / 全部访问次数汇总第9页1.浏览量PV定义:页面浏览量即为PV(Page View),是指全部用户浏览页面总和,一个独立用户每打开一个页面就被统计

4、1 次。分析:网站总浏览量,能够考评用户对于网站兴趣,就像收视率对于电视剧一样。不过对于网站运行者来说,更主要是,每个栏目下浏览量。计算公式:从日志中获取访问次数,又能够细分为各个栏目下访问次数。第10页2、注册用户数定义:假设网站用户注册页面为member.php;分析:当用户点击注册时请求是member.php?mod=registerurl,可对该请求进行统计;计算公式:对访问member.php?mod=registerurl计数第11页3、独立IP数定义:一天之内,访问网站不一样独立IP个数累加和。其中同一IP不论访问了几次,独立IP数均为1;分析:独立IP多少是衡量网站推广活动好坏

5、最直接数据,可对独立IP进行去重和统计;计算公式:对不一样访问者IP计数第12页4、跳出率定义:只浏览了一个页面便离开了网站访问次数占总访问次数百分比,即只浏览了一个页面访问次数 / 全部访问次数汇总。分析:跳出率是非常主要访客黏性指标,它显示了访客对网站兴趣程度:跳出率越低说明流量质量越好,访客对网站内容越感兴趣,这些访客越可能是网站有效用户、忠实用户。计算公式:统计一天内只出现一条统计ip,称为跳出数;跳出数/PV;第13页目录01数据挖掘03统计分析04可视化分析02数据清洗用户画像第14页目录01数据挖掘030402用户画像第15页大数据起源来自大量传感器机器数据科学研究及行业多结构专

6、业数据来自“大人群”泛互联网数据智能终端拍照、拍视频发微博、发微信其它互联网数据海量数据起源第16页上传日志文件数据较小HDFS直接使用shell命令把数据上传到HDFS中数据较多NFS另一台服务器上上传数据数据大量Flume使用Flume进行数据处理第17页HDFS介绍Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上分布式文件系统。HDFS是一个高度容错性系统,适合布署在廉价机器上。HDFS能提供高吞吐量数据访问,非常适合大规模数据集上应用。HDFS在最开始是作为Apache Nutch搜索引擎项目标基础架构而开发。HDFS是Apac

7、he Hadoop Core项目标一部分。第18页HDFS组成第19页HDFS文件写入流程第20页HDFSShell基本使用上传hadoop fs -put/-copyFromLocal linux当地文件 HDFS路径如:hadoop fs -put NOTICE.txt /查看文件列表hadoop fs -ls HDFS路径如:hadoop fs -ls /查看文件内容hadoop fs -cat HDFS文件路径如:hadoop fs -cat /NOTICE.txt创建目录创建1级目录:hadoop fs -mkdir /aaa创建多级目录:hadoop fs -mkdir -p /a

8、aa/b/c/d删除目录删除空目录:hadoop fs -rmdir /aaa删除文件删除文件:hadoop fs -rm 文件名称删除目录(非空): hadoop fs -rm -r HDFS目录名称第21页HDFS操作结果展示第22页目录01030402数据清洗用户画像第23页大数据应用案例分析数据清洗依据关键指标分析,将所要统计分析不包括到访问状态(HTTP状态码)和此次访问流量两项统计清理掉依据日志统计数据格式,需要将日期格式转换为日常所见普通格式如0426因为静态资源访问请求对数据分析没有意义,将GET /staticsource/开头访问统计过滤掉,因为GET和POST字符串对数据

9、分析也没有意义,所以将其省略掉43 - - 30/May/:17:38:20 +0800 GET /static/image/common/faq.gif HTTP/1.1 200 1127第24页日志数据解析(0-91,3.0-91,3.0-91,3.0-91,3) - - (.*) (+|-0-91,4) (A-Z1,4) (.*) HTTP/1.1 (0-9*) (0-9*)43 - - 30/May/:17:38:20 +0800 GET /static/image/common/faq.gif HTTP/1.1 200 1127第25页MapReduce介绍编程框架。处理过程高度抽象

10、为两个函数:map和reduce。分布式计算中,负责处理了并行编程中分布式存放、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题。MapReduce(任务分解与结果汇总)对大规模数据集操作,分发给一个主节点管理下各个分节点共同完成,然后经过整合各个节点中间结果,得到最终止果。第26页MapReduce原理第27页MapReduce设计第28页MapReduce执行过程rootmaster python# hadoop jar hadoop-streaming-2.7.2.jar -file mapper.py -mapper mapper.py -file reducer.py -

11、reducer reducer.py -input /access/input -output /access/output17/11/21 22:55:13 WARN streaming.StreamJob: -file option is deprecated, please use generic option -files instead.17/11/21 22:55:14 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform. using builtin-java clas

12、ses where applicablepackageJobJar: mapper.py, reducer.py, /tmp/hadoop-unjar5545709813087216533/ /tmp/streamjob3266336130722540849.jar tmpDir=null17/11/21 22:55:22 INFO mapred.FileInputFormat: Total input paths to process : 117/11/21 22:55:23 INFO mapreduce.JobSubmitter: number of splits:217/11/21 22

13、:55:23 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1510829332386_001217/11/21 22:55:24 INFO impl.YarnClientImpl: Submitted application application_1510829332386_001217/11/21 22:55:25 INFO mapreduce.Job: The url to track the job: http:/master:8088/proxy/application_1510829332386_0012/

14、17/11/21 22:55:25 INFO mapreduce.Job: Running job: job_1510829332386_001217/11/21 22:56:00 INFO mapreduce.Job: Job job_1510829332386_0012 running in uber mode : falseYARN进行资源调度第29页MapReduce执行过程17/11/21 22:57:01 INFO mapreduce.Job: map 3% reduce 0%17/11/21 22:57:04 INFO mapreduce.Job: map 14% reduce

15、0%17/11/21 22:57:07 INFO mapreduce.Job: map 23% reduce 0%17/11/21 22:57:10 INFO mapreduce.Job: map 29% reduce 0%17/11/21 22:57:14 INFO mapreduce.Job: map 33% reduce 0%17/11/21 22:57:20 INFO mapreduce.Job: map 50% reduce 0%17/11/21 22:58:11 INFO mapreduce.Job: map 53% reduce 0%17/11/21 22:58:14 INFO

16、mapreduce.Job: map 56% reduce 0%17/11/21 22:58:17 INFO mapreduce.Job: map 61% reduce 0%17/11/21 22:58:18 INFO mapreduce.Job: map 61% reduce 17%17/11/21 22:58:21 INFO mapreduce.Job: map 66% reduce 17%17/11/21 22:58:24 INFO mapreduce.Job: map 82% reduce 17%17/11/21 22:58:27 INFO mapreduce.Job: map 83%

17、 reduce 17%17/11/21 22:58:29 INFO mapreduce.Job: map 100% reduce 17%17/11/21 22:58:33 INFO mapreduce.Job: map 100% reduce 38%17/11/21 22:58:37 INFO mapreduce.Job: map 100% reduce 67%17/11/21 22:58:40 INFO mapreduce.Job: map 100% reduce 74%17/11/21 22:58:43 INFO mapreduce.Job: map 100% reduce 90%17/1

18、1/21 22:58:44 INFO mapreduce.Job: map 100% reduce 100%17/11/21 22:58:49 INFO mapreduce.Job: Job job_1510829332386_0012 completed successfully第30页MapReduce执行结果第31页YARN产生背景直接源于MRv1在几个方面弊端 扩展性差,Job Tracker成为瓶颈,难以支持MR之外计算 可靠性差,NameNode单点故障 资源利用率低多计算框架各自为战,数据共享困难 MR:离线计算框架 Storm:实时计算框架 Spark:内存计算框架第32页YA

19、RN架构及组件ResourceManager处理客户端请求开启/监控ApplicationMaster监控NodeManager资源分配与调度NodeManager单个节点上资源管理处理来自ResourceManager命令处理来自ApplicationMaster命令ApplicationMaster数据切分为应用程序申请资源,并分配给内部任务任务监控与容错第33页Zookeeper介绍与架构ZooKeeper是一个分布式,开放源码分布式应用程序协调服务,是GoogleChubby一个开源实现,是Hadoop和Hbase主要组件。它是一个为分布式应用提供一致性服务软件,提供功效包含:配置维护

20、、域名服务、分布式同时、组服务等。第34页Zookeeper数据模型Znode第35页传统故障处理第36页Zookeeper处理方案第37页 HDFS-2.0 HA介绍主备NameNode处理单点故障主NameNode对外提供服务,备NameNode同时主NameNode元数据以待切换全部DataNode同时向两个NameNode汇报数据块信息两种切换选择手动切换:经过命令实现主备之间切换,能够用HDFS升级等场所自动切换:基于Zookeeper实现基于Zookeeper自动切换方案Zookeeper Failover Controller:监控NameNode健康状态,并向Zookeeper

21、注册NameNodeNameNode挂掉后,ZKFC为NameNode竞争锁,取得ZKFC锁NameNode变为active第38页HDFS-HA第39页目录0103统计分析0402用户画像第40页构建用户画像浏览量PV统计计数,从日志中获取访问次数,又能够细分为各个栏目下访问次数注册用户数对访问member.php?mod=registerurl计数独立IP数对不一样访问者IP计数跳出率统计一天内只出现一条统计IP,称为跳出数跳出数/PV指标计算公式第41页Hive介绍PPT模板下载:/moban/ 行业PPT模板:/hangye/ 节日PPT模板:/jieri/ PPT素材下载:/suca

22、i/PPT背景图片:/beijing/ PPT图表下载:/tubiao/ 优秀 Word教程: /word/ Excel教程:/excel/ PPT课件下载:/kejian/ Hive介绍基于Hadoop一个数据仓库工具,能够将结构化数据文件映射为一张数据库表学习成本低,能够经过类SQL语句快速实现简单MapReduce统计提供简单sql查询功效,能够将sql语句转换为MapReduce任务进行运行适合数据仓库统计分析第42页Hive与传统数据库比较查询语言HiveQLSQL数据存放位置HDFSRaw Device or 当地FS(文件系统)数据格式用户定义系统决定数据更新不支持支持索引新版本

23、有,但弱有执行MapReduceExecutor(一个方便、易于使用、基于Java工具)执行延迟高低可扩展性高低数据规模大小第43页 Hive常见应用范围日志分析淘宝Yahoo!facebook就用Hive来进行日志分析,时facebook就有非编程人员30%人使用HiveQL进行数据分析淘宝搜索中自定义筛选也使用Hive;利用Pig还能够做高级数据处理,包含Twitter、LinkedIn 上用于发觉您可能认识人,能够实现类似A协同过滤推荐效果。在Yahoo!40%Hadoop作业是用pig运行,包含垃圾邮件识别和过滤,还有用户特征建模。(天猫推荐系统是hive,少许尝试mahout!)第4

24、4页Hadoop用户画像案例Hive1、Hive中创建statistics_db表rootmaster usr# hivehive CREATE EXTERNAL TABLE statistics_db(ip string, atime string, url string) PARTITIONED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY t LOCATION /access/output;hive exit;2、创建Hive数据筛选脚本文件并添加内容rootmaster usr# vi /usr/performtasks_hive.sh#!/bin/sh#step1.参数日期格式为yyyy_MM_ddyesterday=$1#step2.修改hive表然后添加分区hive -e ALTER TABLE statistics_db ADD PARTITION(logdate=$yesterday) LOCATION /access/output/$yesterday;#step3.天天创建hive表hive -e C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论