版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据竞赛培训之数据分析2018讲师:赵利平日期:2018年11月11日大数据竞赛培训之数据分析2018讲师:赵利平1目录CONTENTS原理介绍1学习目标2前期准备3数据分析4目录CONTENTS原理介绍1学习目标2前期准备3数据分析4原理介绍01原理介绍01原理介绍
本次数据分析是采用Hive进行的,
Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。Hive的Sql语句HDFS解释为mapreduce原理介绍本次数据分析是采用Hive进行的,
4学习目标02学习目标02掌握将本地文件上传至hdfs指定路径技能掌握创建hive表,并将本地数据信息导入技能掌握创建表获取指定格式、指定信息技能掌握转化率计算等函数学习目标学习目标
掌握将本地文件上传至hdfs指定路径技能掌握创建hive表,6前期准备03前期准备033.1hive基本操作
进入hive安装目录cd/usr/hive/apache-hive-2.1.1-bin/启动hiveclient(master上)
bin/hive查看数据库列表showdatabases;
3.1hive基本操作进入hive安装目录83.1hive基本操作
建数据库createdatabasehongya;//创建数据库hongya
showdatabases;//查看数据库,发现有库hongya
usehongya;//使用hongya数据库3.1hive基本操作建数据库93.2查看样例数据
user_idage_rangegendermerchant_idlabelactivity_log3417660944-1408895:1505:7370:1107:03417660412-117235:1604:4396:0818:0#954723:1604:4396:0818:0#275437:1604:4396:0818:0#236488:1505:4396:1024:0原始数据表:train_format2.csv数据user_idage_rangegendermerchant_idlabelactivity_log3417660944-1408895:1505:7370:1107:03417660412-117235:1604:4396:0818:03417660412-1954723:1604:4396:0818:03417660412-1275437:1604:4396:0818:03417660412-1236488:1505:4396:1024:0中间表1:初步创建表将activity_log中以‘#’分割的数据拆成多行数据user_idage_rangegendermerchant_idlabelitem_idcategory_idbrand_idtime_stampaction_type3417660944-140889515057370110703417660412-117235160443968180中间表2:将拆成行的数据activity_log中以‘:’分割的数据拆分成元素3.2查看样例数据user_idage_rangegende103.3hive操作--创建表
创建比赛数据表match_data,要求表结构与提供的数据结构一样,信息包含用户iduser_id、用户性别gender、商家唯一idmerchant_id、购物者标签label,均为为int类型,用户与商家交互信息activity_log为varchar类型。createtablematch_data(
user_idint,
age_rangeint,
genderint,
merchant_idint,
labelint,
activity_logvarchar(1000))rowformatdelimitedfieldsterminatedby',';
3.3hive操作--创建表创建比赛数据表mat113.4hive基本操作—导入数据
将root下的train_format2.csv数据导入到创建的match_data表中
loaddatalocalinpath'/root/train_format2.csv'overwriteintotablematch_data;查看match_data数据
select*frommatch_datalimit100;
3.4hive基本操作—导入数据将root下的train_f12数据分析04数据分析044.1数据分析—中间表
中间表是数据库中专门存放中间计算结果的数据表。报表系统中的中间表是普遍存在的。分析接下来的四个问题:创建click表,写入商品点击次数top100数据创建add_to_cart表,写入商品被加入购物车次数top100数据创建collect表,写入商品被收藏次数top100数据创建emption表,写入商品被购买次数top100数据4.1数据分析—中间表中间表是数据库中专门144.1数据分析—中间表
CREATETABLERESULTAS//创建RESULT表并获取match_data的USER_ID,ITEM_ID,BRAND_ID,ATIION_TYPESELECTUSER_ID,SPLIT(LOG_SPLIT,':')[0]ASITEM_ID,//将拆成行的数据以:为分隔符筛选字符串第0位SPLIT(LOG_SPLIT,':')[2]ASBRAND_ID,//将拆成行的数据以:为分隔符筛选字符串第2位SPLIT(LOG_SPLIT,':')[4]ASATIION_TYPE//将拆成行的数据以:为分隔符筛选字符串第4位FROM(SELECTUSER_ID,LOG_SPLITFROMmatch_dataLATERALVIEWEXPLODE(SPLIT(ACTIVITY_LOG,‘#’))ACTIVITY_LOGASLOG_SPLIT)T1;//lateralview和split,explode一起使用,以#为分隔符将一列数据拆成多行数据4.1数据分析—中间表CREATETABLERES154.1数据分析—中间表
select*fromRESULTlimit100;//查看前100行数据
查看表RESULT中前100行数据4.1数据分析—中间表select*fromRES164.2.1数据分析—创建点击量表
创建click表,写入商品点击次数top100数据分析:商品id、点击、top100表:商品id、点击量统计、100条数据CREATETABLECLICKAS//创建表click,代表点击量SELECTITEM_ID,COUNT(1)COUNT_1//对所有的行ITEM_ID相同的进行统计FROMRESULTWHEREATIION_TYPE='0'//限定条件ATIION_TYPE='0'GROUPBYITEM_ID//
groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起
ORDERBYCOUNT_1DESC//按照统计结果全局降序排序LIMIT100;//限制数据100行
4.2.1数据分析—创建点击量表创建click表,写入商174.2.1数据分析—创建点击量表
select*fromclick;//查看click表中所有数据查看click表中所有数据,第一列代表商品id,第二列代表点击量4.2.1数据分析—创建点击量表select*fro184.2.2数据分析—创建加入购物车表
创建ADD_TO_CART表,写入商品点击次数top100数据分析:商品id、加入购物车、top100表:商品id、加入购物车量统计、100条数据CREATETABLEADD_TO_CARTAS//创建表ADD_TO_CART,代表加入购物车量
SELECTITEM_ID,COUNT(1)COUNT_1//对所有的行ITEM_ID相同的进行统计
FROMRESULTWHEREATIION_TYPE='1'//限定条件ATIION_TYPE='1'GROUPBYITEM_ID//groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起
ORDERBYCOUNT_1DESC//按照统计结果全局降序排序
LIMIT100;//限制数据100行
4.2.2数据分析—创建加入购物车表创建ADD_TO_C194.2.2数据分析—创建加入购物车表
查看ADD_TO_CART表中所有数据,第一列代表商品id,第二列代表统计量select*fromADD_TO_CART;
4.2.2数据分析—创建加入购物车表查看ADD_TO_C204.2.3数据分析—创建收藏量表
创建click表,写入商品收藏次数top100数据分析:商品id、收藏、top100表:商品id、收藏量统计、100条数据CREATETABLECOLLECTAS//创建表COLLECT,代表收藏量
SELECTITEM_ID,COUNT(1)COUNT_1//对所有的行ITEM_ID相同的进行统计
FROMRESULTWHEREATIION_TYPE='3'//限定条件ATIION_TYPE='3'GROUPBYITEM_ID//groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起
ORDERBYCOUNT_1DESC//按照统计结果全局降序排序
LIMIT100;//限制数据100行
4.2.3数据分析—创建收藏量表创建click表,写入商214.2.4数据分析—创建购买量表
创建EMPTION表,写入商品购买次数top100数据分析:商品id、购买、top100表:商品id、购买量统计、100条数据CREATETABLEEMPTIONAS//创建表EMPTION,代表购买量
SELECTITEM_ID,COUNT(1)COUNT_1//对所有的行ITEM_ID相同的进行统计
FROMRESULTWHEREATIION_TYPE='2'//限定条件ATIION_TYPE='2'GROUPBYITEM_ID//groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起
ORDERBYCOUNT_1DESC//按照统计结果全局降序排序
LIMIT100;//限制数据100行
4.2.4数据分析—创建购买量表创建EMPTION表,写224.2.4数据分析—创建购买量表
查看表EMPTION中所有数据,第一列表示商品id,第二列代表购买量select*fromEMPTION;4.2.4数据分析—创建购买量表查看表EMPTION中所234.3.1数据分析—点击购买转化率计算
CREATETABLECLICK_EMPAS//创建CLICK_EMP表SELECTITEM_ID,//商品id
SUM(IF(ATIION_TYPE='0',1,0))/COUNT(1)CLICK_EMP_RATE//点击总和除以该ITEM_ID的购买总和FROMRESULTT1GROUPBYITEM_ID//groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起
ORDERBYCLICK_EMP_RATEDESC;//按照点击购买转化率降序排序
创建商品点击购买转化率表,并按照降序排列分析:商品id、点击购买转化率、降序排列表:商品id、转化率、降序4.3.1数据分析—点击购买转化率计算CREATETA244.3.1数据分析—点击购买转化率计算
查看表CLICK_EMP中前100行数据,第一列数据为item_id,第二列数据为点击购买转化率。select*fromCLICK_EMPlimit1004.3.1数据分析—点击购买转化率计算查看254.3.2数据分析—加入购物车转化率计算
CREATETABLEADD_EMPAS//创建ADD_EMPP表
SELECTITEM_ID,SUM(IF(ATIION_TYPE='1',1,0))/COUNT(1)CLICK_EMP_RATE//加入购物车总和除以该ITEM_ID的购买总和
FROMRESULTT1GROUPBYITEM_ID//groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起
ORDERBYCLICK_EMP_RA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老师好电影观后感500字汇编3篇
- 语法专题二 代词2【考点精讲精练】-2023年中考语法一点通(学生版)
- 繁星春水读后感范文
- 《技术的性质》说课稿(附教学设计)
- 2024-2025学年湖南省长沙市某中学大联考高三(上)月考数学试卷(一)(含答案)
- 山东省德州市平原县三校联考2024-2025学年四年级上学期11月期中科学试题
- 第三单元 小数的意义和性质单元测试(含答案)苏教版 五年级上册数学
- 浙江地区高考语文五年高考真题汇编作文
- 技术服务合同协议范例
- 2024年法院认可离婚协议书
- 信息资源目录编制规范(用于个人参考学习版本)
- 互联网的定义及发展历程
- 基层工会内部控制制度范文五篇
- 马克思主义基本原理智慧树知到课后章节答案2023年下齐鲁工业大学
- 苏教版译林初中英语词汇表(七年级至九年级)
- 学而思小学奥数知识体系
- 2016年软考中级系统集成项目管理工程师下午《应用技术》真题及答案
- 电火花试验报告
- 儿童文学教程第2版(学前教育专业)PPT全套完整教学课件
- 学做小小理财师
- 宝宝白细胞高怎么回事:新生儿含有白细胞
评论
0/150
提交评论