Spark大数据分析实务 课件 项目3 基于Hive实现广告流量检测数据存储-项目实施V1.0_第1页
Spark大数据分析实务 课件 项目3 基于Hive实现广告流量检测数据存储-项目实施V1.0_第2页
Spark大数据分析实务 课件 项目3 基于Hive实现广告流量检测数据存储-项目实施V1.0_第3页
Spark大数据分析实务 课件 项目3 基于Hive实现广告流量检测数据存储-项目实施V1.0_第4页
Spark大数据分析实务 课件 项目3 基于Hive实现广告流量检测数据存储-项目实施V1.0_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hive实现广告流量检测数据存储项目实施创建数据表导入数据至Hive表数据字段说明本项目将7天的流量记录作为原始建模数据。广告检测中的流量数据包含22个属性,数据示例及说明如下表。序号属性名称中文名称示例备注1rank记录序号5(第5条记录)单元格高度统一为1.2cm2dt相对日期3(第3天)单位为天3cookieCookie值7083a0cba2acd512767737c65d5800c84ipIP地址47经过脱敏5idfaidfa值bc50cc5fb39336cf39e3c9fe1b16bf48可用于识别iOS用户数据字段说明序号属性名称中文名称示例备注6imeiimei值990de8af5ed0f3744b61770173794555可用于识别Android用户7androidandroid值7730a40b70cf9b023d23e332da846bfb可用于识别Android用户8openudidopenudid值7aaeb5d6af25f9fe918ec39b0f79a2c8可用于识别IOS用户9macMac值6ed9fcefd06a2ab5f901e601a3a53a2d可用于识别不同硬件设备10timestamps时间戳0(记录于数据区间的初始时间点)11camp项目ID61520数据字段说明序号属性名称中文名称示例备注12creativeid创意ID013mobile_os设备OS版本信息5.0.2该值为原始值14mobile_type机型'Redmi+Note+3'(设备为红米Note3)15app_md5App密钥的MD5信息ffe435bdb6ce18dd4758c0005c4787db16app_md5App名称的MD5信息6f569b4fa576d25fb98e60bda9c9742617placementid广告位信息72ee620530c7c8cd4b423d4b4502b45b数据字段说明序号属性名称中文名称示例备注18useragent浏览器信息"Mozilla%2f5.0%20%28compatible%3b%20MSIE%209.0%3b%20Windows%20NT%206.1%3b%20Trident%2f5.0%29%20Fengxing%2f7%20MZ%2f75B00973C5D899C8BA4858F5E4FAA59B"19mediaid媒体ID信息111820os_typeOS类型标记0(采集到的OS类型标记为0)21born_timeCookie生成时间160807(第160807日)22label违规标签01为违规创建Hive表创建Hive表的基本步骤如下图。创建Hive表1.启动集群和服务在创建Hive表之前,需开启相应的Hadoop集群和元数据服务。可通过“jps”命令查看进程,如下图,已成功启动Hadoop集群和元数据服务。创建Hive表2.启动HiveCLI使用“hive”命令进入Hive命令行界面,如下图。创建Hive表3.创建数据库通过创建数据库,可以将相关的表和数据组织在一起,使得数据管理更加清晰和规范,实现逻辑上的划分,因此创建广告流量检测数据表前,可以先创建数据库ad_traffic,通过查看数据库检验是否成功创建,运行结果如下图。创建Hive表4.创建Hive表创建好数据库后,即可在数据库ad_traffic内创建Hive表case_data_sample。由于若是直接向Hive表导入CSV的数据,字段类型会全部变成String类型,不利于后续数据分析,所以需要创建两个Hive表case_data_sample_tmp和case_data_sample,case_data_sample_tmp用于导入CSV文件的数据,再将case_data_sample_tmp表的数据复制到case_data_sample。创建Hive表通过“showtables;”命令可验证是否成功创建Hive表,如下图,Hive中存在表case_data_sample和case_data_sample_tmp。创建数据表导入数据至Hive表导入数据至Hive表广告流量检测违规识别项目所提供的建模数据已经标记了相关流量数据是否作弊的标签,然而目标网站在收集流量数据的时候是没有类别标签的,所以应该处理一份没有标签的数据,与原始的网站数据一致,以便在后期用于模型应用,更加贴合实际生产环境。综上,导入数据至Hive表的基本操作流程如下图。导入数据至Hive表导入数据至Hive表的过程主要涉及以下步骤。上传文件并删除文件首行。通过Xftp工具将CSV数据csv_data_new.csv上传到Linux的/opt目录下,通过命令“sed-i'1d'/opt/case_data_new.csv”删除文件首行的字段名。导入数据至表case_data_sample_tmp。使用load命令将Linux本地数据导入表case_data_sample_tmp。导入数据至Hive表导入数据至表case_data_sample。使用insert命令将表case_data_sample_tmp的数据导入表case_data_sample。导入成功后,可以使用“select*fromcase_data_samplelimit1;”命令查看表case_data_sample的第一行数据,如下图。生成样本数据表case_data。生成一份未进行类别标识的样本数据,以原始建模数据为基础,生成没有类别标签的样本数据。小结本项目首先介绍了Hive的数据类型,为学习Hive表的创建奠定基础;其次介绍了数据库的创建与管理操作,使得数据更加有序和易于维护;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论