hadoop项目实战练习_第1页
hadoop项目实战练习_第2页
hadoop项目实战练习_第3页
hadoop项目实战练习_第4页
hadoop项目实战练习_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、北京传智播客教育 Hadoop项目实战北京传智播客教育 课程安排流量运营系统项目整体介绍流量运营系统项目技术架构流量运营系统项目技术要点流量运营系统项目模块开发实战北京传智播客教育 3项目整体介绍流量经营项目相关背景流量经营数据来源、内容(实例展示,字段介绍)流量经营数据处理流程(预处理,SCA,TAS等)数据分析结果(各阶段中间结果,最终结果)北京传智播客教育 项目背景项目起因运营商掌握了大量的用户上网行为数据用户上网行为数据丰富的商业价值相对廉价方便的大数据处理技术使得海量数据挖掘分析成为可能互联网企业对传统电信运营商的倒逼(市场,业务,技术)北京传智播客教育 项目背景营销支撑对客户移动互

2、联网行为进行采集,分析,发现用户关注相关内容,为开展营销提供号码支持。人不分高低贵贱,只是环境使然,让一个总统之才出生在“狼窝”,他的内心也会滋生出拔不断根的淫脏瘾窥癖虐的龌龊来。他们一旦被主流文化、主流环境所边缘,就会用户行为爬虫采集页面分析偏好:阅读,励志等行为阅读类励志关键词用户视图按偏好、关注点、业务群用户群实时用户群规模分析;励志内容关注群分析;阅读频道行为群分析;用户群提取开展营销营销方案营销支撑北京传智播客教育 6项目背景更多应用网络爬虫GPRS网站内容分析用户行为分析数据分析爬虫数据网站树内容树数据清洗WAP黄页库数据分析网关数据数据清洗用户行为模型数据索引用户属性内容属性结果

3、呈现5个应用细分营销活动精确发展用户引导自有业务分析竞争业务个性化内容日志采集项目背景投产成果用户响应率有三倍提升本次营销相关激励措施和前期开展的WAP PUSH营销相同;对比以往的群发响应率1%-3%,本次群发响应率效果明显,达到5.80%-10.21%,有近乎3倍的提升效果。访问用户活跃度高用户后有继续点击其他内容的行为,最高占比达到91.4%;产生二次点击行为的用户数的占比高,反映贴合用户需求的内容对用户的吸引力,用户粘性越高。北京传智播客教育 8项目背景项目概况集群:3个 数据采集集群(6-10节点)行为轨迹增强处理集群(20-25节点)ETL、统计分析集群(35节点)12core 1

4、28G (8*800G 10*1T)数据量:每天新增2T左右(10亿行以上),并在不断增长项目组规模研发团队、实施团队、运维团队北京传智播客教育 项目所处理的数据数据来源:数据的采集可以是从硬件设备(如网关、Gn口、分光设备)直接获取并解析也可以是从其它系统(如BOSS和VGOP)导入-经分数据数据类型:HTTP日志/WAP日志/MMS日志/ CONN日志/DNS日志北京传智播客教育 项目所处理的数据数据格式及内容:http日志示例:1374609560.111374609560.161374609560.161374609560.1611058615038208365460023383869

5、133869642005684177824600146155494152735020806cmnet1461467 http:/ /veegao/iris.actionApache-HttpClient/UNAVAILABLE (java 1.4)POST2005933104300430000http:/ /veegao/iris.action 9 95980728北京传智播客教育 项目数据处理流程数据采集清洗、分类、合并上传HDFS集群日志解析:内容识别用户行为轨迹增强数据挖掘、统计分析业务应用、BI报表展示北京传智播客教育 项目数据处理结果原始日志(plain text)分类合并日志(pl

6、ain text)行为轨迹增强日志(plain text)待爬清单(plain text)挖掘、分析结果入库(关系型数据表)北京传智播客教育 系统架构设计系统整体架构(系统分界,子系统划分,模块结构、层次结构)主要技术选型关键子系统SCA数据处理流程关键子系统SCA主要功能模块北京传智播客教育 14系统整体架构北京传智播客教育 主要技术选型数据采集:根据不同生产环境,有多种形式云存储:HDFS,事实上的大数据技术标准海量数据批处理:MAP/REDUCE爬虫系统:Nutch,技术成熟,功能齐全,文档丰富,易扩展易改造内容识别: 模板匹配,XPATH 自然语言处理(SVM) 人力识别(10万条ur

7、l)云ETL: HIVE,最通用成熟的大数据平台ETL/数据仓库工具;Python脚本北京传智播客教育 核心子系统SCA功能模块组成数据采集:根据不同生产环境,有多种形式数据预处理数据上传HDFS行为轨迹增强内容识别北京传智播客教育 核心子系统SCA数据处理流程北京传智播客教育 项目技术要点数据预处理(采集,分类,上传HDFS)规则分类(在mapreduce中查询关系型数据库)实例分类(在mapreduce中查询kv数据库)内容识别(爬虫,模板、语义识别)定时任务、结果推送BI统计分析(实际投产脚本选样讲解)报表展现(JAVA WEB)北京传智播客教育 19数据预处理数据采集:FTP,SHEL

8、L脚本,FLUME数据预处理:JAVA (多线程,IO操作)数据上传HDFS:HDFS API北京传智播客教育 数据采集北京传智播客教育 用户行为轨迹增强规则分类规则库设计:分类体系,MYSQL关系库使用MAP/RED并发处理Mysql数据库的并发访问瓶颈MAP/RED设计技巧setup()两类输出结果(增强日志,待爬清单)MAP/REDUCE 自定义OutputFormat北京传智播客教育 用户行为轨迹增强实例分类实例库设计:使用KV内存数据库Flare/Redis使用MAP/RED并发处理需要实时更新(setup函数不适用)北京传智播客教育 内容识别爬虫模块Nutch(权限验证,防封策略,

9、动态代理,动态改变agent)网页信息清洗、整理(标签补全,格式化,特定信息抽取)主题分类自然语言处理(分词,模型训练),PLSA模型北京传智播客教育 BI统计分析云ETLHIVEPython脚本HIVE任务调度业务模型数据入库北京传智播客教育 报表展现查询Mysql clusterSpring MVCAJAX数据可视化组件北京传智播客教育 系统功能界面:全景分析-用户偏好分析主菜单全景分析 对访问内容偏好情况的总体分析综合分析 对内容进行的35个类别的统计阅读、新闻、游戏、音乐、视频 对五种内容的类型的进一步分析;目前音乐和视频无法分析。个性化分析 针对某个用户号码的个性化偏好,以及适合推荐

10、的业务。根据用户数、用户点击次数的饼图显示“其他|其他”是访问内容无法归类的内容“|”为标签的分级分隔符一级标签、二级标签目前的分类体系方法,仍在优化过程中。按日查询按地区查询见下页27系统功能界面:综合分析内容的一级分类,目前有35个一级分类;根据目前互联网的内容分类方式。偏好某个分类下的用户号码列表,目前隐藏了中间四位。该内容标签的点击次数占该用户总点击次数的比重“新闻”类的域名的根据点击量进行排行北京传智播客教育 北京传智播客教育 模块实战(一)数据预处理需求、设计技术难点、要点(原子性,上传效率,失败重传、记录)涉及到的Hadoop相关知识(HDFS)的复习实战HDFS代码开发及部署运

11、行北京传智播客教育 模块实战(二)规则库生成需求、设计技术难点、要点(TOP K算法的mapreduce实现)涉及到的Hadoop相关知识(MAPRED)的复习实战mapreduce代码开发及部署运行北京传智播客教育 需求、设计需求:从样本数据中提取有代表性的url设计(流程):读入日志数据根据url访问的流量进行排序输出流量占总流量前80%的url将url列表文本数据导入mysql表北京传智播客教育 技术要点用mapreduce实现排序用mapreduce实现topk将hdfs数据导入mysql北京传智播客教育 模块实战(三)内容增强需求、设计技术难点、要点(如何实现高效查询外部数据)涉及到的Hadoop相关知识(MAPRED)的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论