互联网大数据分析案例分享_第1页
互联网大数据分析案例分享_第2页
互联网大数据分析案例分享_第3页
互联网大数据分析案例分享_第4页
互联网大数据分析案例分享_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Yonghong大数据BI案例的底层技术分享 2014.1.5 2011-2013 Yonghong Technology Co.,Ltd.新浪微博永洪科技BI2022-4-202大数据的4V1. 数据量大(Volume)2. 速度快(Velocity)3. 类型多(Variety)4. 价值密度低(Veracity)2022-4-203目录 互联网大数据案例海量数据,实时计算2022-4-204互联网大数据案例面临问题:实时分析的数据量大,基于Hive的分析系统不够实时,但预算有限解决办法:90天细节数据约50亿条导入Yonghong DM,再定制Dashboard分析 Dashboard/

2、ReportingData MartHadoopWEB数据APP数据5 台 PC Server64G 内存4 CPU (4 Core)?某著名咨询公司用户行为分析系统2022-4-205互联网大数据案例1.Demo: 5台PC Server 导入10天的数据,如何ETL,如何做简单应用。2.POC: 导入近3个月的数据 解决步长问题,有效访问次数, 在几个分组内,停留时间大于30分钟 解决HBase数据和SQL Server数据的关联问题 解决分组太多,Span过多的问题 分析师做了些简单的应用报表POC(Proof of Concept)2022-4-206互联网大数据案例90天的数据, W

3、eb数据7亿, App数据37亿, 总估计在50亿每个表有20多个字段,一半字符串类型,一半数值类型,一行数据估计2000Byte每天5000万行,原始数据每天100G, 100天是10T的数据抽取样本数据100万行,导入数据集市,数据量在180M50亿数据的若全部导入需要900G的量, 压缩比在11:1假设同时装载到内存中分析的量在1/3, 那总共需要300G的内存数据源及数据特征分析2022-4-207Data MartData MartMap互联网大数据案例总共配制需要300G的内存 硬件: 5台PC Server, 每台内存:64G, 4 CPU 4 Core 机器角色:一台Namin

4、g 、Map, 一台Client、Reduce、Map,其余三台都是MapHadoopSQL ServerMapMapClient Map ReduceNamingMap5 台 PC Server64G 内存4 CPU (4 Core)设计方案2022-4-208Data MartData Mart互联网大数据案例历史数据集中导:每天的细节数据和SQL Server关联后,打上标签,再导入集市 增量数据自动导:先删除近3天的数,再导入近3天的数维度数据被缓存; 细节数据按照日期打上标签,跟缓存的维度数据关联后入集市; 根据日期标签来删除数据;清洗出有意义的字段。DataCacheRefresh

5、JobJoinJobRemoveJob维度数据集市数据细节数据Cached DataDetail DataFrom DateTo DateJoin TypeCycling , Chained JobsETL过程2022-4-209互联网大数据案例内部管理内存参数:c.count=8mem.serial.mem=5120mem.result.mem=10240JVM内存管理参数配置:JAVA_OPTS=-XX:NewRatio=3 -XX:SurvivorRatio=1 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:MaxGCPauseM

6、illis=6000 -XX:GCTimeRatio=19 -XX:ParallelGCThreads=16 -XX:+UseCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=1 -XX:CMSInitiatingOccupancyFraction=80 -XX:+CMSClassUnloadingEnabled -XX:-CMSParallelRemarkEnabled -XX:SoftRefLRUPolicyMSPerMB=0 -XX:+PrintHeapAtGC -XX:+PrintGCDetails -Xms61440m

7、 -Xmx61440m -Djava.awt.headless=true系统配置调优2022-4-2010互联网大数据案例浏览器分析:运行时间,有效时间,启动次数, 覆盖人数,等等主流网络电视:浏览总时长,有效流量时长, PV覆盖占有率, UV占有率,等等主流电商网站:在线总时长,有效在线总时长, 独立访问量,网站覆盖量, 等等主流财经网站:在线总时长, 有效总浏览时长,独立访问量,总覆盖量, 等等前端展现:互联网用户行为分析2022-4-2011互联网大数据案例1.90天数据,近10T的原始数据,大部分的查询都是秒级响应2.实现了Hbase数据与SQL Server中维度表关联分析的需求3.

8、预算有限,投入并不大,又能解决Hive不够实时的问题4.性能卓越的交互式BI呈现,非常适合分析师使用海量数据,实时分析12架构分析WindowsWindows系列系列数据包列列数据包数据包数据包列列数据包数据包数据包列列数据包数据包数据加载/卸载SQL优化内存计算库内计算分布式计算ETLETL管理管理备份管理备份管理监控工具监控工具连接池连接池多路、复用、异步多路、复用、异步JDBC JDBC 接口接口永洪永洪BI / BI / 其他可视化其他可视化BIBI工具工具UnixUnix系列系列LinuxLinux系列系列列列存存储储13架构分析 机器角色 Naming Node Client Node Map Node Reduce Node 通讯协议:ZIO 存储结构:ZFS 及其管理 计算框架:ZMR 及其管理 支持BI的存储格式 支持BI的计算框架14部署的考虑 数据总量 数据特征 内存总量 CPU总量配置配置2G 2G 内存内存2CPU2CPUWIN 7WIN 7系统系统MapMapReduceReduceClientClient Nam

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论