版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Yonghong大数据BI案例的底层技术分享 2014.1.5 2011-2013 Yonghong Technology Co.,Ltd.新浪微博永洪科技BI2022-4-202大数据的4V1. 数据量大(Volume)2. 速度快(Velocity)3. 类型多(Variety)4. 价值密度低(Veracity)2022-4-203目录 互联网大数据案例海量数据,实时计算2022-4-204互联网大数据案例面临问题:实时分析的数据量大,基于Hive的分析系统不够实时,但预算有限解决办法:90天细节数据约50亿条导入Yonghong DM,再定制Dashboard分析 Dashboard/
2、ReportingData MartHadoopWEB数据APP数据5 台 PC Server64G 内存4 CPU (4 Core)?某著名咨询公司用户行为分析系统2022-4-205互联网大数据案例1.Demo: 5台PC Server 导入10天的数据,如何ETL,如何做简单应用。2.POC: 导入近3个月的数据 解决步长问题,有效访问次数, 在几个分组内,停留时间大于30分钟 解决HBase数据和SQL Server数据的关联问题 解决分组太多,Span过多的问题 分析师做了些简单的应用报表POC(Proof of Concept)2022-4-206互联网大数据案例90天的数据, W
3、eb数据7亿, App数据37亿, 总估计在50亿每个表有20多个字段,一半字符串类型,一半数值类型,一行数据估计2000Byte每天5000万行,原始数据每天100G, 100天是10T的数据抽取样本数据100万行,导入数据集市,数据量在180M50亿数据的若全部导入需要900G的量, 压缩比在11:1假设同时装载到内存中分析的量在1/3, 那总共需要300G的内存数据源及数据特征分析2022-4-207Data MartData MartMap互联网大数据案例总共配制需要300G的内存 硬件: 5台PC Server, 每台内存:64G, 4 CPU 4 Core 机器角色:一台Namin
4、g 、Map, 一台Client、Reduce、Map,其余三台都是MapHadoopSQL ServerMapMapClient Map ReduceNamingMap5 台 PC Server64G 内存4 CPU (4 Core)设计方案2022-4-208Data MartData Mart互联网大数据案例历史数据集中导:每天的细节数据和SQL Server关联后,打上标签,再导入集市 增量数据自动导:先删除近3天的数,再导入近3天的数维度数据被缓存; 细节数据按照日期打上标签,跟缓存的维度数据关联后入集市; 根据日期标签来删除数据;清洗出有意义的字段。DataCacheRefresh
5、JobJoinJobRemoveJob维度数据集市数据细节数据Cached DataDetail DataFrom DateTo DateJoin TypeCycling , Chained JobsETL过程2022-4-209互联网大数据案例内部管理内存参数:c.count=8mem.serial.mem=5120mem.result.mem=10240JVM内存管理参数配置:JAVA_OPTS=-XX:NewRatio=3 -XX:SurvivorRatio=1 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:MaxGCPauseM
6、illis=6000 -XX:GCTimeRatio=19 -XX:ParallelGCThreads=16 -XX:+UseCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=1 -XX:CMSInitiatingOccupancyFraction=80 -XX:+CMSClassUnloadingEnabled -XX:-CMSParallelRemarkEnabled -XX:SoftRefLRUPolicyMSPerMB=0 -XX:+PrintHeapAtGC -XX:+PrintGCDetails -Xms61440m
7、 -Xmx61440m -Djava.awt.headless=true系统配置调优2022-4-2010互联网大数据案例浏览器分析:运行时间,有效时间,启动次数, 覆盖人数,等等主流网络电视:浏览总时长,有效流量时长, PV覆盖占有率, UV占有率,等等主流电商网站:在线总时长,有效在线总时长, 独立访问量,网站覆盖量, 等等主流财经网站:在线总时长, 有效总浏览时长,独立访问量,总覆盖量, 等等前端展现:互联网用户行为分析2022-4-2011互联网大数据案例1.90天数据,近10T的原始数据,大部分的查询都是秒级响应2.实现了Hbase数据与SQL Server中维度表关联分析的需求3.
8、预算有限,投入并不大,又能解决Hive不够实时的问题4.性能卓越的交互式BI呈现,非常适合分析师使用海量数据,实时分析12架构分析WindowsWindows系列系列数据包列列数据包数据包数据包列列数据包数据包数据包列列数据包数据包数据加载/卸载SQL优化内存计算库内计算分布式计算ETLETL管理管理备份管理备份管理监控工具监控工具连接池连接池多路、复用、异步多路、复用、异步JDBC JDBC 接口接口永洪永洪BI / BI / 其他可视化其他可视化BIBI工具工具UnixUnix系列系列LinuxLinux系列系列列列存存储储13架构分析 机器角色 Naming Node Client Node Map Node Reduce Node 通讯协议:ZIO 存储结构:ZFS 及其管理 计算框架:ZMR 及其管理 支持BI的存储格式 支持BI的计算框架14部署的考虑 数据总量 数据特征 内存总量 CPU总量配置配置2G 2G 内存内存2CPU2CPUWIN 7WIN 7系统系统MapMapReduceReduceClientClient Nam
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广西北海市第十三中学教师招聘5人笔试模拟试题及答案解析
- 饲料加工及检测技术概况
- 2026天津科技大学第一批招聘(博士或副高及以上岗位)院士团队高层次人才岗15人笔试模拟试题及答案解析
- 2026年芜湖市“智能制造产业后备工程师”招聘50名(第一期)笔试模拟试题及答案解析
- 2026福建广电网络实业集团股份有限公司招聘1人笔试参考题库及答案解析
- 2026年平顶山职业技术学院单招职业技能考试备考题库含详细答案解析
- 2026青海海北州门源县颂暖社会工作服务中心招聘3人笔试模拟试题及答案解析
- 2026安康白河县麻虎初级中学招聘教师笔试参考题库及答案解析
- 饮食安全健康教育教学课件
- 兵团公务员、公开遴选和公开选调考试网页注册指南笔试模拟试题及答案解析
- 高标准农田建设安全文明施工方案
- 店铺安全生产制度
- 2025年及未来5年中国水晶市场竞争格局及行业投资前景预测报告
- 2025广东云浮新兴县特聘动物防疫专员招募2人考试参考题库及答案解析
- 成人重症患者人工气道湿化护理专家共识解读
- 品牌营销与市场推广服务协议
- 再审被申请人意见书
- 基于STS8200测试平台单路LDO芯片测试方案设计
- T/CSPSTC 121-2023海底管道水平定向钻设计规范
- 创新医疗供应链管理模式提升医疗服务水平
- 第17课 明朝的灭亡和清朝的建立【分层作业】【教学评一体化】大单元整体教学 部编版历史七年级下册
评论
0/150
提交评论