360大数据中心平台演进与实践_第1页
360大数据中心平台演进与实践_第2页
360大数据中心平台演进与实践_第3页
360大数据中心平台演进与实践_第4页
360大数据中心平台演进与实践_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2018360大数据中心平台演进与实践目录01业务介绍02演进过程03实践案例04未来规划业务介绍最全的样本行为库-总日志数十万亿条-每天新增数百亿条全球域名信息库-数十亿DNS解析记录-每天约新增上百万条-13年+Whois信息存储网址库每天查询数百亿条每天处理上百亿条每天拦截访问钓鱼数 超过1.4亿URL全球文件样本库-每天新增数百万样本-总样本数上百亿-20亿+黑名单-1亿+白名单数据来源:全球5.09亿PC安全客户端,7.44亿移动端安全客户端;360浏览器、搜索终端应等数据来源:互联网基础设施DNS,猎网、补天等各类举报与响应平台,以及 100+第三方数据源大数据服务器规模超过400

2、00台,总存储数据量接近1.6EB,每天新增超过1PB 每天各种数据计算任务10万个,每天处理数据量10PB漏洞 信息社会 工程钓鱼 网址恶意 样本互联网痕迹大数据攻击武器大数据主机 信息移动 信息主动 防御网址 访问域名 解析资产搜索IoT个人 安全视频 信息流游戏应用 产品搜索游戏网址导航手机助手相机清理大师浏览器分身大师wifiPC卫士加固宝手机卫士网盾360OS花椒信息流奶糖影视基本属性消费能力上网行为兴趣偏好人流迁徙统计分析活跃产品70+表1000+字段30000+业务介绍 业务介绍业务介绍010203数据加工处理千亿级网页库数据 网页/链接 分析热点数据获取、推荐海量数据检索全球最

3、大病毒库 全球最大的安全漏洞数据产品数据分析产品分析、统计报告演进过程统一的数据统计、报表工具以产品为单位的数据处理工具一站式的数据治理、加工及挖掘平台演进过程第一个MR程序上线2010.10老版本数据处理程序全 面下线2011.10移动端SDK发布 报表工具发布2015.06数据处理平台发布,支持 离线处理、在线查询2015.07数据处理平台发布 实时计算功能2016.06大数据平台第一版发布2017.12发展里程碑演进过程QDAS+:一站式的数据治理、加工及挖掘平台基础平台HadoopPaaSCache应用平台ESSparkFLink报表组件任务调度数据资产数据存储规则引擎算子组件数据采集

4、数据集成MQMricoService业务打点数据接入数据业务数据实体数据应用层数据外部数据权限管理服务产品&工具数据采集服务用户画像分析数据展现服务数据管理服务任务调度服务数据集成服务OLAP分析服务数据分析服务DAU 预测Query词分类用户画像用户生命周期 管理渠道优化KPI异动分析TitanQReportQNote安全数据数据查询服务演进过程RDBNoSQLLogStreamTITAN数据接入数据处理QMiner深度学习算法模型特征工程模型评估规则引擎调度管理服务化框架QReport自助分析自助报表QDAM原始明细汇聚应用数数数据据据质安资量全产QProfile标签管理模型管理实体管理Q

5、Note在线查询在线分析QOPS资服预源务警管监管理控理数据开放服务基础平台演进过程用户画像数据服务数据平台数据资产全域产品数据分层、归一化跨业务的数据价值评估体系统一的数据标准和安全体系统一的用户账号体系自助式创建用户标签跨引擎的计算平台图元化的任务配置多数据源任务处理基于场景化的服务主要改进点电脑软件手机软件视频智能硬件游戏金融理财数据关联度低:海量业务数据孤立存放,无统一ID 体系12数据缺乏维护:部分数据含义不清晰,命名不规范, 相同业务语义数据有多种表现形式3价值体现不足:本产品数据只在产品内使用,对于维度缺失数据补齐难度较大实践案例数据治理-用户数据归一化实践案例Step2:虚拟自

6、然人维度建立MIDM1M2M1M2QID数据治理-用户数据归一化Step1:业务行为数据关系提取业务1业务2业务3业务线25+表600+字段20000+数据模型整理连通区域的id聚类创建孤岛id关系对虚拟自然人用户ID实践案例数据治理-用户数据归一化实践案例数据处理-演进过程Stage1:分布式数据处理工具Stage2:数据处理平台化(Titan)从传统的数据处理到分布式数 据计算从计算规则重复编写到规则模 板化从单一的数据源到支持多种数 据源支持多种计算引擎从单一的数据输出到增加报表、 查询等模块系统功能按照模块化构建单一计算引擎模板库自定义脚本数据输出报表数据源HDFSHIVEMySQL计

7、算引擎SparkMR模板库Spark模板MR模板Hive模板自定义模板报表在线查询经营分析调 度权 限数据输出Now:高性能、高可靠、低门槛1数据源类型2场景支持 度3资源管 控4使用门槛面临的问题1234数据处理类型单一,场景模板无法自定义;任务调度类型支持较少;计算资源分配策略单一,资源利用率不高;数据资源的管控粒度较粗,数据价值无法最大 化;数据处理逻辑基于表单式配置,用户体验较差;任务以列表方式展现,任务在可视化展现方面 较弱;仅支持HDFS、HIVE、MySQL,支持类型少;仅支持单一数据源接入;实践案例数据处理-问题和挑战实践案例数据处理-系统架构HDFSHBaseHIVEMong

8、oDBKafkaMySQLQBusAPISparkFLinkYARNRuntime组件库规则引擎模板库/API图元接入API接入调 度 监 控权 限 管 理1覆盖业界主流数据源类型,支持 混合数据源接入2计算逻辑和计算流程分离,支持 不同的场景3基于第三代计算引擎的分布式处理4提供多种调度规则,支持不同类 型的任务5基于图元拖拽式的交互,任务配 置无码化数据计算组件应用实践案例总数据量50+TB日新增数据8000+日运行任务数数据处理-当前现状35+5PB接入业务线200并发任务数实践案例数据处理-任务管理任务调试场景优化异常处理策略配置默认值补齐防数据倾斜性能&可靠性数据缓存小文件合并实践案例在线查询-整体介绍设计目标一次性数据分析工具数据集成和报表工具一种补充主要特性用户人群功能定位数据分析人员具有一定数据分析能力的产品人员支持多种数据源查询查询语言统一化结果集二次查询多数据源混合查询实践案例在线查询-架构设计多语言执行环境节点管理多语言执行平台资源管理会话管理SQL解析SQL解析引擎适配器元数据查询服务上 下 文监 控1支持多种数据源的查询和数据源 的混合查询2查询统一SQL输入,屏蔽底层数 据源的类型3添加查询会话管理,查询资源统 一管控4查询结果的二次分析处理实践案例100GB

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论