AI时代的湖仓数据体系建设-刘岩_第1页
AI时代的湖仓数据体系建设-刘岩_第2页
AI时代的湖仓数据体系建设-刘岩_第3页
AI时代的湖仓数据体系建设-刘岩_第4页
AI时代的湖仓数据体系建设-刘岩_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

腾讯游戏数据工程的挑战基于多智能体的需求构造AI驱动的湖仓资产体系可持续优化的工程平台系统演示游戏业务发展数据平台演进游戏业务发展数据平台演进腾讯游戏以休闲品类进入市场2003~2007外部大厂纷纷投身网游,腾讯游戏基于绕道休闲品外部大厂纷纷投身网游,腾讯游戏基于绕道休闲品类打造QQ系列游戏,深耕社交流量数据应用数据应用G,数据分散在从零起步表数据治理1.0基础功能完善阶段一2008~20142015Now以“代理+自研”后来居上2008~20142015Now打造全品类矩阵,扶持游戏厂商,建立全球打造全品类矩阵,扶持游戏厂商,建立全球化发行平台,全面出海,推动电竞职业化、游戏IP化等重启游戏代理,同步自主研发率先完成“端改手”移动化,全面升级自研体系2.02.0平台构建阶段数据应用数据治理架构升级仓库,完成数据3.0技术驱动创新对于数据资产集中管理的进一步加强,河图数据治理平台全面升级标准数据治理体系建设:以业务应用为导向,数据管理规范3.0发布逐步开始接入实时技术:datamore投入应用,决策对于数据时效性提出较高要求现存游戏业务的数据挖掘/提取类需求数万个/年,数据挖掘是问题归因、分析决策、干预经营分析经营分析1%的数据表资产离线计算+数仓数百个看板数百个看板精精细化运营数万个/年数据提取服务基于明细数据动态分层流式计算+湖仓一体特征和画像标签湖仓一体特征和画像标签湖仓一体数十个算法服务辅助决策辅助决策数十个实时线上服务特征和画像标签流式计算+数十个实时线上服务特征和画像标签流式计算+实时计算驱动业务确定数据分层AI要解决的问题不是仅仅是写SQL,而是从业务需求到数据结果的各个确定数据分层厂结果发送提交任务资产探查、厂结果发送提交任务资产探查、业务需求数据结果1243SQL代码实现SQL验证《ThePromptReport:ASystematicSurveyofPromptingTechniques》https:/2.2基于“需求标准”的人与AI需求对齐需求标准一个完备的SQL需求标准一个完备的SQL需求包括:“筛选”、“问题”、“结果”三段式提问,及“行业知识”2024.1.1-2024.2.2期间XX条件的玩家统计周、周活跃天数、玩家数」]玩家数需求对齐通过需求需求对齐通过需求Agent,匹配需求案例和行业知识,对进行需求整理与改写,改写成标准的需求格式2.3根据复杂度进行需求分解 是是是是 1.需求复杂度小于等于4准确率>90%,5至7准确率>60%,大于等于8准确率<25%,复杂度大于等于15时正确率趋近于03.1LLM在SQL生成的能力瓶颈表。/t库,总大小为33.4GB。它还涵盖了区块链、曲棍球、医疗保https://bird-bench.github.io/3.2如何提高SQL准确率?参与率排名+次日留存排名+七日留存排名算一个总七留的数值,先需要按照这三个数值排名,然后按SQLSQLBIRD数据集的挑战3.3从经典数据中台到AI+湖仓中台++经典数据中台分层加工资产自助交付资产自助交付满足率40%应用数据层应用数据层ADS汇总数据层DWS明细数据层DWD操作数据层ODS数据工程拆解指标、维度至特征拆解指标、维拆解指标、维度至特征拆解指标、维度至特征匹配已有指标资产治理补充业务信息生成特征根据特征生成补充业务信息生成特征根据特征生成指标、维度推荐已有看板根据特征生成新指标、维度生成新看板生成新看板根据特征生成新指标、维度生成新看板生成新看板资产覆盖率存在天花板资产建设滞后于业务需求数据治理体系复杂边际收益低非结构化资产标准缺失语义资产语义层建模规范语义层建模规范按来源识别最小粒度按最小粒度建逻辑视图按热度进行物化&按来源识别最小粒度按最小粒度建逻辑视图按热度进行物化&冷热策略资产成本运行效率++按特征识别指标维度唯一按维度组合建按特征识别指标维度唯一按维度组合建逻辑视图按速度进行物化&冷热策略3.4构建“人和AI”都能理解的资产SQL开放式问答框架初始化特征初始化玩法域活跃域户标签热度分析特征聚类事前事后收敛群助手定期曝光资产治理AI用资产通过大模型,结合SQL本身复杂度,自动识别出通用特征框架初始化特征初始化玩法域活跃域户标签热度分析特征聚类事前事后收敛群助手定期曝光资产治理AI用资产通过大模型,结合SQL本身复杂度,自动识别出通用特征日志表ROI资产认证!资产运营&效率工具资产知识图谱特征资产化沉淀公共特征自动识别和转化治理建议数据资产治理:资产下架(逻辑删除、物理删除…)、资产结构优化(指标新增、逻辑调整…)、资产质量提升(计算效率、稳定性、异常恢复…)数据数据资产标准:开发标准(命名、字根、逻辑…)、管理标准(唯一性、标签…)、运营标准(热度、复用率、成本…)3.5领域模型技术架构智能提数MysqlESFaissPytorchDeepSpeedvLLM微服务Neo4j预处理Query分词Query归一SFT模型蒸馏模型部署Query智能提数MysqlESFaissPytorchDeepSpeedvLLM微服务Neo4j预处理Query分词Query归一SFT模型蒸馏模型部署Query分域Term分析意图解析样本生成预训练推理加速文本索引语义索引知识图谱资产热度业务逻辑标签索引改写词库Server接口数据库表逻辑资产搜索日志反馈日志数据看板分析SOP监控告警Query理解 L0粗排L1精排 文本召回图谱召回语义召回iData报表iData报表DADA看板/探索分析实时表MySQL实时表MySQL仓(BE)资产表湖(CN)DruidDruid注册、活跃、流水结果表对局、组活动、社交、行注册、活跃、流水结果表对局、组活动、社交、行道具、渠赛季、模式...资产实时化时间修复维度提取倾斜打散动态分发监控对账自动修复TGArk预处理框架减少原有开发过程中的数据重跑检验离线数据仓库TDWStormTGlog日志采集TDBankStormTGlog日志采集TGlogTGlog日志采集3.7基于StarRocks构建湖仓一体解决方案建模与开发基于大模型的智能应用建模与开发基于大模型的智能应用腾讯云对象存储(COS)虚拟数仓虚拟数仓冷热分层冷热分层API服API服务粒度目录管理 粒度目录管理 粒度重复判断 创建物化视图验证物化视图物化视图动态变更 优化策略制定 创建物化视图验证物化视图物化视图动态变更 优化策略制定 视图加速统计资产粒度3.9智能动态加速-StarRocks物化视图资产粒度AI自助式交付ADSADS资产资产热度DWD(规范化的明细数据表)f查询改写4.1多智能体架构,人与AI高度协同工作),), 业务需求资 业务需求资产运营拆分逻辑通过特征资产优化匹配准确率•特征资产的增删改查;特殊逻辑说明;举值、派生维度的计算规则;特征匹配需求运营通过库表资产优化计算效率括数据标准化、分层、打标、表/字段描述;平台运营功能平台运营功能降低Al生成难度,通控的交付质量降低Al生成难度,通控的交付质量。确保稳定可建立从业务需求、建立从业务需求、行业知识、确保资产能被Al理解和使用。基于资产热度、执行速度基于资产热度、执行速度、数优化加速的资产,通过资产整合、物化视图等方式确保数据的高效获取。覆盖从业务需求到数据交付的全链路覆盖从业务需求到数据交付的全链路,各节点Agent可与用户行干预和修正,确保系统的可持续优化。系统演示DemoUdata产品演示系统演示D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论