张功贯-大语言模型在大数据研效场景中的智能化探索与实践_第1页
张功贯-大语言模型在大数据研效场景中的智能化探索与实践_第2页
张功贯-大语言模型在大数据研效场景中的智能化探索与实践_第3页
张功贯-大语言模型在大数据研效场景中的智能化探索与实践_第4页
张功贯-大语言模型在大数据研效场景中的智能化探索与实践_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

张功贯腾讯平台智能技术架构师多年负责搜、推、广场景数据相关的数据仓库、数据平台及算法系统架构设计与工程实现的数据工作经验;加入腾讯后,主要负责腾讯天穹大数据平台的平台智能自治、数据治理、智能化相关的系统架构设计、工程实现以及业务落地的工作。演讲主题:大语言模型在大数据研效场景中的智能化探索与实践大数据的研效场景概述&痛点大数据研效场景的智能化思考未来思考与规划大数据场景中的业务协作关系快、准、稳成本效率业务抽象数据科学家数据分析师 成本效率业务抽象数据湖稳定数据组织数据湖稳定数据仓库工程师数据计算数据存储数据计算数据存储运维工程师大数据场景中各个角色的工作内容存储成本计算性能系统SLA系统兼容性系统计算能力底层技术底层技术数据仓库工程师(DE)数据仓库数据湖、湖仓一体ADS数据数据模型数据逻辑数据逻辑数据科学家/分析师(DA)业务指标计算口径数据报表业务归因业务逻辑业务逻辑大数据的研效场景各个角色的关注点数据科学家/分析师(DA)数据仓库工程师(DE)快、准、稳效率成本通过业务数据如何快速推理出数据背后快、准、稳效率成本通过业务数据如何快速推理出数据背后稳定业务需求如何快速转化成技术逻辑的表稳定业务需求如何快速转化成技术逻辑的表达并计算取得想要的数据?仓库?并保存数据仓库中数据的质量、离不开成本、效率、稳定性查问题?如何以合理的计算/存储资源大数据的研效场景中的智能化思路AI4Data的能力模型:围绕成本、效效率•全链路诊断:解决作业运行过程中的黑洞问题,将作业运行过程进行全链路根因定位。成本•作业调优:基于专家经验和黑盒算法进行内存和Core的优化。•数据治理:针对表的存储、生命周期、小文件等维度进行优化。稳定性•异常感知:感知到单进程粒度的状态、性能、资源等维度数据信息。•异常告警:秒级感知到异常、失败等状态信息,进行实时告知。SQL智能•SQL改写:通过大语言模型来理解SQL包含的业务算法,通过改写SQL业务逻辑来对SQL计算进行深度优化。•SQL诊断:通过事前、事中、事后的能力构建,快速帮助用户定位到问题,解决SQL中的逻辑错误。数据智能•Text2SQL:是将自然语言文本(Text)转换成结构化查询语言SQL,并将SQL结果给与展•ChatBI:针对BI报表的若干指标,进行数据逇深度归因分析,得出BI报表中的风险与机遇等分析相关的结论。湖仓智能•智能索引/分区智能视图/分层•执行计划优化冷热数据等大数据的研效场景中的智能化落地经验碰到的问题解决方案碰到的问题规律输入预测相结合解决方案碰到的问题解决方案模型输入预测历史数据大数据的研效场景中的智能化落地AI4DataSystem的能力体系构建之可观测性JVM粒度数据采集渗透已基本覆盖天穹平台所有物据量在万亿的规模指标评估体系支撑到任务、进程粒度的数据上卷和下大数据的研效场景中的智能化落地AI4DataSystem的能力体系构建之诊断能力全链路诊断全链路诊断SQL执行计划的回放与诊断大数据的研效场景中的智能化落地AI4DataSystem的能力体系构建之成本优化白盒+黑盒的机制:白盒,采用历史数据进行趋势预估预测。工干预。超过50%的内存成本30%的CPU成本节省SQL-CopilotSQL优化数仓优化SQL诊断SQL知识库逻辑追踪性能分析分层SQL合理性诊断…感知分析健康评估慢SQL-CopilotSQL优化数仓优化SQL诊断SQL知识库逻辑追踪性能分析分层SQL合理性诊断…感知分析健康评估慢SQL影响分析毛刺分析数仓合理性分析优化收益分析资源分析…根因诊断资源诊断性能诊断逻辑追踪物理执行计划诊断异常错误诊断延迟/内存诊断…空间优化热点优化SQL改写优化AddHints优化参数优化数仓优化ODS层优化改写DWD层优化改写DWS层优化改写ADS层优化改写SQL知识库语法错误码库引擎异常错误码库基于引擎的异常解决基于引擎的计算特性基于方言的语法兼容主机数据 SQL/日志 全量查询慢SQL 实例数据 其他 变更历史监控指标 技术数据湖仓大数据的研效场景中的智能化落地●SQL优化SQL优化改写,依据用户写的SQL,解决SQL运行过程中的运行慢问题。●SQL生成ChatBI/Text2SQL针对数据分析场景,通过LLM技术,将自然语言转成SQL并进行数据分析,总结结论。帮助用户快速解决帮助用户快速解决SQL运行异常的问题,运行异常包含本身引擎执行失败和运行成功得到错误的数据。数仓优化ChatBIChatBI/Text2SQL针对数据分析场景,通过LLM技术,将自然语言转成SQL并进行数据分析,总结结论。数据生产部分进行数据深度加工数据生产部分进行数据深度加工,从源头数据ETL到数仓建模。整个过程重度依赖SQL。的文本长。分析作业运行慢,业务结果优化等等。重点关注SQL的计算、异常、稳定性等问题。大数据的研效场景中的智能化落地数据分析部分数据需求多,业务需求非固需求比较急迫。大数据生态SQL自动生成、诊断、SQL优化等数仓生产、数据分析工作,之前的解决方案上,绝大大部分是从既定的SQL逻辑往引擎下层推进。缺乏对业务逻辑算法重构的能力,而LLM的出现,突破了这层限制。SQL大数据场景的核心角色大数据的研效场景中的智能化落地AI4DataWareHouse之SQL度考虑是否需要计算长周期的数据。基于业务的SQL优化基于系统引擎的优化改进更多业务逻辑、业大数据的研效场景中的智能化落地AI4DataWareHouse之SQL-Co大模型业务落地过程中的“拦路虎”4.业务结果可评测性问题业界大语言模型业务落地过程中的关键问题暴力扫描数据倾斜暴力扫描数据倾斜大数据的研效场景中的智能化落地数据可视化元数据查询效果验证抽样验证元数据查询可验证问题?模型微调模型微调理解理解任务拆解规划设计对齐意图大语言模型(LLM)对齐意图知识库这里通过问题分类来重构CoT思路,让LLM能够有针对性的提供解决方案。知识库Join优化WithAsJoin优化WithAs优化多Distinct等等大数据的研效场景中的智能化落地大语言模型中的幻觉问题和可迭代性问题解决方案有效减少幻觉问题通过垂直化来提升可迭代性SQL问题分类模型效果验证数据可视化SQL问题分类模型效果验证抽样验证元数据查询抽样验证工具工具模型微调任务拆解规划设计对齐意图理解执行生成多模态大语言模型(LLM)程SQL智能体-----b模型微调任务拆解规划设计对齐意图理解执行生成多模态大语言模型(LLM)程SQL智能体-----b知识库按问题分类的子PromptWithAs优化nct暴力扫描等Join优化Join优化通用指令集通用指令集暴力扫描数据倾斜优化诊断MapJoin、WithAs优化Join优化多暴力扫描数据倾斜优化诊断MapJoin、MapJoin、WithAs优化暴力扫描Join优化多Distinct等等数据倾斜大数据的研效场景中的智能化落地大语言模型中的可评测性的解决方案数据可视化元数据查询效果验证元数据查询工具模型微调工具理解理解执行生成多模态程SQL智能体规划设计大语言模型(LLM大语言模型(LLM)知识库优化优化大数据的研效场景中的智能化落地SQL智能体SQL优化改写的落地针对多个Count(Distinct)优化最终结果大数据的研效场景中的智能化落地SQL智能体SQL优化改写的落地针对IN(SELECT)的场景优化最终结果最终结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论