2024腾讯云大数据年度干货合集_第1页
2024腾讯云大数据年度干货合集_第2页
2024腾讯云大数据年度干货合集_第3页
2024腾讯云大数据年度干货合集_第4页
2024腾讯云大数据年度干货合集_第5页
已阅读5页,还剩397页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

页码:页码:2/2核心技术页码:核心技术页码:3/2页码:4/223RAG+Agent:基于腾讯云ES与混元大模型构建专属AI助手背景概述随着数据智能技术的不断发展,以大语言模型(LLM)驱动的AIGC为代表的内容生成技术已经成为企业数据智能能力中不可或缺的一部分,但传统的内容生成技术存在信息更新不及时、垂直领域知识匮乏、模型幻觉等问题,如何推进大模型在各行业、各业务场景落地是各方普遍关注的问题,而检索增强生成(Retrieval-AugmentedGeneration,RAG)技术则为此提供了有效的解决方案,成为数据智能时代的一大趋势。RAG是一种结合了检索和大语言模型内容生成的技术方案,它通过引用外部知识库,在用户输入Query时检索出知识,然后让模型基于可信的知识进行用户回答。RAG具有较高的可解释性和定制能力,可大幅降低大语言模型的幻觉,适用于问答系统、文档生成、智能助手等多种自然语言处理任务中。本文将通过介绍腾讯云ES一站式RAG方案,演示如何通过结合腾讯云ES与混元大模型,快速构建RAG应用。页码:5/223腾讯云ES一站式RAG方案腾讯云ES是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack,支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的Serverless模式。在自研内核方面,腾讯云ES依托腾讯内外部海量业务的运营经验,针对ES内核进行了成本、性能、稳定性、拓展性等方面的优化,是亚太地区开源贡献第一的团队,使用腾讯云ES您可以高效构建在线搜索、向量检索、日志分析、运维监控、智能问答等服务。在RAG方面,腾讯云ES支持了一站式向量检索、文本+向量混合搜索、倒数排序融合、与大模型集成、GPU高性能推理、字段级别权限控制等能力,同时针对查询性能做了大量优化,有效的提升了数据检索效率。页码:6/223当然,作为国内公有云首个从自然语言处理、到向量生成/存储/检索、并与大模型集成的端到端一站式技术平台,腾讯云ES也作为核心参编单位参与了由信通院组织的RAG标准制定,同时成为首个通过RAG权威认证的企业。AI助手构建购买ES集群1、登录腾讯云ES控制台:/login?s_url=https%3A%2F%2Fconsole.cloud.t%2Fapi%2Fexplorer%3FProduct%3Dhunyuan%26Version%3D2023-09-01%26Action%3DChatCompletions(复制链接到浏览器打开)2、点击「新建」页码:7/2233、产品类型选择为:通用版页码:8/2234、选择版本:计费模式为按量计费、ES版本为8.13.3、商业特性为白金版5、ES节点配置,测试环境可选择为ES.S1(2核4G),节点数为2,磁盘为通用型SSD,磁盘容量为20GB6、其余配置选择默认即可登录Kibana页码:9/223访问Kibana,设置公网访问策略页码:10/2233、点击Kibana公网访问地址访问Kibana部署embedding模型集群购买完成后,前往Kibana部署Embedding模型、创建知识库索引与向量化管道1、开启「节点出站访问」,仅开启数据节点即可,如有专用主节点,仅开启专用主节点即可。(该功能为白名单,请联系工单处理)注:如需上传自定义模型或第三方平台(如Huggingface)模型,可参考文档:/elastic/eland(复制链接到浏览器打开)2、登录Kibana之后,在左侧导航栏找到「MachineLearning」功能页码:11/2233、进入模型管理页面,并找到类型为「text_embedding」的模型4、如为未下载状态,选中模型,并点击「Addtrainedmodel」,本次演示我们使用「.multilingual-e5-small_linux-x86_64」模型页码:12/2235、下载完成后,点击部署页码:13/2236、为快速体验,配置使用默认值即可创建索引与向量化管道1、点击进入「Devtools」页码:14/2232、创建知识库索引index-name为索引名称,实际可按需命名页码:15/2233、创建推理管道,该管道可用于写入数据时进行数据向量化页码:16/223上述管道,将字段「content、title」的内容,调用.multilingual-e5-small_linux-x86_64模型向量化之后存储到新的字段中。写入知识库数据通过BulkAPI批量写入数据,可将title、content、url的内容替换为您实际的知识库数据。页码:17/223调用混元大模型1、python文件命名为hunyuan.py2、安装相关库,参考如下,控制台链接:/login?s_url=https%3A%2F%2F%2Fapi%2Fexplorer%3FProduct%3Dhunyuan%26Version%3D2023-09-01%26Action%3DChatCompletions(复制链接到浏览器打开)页码:18/2233、获取SecretID、SecretKey,控制台链接:/login?s_url=https%3A%2F%2F%2Fapi%2Fexplorer%3FProduct%3Dhunyuan%26Version%3D2023-09-01%26Action%3DChatCompletions(复制链接到浏览器打开)页码:19/223页码:20/223智能问答系统构建1、安装streamlit2、获取ES访问地址用户名为elastic、密码在创建集群时设置,用本地mac测试时,可开启公网访问,实际生产时,建议使用内网访问地址3、运行如下代码(需与hunyuan.py在一个目录下)页码:21/223页码:22/223在上述python文件的目录下,使用如下命令运行系统:生成的界面如下:页码:23/223总结本文通过介绍腾讯云ES一站式RAG方案,演示如何通过结合腾讯云ES与混元大模型,快速构建RAG应用。腾讯云ES凭借其在传统PB级日志和海量搜索场景中积累的丰富经验,通过深度重构底层系统,成功地将多年的性能优化、索引构建和运营管理经验应用于RAG领域,并积极探索向量召回与传统搜索技术的融合之道,旨在充分发挥两者的优势,为用户提供更加精准、高效的搜索体验。未来,腾讯云ES将持续深耕智能检索领域,在成本、性能、稳定性等方面持续提升,帮助客户降本增效的同时实现业务价值持续增长,欢迎持续关注!腾讯云大数据将持续致力于为各行业客户提供轻快、易用,智能的大数据平台。页码:24/223揭秘万亿级日志与搜索平台核心架构巴黎赛事如火如荼,中国健儿在赛场上屡创佳绩。作为赛事转播的核心平台,国内头部视频媒体不仅提供了赛事直播,还推出了丰富的原创新媒体节目,平台涵盖赛程查询、选手信息、奖牌榜、社区互动等功能,日均承载万亿量级的日志写入与十亿量级的在线搜索,总存储规模达PB级。腾讯云ES基于自研内核优化和专家级服务,成功扛下重任,保障了平台的稳定运行。万亿级日志分析平台再大的流量也“打不崩”针对日志分析场景,腾讯云ES通过自研读写分离、存算分离、Serverless架构、页码:25/223查询并行化、定向路由等先进技术,实现冷热数据一体化搜索及弹性伸缩能力。其核心能力支撑了腾讯社交、内容、娱乐等众多业务,经历了海量应用的大规模实践考验,同时也服务了业界非常多有影响力的头部企业,帮助客户显著提升日志写入性能和稳定性,并降本30-80%。1.稳定高可用(高并发写入)平台作为赛事最核心的观看入口,写入量达千万级每秒,特别是在「樊振东对战张本智和」、「乒乓球女单决赛」、「乒乓球男单决赛」、「羽毛球男双决赛」等比赛中,写入流量一度突增1倍以上,高并发数据写入对底层服务稳定性提出了极大考验,一个稳定可靠的架构极为重要。腾讯云ES通过服务限流、异常容忍以及分布式线性扩展优化,帮助平台打造了固若金汤的健壮性架构。那么,我们在这个过程中是如何保障整个日志系统的稳定高可用的呢?在赛事从预热、到开幕式、再到开赛以来,业务的突发增长有时候来的很突然,无法在前期做有效的评估。社区中的很多基于开源ES自建的用户也遇到过类似的问题,由于没有预估到业务突发的增长,并且在业务层没有做好服务降级等机制,导致突发的写入流量打崩了整个集群,使ES服务甚至整个业务长时间不可用。那么,在类似场景中,腾讯云ES是怎样保障突增写入流量下集群的稳定性的呢?页码:26/223ES的写入流程中,用户的写入请求先到达一个数据节点,即协调节点。然后由该协调节点将请求转发给主分片所在节点进行写入,主分片写入完毕再由主分片转发给从分片写入,最后返回给客户端写入结果。右图是更细节的写入流程,而我们从堆栈中看到的写入请求堆积的位置就是在红色框中的接入层,节点挂掉的根因是协调节点的接入层内存被打爆。页码:27/223针对这种高并发场景,我们的优化方案是服务限流。除了要控制并发请求数量,还要精准地控制内存资源,因为内存资源不足是主要的矛盾。此外,限流方案要具备通用性,能作用于各个层级实现全链限流。在很多数据库使用场景中,会采用从业务端或者独立的proxy层配置相关的业务规则的限流方案,通过资源预估等方式进行限流。这种方式适应能力弱,运维成本高,而且业务端很难准确预估资源消耗。ES原生版本本身有限流策略,是基于请求数的漏桶策略,通过队列加线程池的方式实现。线程池大小决定了处理并发度,处理不完放到队列,队列放不下则拒绝请求。但是单纯地基于请求数的限流不能控制资源使用量,而且只作用于分片级子请求的传输层,对于接入层无法起到有效的保护作用。原生版本也有内存熔断策略,但是在协调节点接入层并没有做限制。我们的优化方案是基于内存资源的漏桶策略。我们将节点JVM内存作为漏桶的资源,当内存资源足够的时候,请求可以正常处理;当内存使用量到达一定阈值的时候,分区间阶梯式平滑限流。例如上图中浅黄色的区间限制写入,深黄色的区间限制查询,底部红色部分作为预留buffer,预留给处理中的请求、merge等操作,以保证节点内存的安全性。页码:28/223限流方案中的一个挑战是如何实现平滑限流。单一的阈值限流很容易出现请求抖动,例如请求一上来把内存打上去马上触发限流,而放开一点点请求又会涌进来把内存打上去。我们的方案是设置高低限流阈值区间,在这个区间中,基于余弦变换实现请求数和内存资源之间的平滑限流。当内存资源足够的时候,请求通过率为100%;当内存到达限流区间逐步上升时,请求通过率随之逐步下降;当内存使用量下降时,请求通过率也会逐步上升,不会一把放开。通过实际测试,平滑的区间限流能在高压力下保持稳定的写入性能。2.写入性能优化赛事的热度持续上涨,且在某些时段,出现突然的增长,例如在「樊振东对战张本智和」的比赛中,写入流量一度突增50%,接近1300万/秒的写入。在千万级TPS写入的考验下,腾讯云ES通过自研能力成功实现高并发写入,轻松应对高并发写入流量。页码:29/223定向路由策略:在具体介绍定向路由前,先分析日志场景的特点以及开源ES的劣势。日志场景一般写多读少,在大规模写入与存储的场景下,容易出现一些100+节点的ES集群。为了均衡各个节点的写入压力,一个索引会设置上百个主分片,均匀分布在各个节点上,这种设置在一些异常场景中,容易出现写入拒绝并且CPU资源难以被有效利用。主要原因如下:页码:30/223·分片数量较多,容易出现长尾子请求,拖慢整个Bulk请求,继而使得写入队列打满。·拆分过多的子请求,导致磁盘IO次数过多,无法提升写入吞吐,无法充分利用CPU。·节点间交互次数过多,消耗系统资源。通过分析ES的写入流程,我们可以了解到一次Bulk批量写入会把请求均分到所有的分片,个别的分片或节点卡顿就会拖慢整个Bulk请求,继而写入队列被打满,从而出现写入拒绝。此外,拆分过多的子请求,会导致写入吞吐量上不去,CPU也没有被充分利用。还有一点是,主分片写完之后再写副本分片,会导致节点之间的交互次数过多,消耗了系统资源。腾讯云ES自研了BulkRouting定向路由策略,即为每个Bulk请求增加一个随机的routing值,只路由到一个分片进行写入。最终达到的优化效果是:·相比开源ES提升写入速度在20%以上。·显著降低写入拒绝率。·同等写入速度下CPU使用率更低,CPU资源可以被有效利用。页码:31/2233.读写分离架构读写分离是一种常见的数据库架构优化策略,可用于提高数据库系统的性能和可扩展性。原生ES的写入方案,存在以下几个问题:·默认情况下将数据写入到ES是通过ES的bulk接口,ES需要在协调节点解析数据、将数据划分到各个分片、请求转发、解析文档、主分片转发请求给副本等工作。这样做的缺点是网络交互太多、每个分片吞吐量太低,导致写入差强人意。·数据写入、存储、查询都在同一个节点上,对于写多读少的日志分析场景,难以页码:32/223实现快速扩容。腾讯云ES的读写分离方案,通过在协调节点提前基于LuceneAPI内存构建好Segment,然后转发给具体索引分片,分片收到内存Segment后定时追加到Lucene中,最终实现数据写入。基于协调节点构建Segment,由于数据不直接落盘,整个写入服务相当于无状态。通过融合自研物理复制、内存Merge、自研Mergepolicy等亮点技术,腾讯云ES读写分离方案相比开源ES,可提升写入吞吐性能5-20倍。“十亿级”直播搜索平台查的更快更稳页码:33/2231.稳定高可用(高并发大查询)热门赛事,如乒乓球、游泳、跳水、羽毛球等,相比一些较为冷门的比赛,往往观看人数会有不同量级的增加。留言、互动等功能,在中国选手夺冠后,更是会出现流量突增的情况。例如「乒乓球男单决赛」这场比赛,光预约人数就达到将近100万,在线观看人数超过3000万。赛程、选手、奖牌榜、节目库、社区留言、互动等模块的在线搜索业务,对于性能、稳定性的要求极高。那么,腾讯云ES是如何保障的呢?这里不得不提到自研的熔断限流、步长限流、滑动窗口聚合能力。·熔断限流:针对高并发大查询场景,自研熔断机制能在高负载时自动切断部分低优先级或高资源消耗的查询请求,确保核心查询请求的优先处理,保障整体服务的稳定性。·步长限流:通过动态调整请求步长,根据当前系统负载自动调整查询请求的步长,以实现资源的最优利用,确保在高负载情况下的查询效率和响应速度。·滑动窗口聚合:在查询聚合过程中,引入滑动窗口机制,能够更好地分摊计算压力,避免因某一时刻的高并发查询造成系统负载过重,从而提升整体的查询性能。2.查询性能优化在内核层面,腾讯云ES针对在线检索场景的特点做了更多优化,比如分片架构页码:34/223优化、查询并行化、lucene查询缓存锁改造等,整体帮助搜索场景查询性能提升3-10倍:·自适应副本策略:ES分布式系统网络调用多,如果遇到跨地区/AZ调用或者慢节点分片副本调用,就会导致查询延迟高。腾讯云ES通过改进的本地自适应副本选择策略,其核心原理是:通过计算协调节点跟数据分片副本的查询平均响应时间、查询队列、查询成功率,不断地调整选择延迟最低的副本进行查询,来大幅降低搜索的延迟,并保障负载均衡。·查询裁剪:ES查询模型是将查询请求拆分成分片级的子请求转发给各个分片并行执行,最后在协调节点合并各个分片的结果,在每个分片内部有多个segment。腾讯云ES通过对列存、数值索引、Terms等维度对segment进行提前裁剪跟合并收敛,减少随机IO,优化查询性能。·查询并行化:通过极致压榨空闲CPU资源,将ES的单个分片级请求拆分成多个子请求并行处理该分片下的segment或者docs,根据docs或者segment切分,每个线程只处理一部分docs或者segment,在数据节点合并每个线程的结果后再返回给协调节点,协调节点合并各个分片的结果返回给客户端,从而达到性能倍数级的提升。·查询缓存优化:通过CBO策略,避免了查询Cache操作导致查询耗时10+倍的毛刺,并通过最小粒度的读写锁提升了LRU缓存性能2倍+,并提交到官方Elasticsearch、Lucene社区,得到社区的认可跟点赞。在此次巴黎赛事中,国内头部视频媒体凭借腾讯云ES的强大技术支持,成功应页码:35/223对了万亿级日志分析与十亿级直播搜索的挑战。通过服务限流、定向路由、读写分离等自研技术优化,保障了直播平台的高稳定性和高性能;通过熔断限流、步长限流、滑动窗口聚合等机制,确保了高并发大查询场景下的查询效率和响应速度;通过分片架构优化、查询并行化、lucene查询缓存锁改造等手段,显著提升了查询性能。目前,腾讯云ES作为云端全托管海量数据检索分析服务,拥有高性能自研内核,是亚太地区对ES开源社区贡献最多的第三方团队,技术PR达200+,支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的Serverless模式。在实时检索、日志分析、向量检索、RAG等场景均有较多的优化与实践,被广泛应用于电商、零售、汽车、出行、金融、游戏等行业,帮助客户实现业务价值提升。面向AI时代,腾讯云ES也不断探索,推出了一站式向量检索与RAG方案,助力业务基于RAG能力实现智能化转型。未来,腾讯云ES仍将不断迭代,面向市场与用户需求,不断打磨技术和产品,持续输出稳定可靠的云端检索分析服务。页码:36/223TBDS新一代数据湖仓架构导读:本次分享主题为TBDS新一代数据湖仓助力企业数据架构升级。文中将介绍TBDS新一代数据湖仓产品的能力升级,以及TBDS新一代产品在企业数据架构实时化、云原生化升级中的实践。主要包括以下几大部分:1.TBDS新一代数据湖仓架构2.全新架构全新体验3.环境全面适配4.企业数据架构升级实践案例TBDS新一代数据湖仓架构腾讯云大数据TBDS是一款依托腾讯多年海量数据处理经验,基于云原生技术,泛Hadoop生态和最前沿的湖仓技术打造的可靠、安全、易用的大数据平台。页码:37/223TBDS推出的新一代湖仓产品方案具备计算隔离强、存算按需伸缩、智能运维调优等高可靠性。通过统一元数据和统一的安全机制,TBDS能够显著提升用户的用数体验,优化使用成本,赋能多场景应用,助力企业轻松驾驭各类工作负载,加速企业的数字化转型。在新一代产品中,TBDS灵活地为用户提供了两种架构下的大数据计算服务,在现有的传统架构大数据集群之外,用户可以无缝弹性扩展计算到新一代架构的湖Lakehouse计算服务。新一代计算服务和传统架构的大数据集群间,通过TBDS提供的统一元数据和统一权限管控体系无缝对接,畅享计算无限伸缩的丝滑体验。TBDS基于Lakehouse数据架构打造的类数仓体验的全景湖仓产品,具备全场景支持、计算隔离、存算资源按需弹性调度、智能调优等高可靠特性,借助统一元数据以及统一权限体系,实现异构集群数据互访数据零搬迁,可大幅降低用户页码:38/223整体使用成本。产品方案遵循开放标准设计,通过统一平台实现入湖、存储、计算、开发、管理等大数据业务核心流程的全面统一。能力可以总结为以下五大核心特点:·开放敏捷:我们提供开放接口和Serverless架构,实现快速接入,高度集成和开箱即用的体验。·弹性伸缩:利用云原生架构支持存储和计算的极限伸缩。允许自定义弹性配置,实现资源共享和严格隔离间的平衡·混合负载:支持多种主流引擎,以满足多样化的工作负载,通过云原生跨级性调度,实现实时和离线任务的混合部署。页码:39/223·集约成本:安全加固,提供集中化的资源和权限管理,支持细粒度控制,确保数据流动和使用的安全性。·兼容统一:兼容经典大数据平台,以便于我们的业务升级,并通过统一元数据消除数据孤岛,最大化业务价值。在当前场景下,用户在构建和应用大数据服务时,通常面临如下一系列挑战:·技术复杂性高:企业的基础设施运营规划、人才储备等多方面都有着很高的要求,一个企业通常需要数名资深工程师组成的团队才能管理运维一个数据湖系统。·运维配套设施匮乏:企业匮乏数据迁移、容灾备份、监控、异常告警等基础设施。·资源成本高:企业运营中对于计算存储资源很难提前进行准确的估计,成本非常高。·技术抗风险能力弱:在技术能力方面,由于开源技术繁多,规范各异,企业难以页码:40/223应对技术的高速迭代。为了更好的应对挑战。TBDS新一代湖仓架构在产品应用体验上实现了全面的升级,产品更加轻、快且易用,同时也提供了更加安全、更加可靠的服务。应用上,TBDS湖仓采用Serverless形态,一次部署后,计算服务资源随开随用,按需伸缩,可灵活对接多种存储服务。极致敏捷,贴身陪伴用户的业务成长,同时TBDS提供从入湖到分析的全链路实施能力。新一代极速OLAP引擎能力全面升级,支撑业务查询实现了3倍提速,助力用户轻松升级T+1业务到实时业务。在日常业务当中,TBDS全新提供的智能运维诊断服务,助力用户实现从决策支撑、集群运维到业务应用的全方面优化。TBDS湖仓提供的AllinOne全景数据分析解决方案,可以为用户提供全场景的数据分析解决方案,满足海量数据的高性能分析、数据科学以及近实时流批一页码:41/223体和adhoc场景下的灵活联邦分析,助力用户高效构建数据中台和数据分析能业务应用上,TBDS湖仓通过对数据湖的技术革新,全面助力用户的业务提升。统一元数据和权限体系,让用户的找数用数体验更加顺畅,安全性进一步提升。同时,智能运维支持上层业务和底层运维多种资源的统一优化,在入湖和存储维度上,用户可以充分享受TBDS在Lakehouse架构升级所带来的Zerocopy和NoETL的红利。另外一方面,入湖能力进一步升级,支持业务数据的实时入湖,大大降低了数据存储成本和业务应用开发的复杂性。计算能力也进一步升级,流计算+新一代查询加速引擎,让业务更敏捷,充分发挥实时入户能力以及实时性带来的业务潜力。同时批计算支持近实时、小时级别的更新,极大地缩短我们的业务反应时间。在多个金融客户的场景当中,我们的全新架构升级助力客户发掘更多场景价值,在用户的移动应用程序、核心对账系统、后台风控系统、用户页码:42/223和人群画像系统,以及adhoc等查询场景中实现了数据架构的全面升级和持续业务优化。接下来将展开介绍新一代TBDS湖仓架构带来的全新服务体验。全新架构全新体验湖仓架构作为大数据平台的演进方向,已经成为一个业界共识。这种新的架构旨在解决传统架构下的诸多痛点,包括数据孤岛、性能瓶颈、高并发和复杂查询限制,以及实时性不足和弹性资源欠缺等问题。但是,当前业界的湖仓解决方案仍然面临以下挑战:·架构升级困难:受限于湖仓方案,技术实现和管理机制,用户难以实现从传统数据平台架构到新湖仓架构的平滑过渡,导致新湖仓能力难以及时落地。·安全管控困难:湖仓一体场景下需要通过多引擎方式支持不同工作负载,但是传统模式下数据权限跟引擎深度偶合,用户需要进行多次授权,用户体验差,管理上也缺少统一的数据和资源管理视图。·运维复杂:大数据体系对接的应用场景复杂,同时,数据湖框架引发的小文件问题尚未得到彻底解决,增加了运维的难度。页码:43/223TBDS的新一代湖仓方案如何解决这些问题呢?TBDS提供的新一代统一元数据、统一权限服务和智能运维服务针对性地应答了以上一系列用户痛点。(1)统一元数据服务页码:44/223TBDS统一元数据服务的设计理念不仅保留了传统架构的稳定性,还在保持技术先进性的同时,实现了与传统架构的无缝融合和深度兼容,有效解决了市场上同类产品在适应既有业务需求方面的不足,可以助力企业在技术升级和业务转型中的平稳过渡,完美兼顾了创新和连续性。具体体现在以下三个方面。·在开发层面,我们提供兼容Hive协议的统一访问接口,使得旧业务代码无需修改,便可在新湖仓架构平台上面运行,实现了完全兼容。·分析层面,基于统一元数据自动纳管旧集群源数据,可实现全域数据的无缝联邦计算跟分析。·在管理层面,TBDS云湖仓通过虚拟集群技术实现跨多个Kubernetes资源的隔离和弹性伸缩,相较于Yarn提供了更加灵活的资源管理方案。(2)统一权限服务页码:45/223TBDS在安全访问和用户体验方面也进行了全面的升级,提供了更强大的管理功能。主要亮点包括:统一身份认证,支持平台和资源的深度融合,显著简化了权限分配流程,跨引擎数据授权,通过权限仅绑定数据的机制,实现一次授权,所有引擎生效,提高了数据的使用效率;细粒度权限控制,实现对功能数据和资源的统一,细粒度集中管控,既增强了平台数据使用的安全性,又确保了数据流通共享的合规性和可控性。(3)平台智能优化同时,针对用户在使用和运维大数据服务中的各类痛点,TBDS推出了全新的智能运维诊断服务,来帮助用户洞察、分析、定位和优化大数据服务。横向维度上,服务拓展了业务场景的支持,服务于数据开发工程师和业务分析师,提供更多引擎作业数据洞察能力,提升作业效率。纵向维度上,服务深挖系统运维优化,服务于系统运维工程师,提供运维和资源洞察的能力,提升集群的稳定性和整体的页码:46/223资源效率。最后再结合决策支撑模块汇总的信息,TBDS全新智能运维诊断服务,将以三维洞察和分析能力,支撑大数据业务和平台运维的持续优化提升。环境全面适配在服务升级之外,TBDS也在不断增强对于国产化软硬件环境的适配能力。TBDS平台灾备产品模块以及迁移工具全面兼容海光、鲲鹏、飞腾等国产CPU,同时也适配了麒麟、统信、TencentOS等满足金融信创要求的操作系统。并且页码:47/223我们通过腾讯自研的KonaJDK在大数据领域的专项优化,以及TBDS多年以来在信创大数据领域的经验沉淀,TBDS实现了对于国产软硬件性能的极致优化,可以最大化地发挥硬件性能潜力,充分保证业务的信创升级。TBDS同时提供了丰富的部署环境支持,支持在多种交付环境中进行快速部署。其中一个重要的升级是基于TCE平台,新一代TBDS升级了完整的云数一体能力,统一对接TCE云平台的资源和用户体系,支持一键部署TBDS大数据服务,免去了复杂的前期准备。我们更加深度支持联动TCE上的各类云产品和云平台服务,统一企业的云资源,优化大数据建设和使用成本,扩展我们大数据分析服务的应用场景。页码:48/223企业数据架构升级实践案例在多个行业的头部用户当中,新一代TBDS平台的能力已有成功的落地应用案在某头部保险公司,TBDS湖仓助力用户实现了司内的多个大数据湖的统一,并且实现了客户核心业务的实时化改造,从T+1或小时级的业务升级成分钟级。同时,结合腾讯WeData的数据开发治理能力,实现了客户业务数据集成、开发、治理到数据资产盘点、资产运营的全链路无缝贯穿。页码:49/223在某头部股份制银行,新一代TBDS助力用户全面实现了大数据平台的信创国产化升级。通过TBDS,用户实现了一系列新规划的落地,包括大数据系统容灾能力的全面升级,大数据业务和系统优化的智能化,以及集群内X86和ARM硬件的混布。同时结合产品的灵活部署方案,解决了行内数据的安全隔离需求和大规模集群的性能瓶颈限制,满足了行内全场景的业务诉求和未来业务升级的需求,实现了对于客户未来业务长期发展支持的连续性。在未来,我们将继续完善TBDS湖仓大数据平台。在更多大数据场景的能力支撑和使用体验优化,并且探索更多新场景和性能优化的方向,腾讯云大数据始终致力于为各行业客户提供轻快、易用的智能化大数据平台。页码:50/223腾讯云ES读写分离+存算分离新架构解读导读:云计算和大数据作为现代企业基础设施的核心部分,对于提高效率和降低成本至关重要。腾讯云大数据团队始终致力于通过技术创新,提供高性价比的产品解决方案,以满足企业的需求。围绕性价比提升,腾讯云大数据首先推出了Meson高性能计算加速解决方案,目前可为EMR和DLC两款数据湖产品带来约2倍的基准性能提升。另外,在检索分析服务ES上,我们基于读写分离、存算分离架构升级,今年我们在日志场景可实现约10倍的性价比提升。更值得一提的是,我们今年也带来了可进一步降低成本的全新产品形态,包括EMR托管节点,以及ESServerless服务。文中将对相关细节做详细讲解。主要包括以下三部分:·Meson高性能计算引擎·ES日志场景10倍性价比提升·更灵活的产品形态Meson高性能计算引擎页码:51/223产品的性价比源于性能的不断提升,在今年上半年,腾讯云大数据自研了一套高性能计算引擎通用解决方案——Meson。Meson是腾讯云大数据的通用高性能计算加速套件,整体围绕极致软件工程,加软硬件一体加速和AI加持的设计理念,致力于打造通用化、套件化,适配腾讯云大数据全体系产品的通用计算加速底座。页码:52/223在腾讯云EMR以及DLC两个数据湖产品中,基于Meson,目前我们已经实现了完全兼容Spark的向量化加速能力,相比开源Spark性能提升可达到2.27倍。另外,在腾讯云检索分析服务ES上,结合高性能计算引擎Meson解决方案,腾讯云ES成为了目前全球唯一支持GPU加速的ES服务。具体而言,我们与腾讯自研GPU技术紫霄软硬结合,充分利用GPU的性能优势,显著提高了ES向量生成和向量检索的效率。ES日志场景10倍性价比提升腾讯云ES服务一直是日志、安全、检索场景的开源首选方案,围绕日志场景的成本优化,腾讯云ES服务自主研发了读写分离、存算分离新架构重大升级,整体可在日志场景中带来最高10倍的性价比提升。页码:53/223在读写分离方面,基于资源隔离提升可用性的思路,腾讯云ES实现了全面优于开源社区的读写分离性能,写入性能最大提升10倍。另外,我们在自研ES新架构上实现了基于腾讯云对象存储的存算分离、热数据实时下沉、按需卸载等能力,在业务实测中,可降低90%以上的存储成本。接下来以一个具体的客户案例来说明。页码:54/223A客户在原社区版ES上需要50台存算一体ES节点,而在腾讯云自研ES存算分离架构下,可将计算节点缩减到5台,存储成本在SSD以及对象存储的存算分离下可缩减90%。在此基础上,如果结合使用共享读写分离,可进一步降低成本,相比社区原生ES架构,可实现十倍以上性价比。更灵活的产品形态除了性能以及架构升级以外,腾讯云大数据一直致力于创新产品形态,提供更灵活的产品使用模式。页码:55/223在腾讯云EMR产品上,近期推出了全新的托管节点资源类型,EMR托管节点实现了资源的全自动化运维和自动扩缩容,让用户可免运维的同时,显著降低了计算资源的使用成本。相比于EMR产品传统task或者core节点,全新推出的托管节点具备三大优势:首先是低成本,托管节点相比传统EMR节点使用成本平均有30%的降低;第二是更易用,托管节点支持自动扩缩容,用户无需为EMR集群配置复杂的机型弹性规则,平台可以做到托管节点的自动伸缩;第三点是完全免运维,EMR托管节点具备故障自动替换机制,以及实时监控、任务迁移等能力,当托管节点资源在遇到故障时,能够迅速做出反应,确保集群和业务的稳定性。在腾讯云检索分析服务ES上,我们推出了ESServerless产品形态,面向日志场景提供自动弹性,完全免运维的一站式日志分析解决方案。页码:56/223Serverless基于腾讯云自研的高可用存算分离架构,客户根据实际访问与存储量计费,实现了业务负载与资源动态匹配的按需付费,可减少资源闲置所导致的成本支出,大幅降低成本;其次是提升易用性,ESServerless提供集群免运维、索引免运维、数据链路免运维的一站式场景化解决方案;第三是保持兼容性,ESServerless服务100%兼容开源ESAPI,兼容ELK生态,可极大降低业务上云门槛,可在分钟级实现业务落地。提供更优性价比的产品解决方案,一直是腾讯云大数据致力投入的方向。通过高性能计算引擎Meson、全面的产品技术架构升级,以及更加灵活易用的产品形态,我们希望为客户的降本增效目标注入更强大的驱动力。腾讯云大数据始终致力于为各行业客户提供轻快、易用,智能的大数据平台。页码:57/223湖仓架构下存储自动化治理实践前言2020年,Lakehouse架构被首先提出,区别于传统数据仓库,Lakehouse同时吸收了数据仓库和数据湖的优势,试图去融合数仓和数据湖这两者的优势,通过将数仓构建在数据湖上,使得存储变得更为廉价和弹性,同时Lakehouse能够有效地提升数据质量,减小数据冗余,使数据分析师和数据科学家可以在同一个存储中对数据进行操作,同时也能为数据平台进行数据治理带来更多的便利性。TBDS在过去几年很好的支撑了各行业客户业务在湖仓架构下的落地,在数据的时效性、数据审计、数据降冷、数据查询速度、数据存储查询成本等维度得到了全面的提升,然而随着用户对湖仓的使用场景越来越多样化和规模化,数据湖底层文件治理成本也随之增高,一方面是用户在湖仓架构上使用的便利与高效,另一方面是湖仓架构下万亿级文件治理带来的运维成本,目前业界在数据湖存储治理方面开源且易用的方案并不多,我们基于项目中的实战经验,分享腾讯云TBDS在湖仓存储自动化治理的解决方案,希望能对大家有所启发和帮助。页码:58/223湖仓治理实践背景当前,数据驱动业务决策已经成为各行业客户业务发展的共识,尤其是在互联网、金融、新媒体等行业,数据新鲜度成为数据质量的重要衡量指标,越来越多的客户开始将数据链路从传统数仓T+1更新转化为更加实时的数据架构,这里我们从某头部金融客户的湖仓架构展开,其整体数据加工链路如下:在客户的数据处理链路中,Iceberg/Hudi作为统一湖格式支撑着整个数据链路中各个环节数据的入湖出湖,承担着重要的角色,取代了传统的Hive驱动着整个数据链路。页码:59/223随着数据湖使用规模的扩大,客户在使用过程中也遇到了数据湖带来的多个问题,过多的小文件会给HadoopHDFS的NameNode可用性上带来严重的问题,同时也会在计算引擎侧带来大量的IO和查询速度的降低,同时数据湖ACID特性和高频入湖也会导致数据湖元数据的膨胀,以及数据湖下表的生命周期管理等问题,这些都会影响湖仓在客户侧的落地,因此数据湖存储优化模块是湖仓架构下必不可少的模块,也是湖仓生产落地过程中关键的部分。基于客户在湖仓架构下的生产使用现状,秉承开源优先的原则,我们率先在TBDS中集成了开源数据湖优化组件Amoro。得益于TBDS底座强大易用的OpenAPI,我们也在Amoro的集成上进行了开箱即用的增强来减少用户使用的成本,同时保证内核和社区对齐。与此同时为了将湖仓存储优化能力更好的落地客户生产业务,我们也对Amoro的内核进行了大量的功能性和易用的改造,该部分会在下个章节的Luoshu相关优化方案中展开。新一代的数据湖存储治理解决方案数据湖存储优化方案的一个核心在于:为上层用数应用提供一个合理的数据组织结构,为下层存储基座提供一个精简的数据存储结构,同时为运维人员提供一个页码:60/223功能完备的数据管理系统。这一切都是为来简化Lakehouse架构在落地过程中开发和运维的复杂性,提供一个统一的数据处理层,同时支持离线批量处理和实时增量处理,满足用户对数据一致性的要求。3.1传统业务实践痛点·学习门槛高在客户的生产环境中,我们发现传统的开源数据湖存储优化方案在客户侧能很好的解决不同时效性的表的存储优化,特别是在小文件治理方面表现出色,同时能很好的进行优化资源的配置和隔离,但是实现这一过程需要对组件内核和运行机制比较熟悉,同时由于传统的开源方案内部引入了“资源组”等领域概念,并且内部优化资源服务于该资源组下面的所有表,在优化过程中需要用户控制每个表的资源使用配额,包对资源组资源实例的调整等。因此,数据湖存储优化方案中,在提供功能强大的优化能力的同时,客户对于优化系统的易用性和高效的运维也存在比较迫切的需求。·资源运维成本高传统的开源方案内部主要使用Spark,Flink任务来作为优化资源重写数据湖表来达到对表进行优化的目的,通常情况下用户在为表配合好逻辑优化资源队列页码:61/223后,用户需要从业务角度出发为该优化队列配置足够的资源,同时确保队列下的计算资源稳定运行来确保业务表的优化正常稳定执行,但是由于缺少优化资源队列下表的统计信息无法对计算资源进行正确的评估,以及生产环境中优化任务的稳定性问题,通常保证队列下表优化的正常需要比较高的运维成本,难以达到理想的优化状态。因此,业界对一个能够在统一解决数据湖存储优化的同时降低运营维护成本的数据湖优化解决方案的需求日益迫切,在这种方案架构下,用户可以上层无感的进行使用,同时底层优化组件具备良好的自适应优化和完备的资源自愈能力来满足用户落地数据湖过程中对高效运营的需求。3.2湖仓治理定位及特性分析构建一个具备对数据湖文件中数据生命周期管理,数据文件治理,数据组织优化的核心功能外,我们也需要在整体的数据湖优化过程中具备对系统资源的整体管控,以及底层的优化资源管控,和底层优化资源的自适应运维能力,来帮助用户尽可能地降低在使用过程中的运维成本。页码:62/2233.3湖仓治理核心优化方向从用户使用角度出发,我们除了需要为用户提供完善的数据湖核心优化能力之外,我们重点完善了整个方案中的运维成本较高的模块,包括进行了Serverless化部署适配,同时将逻辑资源优化组直接对接系统的资源管理模块,自动化同步优化资源组模块,对于用户在使用中复杂程度较高的优化资源实例扩展,我们实现了根据用户配置规则进行自动化拉起释放机制,让用户摆脱了使用中的需要人工介入运维的过程。页码:63/223基于腾讯云TBDS在客户侧丰富的实践经验,我们开始在Amoro的基础上通过改造,赋能TBDS上一个功能全面易用的数据湖优化组件,简单描述我们的预期为:用户只需要在工作台编辑配置表的属性配置,即可无感将该表托管给TBDS的数据管理优化系统,TBDS会根据预置策略全自动的托管该表的生命周期管理和优化。3.4新架构服务Luoshu的核心能力下面是TBDS增强版数据湖优化管理服务Luoshu的整体架构,包含OptimizerMaintainer,ClusterManager,CommandCenter等核心新增模块:页码:64/223由于自动化数据优化核心在于表的生命周期全优化托管,用户只需关心业务相关语义,无需关心优化组和优化器具体的生命周期,因此,为了实现整个流程表优化的自动化我们主要改造点为:·Serverless化。由于该组件服务于管控下的所有Hadoop集群,因此需要进行Serverless化来支持后期性能扩展,同时配合TBDS管控来实现Hadoop集群生命周期初始化过程中自动化的将Catalog相关信息注册到Luoshu,实现为多集群提供存储优化服务。资·源统一管控。TBDS管控下所有用户的资源队列信息自动化同步到Luoshu中页码:65/223为用户提供统一资源组视图,对齐用户在传统Hadoop/K8s下的使用方式,同时支持优化任务多集群提交,需要针对不同集群的湖文件,在进行优化时将优化资源提交到指定的计算集群,实现Luoshu的资源管控与传统大数据使用同一套资源管控·优化资源自适应。Luoshu自动感知优化队列是否有表需要优化,并根据用户的资源模版自动拉起优化任务,并在没有表需要优化时主动释放资源3.4.1Serverless化部署不同于社区的云原生方案,TBDS版本中我们进行进行了定制化的落地改造,主要基于以下出发点:·TBDS目前提供面向云原生的计算集群,但是考虑到大量的客户主要计算资源依旧为yarn,所以云原生场景下依旧需要完整的支持Yarn作为主要的计算资源。·由于TBDS全栈支持IPv4/IPv6协议,在云原生场景下涉及多个外部接口,我们需要通过TBDS管控平台获取该Pod的专有IPv4与IPv6地址。·TBDS可以同时纳管多套Hadoop集群以及上面的计算引擎,同时各个集群自由支持IPv4,IPv6,双栈等网络协议栈,TBDS需要根据不同的Hadoop集群协议栈使用不同的通信协议。·为提升优化任务性能,我们也将TBDS内部优化版本Flink,Spark进行预置。同时TBDS目前提供了完备的OpenAPI,TBDS管控侧的监听机制可以在页码:66/223Luoshu组件上,实现Catalog的自动化接入注册,实现Hadoop创建过程中及联化接入。3.4.2资源统一管控通常情况下,对于开源数据湖存储优化组件,用户需要配置优化队列,并在后期拉起优化器过程中使用该优化队列来聚合优化资源,提供统一的资源视图,但是实际使用过程中我们也发现部分问题:·该优化资源队列不同于yarn或k8s队列,为内部领域概念,在用户使用过程中增加了理解成本·对于优化资源队列的创建需要单独进行规划设计,增加了额外的成本,在多集群的架构下运维变得困难TBDS提供了统一的资源管理模块,我们希望将优化队列概念对齐统一资源视图中资源队列的概念,减少用户使用时的学习使用成本。因此我们也自动化的将TBDS的资源相关信息自动化的同步到了Luoshu侧。同时为了进行不同集群的queue@cluster-id的形式,用于在后期进行调起任务的过程中去解析集群与资源组的信息。页码:67/223TBDS统一资源管理视图TBDS统一资源管理编辑界面由于在实际客户使用场景中,大数据的集群计算资源主要以Yarn资源为主,同时从客户使用稳定性角度出发,我们优先支持了Yarn资源来进行优化,但同时也面临一个问题,在一个Pod中如何根据指定的优化器启动命令完成向不同的集群提交优化任务,同时保证该任务可以正常的优化并和传统Hadoop的AZ部署时具备相同的优化性能。为此我们对接TBDSOpenAPI实现了在单一POD可以根据指定资源组自动化的将优化任务提交到指定的Yarn集群中,具体多集群远程提交示意图如下:页码:68/223其中主要需要实现了以下几个关键功能:·自动化感知纳管集群配置信息并同步至POD中。·支持异构网络协议栈下提交Flink/Spark优化任务。·支持自动化识别生成优化器提交命令上下文并提交至远程指定Yarn集群中。通过以上的改造我们可用将用户指定优化队列下的优化任务提交到指定的远程Yarn集群,同时保证优化任务可以正确的建立心跳以及后续优化任务拉取等流程。实现湖文件优化的计算本地化。3.4.3优化资源自适应传统的对数据湖表进行优化需要用户手动拉起优化计算资源,并在表无需优化时进行手动释放,在实际的业务使用中,用户需要频繁的进行运维操作,同时优化页码:69/223任务失败时无法及时感知拉起会导致整个湖表的优化状态不符合预期,为此我们在Luoshu上实现了优化任务的自动拉起释放机制来确保用户无需人工介入,全流程自动化感知操作。·优化任务自适应拉起通常情况下用户需要在指定的优化队列下手动拉起指定的优化任务,并在后续根据优化时根据具体情况手动Kill掉优化任务来释放资源等,为了减少用户的使用成本,我们也将该过程进行自动化。由于在Luoshu内部,表的优化信息通常会聚合在指定的优化队列下,同时保持连接的优化器也会聚合在指定的优化队列下,我们通过检测各个优化队列下的表信息以及优化器信息来决定是否需要进行拉起优化器。·优化任务自适应释放优化任务自动释放,主要在两个场景下需要处理:1.优化任务与Luoshu由于网络隔离导致失联,同时Luoshu的自动拉起优化器逻辑无法感知网络隔离会导致频繁拉起,该场景下需要使断联的优化器主动自杀来避免耗尽所有机器队列资源。2.优化任务在指定队列无优化表的情况下默认会持续持有资源等待新的优化任页码:70/223务生成,该场景下存在一定情况下的资源浪费,该情况下进行优化任务的主动释放时必要的,我们也在该场景下实现了优化任务的主动释放,其中部分代码逻辑如下:总结与展望4.1业务使用效果目前我们已经在腾讯云TBDS上线自动化数据湖优化组件Luoshu,用户只需为指定表配置使用的资源队列,即可将该表全托管给TBDS优化,为用户提供更页码:71/223加易用的数据湖优化体验,减少用户数据湖落地过程中使用运维成本。如下图所示,用户只需为表配置优化资源队列既可托管该表,由Luoshu负责该表的优化以及生命周期管理。性能层面,目前在客户的使用场景中,使用Luoshu单实例治理的Iceberg表数量稳定在1W左右,Iceberg单表存储最大50G左右,单表文件数最大多达17W,可确保整个数据湖使用达到平稳状态,同时使用Luoshu进行自动化治理后,上层计算引擎在计算阶段平均节省资源15%左右,大大减少了因为小文件过多导致的计算查询无法完成的异常情况。使用体验层面,使用Luoshu作为公共数据湖优化组件,可以为同时为多套Hadoop集群上湖仓数据提供优化服务,用户在使用过程中也无需进行除了表配页码:72/223置外的其他操作,即可无感知的对表进行优化,无需在进行专职运维人员进行运维操作,极大的优化了业务开发人员的使用体验。4.2未来优化方向在后续Luoshu的演进方向上,我们结合客户的使用场景也会继续进行一系列功能的增强和性能的优化,主要包括:·优化资源方面将自动化根据线上表优化任务执行统计信息自动化扩缩容优化资源。·优化计划生成方面将自动化识别巨量表,自动拉起单实例优化任务,来减小对其他表优化的影响。·功能层面将会结合TBDS统一元数据服务将Index,Clustering等功能集成进入Luoshu实现湖仓智能加速,进一步提升上层计算引擎的查询速度。后续我们也将继续加强TBDSLuoshu在数据湖治理方面的能力,同时也将积极将这些功能回馈社区,继续推进湖仓一体架构在更多的客户业务中落地。腾讯云大数据始终致力于为各行业客户提供轻快、易用,智能的大数据平台。页码:73/223基于腾讯云BI构建数据应用底座引擎腾讯云BI作为新一代的数据分析BI,用户只需要通过简单的拖拽便能够制作出丰富多样的可视化信息,自由的对数据进行分析和探索。得益于积木式技术架构设计,腾讯云BI可以作为企业的数据应用消费引擎,支持通过低代码的形式将数据接入,建模,数据分析,可视化,数据监控以及推送等BI的一系列能力无缝融入到企业内部系统中,帮助企业低成本的建设企业应用系统中的数据应用模块。腾讯云BI能力矩阵页码:74/223多样的系统集成方式在开始之前先可以先看一下客户的集成效果(客户将BI集成到自己的系统中作为数据分析及可视化的底座)。客户系统集成案例话讲回来,用户通过什么方式实现上面的集成效果,腾讯云BI又是怎么帮助企业低成本建设数据应用模块的呢?我们给出的解决方案是通过提供sso/oauth的方式打通BI与企业系统的用户体系使得BI成为业务自身系统矩阵的一份子,然后通过完备的开放API和SDK将BI的能力开放出去供其他系统进行调用。这样一来使得BI支持低代码进行数据分析可视化以及各种推送告警能力可以被直接迁移复用到业务中。接下来详细介绍几种集成方式。页码:75/223账号体系集成账号体系的集成融合是实现BI系统与业务自有软件体系融合的基础和关键能力之一。只有将自有系统的账号体系登录系统整合到一起,才能真正实现协同效应,将BI系统与业务自有软件体系有机地结合,避免其成为孤立的服务存在。腾讯云BI提供了多种登录方式,包括自有登录、第三方账号登录和单点登录等,这意味着您可以轻松地将腾讯云BI与您现有的业务账号体系进行无缝连接,为业务系统与BI系统直接的互操作和协同提供支持。基于腾讯云BI账号集成框架,已成功对接了面向外部私有化场景的坪山大数据门户、虎牙OA、腾讯云私有化TCS、工体项目以及腾讯内部OA,腾讯云等一系列用户体系。页码:76/223腾讯云BI登录框架BI自有登录即使您不需要集成第三方登录系统,我们的BI平台也提供了自有的登录系统,以确保用户的便捷和安全。BI平台支持多种登录方式,包括账号密码和邮箱登录。为了加强安全校验,我们还提供了图形验证码和短信验证等方式。通过BI自有的登录系统,您可以方便地管理用户账号和登录凭证,确保只有授权用户能够访问系统。同时,我们的图形验证码和短信验证等安全措施,可以有效防止恶意登录和未经授权的访问。其中短信验证直接复用腾讯云短信平台只需申请对应产品使用权限即可服用无需额外开发。页码:77/223自有登录通过腾讯云BI的登录框架,任意一个登录平台只需要提供对应的适配器实现即可完成对应的账号体系接入(适配器协议非常简单)。嵌入分析集成在企业内部系统中,通常存在大量的数据报表和交互分析页面。按照传统的开发方式,需要经过运营、产品、设计、开发、测试和灰度上线等一系列流程来满足正常需求的迭代开发。然而,通过腾讯云BI,产品可以自助完成整个页面的配置,然后将配置好的页面交给开发人员,开发人员只需将页面嵌入到系统中即可,这样综合成本可以降低超过90%。相比传统的数据应用开发方式,这是一种彻底页码:78/223的转变和提升。嵌入分析流程在嵌入分析过程中,解决数据安全问题是至关重要的。为了确保数据访问不会越权,数据信息不会扩散泄露。针对不同的场景提供了多种嵌入权限解决方案,以应对这一问题。我们的目标是为用户提供安全可靠的数据嵌入方案,保护数据免受未经授权的访问和泄露的风险。嵌出页权限控制页码:79/223仪表盘权限控制如果BI系统成功对接了宿主系统的账号体系,可以直接利用BI自身的页面权限管理模块进行权限控制(由于处于同一账号体系下,在BI上配置的权限在被集成的系统中会直接生效)。通过BI平台,可以直接为用户授权相应的查看、编辑或下载等权限,以确保数据的安全和合规性。这样一来,您可以方便地在BI平台上进行权限管理,无需额外的复杂配置,提高了权限控制的效率和便捷性。权限管理行列权限控制在某些场景下,不同用户对同一个页面的数据有不同的访问权限。例如,在销售页码:80/223报表中,一线销售只能查看自己的销售数据,而各级领导可以查看他们所管理的销售数据。在这种情况下,仅仅依靠页面级权限控制是不够的。为了实现精准的权限控制,可以采用行列权限来限制用户所能看到的数据结果。通过行权限控制,不同用户只能看到符合其权限的数据。例如,一线销售可以看到销售人维度值为自身的数据,而各级领导可以看到区域值为他们负责区域的数据(行列权限控制需要BI账号体系与业务账号体系进行融合,以确保权限的准确控制和数据的安全性)。行列权限处理流程页码:81/223行列权限配置界面自定义控制前面提到的方案均需要依赖统一的账号体系,当然BI页面嵌入到完全不相干的系统重也可以做到精细化的权限控制。若页面相对固定且数据不敏感,可以通过BI平台直接生成一个不鉴权的页面链接嵌入到业务系统。页码:82/223普通嵌出对于那些对数据敏感且需要实现个性化访问控制以及控制数据传播范围的场景,我们还提供了通过OpenAPI创建动态嵌入页的解决方案。通过这种方式,嵌入系统可以根据当前触发用户的动态生成链接,并指定页面的参数、有效时长和有效次数等信息。这样一来,您可以实现千人千面的个性化访问控制,确保每个用户只能访问其授权范围内的数据。同时,通过动态生成的链接,您可以有效地控制页面的传播范页码:83/223围,确保数据的安全性和机密性。嵌出生成API(参考腾讯云BI文档)我们能够实现这一效果的原因是,我们为每个分析链接创建了一个唯一且合法的令牌(token)。在这个令牌中,我们绑定了分享页面的授权信息,包括页面ID、变量的值信息、过期时间、可访问次数等等。当用户访问分享页面时,系统会要求用户提供这个令牌作为唯一合法凭证进行访问校验。通过验证令牌的有效性,我们可以确保只有授权用户能够访问分享页面,并且根据令牌中的授权信息限制访问的范围和权限。通过这种方式,我们能够提供安全可靠的分享页面访问控制。每个令牌都是唯一的,并且包含了必要的授权信息,以确保数据的安全性和访问的合法性。API集成除了嵌入式集成方式外,腾讯云BI还通过API提供了原子化能力的集成方式,以满足更多的定制化需求。通过API,您可以更灵活地集成腾讯云BI的功能和服务。这种集成方式使您能页码:84/223够根据具体需求,选择性地调用和整合BI的各项能力,以实现更高的定制化和个性化。腾讯云BI在私有化以及公有云场景提供了两套API解决方案,公有云采用了腾讯云平台标准API框架,私有化场景提供了BI自有API框架。其中私有化环境下任意功能均可以开放API的形式调用。腾讯云BIAPI框架页码:85/223公有云API结语通过以上的介绍,相信大家对腾讯云BI的集成方式已经有了充分的理解。我们可以看到,除了在BI平台上使用BI的能力外,业务方还可以将BI作为自身的数据应用底座引擎,通过集成BI的能力来快速构建产品中的数据应用模块。当然,还有更多细节内容等待大家亲自实地体验!我们欢迎您深入了解和体验腾讯云BI的集成能力,以发掘更多的潜力和机会。无论是在BI平台上使用BI的能力,还是将BI作为数据应用底座引擎,我们都将为您提供全面的支持和技术指导,以确保您的集成和应用过程顺利进行。腾讯云大数据始终致力于为各行业客户提供轻快、易用,智能的大数据平台。腾讯云ESRAG核心技术与应用导读:本文将介绍RAG标准和腾讯ES的技术实践。主要内容包括以下四大部分:1.RAG背景及标准制定2.ESRAG解决方案和优势3.腾讯云ESRAG能力增强4.腾讯云ESRAG应用实践分享嘉宾|任翔腾讯腾讯云大数据ES产品负责人编辑整理|张彬内容校对|李瑶出品社区|DataFunRAG背景及标准制定页码:86/223页码:87/2231.搜索技术的演进在介绍RAG之前,首先来回顾一下搜索技术的演进,因为RAG与搜索技术的发展是紧密相关的。搜索是人们生活中的一个非常基础的需求,已渗透到生产生活的方方面面。在早期,真正的搜索技术问世之前,要检索一些内容通常要依靠分类管理。当时的检索效率是非常低的,并且能够检索的数据规模也很小。直到倒排索引技术推出后,引发了一场革新,它推动了整个搜索效率的提升。倒排索引实现了秒级毫秒级的响应速度,在TB甚至PB级的数据规模上快速查找反馈。然而倒排索引技术存在一个缺点,因为其本质是基于关键字进行比较,所以还是限制在文本搜索的领域,对图片、视频的搜索无法实现。另外,它也无法很好地理解语义,比如搜索计算机和电脑这两个词,在关键字比较的维度里,它们会被认为是不一样的。页码:88/223后来出现的向量化技术就很好地解决了语义理解的问题。向量化技术可以将文字或者图片、视频的特征进行提炼,形成多维向量。并通过在向量空间中计算这些向量之间的距离关系,比如欧式距离等,判断两个内容之间的相关性。这样就极大地拓展了搜索的范围,可以支撑对图片、视频等多模态内容的检索。到此为止,仍属于传统搜索的范畴。因为在用户提出一个问题之后,返回的还是一个结果的列表。需要用户在这个结果列表里面自己去进行分析总结,最后得到想要的答案。整体的效率仍然是比较低的,而实际上人们更希望搜索的反馈能够直接给出问题的答案。随着近年来AI技术的爆发,Transformer等深度的基于注意力神经网络的技术的出现,又一次革命性地推动了整个搜索技术的演进。如今,大模型已经可以从非常海量数据中搜索我们问题相关的内容,并且进行总结提炼,非常好地回答我们的问题。企业非常希望将这一技术进步应用到实际生产中,然而实践过程中我们发现仍存在着种种障碍。这就是RAG技术出现的原因,它可以作为一个桥梁帮助我们更好地解决搜索的问题。2.RAG检索增强生成页码:89/223RAG的英文全称为RetrievalAugmentedGeneration,即检索增强生成。它是通过检索一个外部的知识库,来改善大模型的内容生成效果。我们知道,大模型是一个预训练模型,是预先训练好的,这也带来了一些问题,在训练好时,其知识也就停留在了那一刻,之后发生的事情它可能就不知道了。另外,大模型检索的是互联网上公开的一些信息,而它对企业或行业特有的一些知识是缺乏的。这些问题导致大模型常常出现幻觉。RAG技术就提供了一种方案,企业可以把本地的一些专业知识提交给大模型,而不需要投入海量的计算资源去重新做预训练,就可以让大模型更好地回答专业领域的各种问题。RAG现在主要的应用场景包括知识问答、智能客服、专家系统等等。页码:90/2233.信通院检索增强生成RAG技术标准为了帮助企业了解如何搭建一个RAG应用,信通院组织了四十余家企业共同编写了《检索增强生成(RAG)技术要求》标准。该标准包含了知识库的构建、知识的检索、内容生成、质量评估、平台能力等五大能力域,17个能力子域,50个能力项。这里特别值得提到的是,腾讯云是其中的一个核心企业,也是首个通过RAG权威标准认证的企业。腾讯云ES是国内公有云首个能够实现从自然语言处理到向量生成/存储/检索,并与大模型集成的端到端的一站式技术平台。接下来将详细介绍ESRAG解决方案。页码:91/223ESRAG解决方案和优势1.Elasticsearch(简称ES):海量数据搜索和分析引擎ES的全称是Elasticsearch,它是全球目前排名第一的搜索引擎。在国内应用也非常广泛。ES的一大特点是采用分布式,所以能够处理海量数据。针对搜索方面,ES具有全文检索、向量检索以及RAG等关键搜索技术。2.ES在RAG领域的一站式解决方案页码:92/223ES在RAG领域的解决方案如上图所示。一个传统的用法就是当用户有一个问题的时候,将问题直接提交给大模型,大模型根据自己的知识去给出回答。如果遇到企业私域信息,大模型不知道答案,那么ES就会通过RAG方案,将问题给到我们的知识库。知识库中不仅有文本,还会有图片、视频,我们会提前把这些内容进行向量化。在检索过程中,进行文本和向量的联合召回,得到一个TopNlist。把这个list和用户自己的问题一起构成一个prompt,再提交给大模型。这时,大模型就可以很好地去回答这个问题了。3.ES拥有你所需的所有功能页码:93/223和目前其它一些技术方案不同的是,ES不需要依赖多个技术栈去配合,在一个ES技术栈里面就结合了向量生成、存储、索引、检索以及大模型等多项技术,因此可以大幅降低成本。RAG的关键技术之一就是向量化。和传统的向量数据库相比,ES不仅可以实现向量的存储和搜索向量的生成,同时还支持混合搜索、模型的灵活选择和部署、聚合分析,以及基于权限的一些管理等等。4.向量转换页码:94/223在ES中,向量转换非常灵活。首先ES中包含内置优化的模型,比如ELSER和Multigual-e5。另外它也支持第三方模型,可以将第三方模型部署到ES上,也可以基于inferenceAPI,直接去调用在OpenAI和HuggingFace上的模型,实现在线的向量转换。5.召回排序页码:95/223在召回排序方面,目前,对文本和向量混合检索的召回排序还存在一定挑战。因为传统的方法中,我们需要将不同维度召回的信息进行归一化处理,而归一化的评分尺度、分布的差异,这些都会对最后的排序带来挑战和质量上的影响。ES中已经内置了RRF导数融合排序,以及LTR基于模型的排序能力。一方面是更加便捷,另一方面其成熟度也为网络排序质量提供了更好的保证。6.混合搜索再来看一下混合搜索。向量搜索具有诸多优势,比如可以更好地理解和处理自然语言,通过上下文更好地理解语义关系。并且因为是基于语义理解,所以可以轻松实现跨语言。另外还页码:96/223可以支持图片、视频等多模态的搜索。同时我们也看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论