版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Tencent腾讯ICo腾讯云·腾讯云工具指南08期A技术派技术AI时代如何更好激活数据价值腾讯云数据库副总经理罗云..............................................................................................0402如何让大模型看懂文档——RAG实践中的文档解析 07如何让大模型理解用户问题——RAG实践中的检索优化 13如何让大模型理解长文本——RAG实践中的阅读理解技术优化 22如何让大模型看懂图片/视频——RAG实践中的多模态问答 30用向量数据库实现云原生架构的三种AIGC方案作业帮架构研发工程师许春旭 37用AI代码助手实现金融科技研发安全智能化招商证券技术平台开发&金投业务开发负责人谭成鑫 40用知识引擎打造榕博士提升电气行业设计效能万榕信息总经理黄帅 42PARTPART01序AI时代如何更好激活数据价值AI时代如何更好激活数据价值腾讯云数据库副总经理罗云AI时代下,数据库作为IT技术领域的“活化石”,已成为不可或缺的数据资产。随着大语言模型持续增强,数据将逐渐数据处理主要有两个“一公里”的挑战:在客户采集侧的第一公里,采集源纷繁杂乱、格式多样,难以进行规范化管理、入库、建模;而在用户使用侧的最后一公里,需要对数据进行组合分析跟联动使用,这同样对数据泛化处理提出挑战。从现在看,数据向量化是泛化能力最合适的数据格式。数据的存储管理是逐步迭代的过程,在1.0阶段,腾讯云强调小步快跑,尽快让客户使用起来才能更好发现向量化技术的痛点,这时候腾讯云采用传统的raft技术存储计算在单节点投入使用。StorageNodeMasterANNIndexSegementNode...PartitionYPartitionZPartitionxFollowerFollowerSegmentSegmentRaftGroupCOS(ANNIndex)IndexStorageNodeMasterANNIndexSegementNode...PartitionYPartitionZPartitionxFollowerFollowerSegmentSegmentRaftGroupCOS(ANNIndex)IndexBuilderMasterANNIndexReverseIndexRocksDBFollowerFollowerMasterFollowerFollowerMasterFollowerFollowerMasterANNIndexReverseIndexRocksDBFollowerFollowerMasterFollowerFollowerMasterFollowerFollowerShard-Shard...1Shard-0RaftGroup1.0阶段:单节点raft2.0阶段:独立向量检索workload模块三、超过90%的召回率才能投入使用向量数据的处理是全链路的,通过长文本分段、选择向量化模型、分段存储检索等过程,才能把非结构化数据变成最后可以被检索的数据。端到端叠加起来,召回率在70%以下不能用于生产。腾讯云RAG技术实践·AI时代如何更好激活数据价值/04腾讯云团队通过微调、内部向量大模型,提供一站式多模态端到端入库能力。这些端到端的RAG应用检索方案,让文本召回率达到80%,甚至95%,在一定程度上满足企业生产可用。端到端文本召回率集成Embedding,实现自然语言查询Embedding推理加速511数据采集平台VDC:端到端的RAG应用检索方案,文本召回率80%+在过去计算机历史上,我们储存大量的数据,包括结构化、非结构化,存储在关系型、非关系型数据库上,如何更好的激活使用难度很大。把全部数据向量化相当于把整个系统都改造一遍,成本高且性价比低。现在主流的方式是通过在数据库上叠加一套SaaS产品,也就是数据库生态工具。这些工具采用白屏化的方式让开发者更好管理。但他适用于开发者,对于普通大众而言,SQL语言的理解、数据库的使用门槛还是很高。CloudDBAssistant:基于大语言模型的腾讯云数据库专家腾讯云认为,将数据库体系上层抽象有一个基于自然语言统一入口的产品形态,对于我们的存量数据非常重要,实现用自然语言去做数据库诊断以及运维。目前,腾讯云推出CloudDBAssistant助手,未来希望通过自然语言方式迭代白屏化技术,通过自然语言和数据资产进行交互。Assistant腾讯云RAG技术实践·AI时代如何更好激活数据价值/05PARTPART02技术解析但破除幻觉,RAG依然是最可靠的解决方案。如何提升RAG的召回率、工程效率与可用性,需要先了解RAG的整体实现过程。我们通过文档解析,检索优化,阅读理解,多模态让RAG真正为大模型所用。技术解析——RAG实践中的文档解析——RAG实践中的文档解析如何让大模型看懂文档?什么是文档解析?将不可编辑的文档转换为Markdown的结构化形式多种文档元素:表格、公式、图片等多种文档元素为什么要做文档解析?传统OCR存在不足多种排版形式:多栏、内容混排等复杂排版的文档版面分析+规则排序按顺序生成文本传统解法版面分析+规则排序按顺序生成文本类型的交叉熵坐标的iou损失全局编辑距离损失坐标的iou损失全局编辑距离损失 顺序熵 文档解析模型 文档解析模型DREAM难点1: 复杂排版图像特征提取元素特征聚合 复杂排版图像特征提取元素特征聚合元素并行生成实现价值算法创新内容生成赋予上下文语义感知方案优势解决元素排序实现价值应用价值支持8类排版的元素顺序复原传统解法传统解法关系特征稳定生成表稳定生成表结构线重组技术原理线重组3个典型痛点预测行列间隔线3个典型痛点预测行列间隔线候选组件提取表格识别模型GrabTab难点2:复杂图表难点2:'—解法步骤分割proposal生成'—解法步骤多组件协同算法创新方案优势应用价值实现价值 融合行列关系特征和元素特征 算法创新方案优势应用价值实现价值 支持有线、无线、少线表的复原传统解法 基于多能力拼接的方法传统解法腾讯云解法 基于识别模型直接预测的方案难点3:解法步骤 子图子公式增加坐标token实现腾讯云解法 基于识别模型直接预测的方案难点3:解法步骤 子图子公式增加坐标token实现价值算法创新方案优势应用价值 公式的latex内容,预测子图坐标 避免多能力拼接导致的精度损失图像识别指标达到约95%公式识别达到85%一篇文章的实现过程定位图像中的版面元素定位图像中的版面元素的位置、顺序和类型使用表格识别将表格图使用表格识别将表格图像转为具有行列关系的结构化信息通过文本识别识别图像通过文本识别识别图像中的文字信息腾讯云RAG技术实践·如何让大模型看懂文档/07技术解析——RAG实践中的文档解析将不同格式文档转换为Markdown的结构化形式,识别文档内的段落、表格、公式、标题、页眉、页脚、子图等文档元素的内容及阅读顺序。突破传统OCR对复杂文档元素及排版结构的解析。普遍文档会以WORD、PDF、图片格式存在,除了word外其他两者难以转化成可编辑的富文本信息,无法支持大模图片等多种文档元素;2)多栏、内容混排等复杂排版的文档。所以,需要文档解析功能介入。普遍文档存在形式文档解析与OCR效果对比腾讯云RAG技术实践·如何让大模型看懂文档/08技术解析——RAG实践中的文档解析第二步系的结构化信第二步系的结构化信息。第三步通过文本识别识别第一步第四步第四步将多种版面元素识别的结果按照阅读顺序整合成Mark-down内容。难点一:复杂排版带来的阅读顺序问题文档解析结果是要作为大模型输入,因此要保证版面元素阅读顺序正确,确保输入大模型上下文内容连贯。然而客户入库文档版式众多,而传统解析引擎只能解决简单排版如横向多栏、纵向多栏,无法处理如图文环绕等复杂排版。腾讯云RAG技术实践·如何让大模型看懂文档/09技术解析——RAG实践中的文档解析主要缺点主要缺点难以解决图文表混排等复杂排版场景下仅能排序文字,无法处理其他类型的文档元素;细粒度自回归性能较差主要优点实现快捷,性能较高能够较好实现纯文字方案说明输入图像,基于版面分析定位不同文档元素,再通过规则排序技术方案输入无序文本识别内容,腾讯云智能解法:基于自回归并行解码的文档解析模型DREAM通过文档重建损失来做优化,包括类型的交叉熵、坐标的iou损失、内容的转录约束,以及全局编辑距离损失来做顺序step1将输入图片做patchembedding,然后送入到imageencoder来做imagestep1将输入图片做patchembedding,然后送入到imageencoder来做imagefeatureextraction;step2预设了N个queries来代表版面元素特征,再通过与图像特征的crossattention来对元素特征聚合生成每个元素的类型、坐标、转录内容为了实现加速并行解码:将图片特征拷贝成多份,同时将元素特征reshape,然后自回归地生成每个元素的信息。~ybstep3c~y6实现价值:算法创新:基于自回归并行解码,以粗粒度稳定生成版面元素的位置及顺序,辅以内容生成赋予上下文语义感知。方案优势:效果上限高,可以解决各种复杂排版的元素排序问题,对于图文表混排等难例场景更具优势。应用价值:在文档解析业务测试集上的元素排序指标达到约85%,支持8类排版的元素顺序复原。难点二:复杂表格结构难以处理由于不同类型的表格(如有线表、无线表、少线表)的视觉特征存在差异,因此保证模型的泛化效果需要同时兼顾对不同特征的理解能力。传统解析引擎只能解决结构简单表格,无法应对复杂表格结构。腾讯云RAG技术实践·如何让大模型看懂文档/10技术解析——RAG实践中的文档解析主要优点主要优点各独立场景精度方案说明通过边界提取或元素关系利用自回归模型端到端生成表格行列结构主要缺点解决部分场景,存在效果瓶颈;方案优化成本高预测结果不稳定,在较复杂的表格场景下的技术方案腾讯云智能解法:step1候选组件提取,包括元素特征和关系特征,元素特征包括每feature、layoutstep1候选组件提取,包括元素特征和关系特征,元素特征包括每feature、layoutfeature、textfeature,关系特征是每个元素间的relation信息。step4表格结构生成,基于横纵separator,通过两两组合来生成括start__row、start__col、step2step2分割proposal生成,定义横纵的表格线proposal信息,先通过与图像特征的crossattention来对生成后separator的信息,然后step3step3多组件协同,基于已提取的separatorfeature,分别通separatorelementtokens的 elementtokens的 crossattention和relationtokens的crossattention来进一步提升表格线separator生成每个separator的贝塞尔曲线系数。腾讯云RAG技术实践·如何让大模型看懂文档/11技术解析——RAG实践中的文档解析实现价值:算法创新:基于特征协同,通过行列关系特征和元素特征的融合以预测行列间隔线,并通过线重组生成稳定表格结构。方案优势:多特征融入提升结构预测精度,并通过单模型应对多场景以快速迭代,在更具挑战的场景下效果更好。应用价值:在文档解析业务测试集上的表格识别指标达到约89%,支持有线、无线、少线表的复原。难点三:如何支持子元素识别客户真实场景需要解析文档中的子图、公式,但该类子元素与文字内容耦合度高,且类型不收敛。技术方案技术方案定位文本行内的公式、腾讯云智能解法:公式识别能力识别公式能力解偶,独立优化传递误差较大,规则需要频繁适配方案说明主要优点主要缺点采用基于识别模型直接预测的方案,避免多能力拼接导致的精度损失,效果上限较高,且实现较简单。对于公式,在常规文字识别基础上,增加对文本行内公式的latex内容输出。实现价值:算法创新:在常规的文字识别基础上,增加对文本行内的公式的latex内容输出,并预测行内的子图坐标。方案优势:避免多能力拼接导致的精度损失,效果上限较高,且实现较简单。应用价值:在文档解析业务测试集上的图像识别指标达到约95%,公式识别达到约85%。腾讯云RAG技术实践·如何让大模型看懂文档/12技术解析——RAG实践中的检索优化——RAG实践中的检索优化如何让大模型理解用户问题?查询查询改写分解查询离线文档语义切分语义搜索检索结构化搜索基于seq2seq方法业内解法速度较快但模型复杂效果不尽如人意查询改写腾讯云智能解法Few-shot以及COT方法训练和推理准确率高腾讯云智能解法查询改写多重查询多重查询把问题分解成多个子问题查询改写查询分解使用查询分解解决主题混合与并列查询伪文档嵌入引入对术语或者专业名词的解释通过伪文档检索回相关信息文档语义切分学术界方案只支持一级切片,无法兼顾检索和大模型生成开源方案缺乏通用性、对参数敏感文本易被截断文档语义切分检索优化的四个方式生成式模型做切分任务,可处理长文本,效果更佳腾讯智能云解法:多级文档切分检索优化的四个方式生成式模型做切分任务,可处理长文本,效果更佳搜索策略一:混合搜索MAE-style训练搜索策略二:以小搜大MAE-style训练搜索策略二:以小搜大语义向量检索搜索策略三:相关性排序Agent选择器:从众多表中选择相关表和列标准表格检索-Text2SQLAgent标准表格检索-Text2SQL 结构化数据检索Agent优化器:使用外部工具执行SQL 结构化数据检索非标准表格检索-小搜大大语言模型对表格进行摘要,来获取相关表格,经过一定加工,送给大模型生成回复腾讯云RAG技术实践·如何让大模型理解用户问题/13技术解析——RAG实践中的检索优化检索技术主要两部分,一部分是查询,一部分是检索,查询包括查询改写和分解以及离线文档语义切分,检索包括结构化搜索与语义搜索,前者是根据文本生成sql,在关系型数据库中检索内容,后者是根据文本生成embedding向量,在离线构建好的向量数据库中检索内容。213用户查询问题经常因为多轮提问出现关键词缺失、主体不明等问题,需要通过RAG实现完整表达,具体策略包括:多轮1、查询改写需要结合上下文对当前轮用户查询内容把当前查询改写为一个语义完整的新问题,完成指代消解和信息补全。指代消解信息补全指代消解腾讯云RAG技术实践·如何让大模型理解用户问题/14技术解析——RAG实践中的检索优化腾讯云智能解法:腾讯云智能解法:基于大模型,应用Few-shot以及COT方法训练和推理,准确率高。业内解法:基于seq2seq的方法,通过指针生成网络,首先识别历史对话中遗漏的单词,然后在组合阶段根据遗漏的单词改写当前的问题。优点是速度较快,但是模型复杂,效果相对来说不尽如人意。遗漏的单词NPN遗漏的单词2、多重查询与查询分解用户查询往往存在视角单一、多主体混合、并列查询等问题,这些问题都会影响模型的回使用查询分解解决主题混合与并列查询。气候变化的影响气候变化的影响多重查询多重查询Answer是多少?哪个的star更多?在GitHub上,A和B是多少?哪个的star更多?在GitHub上,A和Bstar分别Query合并检索结果A在GitHubA在GitHub上有多少star?B在GitHubB在GitHub上有多少star?查询分解查询分解腾讯云RAG技术实践·如何让大模型理解用户问题/15技术解析——RAG实践中的检索优化3、伪文档嵌入用户问题包含专业名词或缩写,直接使用时无法直接从知识库中检索到信息。引入对术语或者专业名词的解释通过伪文档检索从知识库中检索回相关信息。ROEROE代表的是“股东权益回报率”,是一个衡量公司盈利能力的财务比率,显示了公司能够用自己股东的资金赚取多少利润。计算公式为:ROE=净利润/平均股东权益。这个指标…Query:金融领域中的ROE指的是什么?Query向量三、文档语义切分:将知识源以大模型适合回答的形将文档这种典型的知识源切分成适合检索以及适合大模型回答的片段,业界的学):使用Transformer对文档内容进行编码,将编码后的向量进行分类以判断该句子是否为一个片段的开始。基于模型的方法会考虑语义信息,可以一定程度上缓解基于规则方法缺一级片段一级片段Subseg1Subseg1Index1Index1SubsegmentSubseg2Subseg2IndexingIndex2Index2Subseg3Subseg3Index3Index3腾讯云RAG技术实践·如何让大模型理解用户问题/16技术解析——RAG实践中的检索优化):根据标点符号切分根据标点符号切分文本截取错误文档切分模块输出粒度粗的一级片段和粒度细的二级片段两个结果,一级片段包含完整语义信息,内部可包含若干个连采用生成式模型做切分任务,可以处理非常长的文本,效果更佳。腾讯云RAG技术实践·如何让大模型理解用户问题/17技术解析——RAG实践中的检索优化腾腾讯云智能采用基于MAE-style的训应用RoPE位置编码,使模型能支持更大规模弱监督训练、有监督训练的三阶段搜索策略一:混合搜索虽然现在向量搜索是大模型搜索助理,但面对短文本、少Query:特斯拉人形机器人硬件成本具体是多少钱,离马斯克理想的价格还有多少距离?Query:特斯拉人形机器人硬件成本具体是多少钱,离马斯克理想的价格还有多少距离?Rerank腾讯云RAG技术实践·如何让大模型理解用户问题/18技术解析——RAG实践中的检索优化搜索策略二:以小搜大大预言模型支持的文本长度越来越长,但随着文本长度增长,成本会越来越高,相应效果却越来越差;小切粉容易将信息长文本准确率效果差切分成三级结构,通过检索二级片段,将Top-K二级片段中超过n个同属一个一级片段的二级片段用一级片段替换,以QueryQuery:破壁机器人如何安装?一级片段输出检索出二级片段腾讯云RAG技术实践·如何让大模型理解用户问题/19技术解析——RAG实践中的检索优化搜索策略三:相关性排序必要性:通过向量检索或者混合检索可能会检索到大量上必要性:通过向量检索或者混合检索可能会检索到大量上通过Reranker模型对文档进行重排,重新排序和筛选文档,将相关内容置于前列,提高RAG效果,训练大语言模型检索评估器估计检索到的文档与查询的相关性,做进结构化检索有别于语义检索,主要针对知识已经以结构化形势保存下来的相关场景,如各大企业的数据源,目前主流形式SQL、Cipher过大语言模型转换为目前主流解法:数据库提供对应查询方法,如使用SQLSQL、Cipher过大语言模型转换为目前主流解法:数据库提供对应查询方法,如使用SQL查询MySQL,使用Cipher查询Neo4j等。将文本查询通等语言,进行准确查询1、标准表格检索-Text2SQL基于大语言模型的多智能体(Multi-Agent●该框架由三个Agent组成:(图解下面)腾讯云RAG技术实践·如何让大模型理解用户问题/20技术解析——RAG实践中的检索优化Agent选择器:从众多表中选择相关表和Agent优化器:使用外部工具执行SQL并获取反馈,根据反馈信息优化错误的SQL。2、非标准表格检索-小搜大Text2SQL无法解决不规范的表格(如Merged、Nested表格)通过大语言模型对表格进行摘要,通过检索摘要来获取相关表格。再把检索到的表格经过一通过大语言模型对表格进行摘要,通过检索摘要来获取相关表格。再把检索到的表格经过一对于超过大语言模型能够支持最大长度的表格,分为子切片,通过作为知识送给大模腾讯云RAG技术实践·如何让大模型理解用户问题/21技术解析——RAG实践中的阅读理解技术优化——RAG实践中的阅读理解技术优化方法一:prompt工程回答效果通常不能满足专业需求消除大模型ToB场景幻觉四种解法消除大模型ToB场景幻觉四种解法方法三:RAG+prompt工程1.无法理解复杂语义的方法三:RAG+prompt工程2.答案精度无法高效完成指定任务腾讯云智能解法精调知识型阅读理解大模型准确性C腾讯云智能解法精调知识型阅读理解大模型可靠性在RAG场景符合toB业务逻辑的指令遵循能力来源可追溯、答案内容可控可靠性如何让大模型理解长文本如何让大模型理解长文本通用长文本阅读理解基于行业数据的有监督精调基于RAG任务的有监督精调通用长文本阅读理解增强专业知识的理解能力符合专业领域的回复范式构造RAG场景下的训练样本客服问答,常需推理计算的场景典型场景教育场景,通过知识引擎检索教学知识点 阅读理解CoT阅读理解场景的思维链训练:结合业务场景推理任的数据构建 阅读理解CoT典型场景零售销售看板金融产品问讯典型场景腾讯云精调大模型四个应用场景腾讯云精调大模型四个应用场景难点表格理解综合多点知识分析结构化数据输出表文混合阅读理解难点表格理解根据业务特点构造指令数据知识抽取表格总结逻辑推理数值比较表格生成根据业务特点构造指令数据符合ToB客户指令要求和身份认知的问答机器人典型场景例如企业客服、行业专家、指导老师、场馆解说员等角色指令遵循无关内容拒答指令遵循标记答案来源的引用和定位基于文本的语义内容给出参考来源包括反问澄清、格式规范、范围限制、角色设定等来源引用标记答案来源的引用和定位基于文本的语义内容给出参考来源包括反问澄清、格式规范、范围限制、角色设定等通用性指令腾讯云RAG技术实践·如何让大模型理解长文本/22技术解析——RAG实践中的阅读理解技术优化外部知识外部知识●阅读理解能力是指大模型通过阅读上下文获取信息的能力,上下文来自于限定范围的文档库、知识库或搜索引擎,使得大模型回答内容安全可控,减少幻觉,并有具有知识时效性。是RAG(检索●ToB场景的阅读理解任务的训练数据,包括长文本阅读增强准确性和可靠性增强准确性和可靠性Prompt行业有监督数据行业精调大模型PT&SFT大规模通用的有监督和无监督数据腾讯云智能解法:精调大模型+RAG行业向量数据库知识增强大模型通用大模型+RAG行业向量数据库知识增强大模型有偏好的通用大模型行业精调大模型通用大模型通用大模型通用大模型RAGRAGSFT模型能力弥补大模型专业知识不足的问题,模型增量学习新知识并对特定●模型增量学习新知识并对特定任务有更好表现●依赖大量有监督数据和训练资源●模型对域外知识仍然无感知,存在有幻觉风险腾讯云智能解法大模型优势:可靠性:具有在RAG场景符合toB业务逻辑的指令腾讯云RAG技术实践·如何让大模型理解长文本/23技术解析——RAG实践中的阅读理解技术优化●增强专业知识的理解能力●符合专业领域的回复范式基于RAG任务的有监督精调:构造RAG场景下的训练样本。对知识库内文档片段调用预先设计的prompt模版从片段中抽取问题,然后利用该问题检索行业知识库并选取相似度topN的结果,选取部分相似片段拼接该问题对 目标切片 答案标注抽取问题相似切片生产答案相似切片腾讯云RAG技术实践·如何让大模型理解长文本/24技术解析——RAG实践中的阅读理解技术优化场景2:教育场景,通过知识引擎检索相关教学知识点2、阅读理解CoT场景2:教育场景,通过知识引擎检索相关教学知识点场景1:客服问答,常有需要做推理计算的场景场景1:客服问答,常有需要做推理计算的场景●●问题的拼接在一起,构造RAG场景复杂上下文●要先理解意图,并引用或复述context中的相关内容。●理由生成:根据问题意图和上下文相关信息逐步生成●答案推断:根据中间的相关文本和推断理由,总结得调用计算API:●构造api调用训练样本和prompt指令●构造api调用训练样本和prompt指令●输出调用计算api的特殊字符,触发相关api,并把计算结果带回模型结果中●支持数值计算、解方程、时间推理等任务腾讯云RAG技术实践·如何让大模型理解长文本/25技术解析——RAG实践中的阅读理解技术优化3、表格理解复杂表格分析复杂表格分析表格的生成表格的生成表格逻辑分析表格逻辑分析●单点知识抽取●综合多点知识分析●结构化数据输出●表文混合阅读理解●知识抽取:表格类型多样,涵盖markdown、html、csv等形式,包括简单表格和带合并单元格的复杂表格,●表格总结:根据单个表格的多行多列信息、多个表格的信息进行知识问答、内容总结归纳。●逻辑推理:根据表格信息,进行条件判断、逻辑推理。●数值比较:计算表格中的最小值、最大值、最佳值,对较短的表格,大模型可以直接处理,对于较长的表格,还需要结合text2sql和引入计算api的方式辅助解决。●表格生成:依据一定的条件,筛选表格中的内容,或者根据KV数据生成表格。●结合text2sql的功能,知识引擎能在大表格的场景能够检索到更精确的信息送给大模型。腾讯云RAG技术实践·如何让大模型理解长文本/26技术解析——RAG实践中的阅读理解技术优化querytext2sqlcontextquerytext2sqlcontext4、指令遵循(一)无关内容拒答知识精度要求较高的场景,比如金融客服、政策问答场景。知识精度要求较高的场景,比如金融客服、政策问答场景。●构造包含拒答和非拒答的正负样本对(QAC形式)●与query相关和无关context对应正面回答和拒答●拼接不相关但有一定检索相似性的其它context,使模型学习真实场景的任务contextcontextcontextcontext正样本(相关)=querycontextcontextcontextcontext负样本(无关)=query腾讯云RAG技术实践·如何让大模型理解长文本/27技术解析——RAG实践中的阅读理解技术优化场景2:需要时常更新知识库的场景场景2:需要时常更新知识库的场景场景场景1:对知识精度要求较高的场景,比如政策问答、产品咨询场景●构造包出引用和不出拒答的正负样本对(QAC形式)●与问题相关和无关的context对应正负样本●一个回答可以对应多个参考来源●引用和答案同时输出contextcontextcontextcontext(出引用)=querycontextcontext(不出引用)=query●LLM有着更大的参数规模,在大量的文本语料上进行了预训练,相比传统检索模型的embedding有着更强●LLM有更长的最大序列长度(例如8K/32K,甚至更长而检索模型的embedding支持的窗口长度一般只有0.5~2K。●相比于传统的基于embedding模型的相似度匹配或文本关键词匹配,基于大模型的来源引用可以基于文本腾讯云RAG技术实践·如何让大模型理解长文本/28技术解析——RAG实践中的阅读理解技术优化(三)通用性指令通用性指令,包括反问澄清、格式规范、范围限制、角色设定等。构造这些通用指令和他们的泛化组合数据可以更好的增强大语言模型的指令遵循能力。训练指令评估模型,优选高质量指令、剔除低质量指令,让模型更容易学习,帮腾讯云RAG技术实践·如何让大模型理解长文本/29技术解析——RAG实践中的多模态问答——RAG实践中的多模态问答文档内复杂自然图片理解正确答案不存在于文档内容-说明书文档、PPT文档问答文档内复杂自然图片理解正确答案不存在于文档内容图文混排,顺序错位文娱攻略、说明书、科学论文文档问答、摘要场景痛点需准确关联多个图文对应关系场景痛点存在与用户查询图像内容相似图片准确理解用户图文交错的查询内容说明书、操作手册文档问答存在与用户查询图像内容相似图片准确理解用户图文交错的查询内容需要丰富的图片理解能力获得正确的解题思路为什么需要多模态大模型-需要丰富的图片理解能力获得正确的解题思路为什么需要多模态大模型纯MLLM模型调用方案解决多模态的三种方式图片转文字,单模态RAG方案腾讯云知识引擎多模态RAG方案第一步:用户上传文档,支持多种格式第二步:进行markdown格式转换,保存文字和图片到知识库技术路径第三步:检索知识库中相关图文混合片段序列第四步:检索得到图文序列以及用户的问题,输出准确回答模态特征编码模态信息细节抓取与语义整合如何实现图文模态特征编码模态信息细节抓取与语义整合如何实现图文图文对齐预训练 多模态大模型的三种训练策略多模态微调策略多模态指令微调多模态上下文学习多模态微调策略看清图:动态分辨率训练技术手段锁定图:多尺度图文混合训练技术手段模态信息高度挖掘模态信息高度挖掘——如何看懂上下文中的图片应用场景说明书/金融/攻略/论文文章多任务学习:学归纳、学关联指令遵循优化多任务学习:学归纳、学关联指令遵循优化技术手段三种应用场景多模出图片技术手段多模态信息整合推理——如何支持推理文档中的图片决策生成:对问题进行分析与解耦,结合专家模块特性,生成合理决策多模态信息整合推理——如何支持推理文档中的图片执行:调用专家模块执行子任务,汇总信息加以思考,生成最终答案腾讯云RAG技术实践·如何让大模型看懂图片/视频/30技术解析——RAG实践中的多模态问答●●●文档内图文混排,顺序错位,正确图片不一定在对应文本●需要从文档中准确关联多个图文对应关系。●文档内复杂自然图片理解,不带文字,包含复杂的指示标●正确答案不存在于文档的文字内容中,需要根据文档中●金融财报●金融财报PPT、教育教材题库文档问答。●需要丰富的图片理解能力:目标计数、位置关系判断、ocr识别等;需要一定解题知识储备。●如何获得正确的解题思路●说明书、操作手册文档问答●用户输入图像,并针对当前图像进行提问,希望在文档中●文档内存在与用户查询图像内容相似的图片,需对这些干●准确理解用户图文交错的查询内容,指令遵循。腾讯云RAG技术实践·如何让大模型看懂图片/视频/31技术解析——RAG实践中的多模态问答图片转文字,单模态RAG图片转文字,单模态RAG方案纯MLLM模型调用方案腾讯云知识引擎多模态腾讯云知识引擎多模态RAG方案MLLM+RAG技术联动:解决单模态RAG架构下,LLM无法识别图像中额外信息的问题;结合成熟文档解析、切分、检索技术,挖掘MLLM更灵活的功能。第二步:通过文档解析模型,对文档进行mark-down格式转换,保第三步:根据用户查询,检索第二步:通过文档解析模型,对文档进行mark-down格式转换,保第三步:根据用户查询,检索知识库中相关图文混第四步:多模态阅读理解模型根据检索得到的图文序列以及用户的问第一步:第一步:腾讯云RAG技术实践·如何让大模型看懂图片/视频/32技术解析——RAG实践中的多模态问答模态信息细节抓取与语义整合,模态信息细节抓取与语义整合,包括SAM、CLIP等模型●●图文对数据:COYO-700M、LAION-5B)●图文交错数据:MMC4-585M、OBELICS-353M、OmniCor-pus-10B●多模态指令微调(MultimodalInstructionTuning,M-IT)●多模态上下文学习(MultimodalIn-ContextLearning,M-ICL)●多模态思维链(MultimodalChainofThought,M-CoT)2.锁定图:多尺度图文混合训练通过多种尺度的上下文构造训练,来2.锁定图:多尺度图文混合训练通过多种尺度的上下文构造训练,来保证模型问答对于逐渐增多的干扰图片、干扰文本保持鲁棒,又不会因为干扰上下文太多而影响模型的行业知结果展示与指标:结果展示与指标:1.看清图:动态分辨率训练文档解析得到的局部图片通过动态分辨率训练,保证模型能看清3.答对图:鲁棒性训练答案索引正确的图片3.答对图:鲁棒性训练答案索引正确的图片id,保证出图准确率。通过构造正负样本保证出图的准确率,增加据答功能,防止误报过多。腾讯云RAG技术实践·如何让大模型看懂图片/视频/33技术解析——RAG实践中的多模态问答1.多任务学习:学归纳、学关联 2.指令遵循优化利用问题改写模型、指令进化策略,修改用户问题主体、细结果展示与指标:腾讯云RAG技术实践·如何让大模型看懂图片/视频/34技术解析——RAG实践中的多模态问答1.决策生成:对问题进行分析与解耦,结合各种专家模块特性,生成合理的决策。2.执行:调用各种专家模块执行子任务,并汇总信息加以思考,生成最终答案。●TextIntelExtract:按要求针对性地提取图像中的文本。●ObjectQuantLocator:识别并定位图像中的对象,在比较数量和识别空间关系等方面有优势。●VisionIQAnalyst:处理任何与图像内容相关的查询,善于分析图像。●ChartSenseExpert:分析和解释图表中的信息,如提取数据点,了解趋势,识别图表中的标题、轴、标签和图例等关键组件。腾讯云RAG技术实践·如何让大模型看懂图片/视频/35PARTPART03场景实践RAG落地应用我们将通过作业帮、招商证券、万榕信息等不同企业的RAG应用实践,剖析RAG如何为大模型应用对症下药。场景实践——用向量数据库实现云原生架构的三种AIGC方案用向量数据库实现云原生架构的三种AIGC方案作业帮架构研发工程师许春旭数字化时代,云原生作为基础设施软件技术,在帮助企业提高业务敏捷性和可扩展性、降低企业IT成本和资源消耗等方面有非常卓越的表现。随着AIGC时代到来,作业帮的云原生的基础架构领域也面临新变化和趋势,亟需更优解决方案。作业帮从19年起一直致力于云原生的建设与发展,随着云原生规模指数化增加,其面临两个主二、问题链路更复杂,排查耗时变高,故障定位问题变慢,服务质量下降。解决方案作业帮基础架构团队基于本身业务难题出发,最终利用AI技术建立了RAG问答、根因分析和智能化工单三种相互协作的IM机器人平台机器人告警机器人知识获取知识处理知识检索意图识别模型问答模型故障评估模型工单分拣模型通用大模型观测平台Trace筛选故障评估工单录入工单分拣工单流转IM机器人RAGIM机器人平台机器人告警机器人知识获取知识处理知识检索意图识别模型问答模型故障评估模型工单分拣模型通用大模型观测平台Trace筛选故障评估工单录入工单分拣工单流转IM机器人RAG问答腾讯云RAG技术实践·用向量数据库实现云原生架构的三种AIGC方案/37场景实践——用向量数据库实现云原生架构的三种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024水箱安全检测与销售服务合作协议3篇
- 2025年度销售合同终止及市场拓展合作管理协议2篇
- 个体工商户商铺租赁标准协议模板版A版
- 2024年度商铺离婚协议及企业经营权转让与风险分担合同3篇
- 二零二五年豪华二手车经销合作框架合同2篇
- 二零二五年砂石料买卖协议3篇
- 2024标准窗帘买卖合同样本版B版
- 二零二五版25MW柴油发电机电站发电设备安装调试服务协议3篇
- 西安明德理工学院《项目管理与案例分析》2023-2024学年第一学期期末试卷
- 2024版家政服务三方合同范本
- 人教精通版5年级(上下册)单词表(含音标)
- 五年级语文下册全册教材分析
- 第1课+中华文明的起源与早期国家+课件+-2023-2024学年高中历史统编版2019必修中外历史纲要上册+
- 大厦物业管理保洁服务标准5篇
- 神经内科国家临床重点专科建设项目评分标准(试行)
- 城市设计与城市更新培训
- 2023年贵州省铜仁市中考数学真题试题含解析
- 世界卫生组织生存质量测量表(WHOQOL-BREF)
- 某送电线路安全健康环境与文明施工监理细则
- GB/T 28885-2012燃气服务导则
- PEP-3心理教育量表-评估报告
评论
0/150
提交评论