版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
RAG在办公领域中的探索与实践分享大纲4 总结2 RAG核心技术架构3RAG构建挑战与实践1 背景介绍RAG在办公领域中的探索与创新背景介绍大语言模型的缺点背景介绍RAGRAG(Retrieval
Augmented
Generation),即检索增强生成。它通过结合检索系统和生成模型来提高语言生成的准确性和相关性。RAG
系统的组成⚫
RAG的优势在于它能够在生成响应时引入外部知识,提供更符合上下文语境的回答。⚫
与预训练模型不同,RAG的内部知识可以很容易地修改甚至实时补充。⚫
相比于微调技术,RAG具备可观测性、可解释性等优势,还可以有效降低大模型的幻觉问题RAG不是单一的一个组件,是由多个组件组成的复杂系统,LLM只是其中的一个组件。RAG系统的组件包括:数据源:存储了要检索的信息。数据处理模块:负责将数据转换为适合RAG系统使用的格式。检索器(Retriever):负责根据用户查询从数据源中检索相关信息。排序器(Ranker):将最相关的信息呈现给LLM用于内容生成。⚫
生成器(Generator):结合用户查询和相关信息,通过LLM生成最终的相应。RAG
的优势分享大纲4 总结2 RAG核心技术架构3RAG构建挑战与实践1 背景介绍RAG在办公领域中的探索与创新RAG核心技术架构《Modular
RAG:
Transforming
RAGSystems
into
LEGO-like
Reconfigurable
Frameworks》RAG核心技术架构系统设计RAG核心技术架构整体思路用户提问
=>
检索
=>
排序
=>
生成
=>
用户检索:通过文档解析、Query改写以及混合检索的方式,快速检索出一批可能相关的候选文档,以保证检索回来的相关文档——“搜的更全”排序:通过粗排序、精排序和知识过滤的方式,在这些候选文档中找出最相关的文档,并将它们按相关性排序,以保证这些文档的排序——“排的更好”生成:通过知识排版,再结合用户提问+Prompt模板组成提示词输入到大模型中,进而保证针对用户提问的回答——“回答的更准”RAG核心技术架构问答流程文档解析知识库(行业规范、操作手册、书)字符串文本块chunk索引构建划分段落块文本索引向量索引知识数据重排序匹配K段和问题相关的知识原文提示词Prompt 大语言模型(包含原文和问题)(九天、通义千问、GLM)在线 用户提问离线搜的更全排的更好回答的更准分享大纲4 总结2 RAG核心技术架构3RAG构建挑战与实践1 背景介绍RAG在办公领域中的探索与创新RAG构建挑战及实践文档解析知识库(行业规范、操作手册、书)字符串文本块chunk索引构建划分段落块文本索引向量索引知识数据重排序匹配K段和问题相关的知识原文提示词Prompt 大语言模型(包含原文和问题)(九天、通义千问、GLM)在线 用户提问离线搜的更全问答流程RAG构建挑战及实践-“搜的更全”整体流程RAG构建挑战及实践-“搜的更全”文档解析RAG仍有两点优势是短时间内无法被替代:版式多样的文档数据:针对版式各异的文档数据,解析出逻辑区块并进行问答;答案溯源:帮助用户快速从原文中验证答案的可靠性,从而提升整个问答系统的可信度。基于这两点优势的发挥,都需要依赖一个强大的文档解析流程。解析文档内容是RAG
系统最重要的前置工作之一。解决方案:基于RAGFlow的DeepDoc模块进行二次开发。
DeepDoc最大的特色是多样化的文档智能处理,对多种不同格式文档的深度解析。在中国移动内部,文档数据更多是PDF和Word文档,所以我们也对这两类文档数据进行重点优化。具体流程:数据解析Word:天然的版面结构Pdf:版面元素恢复(标题/段落/图片),表格结构识别,阅读顺序还原数据切分结构切分:通过版面结构进行区域切分长度切分:结合切片长度(chunk
size)进行切分(用于检索的文本块)创建索引分别调用文本分词和向量模型对文本块进行处理,写入索引RAG构建挑战及实践-“搜的更全”多轮Query改写总部制度管理小组牵头部门是哪个部门总部制度管理小组的牵头部门是XXX。它的职责是什么总部制度管理小组的职责是什么指代人/物/组织识别 指代词识别对于指代消岐类,先是识别指代词“它”,同时识别出上下文中的关键信息“总部制度管理小组”,然后替换掉“它“。成都的出差住宿费标准省公司领导:xxx其他成员:xxx那重庆呢那重庆的出差住宿费标准呢补全信息识别 插入位置预测对于信息补全类,先是识别出上下文中的关键信息“出差住宿费标准”,然后识别出需要补全信息的位置在"呢"之前。技术方案将多轮Query改写转换为关系抽取任务,指代消歧和信息补全看作关系,指代实体/指代词/补全信息/插入位置看作实体,采用TPLinker模型构建。无法检索到相关信息用户:总部制度管理小组牵头部门是哪个?系统:总部制度管理小组的牵头部门是XXX。用户:它的职责是什么改写:总部制度管理小组的职责是什么指代消歧用户:成都的出差住宿费标准系统:省公司领导:XXX,其他成员:XXX用户:那重庆呢改写:那重庆的出差住宿费标准呢信息补全RAG构建挑战及实践-“搜的更全”混合检索精确匹配短文本匹配倾向低频词汇的匹配可解释强全文检索优势更精准:混合检索可以同时利用全文检索和向量检索对数据进行查询,提高检索的准确性和可行度。更多样:混合检索可以利用向量检索的多样性,返回多种不同的检索结果,提供更多的选择和信息,满足不同的用户查询需求和偏好。更强大:混合检索可以利用全文检索的逻辑运算、排序、过滤等功能,实现更复杂的查询需求。更可解释:混合检索可以利用全文检索的文本匹配和高亮显示,实现更可解释的检索结果。混合检索优势相近语义理解多语言理解/跨语言理解多模态理解容错性强向量检索优势RAG构建挑战及实践-“搜的更全”混合检索jieba和lac的分词粒度太细texmsart分词粒度太粗cutword分词粒度适中模型支持语种维度最大token特点相关性bge-m3100+语言10248192支持超过100种语言的语义表示及检索任务同时集成了稠密检索、稀疏检索、多向量检索三大能力XX.Xbce-base-v1中英768512中英双语和跨语种能力多领域覆盖,收集了包括:教育、医疗、法律、金融、百科、科研论文、客服(faq)、通用QA等场景的语料XX.Xm3e-base中英768512使用场景主要是中文,少量英文的情况支持中英双语的文本相似度计算和文本检索等功能,未来还会支持代码检索XX.Xgte-base-zh中文768512从效果来说,多数任务上表现不错XX.X分词工具分词结果jieba关键时期/,/全面/建设/社会主义/现代化/国家/,/需要/一批/能够/体现/国家/经济/实力/、/科技/实力/和/国际/竞争力/的/世界/一流/企业/作为/关键/支撑/。lac关键/时期/,/全面/建设/社会主义/现代化/国家/,/需要/一批/能够/体现/国家/经济/实力/、/科技/实力/和/国际/竞争力/的/世界/一流/企业/作为/关键/支撑/。texsmart关键时期/,/全面建设社会主义现代化国家/,/需要/一批/能够/体现/国家/经济实力/、/科技/实力/和/国际竞争力/的/世界一流/企业/作为/关键/支撑/。cutword关键时期/,/全面/建设/社会主义/现代化/国家/,/需要/一批/能够/体现/国家/经济实力/、/科技/实力/和/国际竞争力/的/世界一流/企业/作为/关键支撑/。开源分词模型对比开源向量模型对比采用bge-m3和bce-base-v1模型双向量模型检索,以达到检索互补的目的。RAG构建挑战及实践问答流程文档解析知识库(行业规范、操作手册、书)字符串文本块chunk索引构建划分段落块文本索引向量索引知识数据重排序匹配K段和问题相关的知识原文提示词Prompt 大语言模型(包含原文和问题)(九天、通义千问、GLM)在线 用户提问离线排的更好RAG构建挑战及实践-“排的更好”整体流程…………top20top5过滤LLM生成混合检索粗排序精排序知识过滤Index…………top100RAG构建挑战及实践-“排的更好”粗排序ReciprocalRank
Fusion(RRF)RRF(Reciprocal
Rank
Fusion),即倒数排序融合,是一种将具有不同相关性指标的多个结果集组合成单个结果集的方法。它不依赖于搜索引擎分配的绝对分数,而是依赖于相对排名,因此结合具有不同分数尺度或分布的结果变得实际。它用于两个或多个查询并行执行的场景。排名BM25相关性向量相关性RRF排名结果(k=0)1ABB:1/2+1/1=
1.52BCA:1/1+1/3=
1.33CAC:1/3+1/2=
0.83RRF的优势:不利用相关得分,而仅靠排名计算,简单有效;适合多路召回,通过RRF选取topn后再进行重排序,这样有助于提升重排序的效率;混合检索的文档进行合并去重;《RAG-Fusion:
The
NextFrontier
of
Search
Technology》RAG构建挑战及实践-“排的更好”《延迟交互模型,为什么是下一代RAG的标配?》粗排序ColBERT:延迟交互模型(Late
Interaction
Model)ColBERT相比较双编码器和交叉编码器(Cross
Encoder)的特点:相比于Cross
Encoder,ColBERT仍采用双编码器策略,离线处理文档编码,在查询时仅针对Query
编码,因此处理的速度大大高于Cross
Encoder;相比于双编码器,ColBERT输出的是多向量而非单向量,这是从Transformer的最后输出层直接获得的,而双编码器则通过一个Pooling层把多个向量转成一个向量输出,因此丢失了部分语义。排序计算时,ColBERT
引入了延迟交互计算相似度函数,并将其命名为最大相似性(MaxSim)计算方法如下:对于每个查询Token的向量都要与所有文档Token
对应的向量进行相似度计算,并跟踪每个查询Token的最大得分。RAG构建挑战及实践-“排的更好”精排序为什么需要排序模型呢?特性向量检索Reranker交互层级文档级Token级计算需求低高计算时机离线(索引时)在线(查询时)结果广泛但肤浅高度相关且精确优势快速高效实施简单深刻理解上下文高级语义分析局限性缺乏深度可能忽略用户意图计算密集模型复杂适合场景快速初步召回优化召回结果质量向量检索和Reranker模型之间的差异《有道QAnything背后的故事---关于RAG的一点经验分享》RAG构建挑战及实践-“排的更好”排序模型对比排序模型特点效果性能RRF简单权重加权融合,完全按照各路召回的排名进行打分,丢掉了原始召回中的相似度信息,算法鲁棒,适合于性能要求高的场景。一般快Colbert延迟交互机制,既满足了对排序过程中查询和文档之间复杂交互的捕获,也能实现较快的排序性能,兼顾了性能与效果。适中适中Cross
Encoder强大的重排序算法,能够对每一对查询和文档进行详细的相关性评估,适合于对准确性要求高的场景。好慢RRF、Colbert和Cross
Encoder这三个模型的作用都是排序,可针对自己的业务场景进行选型适配。RAG构建挑战及实践-“排的更好”《Enhancing
Retrievaland
Managing
Retrieval:AFour-Module
Synergy
for
Improved
Quality
and
Efficiency
inRAG
Systems》不相关文档过滤[指令]:你的任务是解决NLI问题:给定[知识]中的前提和假设"[知识]包含可靠的答案,有助于回答[问题]"。你应该将回应分类为蕴含、矛盾或中性。[问题]:{问题在这里。}[知识]:{待判断的知识在这里。}[格式]:{解释。}**{NLI结果。}Prompt模板知识过滤对于LLM来说是Garbage
in
Garbage
out。为了解决检索到的无关知识问题,引入知识过滤模块,通过NLI任务来评估检索到的知识与问题的相关性,排除不相关信息,提高回答的准确性。RAG构建挑战及实践问答流程文档解析知识库(行业规范、操作手册、书)字符串文本块chunk索引构建划分段落块文本索引向量索引知识数据重排序匹配K段和问题相关的知识原文提示词Prompt 大语言模型(包含原文和问题)(九天、通义千问、GLM)在线 用户提问离线回答的更准RAG构建挑战及实践-“回答的更准”整体流程排序的知识文本块用户提问请基于```内的内容回答问题,保证回答的正确性和简洁性。```{knowledge}```我的问题是:{question}Prompt模板LLM生成知识排版RAG构建挑战及实践-“回答的更准”知识排版第二章 个人信息处理规则第一节 一般规定第十三条 符合下列情形之一的,个人信息处理者方可处理个人信息:(一)取得个人的同意;(二)为订立、履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需;(三)为履行法定职责或者法定义务所必需;(四)为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需;(五)为公共利益实施新闻报道、舆论监督等行为,在合理的范围内处理个人信息;(六)依照本法规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息;(七)法律、行政法规规定的其他情形。依照本法其他有关规定,处理个人信息应当取得个人同意,但是有前款第二项至第七项规定情形的,不需取得个人同意。第十四条 基于个人同意处理个人信息的,该同意应当由个人在充分知情的前提下自愿、明确作出。法律、行政法规规定处理个人信息应当取得个人单独同意或者书面同意的,从其规定。个人信息的处理目的、处理方式和处理的个人信息种类发生变更的,应当重新取得个人同意。第十五条 基于个人同意处理个人信息的,个人有权撤回其同意。个人信息处理者应当提供便捷的撤回同意的方式。个人撤回同意,不影响撤回前基于个人同意已进行的个人信息处理活动的效力。问题:上下文支持有限分片粒度选择chunk
size:128/256/512如何避免信息丢失如何召回上下文用户提问:什么情况下,信息处理者可以处理个人信息?用户提问:个人信息处理的一般规定有哪些?较小的chunk:更精准的检索能力 较大的chunk:更完整丰富的语义解决方案:⚫
分片粒度期望:既能提供足够的文本嵌入以便有效精准的执行检索,也能够有足够的上下文提供给LLM进行推理。*
评估测试不同尺寸(chunksize)下的性能与质量。⚫
召回上下文离线阶段文档解析:区分层级结构数据入库:层级和分片信息在线阶段同层及父层上下文补全(用于生成的文本块)汇总去重Prompt组装:防止“迷失在中间”(lost
in
themiddle)RAG构建挑战及实践-“回答的更准”《FoRAG:
Factuality-optimized
RetrievalAugmented
Generation
for
Web-enhanced
Long-form
Question
Answering》FoRAG存在问题事实性不足:现有系统生成的答案中只有大约一半的陈述能够完全得到检索到的参考资料的支持,这严重影响了这些系统的可信度。清晰逻辑的缺失:长篇问答(Long-form
QuestionAnswering)任务中理想的答案往往需要多方面组织和整合信息,但现有的开源方法在生成答案时往往缺乏清晰的逻辑结构。解决方案大纲增强生成器(Outline-Enhanced
Generator):提出了一种新的两阶段生成技术,首先生成一个组织模式和大纲,以提高生成答案的逻辑清晰度。Outline
Stage(提纲阶段):在此阶段,生成器首先使用提纲模板,根据用户查询和上下文生成答案的提纲。提纲模板引导大型语言模型(LLM)考虑哪种组织模式最适合当前问题,例如“因果关系”或“比较对比”。然后,LLM根据选定的组织模式输出提纲,为后续的扩展阶段做准备。Expansion
Stage(扩展阶段):基于前一阶段生成的提纲,LLM扩展每个要点,构建最终答案。模型被要求在包含查询、上下文和提纲的输入下,生成对问题的答案。RAG构建挑战及实践-“回答的更准”FoRAG《FoRAG:
Factuality-optimized
RetrievalAugmented
Generation
for
Web-enhanced
Long-form
Question
Answering》###任务###根据资料回答问题。###要求###第一步:根据问题和资料生成回答提纲。决定回答结构,从总分总、递进、对比、因果、并列、时序等结构中选择合适的来组织回答。根据回答结构,在提纲中要完整地列出答案中需要包括的要点。要点之间可以是并列、对照、递进等关系,不可以是重复或者包含关系。要点要保持精炼,至少有1点,不能多于5点,每个要点仅可参考1段资料,并在提纲中标注资料编号。第二步:根据资料和提纲对问题进行回答。回答要以提纲为蓝本,对问题进行详细的回答。回答中可以采用编号或项目列表、小标题、latex公式等格式。回答中减少使用“首先”、“其次”、“再者”等简单的连接词。回答中不要生成重复内容。回答中不要标注资料来源。回答应当严格依据资料,不采用不在资料中的内容。###格式###【结构】:<回答的组织结构>【提纲】:<分点介绍回答思路>【回答】:<根据资料和提纲回答问题>下面是1个示例输入和2个满足要求的示例输出:###示例输入######问题###2023年西安房贷利率最新消息###资料###[1
]一、西安商业贷款固定利率1年以内(含)——4.35%5年(含)以下——4.75%5年以上——4.9%贷款市场报价利率LPR:目前1年期LPR为3.45%,5年期LPR为4.2%首套住房商业性个人住房贷款利率下限为不低于相应期限LPR减20个基点。二套住房商业性个人住房贷款利率下限为不低于相应期限贷款市场报价LPR利率加20个基点。二、西安公积金贷款利率5年(含)以下——2.6%5年以上——3.1%[2
]目前西安主流银行的首套房利率集中在4%左右,二套房利率差基本维持在4.9%。[3
]首先,虽然LPR在7月没有变动,但西安首套房贷款利率已经低至4%,并且低于2009年房贷利率打七折后的4.156%!这点也恰恰和楼市走访到的信息不谋而合,据了解,西安目前多数银行首套房贷利率主要集中于4%,二套房贷利率基本在4.9%左右。[4
]7月20日,中国人民银行授权全国银行间同业拆借中心公布了最新一期贷款市场报价利率(LPR):1年期LPR为3.55%,5年期以上LPR为4.20%,均与上个月持平。但西安房贷利率较上月小幅下行,西安多家银行首套房贷利率从4.1%降至4%。今年6月,LPR时隔10个月迎来下调,1年期和5年期以上LPR均跟随政策利率下调10个基点。记者了解到,从6月下旬开始,西安各大银行相继落实首套房贷利率政策动态调整机制,进行利率调整。目前,西安地区六大行及招商银行、宁夏银行、北京银行、西安银行等十余家银行首套房贷利率降至4%,较LPR下浮0.2%。二套房贷利率同步下行,跌破5%大关,维持在4.9%。###示例输出1###【结构】:总分总【提纲】:首套房商业贷款利率(仅使用[2
]回答)二套房商业贷款利率(仅使用[2
]回答)公积金贷款利率(仅使用[1
]回答)【回答】:西安的房贷市场在2023年呈现了一定的调整趋势,特别是在商业贷款和公积金贷款利率方面。针对不同的贷款年限,首套和二套住房的贷款利率有所不同。下面是具体的利率情况和银行对房贷利率的调整概述。###
首套房商业贷款利率首套住房商业贷款利率集中在4%左右,较LPR下浮0.2%。###
二套房商业贷款利率二套房商业贷款利率基本维持在4.9%左右。###
公积金贷款利率公积金贷款利率5年(含)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF(陕) 082-2022 积分球光色综合测试系统校准规范
- 跨界合作助力品牌发展计划
- 社会治理背景下保安工作的创新实践计划
- 社交媒体的职业生涯路径计划
- 年度工作计划的可视化呈现方式
- 社区服务与社会责任教育计划
- 卫浴柜类相关行业投资方案
- TFT-LCD用偏光片相关项目投资计划书
- 雨水收集利用实施方案计划
- 货运保险合同三篇
- 工程项目管理流程图
- 表箱技术规范
- 二氧化碳充装操作规程完整
- 【全册】最新部编人教版三年级道德与法治上册知识点总结
- 植草沟施工方案
- 苯-甲苯浮阀塔精馏课程设计.doc
- 环保-TVOC监测标准方案
- 专题04 《鱼我所欲也》三年中考真题(解析版)-备战2022年中考语文课内文言文知识点梳理+三年真题训练(部编版)
- 港股通知识测试2016
- 煤矿井下集中大巷皮带机安装施工组织设计及措施
- (完整版)渠道混凝土施工方案
评论
0/150
提交评论