版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机行业向量数据库市场分析一、向量数据库为AI大模型全生命周期管理提质增效随着AI大模型的发展,向量数据库已成为赋能MLOps各环节必备的软件基础设施。在AI模型全生命周期过程中,MLOps(MachineLearningOperations,机器学习运营体系)代表机器学习的开发、部署和应用,是涵盖从训练到推理全流程,提升从数据到AI模型生产效率的工具。AI大模型的技术已成为业内主流发展方向,在训练的数据量不断增多,算力集群规模持续扩大的趋势下,从数据到模型的全生命周期管理需要更加专业的软件工具用于生产效率的提升、流程的优化和成本的节省。其中向量数据库具备的快速检索、混合存储、向量嵌入等能力很好的解决了AI大模型在MLOps过程中存在的知识时效性低、输入能力有限、回答问题准确度低等问题,未来发展前景广阔。(一)MLOps已成为AI模型规模化开发的必备软件工具AI大模型的训练和推理各环节过程复杂、步骤较多,需要统一的软件工具链进行管理。从原始的训练数据训练成为AI大模型的过程需要经过数据预处理、特征提取、模型测试、训练监控、生产部署等环节,任何一个环节出现问题亦或不同环节之间的衔接不流畅,则会影响整体的开发效率和成果转化率。根据Gartner调查结果,只有53%的项目能够从AI原型转化为生产,AI生产转化率低的主要原因在于模型全链路生命周期管理存在跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等问题。因此,开发从数据到模型,贯通从开发到部署等多环节统一的流水线软件MLOps是保障AI模型生产和管理的稳定性、持续性、规模化和效率的关键。MLOps的目标是提高AI项目全生命周期的效率、可扩展性和可靠性。在MLOps的框架下,机器学习项目的生命周期被划分为几个关键阶段,包括需求设计、开发阶段、交付阶段和运营阶段。这种结构化的运行方法提供了一个清晰的路线图,可以帮助团队有效减少数据质量、模型过拟合和部署困难等难题,较大提高了项目推进效率。此外,MLOps还通过自动化持续集成/持续部署(CI/CD)等方式加快模型迭代速度,保证模型在生产过程中的连续性。MLOps的系统框架不是简单的线性推进,而是各个环节的相互作用与结合。MLOps的生命周期包含了多个反馈循环,模型测试和运维监控阶段的结果可能会反馈到数据工程和模型开发环节,集成效果会影响模型上线后的性能,模型上线运行的效果又影响业务需求和开发方向。MLOps的生命周期不是一次性的过程,需要反复进行数据收集和准备、模型开发和训练、模型验证和测试等步骤,以不断对模型进行迭代与优化。目前,MLOps对AI全生命周期的管理和应用正逐渐走向成熟,对各个环节都有对应的软件实现效率的提升。这些软件和工具在各环节发挥着重要的作用,共同构建了一个完整、高效的MLOps生态系统。1.需求管理:业务人员基于对产业和业务的深刻认知,在复杂的业务场景中提炼出痛点问题并形成需求,交付于数据科学家进行对接;数据科学家通过需求文档初步建立算法模型(demo),明确业务需求,并对需求的可行性进行评估与检验。在双方的有效沟通下对方案多次修改直到达成一致,以确保业务需求被正确认知,建模方案可行而高效,避免不同角色对于需求的理解不一致及风险不可控等问题,从源头提升项目质量,降低需求变更带来的影响。2.数据工程:明确了需求之后,就要从业务场景中提取建模所需的数据。业务场景覆盖范围宽广且涉及情景复杂,获取的数据格式、口径、类型都大不相同。取数场景可能涉及到从各种源(如数据库、日志文件、API等)收集数据,获取的数据可能是结构化的(如表格数据),也可能是非结构化的(如文本或图像),也可能包含错误、缺失或异常值,需要识别并处理,以提高数据的质量。此外,获取的数据一般不符合机器学习模型的特定格式要求,需要数据工程师进行相应的处理,如编码分类变量、标准化数值变量等。与此同时,数据工程师需要从原始数据中进行特征选择、特征提取、特征构造以提高模型性能。数据工程是机器学习项目成功的关键,好的数据工程可以提高模型的准确性,降低模型的复杂性,提高模型的可解释性。3.模型开发:模型开发是MLOps生命周期中的关键阶段,需要根据问题的性质(例如,是分类问题、回归问题还是聚类问题)和数据的特性,选择一个或多个适当的机器学习算法进行建模。特征选择也是模型性能的关键,需要从所有可用的特征中选择最相关的特征子集用于模型训练,减少复杂性,提高模型性能,并减少过拟合的风险。完成基本建模后,需要对模型进行不断训练、优化和迭代,以达到最佳效果。4.构架集成:持续集成(ContinuousIntegration,简称CI)是一种软件开发实践,开发人员将他们的代码更改合并到共享存储库中,通常每天至少一次。每次代码合并都由自动化的构建(包括编译、发布、自动化测试)来验证,从而尽早地发现并解决问题。通过持续集成和自动化测试,可以快速发现和定位错误,减少调试时间,提高流程效率。5.模型测试:模型测试用于评估机器学习模型的性能和可靠性,目的是确保机器学习模型可以根据最新的数据和反馈进行更新和优化。测试阶通常构造一组测试数据来评估模型的预测结果,并使用适当的评估指标(如准确率、召回率、AUC等)来量化模型的性能。同时还要测试模型的鲁棒性,检查模型是否对输入数据的噪声或异常值敏感。6.部署发布:持续部署阶段(ContinuousDeployment,简称CD)涉及将训练好的机器学习模型部署到生产环境,以便它可以开始为实际业务问题提供预测。它将模型和相关的预处理和后处理代码打包为一个容器(如Docker容器),并将模型服务部署到适当的运行环境。部署发布是一个复杂的过程,需要考虑性能、可用性、安全性和可扩展性等多个因素,以确保模型的成功部署和高效运行。7.运维监控:运维监控是在模型部署后对其性能和健康状况进行持续的监控和管理。这要求IT运维定期检查模型的预测性能,以确保它仍然满足业务需求;监控模型服务的资源使用情况(如CPU、内存和磁盘使用情况),检查模型服务的错误和异常;监控模型的数据漂移,避免因为输入数据的分布变化导致模型性能随着时间的推移而下降。运维监控是一个持续的过程,它需要在模型的整个生命周期中进行,以确保模型的持续性能和健康状况。AI大模型对MLOps提出了更高要求。相较于普通的AI模型,AI大模型的训练有更多数据的输入,通常需要更长时间和更多的资源,因此在训练过程中需要进行更精细的调优和监控。此外,由于AI大模型的规模较大,其部署和维护也会相应地变得更加复杂。例如,如何将模型分布式部署到多个节点上、如何保证模型的稳定性和可靠性、如何进行故障排除和容错等。因此,适用于普通模型生产的MLOps较难适应AI大模型的需求。目前,针对AI大模型的技术特点,部分厂商已开发出LLMOps工具,在海量样本构建、模型增量与全量的训练和部署、模型推理、模型回滚、模型回溯等方面有较大提升能力。总体来看,在模型的全生命周期管理过程中,AI大模型具有以下特点:1.“预训练+微调”已成为AI大模型主流开发方式:目前较多的大模型的开发不再从头开始训练,而是选择一个通用性基础较好的、开源的预训练模型,在其基础上进行参数微调和优化得到满足用户需求的大模型。2.AI大模型的开发涉及的环节较多,耗时较长:由于训练数据量庞大,数据类型较多,AI大模型的训练时间较长。AI大模型的训练包括数据清洗、特征提取、参数调优、评估测试等,各环节的耗时都取决于数据量、模型复杂度以及评估指标的选择。因此数据处理工具、软件平台架构的选择对于AI大模型的开发有关键作用。3.相似性检索功能对于AI大模型生成内容的效率和质量有一定提升:在人机交互的过程中,存在由于用户提问方式不直接,给出的提示词较为模糊,导致生成内容质量不高的问题。因此,通过相似性检索和向量标量字段过滤混合查询等技术手段提高提示词与回答内容之间匹配度已成为AI大模型的重要发展方向之一。4.人工反馈对于AI大模型通用性效果的提升有关键作用:在模型的评估测试环节,通过引入人工反馈机制对于模型输出的内容进行纠正,筛除不合理的、错误的回答,从而提升AI大模型整体的通用性。向量数据库是开发和应用AI大模型过程中必备的软件基础设施。针对AI大模型的MLOps在架构方面的设计考虑了海量多源数据的训练、预训练大模型的导入以及大规模计算集群算力资源调度。这些都是在普通AI模型开发和应用中难以遇到的问题。在训练数据方面,由于所需处理的数据量较为庞大、类型更加复杂,向量数据库是提升训练和推理效率必备的工具软件。AI大模型在大规模计算集群的环境下进行训练,具有算力资源调度和整合共享能力的分布式架构已成为主流。我们认为,以向量数据库为代表的工具类软件有效解决了AI大模型全生命周期管理中的痛点,是开发和应用AI大模型过程中必备的软件基础设施。向量数据库赋能MLOps过程中数据导入、特征提取、模型构建等多个环节。在数据导入过程中,向量数据库可以将不同类型的非结构化数据进行清洗、筛选并转化为统一的向量嵌入格式,便于各类数据的交互和计算。在特征提取阶段,向量数据库的相似性检索功能给不同的向量数据构建索引,有效提升搜索效率,缩短训练时间。在模型构建环节,向量数据库也可以在微调和剪枝等环节减少训练数据量,节省训练成本。此外,在模型推理过程中,向量数据库也可解决AI大模型知识的时效低、输入能力有限以及准确度低的问题。接下来,我们就向量数据库在AI大模型各环节赋能的技术原理和实际应用案例进行深入分析。(二)向量数据库既能提升AI大模型各环节效率,又能保障用户数据安全向量数据库在AI大模型训练和推理过程中有较大的应用空间。向量数据库是专门用于存储和管理向量数据,其主要特点是能够高效地存储和查询大规模的向量数据。它通常采用基于向量相似度的查询方式,即根据向量之间的相似度来检索数据。这一功能特点不仅使得其可以提升训练过程中特征提取和数据检索等任务的效率,还在推理过程中有效保护用户隐私数据、保障应用过程的数据安全性。1.在AI大模型训练过程中,向量数据库可以有效提升数据检索、特征提取等任务的效率针对海量和多源训练数据,向量数据库统一数据格式,为训练任务效率提升打好基础。AI大模型训练的数据量庞大、数据类型多样,且训练过程设计过程复杂、耗时较长的数据检索过程。通过实践摸索,AI算法开发人员发现向量数据库具备提升模型训练的工作效率的工具软件。向量数据库可以将文本、图像等各种类型数据转换为一个固定长度的向量。转化后的向量数据不仅统一了数据格式,便于各类型数据之间的交互和计算,还可以应用相似度检索的算法来减少大规模检索过程的时间消耗。具体来说,向量数据库在AI大模型训练过程中的功能包括:(1)转换数据结构,统一数据格式,加速特征提取:向量数据库可以将图像、音频和视频等数据数据,转化成为统一格式的向量数据。在特征提取任务中,统一格式的向量数据的处理和计算效率有明显提升。(2)利用相似性检索的算法加速大规模数据检索:在AI大模型训练过程中,大规模数据搜索的过程往往耗时较长。向量数据库通过ANN(ApproximateNearestNeighbor)算法给不同的向量数据构建索引,有效提升搜索效率,缩短训练时间。(3)在模型更新和再训练过程中,减少训练量:当用户想要更新AI大模型时,向量数据库允许用户只更新部分数据,而不是整个数据集。这可以节省大量的计算资源和时间,特别是在数据集很大且更新频繁的情况下。不同类型的数据转化成为向量嵌入的方式不同,统一的数据处理工具是关键。一般而言,数据都需要进行编码,转化成向量嵌入(Embedding)后才开始训练,而不同类型的数据转化成为向量嵌入的方式不同。对于文字类信息,在字词的属性(主谓宾)等较为固定的情况下,语句中的语义信息的提取和识别有规律可循。将标点符号、不同属性的字词编码,根据其在文中的作用对编码反复进行排列组合的训练即可以得到一组向量嵌入。而图像类数据的编解码难度更大。图像数据是大量像素排列组合而成的,不仅单个像素的固定属性难以确定,其排列组合的方式也无规律可循。与一般的AI模型相比,AI大模型需要对多种类型数据进行编码、配对、拟合,导入数据开始训练的过程更加复杂。在数据导入阶段,向量数据库可以支持多种类型数据转化成为向量嵌入。向量数据库支持不同类型数据导入AI模型训练中,解决了此前针对不同类型的数据导入需要采用不同数据处理平台的难题。在训练过程中,大规模未标记的数据首先输入浅层的神经网络中进行训练,其输出结果为具有标识的统一格式的向量,可以被深层的神经网络识别。由于AI大模型的训练涉及的数据量庞大,向量嵌入的方式可有效提高模型训练的效率和准确性,已经成为AI大模型的标准流程。在AI大模型的训练过程中,向量数据库可以用于加速特征提取和数据检索。在训练过程中,原始数据转换为向量数据后更好的适应了AI计算中涉及大量的矩阵运算。向量化后的数据将单一维度的运算扩展到高维度的矩阵运算,从而提升单次运算能力。向量数据库针对矩阵运算提供了丰富的操作符,如点积、范数、索引查找等,对于特征提取、抽象化等都有很好的性能满足。此外,向量数据库还可以提供快速随机访问和批量读取功能,在训练过程中快速加载和检索海量数据。2.在AI大模型推理过程中,向量数据库可以有效保护用户数据隐私并提升推理任务的准确率向量数据库在企业用户隐私保护和推理任务准确性方面有突出表现。在AI大模型应用过程中,下游用户一方面需要通用AI大模型访问企业私域数据,另一方面又需要防止企业隐私信息泄露。在这一过程中,向量数据库作为通用AI大模型和企业私域数据间的桥梁,可以有效满足用户这一需求。其次,融合了最新资料和专业知识的向量数据库可有效解决通用的AI大模型知识的时效低、输入能力有限以及准确度低的问题。具体来说,向量数据库在AI大模型推理过程中的功能包括:(1)为大模型提供外挂知识库,提升模型时效性与准确性:用户希望大模型能根据最新的数据来回答问题,但大模型的训练语料在时效性上有一定局限。此外,企业都有自己内部独有的知识库,出于数据安全考虑,难以直接应用于大模型的预训练和微调阶段。在此情况下,向量数据库可以充当外挂知识库,为大模型提供最新数据或者企业客户独有的内部知识库。通过从知识库中检索与输入相关的信息,作为上下文和问题一起输入给AI大模型,基于信息生成答案,可以提升大模型的时效性与准确性。(2)为大模型提供长记忆能力,突破Token数限制,避免上下文信息丢失:大模型有上下文长度限制,一旦超过了最大Token数,便会忘记上下文。而向量数据库可以记录客户端和大模型之间的对话信息,接收到新的消息时可以从整个历史会话记录中检索与当前消息相关的人机交互信息,为大模型提供长期记忆。因此可以突破大语言模型对Token数的限制,避免上下文信息丢失的问题。(3)为大语言模型提供缓存能力,减少调用开销,提升响应速度:当用户触发查询时,在调用AI大模型之前,系统可以生成向量并执行缓存查找,若缓存命中,就可以直接返回结果,不需再调用AI大模型,因此可以实现快速响应,并减少对大模型调用的开销。存入隐私数据的向量数据库外挂在AI大模型上,拓展交互信息范围,保护用户隐私。通过互联网公开数据训练的通用AI大模型难以覆盖专业性较强以及最新的新闻数据。而用户可以将最新资料和专业知识存入向量数据库中,外接到通用AI大模型来解决这一问题。此外,用户还可以设置向量数据库的访问权限,来限制AI大模型将其中数据作为训练语料。向量数据库的实时更新、灵活编辑以及隐私保护的特点较好的弥补了通用AI大模型的缺陷。在ChatGPT的插件系统中,用户即可在外接的向量数据库中预先增加和编辑特定信息,再通过调用该插件后实现对于特定问题的回答。我们认为,外接的向量数据库可以将用户特定信息融入到交互内容中,不仅大大拓展了AI大模型交互信息的范围,还保证了用户信息的私密性,应用前景广阔。在AI大模型的推理过程中,向量数据库可以提升推理的效率和准确性。在推理阶段,向量数据库可以提供快速的向量索引和查询功能,以便快速地找到所需的特征向量。与传统的基于关键字的搜索相比,向量数据库可提供基于ANN算法的语义搜索功能。AI大模型可以更好的理解用户的搜索意图,并将搜索请求扩展到相关领域的信息,快速、准确定位到与问题最相关的信息,缩短生成内容的反馈时间。此外,在大型分布式环境中,向量数据库还具有高效的并行计算能力,可以充分利用硬件资源,进一步加快推理速度,以应对海量数据的处理需求。在应用阶段,AI大模型存在较多的向量相似性搜索需求。AI大模型和用户交互的信息往往包含大量的非结构化数据。例如,用户将图片输入到GPT-4后,就图片信息进行问答。在这一过程中,原始的图像(由像素组成)需要转化成为向量数据才能被AI大模型识别和理解,之后这一组向量数据需要遍历庞大的神经网络,搜索与之对应的另一组向量数据后才能生成用户想要的文字。向量搜索的过程往往耗时较长,可能会影响到即刻需要得到内容生成的用户体验。而向量数据库通过ANN算法给不同的向量数据构建索引,有效提升搜索效率,缩短生成内容的反馈时间。(三)向量数据库在AI各场景应用前景广阔从实际应用案例来看,向量数据库在AI大模型的训练和推理过程中降本增效的效果已有所显现。Pinecone、Weaviate等向量数据库通过数据清洗、去重,将优化后的数据集导入模型训练过程,较大提升了训练效率。ChatGPTPlugins插件系统外接向量数据库,不仅大大拓展了AI大模型交互信息的范围,还保证了用户信息的私密性。Qdrant向量数据库产品与Pienso合作,已经实现在开源AI大模型的基础上开发私域大模型。接下来,我们通过实际应用案例的分析,介绍向量数据库的应用前景。1.向量数据库已应用于数据清洗、向量嵌入转换、私域大模型开发等训练过程向量数据库可实现低质量数据的快速辨别和清洗,优化训练数据集。Altas是一个数据管理平台,通过接入Pinecone、Weaviate等向量数据库,实现训练数据的清洗和去重。Atlas首先对文本语料库进行语义层面的分析,通过ANN的算法将具有相同属性的数据进行聚类,并以向量形式嵌入到可视化地图上。在可视化的界面中,用户可使用工具对数据进行标注,根据业务需要,对特定类别数据进行清洗和筛选。之后,AI模型可以从Atlas中获取优化后的数据集用于后续的训练任务。我们认为,数据清洗和筛选是AI模型训练必不可少的环节,向量数据库已实现对大规模非结构化数据进行分类、标注和清理,优化数据集,从而有效提高AI模型的训练效率。向量数据库可以为企业客户提供私域大模型解决方案,同时保护数据安全。Pienso与向量数据库Qdrant合作,为客户提供私域大模型解决方案。用户可以基于私有数据,使用简单的可视化界面在各种流行的开源模型上开发定制AI模型。通过向量数据库提升了AI模型的准确性,同时保留了广泛的上下文窗口,让模型能够更全面地理解对话或文档,产生贴近语境的输出,以及加速用户模型的训练和推理过程。在这种方案下,Pienso保证用户的数据只能自用,不会被拿去训练其他模型,保障了用户隐私和数据安全。2.向量数据库已应用于问答系统、图像检索、推荐系统等推理应用场景在模型推理场景中,向量数据库的高性能的向量存储和检索能力已经在问答系统、图像检索、推荐系统等多种AI场景中广泛应用:(1)外挂知识库:在外接的向量数据库中可以预先增加和编辑特定信息,再通过ChatGPT调用该插件后实现对于特定问题的回答;(2)提升AI模型生产内容精准性:结合问答系统的自然语言问答能力和向量数据库的相似性检索能力,提供更准确和可靠的答案,实现高效问答服务;(3)非结构化数据快速检索:通过相似性检索算法对图像、视频等非结构化数据快速搜索,实现反向图像搜索、对象检测、人脸比对等任务;(4)个性化推荐:存储用户和物品的特征向量并对用户偏好和内容进行分析,通过计算相似度找到与用户历史行为或兴趣相似的物品,生成个性化推荐,提升推荐体验。AI大模型可外接融合了用户特性信息的向量数据库,拓展知识边界,保护用户安全。ChatGPTPlugins系统已开放外接向量数据库,大大拓展了AI大模型交互内容的范围。2023年3月,ChatGPT在推出的首批插件系统中包含了Retrival插件,其给向量数据库(包括Milvus、Pinecone、Qdrant、Redis、Weaviate和Zilliz)提供了统一的接口。用户在外接的向量数据库中可以预先增加和编辑特定信息,再通过ChatGPT调用该插件后实现对于特定问题的回答。我们认为,外接的向量数据库可以将用户特定信息融入到交互内容中,不仅大大拓展了AI大模型交互信息的范围,还保证了用户信息的私密性。接入向量数据库的AI大模型已应用于企业内部数据的智能化和隐私保护。随着向量数据库接入AI大模型可有效保护隐私信息安全的特性被企业级用户逐渐认识,部分商业客户以应用于实际业务中。根据MongoDB在2023年12月5日的财报电话会议内容,其客户人力资源公司UKG已选择采用MongoDB的AtlasVectorSeach向量检索工具不仅有效提升其人员招聘各流程的数据的搜索效率以及资源对接的精准性,还保护企业用户的数据不泄露给AI大模型作为训练预料。我们认为,向量数据库作为外挂知识库接入AI大模型后能够保护用户隐私数据的能力被企业级客户充分认识和理解后,其有望得到大规模推广。向量数据库可外接最新资料和专业知识,增强AI大模型的时效性和专业性。向量数据库公司Zilliz开发了一个开源工具OSSChat,整合了各开源项目的GitHub函数库及相关文档作为数据源,并将这些数据转换为向量存储在向量数据库中。当用户与OSSChat进行交互时,系统会在向量数据库中进行相似性检索,将检索结果发送给ChatGPT作为输入问题,并最终生成精准的答案。我们认为,通过结合ChatGPT的自然语言问答能力和向量数据库的相似性检索能力,OSSChat将开源社区中积累的内容构建成知识库,有效解决了ChatGPT在特定领域知识和实时信息方面的局限性,可以提供更准确和可靠的答案,实现高效问答服务。向量数据库基于快速的相似性检索能力,提升图像检索速度,兼具高可拓展性。金融科技公司ChipperCash在向量数据Pinecone的基础上构建了一套身份验证系统,将人脸图像等身份信息转换为向量并存储在Pinecone向量数据库中,通过对Pinecone向量数据库的查询返回前三个最优匹配项,最后在后端进行查询以返回匹配结果。该系统的主要优势包含:(1)高实时性:能够迅速检索用户的相似自拍照,既能抓住并防止欺诈者,又不减缓合法新用户的验证速度;(2)优化支出:减少了10倍的重复注册,实现了资金的更有效管理;(3)高可扩展性:支持一次性处理数十亿个向量,支持长期内存需求,方便扩展并向数据集添加上下文(即自拍),拥有更多上下文信息的应用能够实现更快速准确的验证。推出身份验证系统后,端到端延迟从原来的20分钟降低至不到2秒,Pinecone的搜索时间也不到200毫秒,因此结合了向量数据库后,身份验证系统在实时性、可扩展性及成本方面有了显著改进。向量数据库高效、精准检索用户和商品数据,提升商品推荐准确度。电子商务公司CRITEO将向量数据库,应用于内容平台的个性化推荐功能中,有效匹配用户需求,提升商品推荐的精准度。向量数据库将用户的历史行为、画像和查询等特征转化为用户特征向量,并与商品向量结合,通过计算相似度找到与用户历史行为或兴趣相似的物品,生成个性化推荐。在应对一些小众的查询时,传统的查询方式可能无法精确召回文档,甚至出现与查询无关的结果,但通过向量检索,可以提前抽取商品和查询的特征,并进行向量的近似召回,有效匹配了用户需求,提升了商品推荐准确度。企业应用AI大模型的需求和数据隐私保护的要求共同保障了向量数据库在垂直应用类AI的应用前景。通过观察向量数据库在AI大模型各场景的应用,我们发现其不仅增强了AI大模型生成内容的精准性和及时性,还可以作为外挂知识库应用于垂直领域大模型的训练。随着以ChatGPT为代表的通用AI大模型产品的成熟,各行业用户基于通用AI大模型开发的智能化应用带来的降本增效的效果显著。通用AI大模型被各行业用户采用的意愿和需求大大增强。另一方面,数据安全防范和隐私保护在金融、医疗等行业的信息化和智能化升级中是必须考虑的前提。这一特点让我们看到向量数据库产品在垂直领域智能化升级过程中几乎是刚需。在各行业智能化升级过程中,向量数据库不仅可以将企业海量数据向量化后提升通用AI大模型应用的时效性和精准性,还可以保障企业隐私数据和信息不被通用AI大模型用作训练数据。我们认为,随着微软365Copilot以及ChatGPT企业版等标杆产品的落地,AI应用的发展正逐步由点扩散到面,各领域智能化升级的快速进展将大大增强向量数据库等相关产品的成长确定性。二、向量数据库处于商业化早期阶段,随各行业智能化升级而快速成长向量数据库作为新型技术,发展时间较短,开源和上云是目前的主流趋势。在向量数据库领域早期的探索,主要是以Zilliz、Weaviate和Pinecone等初创型公司引领。在AI大模型未被普遍应用之前,该产品的需求较少,因此,初创型公司开发的向量数据库产品多以开源的形式培育社区生态,以及上云的方式扩大用户覆盖面。随着向量数据库在AI大模型中应用的重要性逐渐被挖掘,各厂商加大了该领域的研发。以腾讯云、华为云和星环科技为代表的厂商在非结构化数据的向量检索工具已经具有一定技术积累的基础上,也于近期推出了向量数据库产品。(一)向量数据库技术快速迭代,商业化在探索和尝试阶段Zilliz是向量数据库领域的先驱。Zilliz公司成立于2017年,是行业中较早探索和研发针对非结构化数据的向量搜索引擎及相关工具。其开发的Milvus向量数据库产品于2019年10月开源,为业内公司在该领域技术的探索提供了丰富技术资源。从Milvus1.0即提供了相似性度量、ANN索引等核心算法以及支持分布式架构,升级到Milvus2.0支持多云架构部署、简易的操作查询界面以及数据编辑历史查询,Zilliz为向量数据库行业贡献了较多的核心技术,并引领开源社区的发展。目前Milvus应用的领域包括计算机视觉、自然语言处理、音频搜索和化学分子式分析等。Zilliz的向量数据库产品主要基于公有云提供SaaS服务,按资源使用量来收费。用户可根据业务场景,预估数据量和节点规模,选择免费版(适用于新手用户开发单一项目)、标准版(适用于少于5人的小团队)和企业版(适用于规模以上的企业)的向量数据库产品。免费版本的向量数据库主要是吸引更多用户尝试使用,为后续转化成为付费用户打好基础。标准版和企业版起步价分别为65美元/月、99美元/月,在使用时间范围内根据计算资源和存储资源的使用量来收费。目前Zilliz的向量数据库主要通过亚马逊AWS、谷歌云等公有云厂商来提供SaaS服务。此外,Zilliz根据客户定制化需求也提供虚拟私有云部署的SaaS服务供客户灵活选择。Weaviate积极拥抱开源、上云等主流技术趋势。Weaviate成立于2019年,早期主要的技术开发专注于向量化的能力,即将各类不同的数据转化成为向量数据。后续,Wearviate的向量数据库在多租户协同、检索效率等方面提升。Weaviate向量数据库产品也是采用开源的形式。2022年9月,用户下载量达到150万次的情况下,推出了WeaviateCloudServices,通过公有云的形式向用户提供向量数据库的能力。2023年10月,Weaviate1.22版本发布,物件式存储、异步向量检索等功能有一定提升。Weaviate的向量数据库产品根据Embedding数量和资源使用量来收费。Weaviate的向量数据库的收费方式分为两种:基于WeaviateCloud的SaaS服务;基于第三方公有云平台(谷歌云、亚马逊AWS和微软Azure)的SaaS服务。基于WeaviateCloud的SaaS服务分为标准版、企业版、商务专业版,起步价分别为25美元/月、135美元/月、450美元/月;在此模式下,用户根据存储在平台上的Embedding的数量来付费。Embedding的数量是有向量的维度和数据对象的数量共同决定。而在基于第三方公有云平台的SaaS收费模式中,用户根据计算资源(CPU数量)和存储资源(存储空间大小)的使用量来付费。Pinecone首创的混合搜索和存储功能,提升向量数据库性能效果显著。Pinecone在原始数据编码为向量数据的阶段采用多种编码方式,不同编码方式的向量数据在大模型的检索过程中有快慢之分。混合搜索引擎可以筛选出检索速度最快的向量嵌入方式作为结果反馈。而混合存储则是将原本在内存中存储的向量索引部分转移在磁盘上进行存储。2021年9月,Pinecone通过引入混合搜索和存储功能后,将向量检索的成本减少了10倍。我们认为Pinecone公司对于数据在AI大模型全周期中的流程优化方面较一般公司研究更为深入,已经有较深的技术积累,其开发的向量数据库发展前景向好。Pinecone在公有云环境中提供容器化的SaaS服务,按照容器的数量和容量收费。在公有云环境下,容器是融合了CPU、内存和硬盘等资源的基础单元,是实现云端资源弹性伸缩的关键。Pinecone在主流公有云平台(亚马逊AWS、谷歌云、微软Azure)上提供的向量数据库产品的收费价格根据容器类型、数量、容量以及云服务器平台决定。目前,Pinecone推出免费版(单一容器)、标准版和企业版的向量数据库产品。标准版和企业版的起步价分别为0.096美元/小时和0.144美元/小时。此外,Pinecone根据客户定制化需求也提供虚拟私有云部署的SaaS服务供客户灵活选择。星环科技的向量数据库产品满足AI大模型对于检索实时性、精准性和跨模态的需求。2023年5月,星环科技发布向量数据库产品TranswarpHippo。与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引、数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,有效地解决了AI大模型的知识时效性低、输入能力有限、准确度低等问题,让大模型更高效率地存储和读取知识库,降低训练和推理成本。我们预计,星环科技的向量数据库产品Hippo,作为AI大模型的基础软件工具,在各领域智能化的升级中是必备的软件基础设施。星环科技的Hippo向量数据库具备的优势如下:(1)高性能检索:Hippo支持多进程架构与GPU加速,可以充分发挥并行检索能力;同时支持多类索引,满足不同业务场景;支持检索速度和内存使用的特定优化,支持寄存器级算法优化。(2)多模型联合分析:基于多模型统一技术架构,向量数据与关系型数据、图数据、时序数据等多种模型数据进行统一存储管理,通过统一接口实现数据跨模型联合分析。(3)接口多样化:提供类SQL语法支持;提供标准的Python、Restful、JavaAPI。(4)分布式部署:具备分布式部署能力,满足大规模集群部署需求;通过Raft算法确保数据的强一致性;同时提供故障迁移,数据修复等数据保障能力。(5)云原生系统:Hippo采用全面容器化部署,支持服务的弹性扩缩容;同时具备多租户和强大的资源管控能力。(6)企业级安全:Hippo可提供基于SASL的用户认证能力,以及基于SSL/TLS的数据加密传输。星环科技的向量数据库产品快速迭代,针对不同场景,已推出多个版本。自2023年5月星环推出向量数据库Hippo1.0以来,星环科技持续投入,根据不同应用场景推出了三个版本的产品:社区版、存储密集版和高性能版。其中社区版Hippo仅需单台服务器即可安装部署,百万级向量数据量推荐配置仅需4核8G。面向存储需求较大的场景,存储密集版Hippo可支持单台服务器2000万条向量的存储;面向计算要求较高的场景,高性能版Hippo可支持单台服务器1000QPS(Queries-per-second)的数据反馈。我们认为,星环科技的向量数据库Hippo的应用覆盖面广泛,下沉到具体应用场景推出的标准化产品更加符合行业客户需求,未来发展前景看好。星环科技的向量数据库产品按照软件授权的模式收费。根据《关于星环信息科技(上海)股份有限公司向特定对象发行股票申请文件的审核问询函的回复》中的信息,向量数据库产品均价预测为15万元/套。我们认为,基于公有云的SaaS收费模式在中美之间存在一定差异,Hippo采用的软件授权一次性收费的模式更加符合我国较大比例的国企、央企以及金融机构的付费习惯。此外,由于Hippo是分布式的部署方式,下游客户或因数据量的增加而产生持续扩容的需求。因此,向量数据库产品的销售数量有望随着用户数据量的增长而增长。腾讯云基于多年积累的向量引擎技术,推出了向量数据库VectorDB。2023年7月,腾讯云发布自研向量数据库产品TencentCloudVectorDB。VectorDB是源自腾讯内部的赋能工具OLAMA向量引擎,在其基础上对于AI运算、检索方面进行升级而来。腾讯云向量数据库不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、计算机视觉、智能客服等AI领域。腾讯云向量数据库具备的产品优势如下:(1)高性能:自2023年7月份正式发布以来,VectorDB经过多次迭代升级,在优化版的IVF索引支持下,VectorDB单索引支持数据规模从2023年7月份的10亿级向量规模提升至2023年11月份的1000亿级向量规模。可支持百万级QPS及毫秒级查询延迟,让相同的内存可以存储5-10倍的数据。(2)高可用:向量数据库提供多副本高可用特性,其多可用区和三节点的架构可用性可达99.99%,显著提高系统的可靠性和容错性,确保数据库在面临节点故障和负载变化等挑战时仍能正常运行。(3)低成本:只需在管理控制台按照指引,简单操作几个步骤,即可快速创建向量数据库实例,全流程平台托管,无需进行任何安装、部署和运维操作,有效减少机器成本、运维成本和人力成本开销。(4)简单易用:支持丰富的向量检索能力。用户通过HTTPAPI或者SDK接口即可快速操作数据库,开发效率高。同时控制台提供了完善的数据管理和监控能力,操作简单便捷。(5)稳定可靠:向量数据库源自腾讯内部自研的向量检索引擎OLAMA,近40个业务线上稳定运行,日均处理的搜索请求高达千亿次,服务连续性、稳定性有保障。(6)Embedding功能:向量数据库的Embedding功能会自动将原始文本进行转换,生成对应的向量数据并插入数据库或进行相似性检索,实现了文本到向量数据的一体化转换,减少了用户的操作步骤,降低了使用门槛。VectorDB不仅对内赋能腾讯日常业务,还正式上线腾讯云。截止2023年11月,腾讯的向量数据库VectorDB已经累积服务了腾讯内部40多个业务,日请求量达1600亿次。其支撑QQ音乐人均听歌时长提升3.2%,QQ浏览器成本降低37.9%,腾讯视频有效曝光人均时长提升1.74%。此外,VectorDB对外服务了包括博世、销售易、搜狐、好未来、链家等在内的超过1000家外部客户。VectorDB于2023年10月26日正式进行全面公测,为用户提供三个版本的产品:免费测试版、单机版和高可用版。其中,免费测试版仅供快速测试使用;单机版适用于对高可用性和容错性要求不高的场景,如个人、小型企业或测试/开发环境;高可用版适合需要保证系统高可用性和容错性的大型企业或关键业务场景。腾讯云向量数据库已被多家企业使用。截止到2023年11月中旬,腾讯云向量数据库VectorDB已对外服务超过1000家客户,包括博世、销售易、搜狐、好未来、链家等。在CRM领域,存储了客户和企业各类信息的VectorDB可以准确高效的回答销售团队的各类问题,从而推动商机进展和获取客户;在电商领域,VectorDB应用于提升推荐、搜索、广告业务的推荐效果;在出行领域,VectorDB有效提升自动驾驶模型训练的效率;在教育领域,VectorDB可以快速、准确地检索与问题相关的题目及解析。腾讯结合公有云的技术和渠道优势,实现了VectorDB的快速推广,为后续商业化收费打好了坚实的客户基础。另一方面,VectorDB在短期内实现用户数量的快速增长,也反映了企业级客户对于向量数据库的需求是普遍存在于各行业中的。腾讯云向量数据库VectorDB目前面向公众免费测试,暂未定价。公测用户免费领用实例,免费测试版实例每个账号仅限申领1个,高可用版与单机版实例免费试用时长1个月。我们认为,免费版本的VectorDB主要是吸引大量用户尝试使用,为后续转化成为付费用户打好基础。VectorDB依据存储节点CPU与内存资源分配比例不同,分为存储型和计算型两类。(1)存储型:主要用于存储和管理大规模的向量数据,其主要优势在于:提供低查询延迟,能够高效地存储和管理向量数据,特别适用于数据量大、数据增长快、查询QPS相对较低的场景,例如:人脸识别、图像搜索等。(2)计算型:主要用于快速查找和检索向量数据,支持高并发的查询请求,其主要优势在于:提供更高的查询QPS和更低的查询延迟,适用于流量大、延迟敏感的场景,例如:实时推荐、广告投放等。腾讯云向量数据库基于CPU计算能力、内存大小及其存储能力,将节点规格划分为不同层级。节点类型不同,对应的产品规格有差异。参考海内外竞品的收费模式,我们判断,VectorDB的收费标准或与其产品性能以及消耗的计算和存储资源相关。华为云GaussDBVector向量数据库产品已对接盘古大模型。2023年9月,华为在全连接大会上发布了GaussDBVector向量数据库产品。GaussDB向量数据库具备千亿级大规模向量数据快速查询更新的能力,内置自研的ANN索引算法可以使得查询时延小于10ms。GaussDB向量数据库不仅可以用于多模态搜索、推荐、人脸识别、智能问答等,还与盘古大模型对接,为其提供缓存能力。目前,GaussDB向量数据库已上线华为云,用户根据CPU核数、内存大小和存储容量等资源选择按月或按年付费。我们认为,华为云在数据库领域技术积累深厚,包括盘古大模型在内的全套生态支撑能力为GaussDBVector产品竞争力及后续的商业化拓展提供了保障。向量数据库目前仍处于行业发展早期阶段。在技术方面,Zilliz和Weaviate将技术开源一方面推动了整体行业的进步,另一方面也缩小了行业内公司的技术差距。因此,早期开始技术探索的公司并未形成明显的技术壁垒和先发优势。在商业化方面,向量数据库行业还处于市场培育期,Zilliz、Pinecone和腾讯云VectorDB均推出免费版本的产品给用户试用,而基于公有云的SaaS服务和星环科技的社区版Hippo都尝试通过软件的轻量化及部署的便捷化来推广向量数据库产品。我们认为,向量数据库在AI大模型训练和推理过程中的实际效果得到用户充分认识后,产品拓展过程有望加速,各行业用户付费意愿有望提升。未来,向量数据库商业化的节奏取决于各行业客户使用AI大模型的实际需求以及其在AI大模型技术中应用的实际效果。(二)数据库厂商与云计算公司竞合关系的差异与变化中美公有云商业模式的接受程度有差异。美国SaaS公司起步早,市场培育时间较长,其软件上云率较高。自2000年初,Salesforce首创SaaS服务模式后,美国通过立法的方式保障用户隐私,防止信息泄露,为公有云服务提供了比较好的外部环境,经过二十多年的市场培育,企业用户对SaaS服务接受度较高。而国内的国企、央企以及金融机构的业务普遍涉及敏感数据,对数据安全具有较高要求,考虑数据安全的权重高于由于公有云部署带来的成本节省,选择上云的中小企业持续付费能力有限。这造成了我国应用级软件公有云上云率较低,SaaS服务渗透率较低。根据Latka的数据,2022年,美国SaaS公司数量为1.7万个,中国SaaS公司数量为702个。软件上云环境的差异导致中美开发向量数据库的公司类别有所差异。海外的云计算厂商专注于IaaS层算力资源利用的提升和优化,在其基础上的SaaS服务,采取部分自研,部分开放给第三方应用软件公司。因此,在海外开发向量数据库产品的公司以独立第三方(Pinecone、Weaviate和Zilliz)为主,而亚马逊AWS、微软Azure和谷歌云等海外的公有云平台积极引入其开发的向量数据库产品。而国内在SaaS付费模式接受度不高的环境下,以腾讯云和华为云为代表的云计算厂商更愿意选择开发标准化的向量数据库产品,对外开拓市场。因此,在国内云计算公司与独立第三方数据库公司相互竞争大于合作互补。接下来,我们分别分析独立第三方和云计算公司对于向量数据库产品的定位、商业化优劣势以及竞合关系的变化。1.独立第三方公司的向量数据库产品化和商业化能力是竞争的关键国内独立第三方公司的向量数据库产品或定位于以线下应用场景为主。一方面,在国内云计算公司与独立第三方数据库公司竞争大于合作,另一方面,在金融、医疗等领域智能化升级的过程中,向量数据库存在较大的线下部署的需求。从评估借贷风险到提供个性化的投资建议,金融领域存在较多的智能化需求,但相关数据涉及较多用户的隐私信息,如身份信息、资产信息和交易数据等。这类场景的智能化需求较难采用基于公有云的向量数据库服务,而更有可能采用线下部署的方式。因此,无论从竞争格局角度还是从下游需求角度,我们判断,相较于互联网场景,独立第三方公司的向量数据库产品在金融、医疗等线下部署的场景中更易推广。对于行业数据和需求理解深刻独立第三方公司在向量数据库商业拓展时更具优势。不同行业数据结构和组织方式不同,这导致向量数据库在数据导入、转换和向量化阶段的算法应根据不同行业属性而调整优化。其次,行业客户对于AI大模型生成内容的要求和需求不尽相同,向量检索算法在训练和推理阶段在不同行业也有一定优化提升的空间。从这一角度来看,对行业数据特点理解深刻且对用户需求具有洞察力的公司开发的向量数据库在部分行业具有一定优势,典型如星环科技在金融行业深耕多年所具备的优势。向量数据库处于产品化和商业化的早期阶段,配合标准化产品的技术服务是关键。向量数据库发展时间较短,相应功能难以广泛满足各行业需求,在商业化落地过程中难免会遇到无法满足客户定制化需求的情况。在这种情形下,配合标准化产品的技术服务的及时性和专业性将是向量数据库公司新客拓展、老客留存的关键。我们认为,具有成规模且专业性强的技术支持团队的公司在向量数据库商业化落地过程中更具优势。相较于初创型的公司,星环科技已拥有410人的技术支持团队(截至2022年12月底),对于新产品的市场推广、商业化策略制定以及客户沟通方面已经具有丰富经验,基于此,我们看好星环科技向量数据库产品Hippo未来的商业化前景。轻量化和免费版本的向量数据库产品对于市场需求培育有正向推动。现阶段,向量数据库还处于市场培育期,下游用户对于产品的功能与应用有一定认知差距,因此部分向量数据库公司提供的免费版或轻量化的产品有利于激发下游用户需求。在公有云的环境下,包括Zilliz、Pincone在内的向量数据库公司提供免费版的向量数据库服务,可有效吸引用户使用,为后续转化成为付费用户打好基础。而星环科技在9月份推出的向量数据库社区版,仅需单台服务器即可安装部署,百万级向量数据量推荐配置仅需4核8G。我们认为,免费版和轻量化产品的推广一方面有利于推动向量数据库在各行业快速渗透,但另一方面也需注意产品天然特性确定的应用边界,即向量数据库主要面向有智能化需求的企业级用户和开发者,而非普通的终端消费者。独立第三方将向量数据库技术开源或降低
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食品配送车驾驶员劳动合同样本
- 高速公路服务区防火门施工合同
- 机场航站楼砌砖施工合同
- 2025车辆保管合同书模板
- 2025技术服务合同范本4
- 2025清洁工劳动合同样本下载
- 2024年兽用生物制品项目投资申请报告
- 2024年特种功能焊接材料项目投资申请报告代可行性研究报告
- 2024年建筑用天然石料项目资金需求报告
- 搅拌站消防安全管理制度
- 苏科版初中初一数学下册《幂的运算》说课稿
- 清热泻火药-黄芩、黄连、黄柏(方剂学课件)
- 【老年糖尿病患者夜间易发低血糖的原因及预防措施分析报告(论文)4600字】
- 居家养老服务组织(社区居家养老服务课件)
- 面试评估表及评分标准及面试评估表及评估标准
- 消防安全重点单位规范化管理手册
- 年产10吨功能益生菌冻干粉的工厂设计改
- 热电厂机组A级检修策划书
- 浙教版数学八年级下册全册优质课件
- 国家开放大学《高等数学基础》形考任务1-4参考答案
- 食品营养学(华东理工大学)智慧树知到答案章节测试2023年
评论
0/150
提交评论