通信行业深度：开源竞速AI大模型的“Linux时刻”降临

上传人：策*** IP属地：山西上传时间：2023-05-31 格式：DOCX 页数：48 大小：811.22KB 积分：19.9 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

证券研究报告|行业深度(维持)行业走势64%48%32%(维持)行业走势64%48%32%16%0%-16%Alpaca、Vicuna、Koala等多个大模型诞生，它们以远低于ChatGPT的模型规模和成本，实现了令人瞩目的性能，引发业内人士担忧“谷歌和OpenAI都没有护城河，大模型门槛正被开源踏破，不合作就会被取代”。资本市场也在关注大模型未来竞争格局如何，模型小了是否不再需要大量算力，数据在其中又扮演了什么角色？……本报告试图分析这波开源大语言模型风潮的共同点，回顾开源标杆Linux的发展史，回答这些问题。2022-052022-092023-012022-052022-092023-012023-05务变现。曾上市、后被IBM收购的Linux企业服务公司红帽即是一例。企业为了更稳定和及时的技术支持，愿意付费。2、靠授权费变现。安卓开源，但谷歌向欧盟使用安卓谷歌套件的厂商收取许可费即是一例。3、许可证、标准和能力评价体系的发展，是开源大模型商用程度深化的催化剂。这波开源大模型采用的许可证协议主要是Apache2.0和MIT，它们不禁止商用，并且不禁止用户修改模型后闭源，这有助于公司应用此类大模型。作者析师宋嘉吉作者析师宋嘉吉师孙爽相关研究大模型的参数量普遍在十亿至百亿级别。目前尚没有一套系统的大模型性能评价体系，其中仅部分任务有公信力较强的评分标准。开源大模型中，Vicuna的能力也较强，在部分任务能达到92%GPT4的效果。总体来说，OpenAIGPT系仍一骑绝尘，但训练成本高，难复现。而开源大模型借助更大标识符训练数据集、DeepSpeed、RLHF等方式，实现低训练成本和高性能，超大模型以下大模型的壁垒正在消失。果大幅提升的重要因素是使用了RLHF(基于人类反馈的强化学习)，即在训练中，使用人类生成的答案和对AI生成内容的排序，来让AI“对齐”人类偏好。LLaMA没有使用指令微调，但LLaMA之后的大量大模型使用并开源了指令数据集，并且逐步探索自建指令数据集，而非使用有商用限制的OpenAI的，进一步降低了复现GPT的门槛，扩展了商用可用性。接下来怎么看开源大模型？站在开源大模型浪潮中，我们注意到两个趋势：1)与多模态融合，清华大学的VisualGLM-6B即是著名开源语言模型ChatGLM的多模态升级版，我们认为，其可基于消费级显卡在本地部署的特性是大势所趋。2)开源模型+边缘计算推动AI商用落地，哈尔滨大学的中文医疗问诊模型“华驼”以及在跨境电商的使用就是案例。OpenAI的GPT系超大模型仍然超越众开源大模型，因此，应当重点关注与其在股权和产品上深度合作的微软、能获得ChatGPTiosApp收益分成的苹果，以及超大模型的算力服务商英伟达等；2、中长期来看，如果部分开源大模型能力被进一步验证，则应用将快速铺开，大模型对算力将形成正循环；3、其他：边缘算力、大数据公司和开源大模型服务商业态也IDC服务商：龙宇股份、网宿科技；3)光模块服务商：中际旭创、新易盛、天孚通信、源杰科技；4)传统的IoT通信芯片厂商：有望受益行业上行过程。建议关注：中兴通讯、工业富联、翱捷科技、初灵信息；5)应用端标的：恺英网络、神州泰岳、佳讯飞鸿、中科金财等。风险提示：伦理风险、市场竞争风险、政策法律监管风险。请仔细阅读本报告末页声明P.2请仔细阅读本报告末页声明 AI 4 1.2.2Dolly2.0、RedPajama、StableLM等：商用化程度高 51.2.3中文双子星：ChatGLM-6B和MOSS 5 2.1为什么要开源？ 7大公司垄断，破除商业禁用限制 72.1.2数据视角：保护企业机密，使定制化数据训练成为可能 72.1.3算力视角：降低算力成本，使大模型的使用“普惠化” 72.2开源，需要什么土壤？ 72.2.1从开源标杆Linux说开去 72.2.2Linux并非一己之作，借力于社区深厚的开源历史 8 2.3.1红帽公司(RedHat)：服务至上 102.3.2安卓系统(Android)：背靠谷歌，靠广告变现 102.4开源大模型主流许可证支持商用 113共同点二：开源大模型参数少、小型化 123.1超大模型和大模型分别多大？ 123.2GPT系超大模型能力最强，但难复现 12 3.2.2ZenoBuild测评：较新，较全面 143.2.3C-Eval：全面的中文基础模型评估套件 14GPT 153.3开源大模型性价比高，超大模型以下大模型的壁垒正在消失 154共同点三：开源大模型数据集重视人类指令，并自立门户 17T 数据集走向商用 184.2.1预训练数据集少量可商用 184.2.2指令数据集部分可商用 18 5.1多模态化：助力通用人工智能(AGI)发展 205.1.1ImageBind闪亮登场，用图像打通6种模态 205.1.2开源大模型的多模态探索集中于图片，但进展飞快 205.2专业化：下游生态发力，针对特定任务微调模型 22 AI 模型带动应用风起，算力需求狂飙 246.2.1超大模型对算力的需求将保持高增长 246.2.2开源大模型的快速追赶也将利好算力 246.2.3催化剂：开源大模型许可证、标准和能力评价体系的发展 24a P.3请仔细阅读本报告末页声明6.4.1边缘算力+开源模型：AI应用的落地加速器 256.4.2大数据公司：看好“开源大模型＋自有海量数据”组合 25 6.4.4苹果：获得ChatGPTApp收入分成 25 inuxUnix 2023年5月9日) 10 图表9：部分大模型的参数量 13 PT GPT量 14 图表22：华驼大模型sus评分实验结果 23P.4请仔细阅读本报告末页声明发了公众对开源大语言模型的强烈关注。A向了高潮，资本市场也在关注大公司闭源超大模型和开源大模型谁能赢得竞争，在“模工程师发文阐述对大模型竞争格局的担忧资料来源：Bloomberg、SemiAnalysis，国盛证券研究所1.2开源大模型集中出现，堪称风潮LLaMA亿/130亿/330亿/650亿)，不支持商用，指令数P.5请仔细阅读本报告末页声明模型发展树状图资料来源：《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》，国盛证券研究所RedPajamaStableLM度较高。P.6请仔细阅读本报告末页声明图表3：部分开源大模型概况模型名称推出团队发布时间训练数据集规模指令数据集规模4亿Assistant2023.4.17练万亿 (Pythia)AlpAlpaca坦福大学3亿版开发ChatGLM-6B清华大学2023.3.1462亿未开源无ll.3.29版Vicuna加州伯克利大学0版加州伯克利大学023.4.3版Dolly2.0Databricks2023.4.12120亿/1.5万对2023.4.17模型StableLMyAI2023.4.19版仍在开发)300亿(与nAssistant合作基于练)资料来源：LLaMA、OpenAssistant、Alpaca、ChatGLM-6B、GPT4ALL、Vicuna、Koala、Dolly2.0、RedPajama、StableLM、MOSS、HuggingChat模CRFM、HazyResearch和MILAQuébecAIInstitute等；[3]GPT4All-J模型在GPT4All基础上将指令数据集扩充到80万对数据量，扩充的数据量包括多回合问答样本、诗歌、说唱以及短篇小说等创造性写作样本。P.7请仔细阅读本报告末页声明2.1为什么要开源？。2.1.1模型视角：防止大公司垄断，破除商业禁用限制源大模型的蓬勃发展有望促进以上目标。2.1.2数据视角：保护企业机密，使定制化数据训练成为可能护企业数据隐私。同时，开源大模型允许企业的开发人员在模型的基础上进行定制化开2.1.3算力视角：降低算力成本，使大模型的使用“普惠化”模型主要节省了企业预训练阶段的算力。但由于不同垂类的训练场景更加丰富，所以整体训练需求是增长的。理成本。2.2开源，需要什么土壤？Linux是一款基于GNU通用公共许可证(GPL)发布的免费开源操作系统。所有人都的Linux内核专用发行版)P.8请仔细阅读本报告末页声明uxs图表4：2021年，中国服务器操作系统市场，Linux装机量市占率远超Unix%Linux于社区深厚的开源历史存储空间)的软件，它位于应用与硬件之间，负责在所有软件与相关的物理资源之间建xATT授相容的作业系统，以避免版权上的争议。他以小型UNIX(mini-UNIX)之意，将它称为P.9请仔细阅读本报告末页声明➢开源社区、许可证与标准助力LinuxLinux的帖子资料来源：comp.os.minix，国盛证券研究所许可证助力生态开枝散叶、生生不息。Linux基于GNUGPL许可证(GNU’sNotUnixGeneralPublicLicense，革奴计划通用公共许可证)模式。GPL许可证赋予“自由软件”赋予用户的四种自由，或称“Copyleft(公共版权)”：代码是此项自由的前提。Linux“形OperatingSystemInterface式操作系统接口)标准修改了Linux，这使得P.10请仔细阅读本报告末页声明2.3.1红帽公司(RedHat)：服务至上帽公司，红帽作为公司的商业价值巨大。1993年，红帽成立，1999年，红帽即在纳斯r实时内核修补、安全标准认证等安全防护功能；6、检测性能异常、构建系统性能综图表6：红帽公司的部分产品及其定价(截至2023年5月9日)2.3.2安卓系统(Android)：背靠谷歌，靠广告变现源代码，使生产商可以快速推出搭载安卓的智能手机，这加速了安卓的普及。应用商店、搜索、谷歌邮箱(Gmail)……因此，尽管安卓免费、开源，但谷歌仍能通过P.11请仔细阅读本报告末页声明手机、平板电脑的欧盟厂商使用谷歌应用程序套件，必须向谷歌支付许可费，每台设备2.4开源大模型主流许可证支持商用具体情况，授予公务员、社会团体成员、学术人员和行业研究实验室，访问该模型的权acheMITAlpacaVicunaDolly许可证资料来源：，国盛证券研究所P.12请仔细阅读本报告末页声明前，将语言模型在大量文本语料库上训练，为模型赋予基本的语言理解能力。在预训练T子中的前面单词预测下一个单词。预训练模型通常包括大量的参数和对应的预训练数据(通常用标识符即Token的数量衡merNLPP图表8：大模型训练和推理的一般流程资料来源：《GenerativePre-TrainedTransformerforDesignConceptGeneration:AnExploration》，国盛证券研究所述了神经元之间连接强度的可调值。目前一般大语言模型参数量在几十到几百亿之间，GPT现同的应用场景和任务可能需要不同的指标和方法去评估模型的表现。其中部分任务可能EU是大模型在预训练后就具有较好通用性和稳定性。例如，谷歌团队的超大模型PaLM(5400亿参数)，在零样本和少量样本测试中均有良好的成绩(详见下图)，并且随着其P.13请仔细阅读本报告末页声明图表9：部分大模型的参数量资料来源：Nature，国盛证券研究所图表10：PaLM模型与先前模型最先进结果(SOTA)在多项任务中比较结果资料来源：《PaLM:ScalingLanguageModelingwithPathways》，国盛证券研究所大的能力和广泛的应用，在处理自然语言任务时具有高准确性和强大的表达能力，其在文本生成、问答系统、机器翻译等多个领域都取得了出色效果，成为了当前自然语言处T图表11：开源大模型与OpenAIGPT系大模型能力对比模型名称AlpacaacaBVicunal对于基准真相(GroundTruth)的模型困惑度*表现不如GPT4。AssistantAlpacaVicunaKoalaGPTallOpenAssistant越好。P.14请仔细阅读本报告末页声明段。在对性能进行评人瞩目。图表12：由GPT-4评估的回答质量资料来源：，国盛证券研究所uild (gpt-3.5-turbo)七个模型测评，结果与GPT-4评价结果相近。ChatGPT有明显优势，oBuild资料来源：ZenoChatbotReport，国盛证券研究所3.2.3C-Eval：全面的中文基础模型评估套件P.15请仔细阅读本报告末页声明图表14：C-Eval评估结果资料来源：C-EVAL:AMulti-LevelMulti-DisciplineChineseEvaluationSuiteforFoundationModels，国盛证券研究所GPT型训练成本高，短期内难复现AA高。3.3开源大模型性价比高，超大模型以下大模型的壁垒正在消失P.16请仔细阅读本报告末页声明部分开源大模型微调成本模型名称指令数据集大小(万对)微调成本(美元)微调芯片微调时间AlpacaxAVicuna7xAxAllxATallJxA资料来源：Alpaca、Vicuna、Koala、GPT4ALL、GPT4ALL-J模型官网，国盛证券研究所aMALanguageModels言模型)》向我们揭示了模型大小和训练数据规模之间的关系：也应该随之翻一倍。➢RLHF(基于人类反馈的强化学习)：可以以较小的标识符训练量提高模型的性能和图表16：Chinchilla五样本大型多任务语言理解测试结果资料来源：TrainingCompute-OptimalLargeLanguageModels，国盛证券研究所P.17请仔细阅读本报告末页声明”正相关。T定任务数据集，进一步小规模训练。微调可以以较小的算力代价，使模型更加适应特定集逐渐成为开源大模型的标配。果。RLHF(基于人类反馈的强化学习)是ChatGPT早期版本GPT3所不具备度上的效果。RLHF(基于人类反馈的强化学习)分为三个步骤：1)监督微调(SFT)：让标注员回答TRLHF资料来源：OpenAI官网，国盛证券研究所对于具有大量数据和一定算力的公司来说，使用自己的数据进行微调可以展现出模型的P.18请仔细阅读本报告末页声明。4.2数据集走向商用数据集是语言模型发展的重要基础和支撑，通常是由公司或组织自主收集、整理或直接4.2.1预训练数据集少量可商用涌现，但很快大家便发现由于LLaMA和OpenAI的限制，基于其开发的模型无法商用决这个难题，我们开始寻找方法来创建一个新的，未被“污染”的数据集以用于商业用：部分开源大模型的预训练模型开源与商用情况预训练数据集是否开源模型是否可商用××Alpaca××ll××Vicuna××××√√√√√√资料来源：LLaMA、Alpaca、GPT4ALL、Vicuna、Koala、Dolly2.0、RedPajama、MOSS模型官网，国盛证券研究所4.2.2指令数据集部分可商用打造开源生态，各取所需。在早期开源项目中，因其指令数据及多来自ChatGPT生成指令数据集来绕开这一限制。模型的更迭与发展。P.19请仔细阅读本报告末页声明部分开源大模型指令数据集的开源与商用情况ssistantAlpacaGLMBllVVicunaM指令数据集是否基××√××√√√√×××√√×××指令数据集能否商用√√×××××√√√××√HuggingChat网，国盛证券研究所P.20请仔细阅读本报告末页声明5.1多模态化：助力通用人工智能(AGI)发展态即图像、声音、文字等多种模态的融合。多模态模型基于机器学习技术，能够处理和包括图像(图片/视频)、温度(红外图像)、文本、音频、深度信息(3D)、动作捕捉传b振信号等模态。从技术上讲，ImageBind利用网络数据(如图像、文本)，并将其与自然存在的配对数据(如音频、深度信息等)相结合，以学习单个联合嵌入空间，使得ImageBind隐式地将文本嵌入与其他模态对齐，从而在没有显式语义或文本配对的情况下，能在这些模态上实现零样本识别功能。图表20：ImageBind典型实例展示资料来源：《ImageBind:OneEmbeddingSpaceToBindThemAll》，国盛证券研究所P.21请仔细阅读本报告末页声明➢VisualGLM-6B：可在消费级显卡上本地部署持图像、中文和英文，由清华大学知识工程和数据挖掘小组发布。是人类偏好的答案。是拥有游戏笔记本的用户也可以快速且私密地部署这个模型，这在此类大小的Diffuser进行了一些多模态的探索。之间的相互转化。◼团队：由威斯康星大学麦迪逊分校，微软研究院和哥伦比亚大学共同出品的言理解。析理解场景。P.22请仔细阅读本报告末页声明过官方的邀请，要么需要升级到付费账号。但即使付费，一些地区也无法进行觉信息与先进的大语言模型结合。na调优，可以执行各种复杂的语言任务。上传一张商品效果图，即可获得一篇带货文案；手绘一个网页，即可得到对应提高。下游生态的蓬勃生长提供了绝佳机会，在细分产业的开发下，大模型开训练模型微调的下游专业化模型开始浮现，例如医疗问诊领域中的华驼。成一些更为可靠的医学知识回答。在生物医学领域，已发布的大语言模型模型域回答问题的准确性，研究人员通过从中文医学知识图谱CMeKG中提取相关的医确保模型回答问题的事实正确性。P.23请仔细阅读本报告末页声明图表21：医学知识图谱CMeKG片段示例资料来源：HuaTuo(华驼):TuningLLaMAModelwithChineseMedicalKnowledge，国盛证券研究所时没有太多地牺牲安全性。图表22：华驼大模型sus评分实验结果资料来源：《HuaTuo(华驼):TuningLLaMAModelwithChineseMedicalKnowledge》，国盛证券研究所华驼或将是未来开源大模型下游的特定任务模型发展的范式，即采用低参数体量的小型P.24请仔细阅读本报告末页声明大模型的发展影响深远，本报告选取其中部分可能受益的方向，提请市场关注。I算力服务是开源大模型浪潮中受益确定性较强的方向，在软硬件一体化方面具有明显的6.2.1超大模型对算力的需求将保持高增长将持续增多。6.2.2开源大模型的快速追赶也将利好算力短期内，市场对开源大模型持观望态度。开源大模型在通用性上表现较差，短时间内无大型模型抗衡，加之目前难以系统评价模型的具体性能，市场对开源大模型持观望大生P.25请仔细阅读本报告末页声明服务在终端客户的曝光度。6.4其他隐私和安全。品种。建议关注美格智能、广和通。。6.4.2大数据公司：看好“开源大模型+自有海量数据”组合可商用模型，性价比较高。这可以提高模型的准确性和适用性，也能够大大缩短模型训6.4.3开源大模型服务商：服务至上P.26请仔细阅读本报告末页声明提示伦理风险：人工智能与人交互过程中，可能出现伦理风险。据保护和知识产权保护方面出现大量纠纷。P.27请仔细阅读本报告末页声明免责声明国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料，但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断，可能会随时调整。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态，对本报告所含信息可在

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

通信行业深度：开源竞速AI大模型的“Linux时刻”降临

文档简介

温馨提示

最新文档

评论

通信行业深度：开源竞速AI大模型的“Linux时刻”降临

文档简介

温馨提示

最新文档

评论

相关文档