2023年中国大模型评测（一）：行研创作新范式 -头豹

上传人：1*** IP属地：山西上传时间：2024-04-14 格式：DOCX 页数：38 大小：1.29MB 积分：19.9 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2023年中国大模型评测（一）行研创作新范式报告提供的任何内容（包括但不限于数据、文字、图表、图像等）均系头豹研究院独有的高度机密性文件（在报编、汇编本报告内容，若有违反上述约定的行为发生，头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标，头豹研究院无任何前述名称之头豹是国内领先的行企研究原创内容平台和创新的数字化研究服务提供商。头豹在中国已布局3大研究院，拥有近百名资深分析师，头豹科创网(www.leadleoliver.yuan@Leadleo.ccharles.chang@Leadleo头豹研究院结合大模型基础核心能力，归总出对于行业结合大模型基础核心能力，归总出对于行业报告撰写能力是沙利文及头豹行企研究的全面系统的研究方法论，专用于行业的深入分析。结合详实的数据和精准的分析，显著提讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋，例如紫东在行业特征的和产业链分析细分维度表现优秀。领先幅度较大。排名靠后的模型虽综合评分低，但细分模块表现优异，例如智谱清言和其中商量整体表现稳定且领先，而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多在报告撰写能力评测中，商量整体表现稳讯飞在分类任务中表现佳，天工在多个领域表现优秀但产业链不足。GPT3.5因信息库旧而在竞争和市场方面失分。智谱清言和通义千问整体稳定，各有突出领域。百川在政策方面波动大，紫东太初和雅意表现相似但在特定模块有所不足。Minimax在多数模块略高于均分，但在某些重要领域GPT3.5、以及文心一言3.5表现稳定性GPT3.5和文心一言3.5表现稳定，各自在不同方面领先。GPT3.5在逻辑推理上领先，商汤商量擅长文字生成和语境转换，文心一言3.5优于意图理解。天工、智谱清言和百川波动性大，表现不均。讯飞星火、腾讯混元和Minimax表现平稳但有波动，特别是Minimax在文字生成上表现较弱。通义千问、紫东太初和雅意整体较弱，特别是在逻辑推理和意图理解上，显示出与领先模型在参数量和微调方面的差距。34页页1122了解中国语言大模型的发展演变以及竞争态势，通过对大模型进行深度评测来梳理•报告撰写能力：中国语言大模型在行企研究报告的撰写能力几何？在竞争格局、市场规模、产业链分析等高难度模块的竞争表现如何？•模型基础能力：中国语言大模型的逻辑推导能力、类比迁移能力等基础能力表头豹LeadLeo55Chapter1大模型报告撰写能力评测结果在报告撰写能力板块的表现中，商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋，例如紫东在行业特征的归纳总结能力较强，Minimax则在发展历程和产业链分析细分维度表现优秀在报告撰写评测中，不同平台表现存在显著差异。例如，商量凭借其稳定性和在关键模块的领先优势显著。而GPT3.5和百川因信息库更新不足及答案完整性与准确性问题，在高权重模块中失分较多行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低，重点聚集在信息搜集的准确度。在低难度撰写模块中，12大模型没有显著的差距，但部分模型由于在特定模块中无法回答，因此失分严重商汤商量、讯飞星火以及文心一言3.5是模型报告撰写能力排名前三甲。在报告撰写的细分模块中，行业定义和分类的平均得分较高，撰写难度相对较低。产业链、竞争格局和市场规模得分较低，撰写难度大6排名模型名称总得分发展历程产业链市场规模发展历程产业链市场规模政策分析行业特征竞争格局1商汤商量8.272讯飞星火8.103文心一言3.58.084天工7.585GPT3.57.586腾讯混元7.587智谱清言7.448百川7.389通义千问7.34紫东太初7.33Minimax7.26雅意7.23得分高得分低报告撰写能力由模型在定义、分类、行业特征、发展历程、产业链、市场规模、政策分析以及竞争格局8D模块的表现综合评定而成.模型在报告撰写评测的表现中，商量、讯飞星火、以及文心一言3.5是表现TOP3的模型，其中商汤商量在8D模块均表现强劲，讯飞星火在高难度撰写板块展现一定实力根据大模型报告撰写能力综合热力矩阵图可以看出商汤商量是综合能力最强的模型，且在各个板块的表现稳定处在前列位置。讯飞星火虽在发展历程失分较为严重，但在市场规模、政策分析以及竞争格局的高难度撰写板块中表现强劲。来源：沙利文、头豹研究院7•在报告撰写评测中，不同平台表4.5产业链定义发展历程分类竞争格局市场规模特征政策分析商汤商量讯飞星火文心一言天工GPT3.5(参考模型）腾讯混元智谱通义千问紫东太初Minimax中科闻歌.在报告撰写评测中，各平台表现各异，其中商量整体表现稳定且领先，而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多在报告撰写能力评测中，商量的整体表现稳定，在8D模块中均超过均分，领先于其他。文心一言3.5和星火表现出波动，例如讯飞在发展历程和竞争格局低于均分，但在分类任务中表现最佳。天工在发展历程、市场规模和定义方面表现优秀，但在产业链方面略显不足。GPT3.5在竞争格局和市场规模中失分较多，主要因为其信息库较旧，无法提供有效价值信息，影响了其在报告撰写的综合表现。智谱清言和通义千问的综合表现稳定，在8D各模块中与均分相近，其中智谱清言在政策分析方面表现优异，通义千问在特征环节表现突出。百川的表现波动较大，尤其是在政策模块由于无法给出答案，导致失分严重，影响了整体均分。紫东太初和雅意的表现相似，除在特征和政策分析模块外，其他分值走势几乎一致。Minimax在8D模块中五项略高于均分，但在产业链和竞争格局这两个高权重模块中失分严重。来源：沙利文、头豹研究院8产业链分析产业链分析••产业链分析是8D模块中最具挑战性和权重最高的部分，考验大模型在.产业链分析作为8D模块中最具挑战性且权重最高的部分，考验着大模型在定义行业、信息检索和价值挖掘方面的综合能力，其中商汤商量、文心一言3.5和讯飞星火因其优秀的知识储备和逻辑推理能力在这一模块中表现突出产业链分析是高阶难度撰写模块之一，权重在评测分数中占到了17.5%，是8D模块中评测得分权重最大的模块。其复杂性源于需要大模型在三个关键维度进行深入的信息处理：首先是对特定行业产业链的上中下游及其参与者的精确界定；其次是在确认主体后，筛选出与各环节相关的关键信息；最后是对收集到的信息进行深度加工，探索产业链的价值流向和影响力，以提炼出对该行业宏观层面的关键见解。这一系列步骤要求模型具备高度的信息检索和逻辑归纳能力，且随着过程的深入，难度逐渐增大。大模型在产业链分析表现均分为5.8分，是8D模块的第二低分，侧面反映了其内容产出的难度。其中，商汤商量、文心一言3.5、百川、雅意、讯飞星火以及GPT3.5是表现优异的模型，综合表现高于均分。商汤商量、文心一言3.5以及讯飞星火得益于其优秀的知识储备能力以及逻辑推理归纳能力，在这一模块表现优秀。来源：沙利文、头豹研究院.模型在低难度报告撰写模块的表现中，商汤商量和讯飞星火表现最为优秀，在四个模块的评测得分均显著高于均分行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低，这四大模块重点落在信息搜集的准确度，对归纳推理的整体要求较低，更多考察模型的知识库丰富性以及把握信息准确性的能力。在低难度撰写模块中，12大模型整体的表现较为平均，模型之间没有显著的差距。但部分模型在发展历程和政策分析模块中无法给出明确的答案，从而导致失分情况严重，对最终均分影响较大。来源：沙利文、头豹研究院9产业链分析来源：沙利文、头豹研究院产业链分析产业链分析Chapter2大模型行研基础能力测评结果大模型在行研基础能力的表现差异显著，商汤商量、GPT3.5以及文心一言3.5占据前三甲，领先幅度较大。排名靠后的模型虽综合评分低，但细分模块表现优异，例如智谱清言和百川在意图理解能力高于均分在行研基础能力评测中，GPT3.5、商汤商量和文心一言3.5稳定领先，展现出各自在逻辑推理、文字生成和意图理解的强项，而其他模型如天工、智谱清言等表现波动，模型底层能力还有待改善商汤商量、GPT3.5以及文心一言3.5位列行研基础能力排名前三甲。这三大模型的内容输出专业准确，观点结构化，且在知识储备和快速高质量的文字生成方面尤其突出，在行研基础能力的综合表现优异•大模型在行研基础能力的表现差排名模型名称总得分类比迁移逻辑推理文字生成意图理解语境转换知识储备123456779商汤商量GPT3.5文心一言3.5讯飞星火腾讯混元Minimax天工智谱清言百川通义千问紫东太初雅意8.177.927.837.336.756.676.586.586.426.336.176.08得分高得分低模型基础能力由模型在类比迁移、逻辑推理、文字生成、意图理解、语境转换、知识储备六大问题经过基础题库测试与报告撰写的分析师评测综合评定而成.模型在基础能力评测的表现中，商汤商量、GPT3.5、以及文心一言3.5占据前三甲根据大模型基础能力综合热力矩阵图可以看出表现TOP3的模型分别为商汤商量、GPT3.5以及文心一言3.5。其中，商汤商量在语境转换和知识储备板块排名第一，讯飞星火则在逻辑推理和文字生成部分达到第一。值得关注的其它模型中，排名第8的智谱清言在意图理解的能力最强。而天工在长文本生成和生成速度方便较为优秀。来源：沙利文、头豹研究院展现出各自在逻辑推理、文字生成和意图理解12.012.011.010.09.08.07.06.05.04.03.02.0类比迁移逻辑推理文字生成意图理解语境转换知识储备商汤商量GPT3.5文心一言讯飞星火腾讯混元Minimax天工智谱清言百川通义千问紫东太初中科闻歌.模型在行研基础能力评测维度中，商汤商量、GPT3.5、以及文心一言3.5表现稳定性强，在单一模块能力各有领先在行研基础能力评测中，商汤商量、GPT3.5和文心一言3.5三大领先模型发挥最为稳定。其中，GPT3.5在逻辑推理能力上排名领先，商汤商量在文字生成和语境转换方面表现良好，而文心一言3.5则在意图理解方面领先于其他模型；天工、智谱清言和百川的表现高度波动，如智谱清言在文字生成方面接近满分，但在意图理解和逻辑推理上远低于均分。这种高波动性表明这些模型在实际使用中可能影响行研任务的整体效果。讯飞星火、腾讯混元以及Minimax在行研基础能力的表现较为平稳，但存在一定波动性。例如，Minimax虽在类比迁移和知识储备方面展示了其强大的实力，但在文字生成表现伐善，排名垫底。通义千问、紫东太初和雅意整体表现较弱，在逻辑推理和意图理解等高维模块能力上较弱，但这也反映出它们在模型参数量和微调方面与领先模型存在差距。来源：沙利文、头豹研究院••类比迁移能力是将复杂概念与熟悉情境相联系，简化了认知过程，使得在行业研究中理解和记忆这些概念变得更加清晰和高效。在类比迁.类比迁移简化了复杂概念的理解与记忆，通过将其与熟悉情境联系，能够提升行业研究的效率。在类比迁移的能力评估中，智谱清言、Minimax和GPT-3.5表现最佳类比迁移的定义是从一个领域或情境提取并应用概念、原则或模式至另一不同领域或情境的过程，在行业研究中对理解复杂概念发挥着关键作用。它通过将抽象或难以把握的概念与熟悉的情境相联系，简化了认知过程。例如，在金融领域，利用水流的类比来阐释资金流动的机制；在技术领域，则可通过类比电路来解释数据传输原理。这种方法不仅促进了新旧知识间的联系，还加深了对复杂概念的理解和记忆，因为它触动了对已知概念的认知和情感共鸣。在12大模型的类比迁移能力评估中，智谱清言、Minimax和GPT-3.5在内容的清晰度、易理解性和结构化方面位居前三，而商汤商量、天工和雅意则表现出超越平均水平的性能。这些领先模型在类比迁移任务上的优异表现，使读者能够以最小的努力和时间理解复杂概念的核心原理。来源：沙利文、头豹研究院科大讯飞：讯飞星火腾讯：混元来源：沙利文、头豹研究院来源：沙利文、头豹研究院头豹研究院布局中国市场，深入研究19大行业，持续跟踪532个垂直行业的市场变化，已沉淀超过100万行业研究价值数据元素，完成超过1万个独立的研究咨询项研究院依托中国活跃的经济环境，研究内容覆盖整个行业的发展周期，伴随着行业中企业的创立，发展，扩张，到企业走向上市及上市后的成熟期，研究院的各行业研究员探索和评估行业中多变的产业模式，企业的商业模研究院融合传统与新型的研究方法，采用自主研发的算法，结合行业交叉的大数据，以多元化的调研方法，挖掘定量数据背后的逻辑，分析定性内容背后的观点，客观和真实地阐述行业的现状，前瞻性地预测行业未来的发展趋势，在研究院的每一份研究报告中，完整地呈现行业的过去，现在和未来。研究院密切关注行业发展最新动向，报告内容及数据会随着行业发展、技术革新、竞争格局变化、研究院秉承匠心研究，砥砺前行的宗旨，

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2023年中国大模型评测（一）：行研创作新范式 -头豹

文档简介

温馨提示

最新文档

评论

2023年中国大模型评测（一）：行研创作新范式 -头豹

文档简介

温馨提示

最新文档

评论

相关文档