2023大语言模型综合能力测评报告-InfoQ

上传人：策*** IP属地：山西上传时间：2023-06-25 格式：DOCX 页数：71 大小：2.54MB 积分：19.9 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

测评报告2023极客邦科技双数研究院大语言模型发展经过三阶段在2023年进入爆发阶段·谷歌推出用于处理自然语言任务的Transtormer神经网络架构大语言模型探索阶段·OpenA发布GPT-2并部分开源·OpenAl推出ChatGPT-3.5·FaceBook发布LLaMA-13B·谷歌发布Bard以应对ChatGPT·OpenA发布GPT-1·OpenA推出能实现文本生成图像的DALL-E模型·FaceBook推出CLIP模型·OpenA推出Codex·OpenA发布GPT-4并实现图像识别·微软宣布将GPT-4接入Office全家桶·通义千问、盘古NLP、天工3.5、星火等国产大模型陆续发布·微软宣布Windows系统全方位集成Copilot国外国内国外国内LIMA-65BGPT-4建摩院通义JD.COM言犀Tencent腾讯混元国家超级计算天津中心天河天元大模型愁酸星火系队烈自研大模型购购其他应用钉钉斜杠一有道youdao子曰InfoQ研究中心大语言模型训练之需要足够“大”过100亿-680亿时，大模型的很多能力(如计算能力)几乎为零。的计算量约为4.5ExaFLOPS,而完整训练需要9500(相当于单片A100跑43.3年的计算量)。特别是任务所训练的模型适用于更多以前未经训练的任务。涌现对大的迁移。"060…·国内大模型出现大量参数规模大于100亿的模型·百度研发的Ernie和华为研发的盘古目前是有数据的国内大模型参数规模的·国际领先的大模型GPT-4据推测参数规模量级可达5万亿以上自研大模型(字节)<100亿>100亿混元(腾讯)亿工程化在开源模型基础上微调的模型自研闭源元模型算法和训练模型水平主导大语言模型的能力表现工程化在开源模型基础上微调的模型自研闭源元模型模型训练技术(举例)通过人类给予反馈对模型形成奖励机制，方法，以指导模型生成特定的输任务来训练模型的方法。这种方法的目帮助模型进行强化学习的训练。这种方出，这种方法的目的是通过对模的是使模型能够理解和维护文本中的思型进行定向训练，使其在特定任务上表现出更好的性能。维链，从而生成连贯的、上下文相关的响应。持续获得反馈，帮助模型增强判断力。2、明确定义标注意图：如详细说明标注原因，井要求如果标注人员不能完全理解，则迅速跳出流程；自研开源元模型自研开源元模型InfoQ研究中心人才和资本都对大语言模型提出了高密度的要求行动&解决方案行动&解决方案&解决方案层面认知&学习搜索InfoQ研究中心进阶能力更为进阶的理解力进阶能力逻辑推理能力核心能力认知和学习能力InfoQ研究中心大语言模型综合评价维度标号1语言模型的语言理解能力-词句级古诗文识记、中文分词、中文分词和词性标注、命名实体识别、实体关系抽取知识题、历史题、词句理解题语言理解能力-篇章级阅读理解、故事情节完形填空、幽默检测知识题、商业写作题、文学题、幽默语言理解能力-数据级商务制表题语法结构摘要生成、数据到文本生成写作题商业写作题知识题、历史题知识误导知识题MBA逻辑题代码能力陌生概念的新词理解幽默题知识题、中文特色推理题语境感知商务应用题商务应用写作题多语言能力机器翻译、跨语言摘要多模态能力多模态问题多模态问题InfoQ研究中心2数据基础3模型和算法的能力4安全和隐私安全性不会被恶意利用问题测试安全问题隐私性不会泄露用户的个人隐私信息问题测试隐私问题文心一言vicuna-13Bvicuna-13BInfoQ研究中心题目类别问题总量题目类别问题总量中文特色推理题957幽默题7IT知识问答555多模态75文字输入语言输出2安全和隐私·根据第一、二章研究内容和本次测评的评价维度，本次问题部分共300题，具体分布如下：题目类别问题总量87医学常识557855怎么办题营销文案写作(小红书)7邮件写作575市场分析报告3市场运营报告3简单作文写作5写诗词5中文特色写作题写作能力和语句理解能力是目前大语言模型最为擅长的能力板块排名测试类型综合得分率1安全和隐私2商务写作3文学题456知识题7编程题89多模态排名大模型产品12文心一言3456天工3.57通义千问89vicuna-13B商务写作题目主要反映大语言模型产品对文字的基础认知和学习能力。·商务写作题部分，大语言模型表现均较为突出，其中访谈提纲和邮件写作都获得了接近满分的成绩，而比较之下视频脚本的写作仍然是大语言模型产品较不熟悉的领域。细分题目类别得分率仅为75%。市场分析报告市场运营报告ChatGPT营销文案写作ChatGPT邮件写作ChatGPTInfoQ研究中心大语言模型展现出优秀的中文创意写作能力·文学题主要反映大语言模型产品对文字的基础认知和学习能力。·文学题部分，随着写作难度的升高，大语言模型表现的能力水平递减。其中表现最好的板块为简单写作题，得分率为91%;对联题虽然很多模型表现的较好，但是有一些模型对对对联回答表现欠佳，整体得分率最低为55%。文学题细分题目得分率国标型国际最高分率国内最高分率简单写作题通义千问文心一言中文特色写作题文心一言InfoQ研究中心中文方言理解题难倒大语言模型，整体准确率仅为40%究小组征集的相对较难的题目，在项目组内部人类测试得分也相对较低。词句理解题整体得分率表词句理解细分题目得分率国际最高分率国内最高分率天工3.5文心一言文心一言怎么办题文心一言InfoQ研究中心国际产品编程能力显著高于国内产品编程细分题目得分率国际最高分率国内最高分率文心一言Vicuna-13B文心一言通义千问InfoQ研究中心国际最高分率国内最高分率医学常识通义千问IT知识问答ChatGPTClaude商业常识ChatGPT文心一言ChatGPT文心一言ClaudeChatGPT文心一言InfoQ研究中心国内产品在跨语言翻译中仍有较大的提升空间翻译细分题目得分率文心一言英文写作文心一言·在十个模型中逻辑推理题得分最高的为ChatGPT得分率61.43%,国内产品文心一言和讯飞星火，得分率60%。逻辑推理题整体得分率国际最高分国内最高分商务制表题文心一言幽默题中文特色推理题文心一言InfoQ研究中心GPT4逻辑题目得分率更为接近和超越人类的思维方式锻造，是未来大语言模型竞争关键逻辑推理能力人类情感共情能力首先，还没体验过ChatGPT的伙伴可以访问下面链接(https://1、需要自己熟练掌握ChatGPT的提示词技巧，调教好它生成出好的内操作：写完发布到各种网文平台(2类分成方法：保底+全勤；分成);省时查报告小程序：专业、及时、全面的行研报告库四、自媒体内容生产操作：在抖音、快手、知乎、小红书等平台运营账号，通过Cha

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2023大语言模型综合能力测评报告-InfoQ

文档简介

温馨提示

最新文档

评论

2023大语言模型综合能力测评报告-InfoQ

文档简介

温馨提示

最新文档

评论

相关文档