中国移动研究院宁如虎在第四届中央企业熠星创新创意大赛人工智能赛道上的演讲:九天大模型评测系统_第1页
中国移动研究院宁如虎在第四届中央企业熠星创新创意大赛人工智能赛道上的演讲:九天大模型评测系统_第2页
中国移动研究院宁如虎在第四届中央企业熠星创新创意大赛人工智能赛道上的演讲:九天大模型评测系统_第3页
中国移动研究院宁如虎在第四届中央企业熠星创新创意大赛人工智能赛道上的演讲:九天大模型评测系统_第4页
中国移动研究院宁如虎在第四届中央企业熠星创新创意大赛人工智能赛道上的演讲:九天大模型评测系统_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大语言模型探索阶段大语言模型诞生阶段大语言模型爆发阶段大语言模型诞生阶段与企业围绕“多层次-多维度-多任务-多指标-多...•不好区分Prompt写的不好还是模型•难以保障评测结果的准确性•公开数据集很可能已被用于模型训练安全可信安全可信多层次-多维度-多任务-多指标-多模式大模型评测体系...........................换.........换...实体识别实体识别式式客观指标:准确性、鲁棒性...主观指标:准确性、安全性...4大评测维度、5大类性能指标、400+评测任务、600+评测场景、海量评测数据评测维度•4大评测维度:基础评测、专项评测、领域评测、体验•400+评测任务评测数据评测指标安全能力安全能力覆盖基础评测、专项评测、领域评测、体验评测......可用准确性、鲁棒性、安全性指标评估。...... 鲁棒性、安全性指标评测。............可通过行标来衡量:合规性、专业.........依赖于用户的主观评价,可通过问 选取原则 选取原则涵盖基础评测数据、专项评测数据、安全评测数据等选取原则:选取种类丰富、具有代表性、大规模的评测数据,以便衡量大模型的性能、泛化能力和安全性•••评测系统特色u评测流程简单化u评测数据标准化uPrompt指令多样化u评分方式多元化u多轮对话自动化u评测报告可视化市场产品维度对比数据准备准备评测数据集模型注册准备模型信息模型评测发起模型评测查看报告查看模型评估报告数据准备准备评测数据集模型注册准备模型信息模型评测发起模型评测查看报告查看模型评估报告覆盖基础评测、专项评测、覆盖基础评测、专项评测、领域评测、体验评测、多个评测场景数据集灵活快速接入业界新发布大模灵活快速接入业界新发布大模型,支持最大tokens数、并发线程、引导开关等配置项通过评测任务管理历史评测通过评测任务管理历史评测项。支持prompt模板配置、自动化打分、人工审核校验基于准确性、鲁棒性、公平性、基于准确性、鲁棒性、公平性、安全性、基础性能多维度量化打分,支持评测榜单查看对以下文本进行情感分析,将它分类为积极的或消极的问题:文本:还没穿第二天就起毛了答案:消极问题:文本对以下文本进行情感分析,将它分类为积极的或消极的问题:文本:还没穿第二天就起毛了答案:消极问题:文本:衣服还不错,这个价格值答案:积极问题:文本:鞋子轻便输入,好穿,值得推荐。答案:•数据样式标准化:原始数据集转换为自研CEVALS框架的数据格式•引导指令标准化:根据评测场景设置标准化的Prompt指令引导指令引导指令指令攻击(instuctionatt针对多种评测场景,应用配置标准及个性化prompt模板情感分析情感分析多项选择多项选择实体识别实体识别文本纠错文本纠错文本分类文本分类机器翻译机器翻译阅读理解阅读理解信息抽取信息抽取语言推理语言推理摘要生成摘要生成指代消解指代消解…………ContrastSetContrastSetchinese_mrcchinese_mrcpawsx_zhpawsx_zh脏话侮辱脏话侮辱违法犯罪身体伤害违法犯罪身体伤害心理伤害心理伤害财产隐私财产隐私道德伦理道德伦理偏见歧视偏见歧视敏感话题敏感话题目标劫持目标劫持prompt泄露不安全的指令主题角色扮演反面诱导带有不安全观点的询问角色扮演反面诱导性别歧视性别歧视种族歧视种族歧视地域歧视地域歧视职业歧视职业歧视模型打分流程step1人工审核模型打分流程step1人工审核提取打分智能评分模型responseAi=S=σ1果针对不同评测场景,配置不同评分策略,提高评测结果准确度和可信度理解能力交互能力生成能力推理能力鲁棒性公平性安全性理解能力交互能力生成能力推理能力鲁棒性公平性安全性u自动数据填充u自动多轮对话u批量数据起聊u聊天场景评论u自动场景打分u支持众测分享l树状展示基础评测、专项评测、领域评测下各评l树状展示基础评测、专项评测、领域评测下各评支持评测报告实时查看、评测详情分析、评测结果二次审核评测报告l展示模型准确性、鲁棒性、公平性、安全性评分及综l详细展示基础评测、专项评测、领域评测每个评测类打分聚合评测详情及结果审核打分聚合l展示目标评测场景下的每条请求及响应结果、评价指l展示自动化响应结果及自动化评分结果l支持针对自动评分结果进行二次人工校验动态评测优化资源分配推动技术革新促进创新发展多模态评测增加公众信任提高竞争力降本增效加强产学合作行业规范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论