


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分析:人工智能的崛起
研究人员最近对一个名叫ConceptNet的人工智能系统进行了测评。在一项为检测儿童智商而设计的测试中,ConceptNet的得分超过了一名智商正常的四岁儿童。该测试共包含五项与词语推理和词汇有关的测验,ConceptNet的总得分为69分,与之进行对比的学龄前儿童得分则为50分。并且专家认为,该系统的智能程度还会进一步加强。ConceptNet是一项由麻省理工学院常识计算计划团队(MITCommonSenseComputingInitiative)管理的开源项目。该团队研发的ConceptNet4运用了所谓的“关系”这一概念。例如,当让该系统解释什么是“小鹿”时,它会明白“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够理解这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。同时,该系统还可以使用所谓的“对立标记”表示负相关关系,比如“企鹅不会飞”等。研究人员让ConceptNet4参与了“韦克斯勒学龄前儿童智力量表”测试(WPPSI-III),并将研究结果发表在论文《MeasuringanArtificialIntelligenceSystem'sPerformanceonaVerbalIQTestForYoungChildren》上。WPPSI-III测试包含14项测验项目,以及一份针对操作智商和言语智商的完整评估表。操作智商测验通常会要求受测人完成绘画、解谜、记忆等任务。言语智商测验则会考察儿童的词语推理、词汇及理解能力。每种智商得分的平均分都为100分。本次研究则主要针对言语智商进行测试。在测试过程中,试题会通过语言处理工具转换成ConceptNet4能够理解的语言,如“我们为什么要握手?”、“我们为什么要在夏天戴太阳镜?”和“为什么将刀子放入嘴中是不好的行为?”等等。该研究由芝加哥大学的斯特兰?奥尔森(StellanOhlsson)带领。在对单项测试计分时,研究人员先使用每道题目得分最高的答案计分,然后再使用每道题目得分最高的前五个答案中最好的答案计分。他们将前者称为“严格计分”,后者称为“放松计分”。在“信息”测试中,ConceptNet得到了20分,而同时参加测试的四岁儿童通过转换后的得分为10分。这名儿童在词语推理和理解上得分更高,均为7分,而ConceptNet在这两项上的得分分别为2和3分。此外,ConceptNet表现出了更丰富的词汇量,词汇得分为20分,而儿童得分为13分。“ConceptNet系统的得分与四岁儿童相仿,但低于五至七岁儿童的平均得分,”研究人员解释道,“该系统在每个单项中得分差异很大,说明还有改进的空间。在所有测试中,‘理解’是最关乎人类常识的测试项目。得分差异大、常识方面表现一般,这说明ConceptNet尚不具有四岁儿童的语言能力。但本次研究说明,儿童智商测试可以为人工智能系统的评估和比较提供一种客观的度量手段。”“此外,许多由ConceptNet给出的错误答案和儿童给出的错误答案不仅相去甚远,而且违反常识。”例如,在关于“狮子”的词语推理测验中,该AI系统和首测儿童被给予三条线索——“雄性长着鬃毛”,“该动物生活在非洲”,以及“它是一种体型很大的棕黄色猫科动物”。由ConceptNet给出的排名前五的答案按顺序排列为:狗,农场,生物,家庭,猫。研究团队解释道,“生物”和“猫”尚且还能与“狮子”沾边,但其它的答案就明显有悖于常识了。“按照常识,受测者应该至少能将答案限制在动物的范围内,同时能做出简单的推理:“既然线索说它是猫科动物,那只有猫科动物能够被列入考虑范围。”该论文被发表在期刊《arXiv》上,共同作者包括罗伯特?斯隆(RobertSloan)、捷尔吉?图兰(Gy?rgyTurán)和阿隆?尤拉斯基(AaronUrasky)。测试方法研究人员让ConceptNet4参与了“韦克斯勒学龄前儿童智力量表”测试(WPPSI-III),并将研究结果发表在论文《MeasuringanArtificialIntelligenceSystem'sPerformanceonaVerbalIQTestForYoungChildren》上。WPPSI-III测试包含14项测验项目,以及一份针对操作智商和言语智商的完整评估表。操作智商测验通常会要求受测人完成绘画、解谜、记忆等任务。言语智商测验则会考察儿童的词语推理、词汇及理解能力。每种智商得分的平均分都为100分。本次研究则主要针对言语智商进行测试。在测试过程中,试题会通过语言处理工具转换成ConceptNet4能够理解的语言,如“我们为什么要握手?”、“我们为什么要在夏天戴太阳镜?”和“为什么将刀子放入嘴中是不好的行为?”等等。该研究由芝加哥大学的斯特兰?奥尔森(StellanOhlsson)带领。在对单项测试计分时,研究人员先使用每道题目得分最高的答案计分,然后再使用每道题目得分最高的前五个答案中最好的答案计分。他们将前者称为“严格计分”,后者称为“放松计分”。什么是ConceptNetConceptNet是一项由麻省理工学院常识计算计划团队(MITCommonSenseComputingInitiative)管理的开源项目。该团队研发的ConceptNet4运用了所谓的“关系”这一概念。例如,当让该系统解释什么是“小鹿”时,它会明白“小鹿是一种鹿”,而
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装饰材料行业新技术应用考核试卷
- 锯材加工过程中的木材阻燃处理考核试卷
- 汽车语音识别与控制系统考核试卷
- 食物中毒院前急救
- 新生儿小肠坏死性结肠炎护理
- 麻醉药理学局部麻醉药
- 任务8.3+打造主播人设+课件-《互联网+推销实务》
- Methyltetrazine-amido-Tri-acid-PEG1-ethoxymethyl-methane-生命科学试剂-MCE
- 风格制胜3:风格因子体系的构建及应用
- 自然语言及语音处理项目式教程 课件7.2.2-2基于深度学习的语音合成算法
- 2025年《安全生产月》活动总结报告
- 2025年江苏高考真题化学试题(解析版)
- 2024协警辅警考试公安基础知识考试速记辅导资料
- 《平行四边形的面积》说课课件
- 2025年九年级语文中考最后一练口语交际(全国版)(含解析)
- 一例高血压护理个案
- 中国强军之路课件
- GB/T 18913-2025船舶与海洋技术航海气象图传真接收机
- 2025-2030中国风力发电机机舱行业市场现状供需分析及投资评估规划分析研究报告
- 2025年广东省深圳市龙岗区中考英语二模试卷
- 人文英语4-005-国开机考复习资料
评论
0/150
提交评论