人工智能智商评测方法报告_第1页
人工智能智商评测方法报告_第2页
人工智能智商评测方法报告_第3页
人工智能智商评测方法报告_第4页
人工智能智商评测方法报告_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人工智能系统智商评测方法报告撰写人:刘锋计算机博士互联网进化论作者0.背景伴随着2016年AlphaGo战胜人类围棋冠军李世石,世界范围人工智能迅猛发展,人工智能威胁论也因此广泛传播,同时智能产品蓬勃发展,不断涌现。人工智能究竟能不能超越人类?这些智能产品的智能究竟达到什么水平?回答这些问题都需要用定量的方法测试智能系统的发展水平。从1950年图灵测试提出以来,科学家已经为人工智能发展的评价体系做了很多工作。1950年,图灵提出了著名的图灵实验,采用提问和人类裁判的方法,判断一台计算机是否具有同人相当的智力。作为最被广泛应用的人工智能测试方法,但图灵测试并不检验Ai的智能发展水平,只是判断智能

2、系统能否与人类智能相同,而且受人为因素干扰太多,严重依赖于裁判者和被测试者的主观判断,因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试,2015年3月24日“美国科学院院刊(PNAS)发表一篇论文,提出一种新的图灵测试方法“VisualTuringtest”,这种测试方法用来对计算机的图像认知能力进行更为深入的评估。2014年美国佐治亚技术学院的瑞德教授(MarkO.Riedl)认为,智能的本质在于创造力。他设计了一个叫做Lovelace2.0版本的测试。Lovelace2.0的测试范围包括:创作有虚拟故事的小说、诗歌创作、油画和音乐等。在解决人工智能定量测试的问题上,包括图灵测试

3、在内的各种方案还存在两个问题:第一,这些测试方法没有形成统一的智能模型,并以此为基础进行分析,区分智能的多个分类。导致无法将不同的智能系统包括人类进行统一的测试;第二是这些测试方法无法定量分析人工智能,或者只定量分析智能的某个方面,但这个系统究竟达到人类智慧的百分之多少,发展速度与人类智慧发展速度比率如何,这些问题在上述研究中没有涉及。针对这些问题,科学院虚拟经济与数据科学研究中心刘锋、石勇研究团队提出:根据评测目的的不同,智能系统的智能水平评估存在三种智商,分别是:智能系统的通用智商,服务智商和价值智商。这三种智商的理论基础,详细定义和评测方法将在以下内容中做详细阐述。理论基础:标准智能系统

4、和扩展的冯诺依曼架构对智能系统包括人类和人工智能系统的智力能力进行评测面临两个重要挑战:第一,人工智能系统目前没有形成统一的模型;第二,人工智能系统与以人类为代表的生命体之间的比较目前没有统一的模型。针对这一问题,2014年,中科院虚拟经济与数据科学研究中心研究团队成员,刘锋,石勇,刘颖参考冯诺伊曼结构、戴维韦克斯勒人类智力模型、知识管理领域DIKW模型体系等。提出“标准智能模型”,统一描述人工智能系统和人类的特征和属性,将任何一个智能体视为一个具有“知识的获取,掌握,创新和反馈”的系统。其中,冯诺伊曼结构给我们的启发是:标准智能系统模型应包含输入/输出系统,能够从外界获取信息,能够将内部产生

5、的结果反馈给外部世界。只有这样,标准智能系统才能成为“活”的系统。戴维韦克斯勒关于人类智能的定义给我们的启发是:智力能力由多个要素组成,而非图灵测试或视觉图灵测试那样只关注智力能力的一个方面。DIKW模型体系给我们的启发是:智慧是一种解决问题、积累知识的能力;而知识是人类不断与外界交互后沉淀下来结构化的数据和信息。一个智能系统不仅仅要掌握知识,更重要的是还要有解决问题的创新能力。这种对知识的掌握能力、解决问题的创新能力与戴维韦克斯勒理论、冯诺伊曼架构相结合,就可以形成智能系统智力能力的多层次结构“标准智能模型”。加识知识知畑知识知识获取您力知识厘斯能力知肿知识A2-J知识A知职掌握能力V知识班

6、知识-知识知识九-;k知识取,r知识阅,知识知识也知识反谀陡力根据上述研究,可提出标准智能系统的判定标准:任何系统(包括人工智能系统、人类等生命系统),如果符合如下特征,就可以认为这个系统属于标准智能系统。特征1:能通过声音、图像、文字等方式(包括但不限于这三种方式)从外界获取数据、信息和知识的能力。特征2:能够将从外界获取的数据、信息和知识转化为系统掌握的知识。特征3:能根据外界数据、信息和知识所产生的需求,通过运用所掌握的知识进行创新的能力。这些能力包括但不限于联想、创作、猜测、发现规律等,这种能力运用的结果可以形成自身掌握的新知识。特征4:能够通过声音、图像、文字等方式(包括但不仅限于这

7、三种方式)将系统产生的数据、信息和知识反馈给外界或对外界进行改造。二.智能系统三种不同智商的定义2.1AI通用智商的提出基于标准智能模型,研究团队建立AI智商测试量表,分别与2014年和2016年对包括谷歌、Siri、百度、Bing等50多个人工智能系统和6岁,12岁和18岁人群进行AI智商测试。2014年根据智能系统统一模型,我们将从知识的获取能力(观察能力)、知识掌握能力、知识创新能力,知识的反馈能力(表达能力)等四大方面建立人工智能智商评价体系,并从这四个方面建立图像、文字、声音识别、常识、计算、翻译、创作、挑选、猜测、发现等十五个小类分测试,形成人工智能智力量表,通过这个人工智能智力量

8、表建立相关题库,对世界50个搜索引擎和3个不同年龄段的人类进行测试,形成2014版人工智能智商排名列表,如表4.1所示(显示其中的前13个测试结果)。表4.12014人工智能智商排名列表(前1号名)绝对智商阖差智商1人类1897L04.852人类12岁S4.5104.113人类石岁55.5102.39斗美卅美国eooelti26.5102.135亚洲中国Baidu23.5101.696亚刪中国SO23.5101.697亚劭中国SOEOU22101.41e非洲埃及yell20.5100.329欧洲俄罗斯Yandex19100.2310欧洲俄罗斯runber18100.1711欧钏西班牙His18

9、100.1712欧洲捷克seznam18100.1713欧洲葡窃牙dix16.5100.082016年2月,研究团队开展了“2016年人工智能系统的智商测试”,目前已对谷歌、百度、搜狗等人工智能系统以及苹果Siri、微软小冰等进行了测试,工作还在进行中。不过从已完成的工作看,谷歌、百度等人工智能系统的性能比两年前已有大幅提高,但仍与6岁儿童有一定差距。4.22016人丄智鸵系统皆商悍尹绝对智商12014人类18岁972伽4年)人类1284.53(2014)人类石岁55.54美洲美国google47.285亚洲申国37.26亚洲中国百度32.927亚洲中国Sonou3225S美洲美国31.9S9

10、美训美国鹹卜沐24.4S10美训美国SfRf23154应该说上述AI智商测试是为了解决AI能否超越人类智能这个问题而开展的,这个研究是将每一个智能系统包括机器人,AI软件系统,人类,动物和其他生物当做平等的智能体,观察其与自然界,其他智能体在交互中显示出来的智能水平。测试测试AI通用智商的定义如下:基于标准智能模型,为了解决“评价各智能系统发展水平高低”的问题,将各智能系统视为平等的智能体,通过统一的AI智商测试量表形成的智能评测分数,可以称为AI系统的通用智商ArtificialintelligenceGeneralintelligencequotient(AIGIQ)。AI服务智商的提出在

11、实践中,我们发现除了少数AI系统的产生是出于科学实验目的,不为人类提供辅助性服务,其他大多数AI系统是为了更好的服务于人类而被制造出来,它的智能也主要体现在为人类服务的过程中,智能水平越高,也就能更好的为人类提供服务。測试这种情况下,如果用AI的通用智商标准进行评测,就明显与产品的最初被制造出来的目的有重大差异。这就需要我们根据此类AI系统的特点,基于标准智能模型,选择与服务相关的指标进行评测,这些指标与AI的通用智商评测指标有相关性,但又有比较大的差异。包括对人工智能的法律,伦理道德等约束条件也应该放在智能系统服务智商中。而不用放在智能系统的通用智商中。AI服务智商的定义:基于标准智能模型,

12、为了回答“智能系统如何才是更好的服务于人类”的问题,对智能产品在服务过程中体现的智能水平进行测试,并形成的智能评测分数,可以称为AI系统的服务智商,Artificialintelligenceseveiceintelligencequotient(AISIQ)。3.AI价值智商提出为人类提供服务或支撑性工作的AI系统,往往会由不同的公司和企业提供相应的智能产品,例如智能音箱就有亚马逊、百度等品牌,智能聊天机器人包括科大讯飞、苹果Siri等,由于是由不同企业生产制造,完成相同或相近功能,每个企业的造价或售价也会不同,服务智商与成本或价格关联会对消费者购买智能产品产生重要的影响。AI价值智商的定义

13、:基于标准智能模型,为了帮助使用者判断需要用多大经济代价获得智能系统的智力能力,将智能系统的服务智商除以该系统的出售价格,形成的智能评测分数,可以称为AI系统的价值智商,ArtificialintelligenceValueintelligencequotient(AIVIQ)。三.智能系统通用智商和服务智商的测试量表设计。3.1智能系统通用智商的测试量表为了解决AI能否超越人类智慧的问题,2014年开始,本文研究者根据标准智能模型把智能分为“知识的获取,掌握,创新和反馈”四类能力,在这四类之下又分成15个小分类能力,从更多维度评测AI,人类的智能。这15个小分类是:图像、文字、声音的识别和输

14、出,常识、计算、翻译、排列,创作、挑选、猜测、发现等能力,每个小分类有不同的权重。2017年,根据人工智能的发展和对智能的最新研究。研究团队将Al通用智商评测量表从测试分类和分类权重进行调整,主要调整的内容增加了:1识别动态图像的能力,2情绪的识别与表达能力,3识别敌我的能力,4伪装真实意图的能力,5实现移动定位的能力,6.实现改造世界的能力。除此之外对常识和创作的测试也做了更为细化的工作。识别声育识别图片识别立字识割动图常识除想能力知识轅班能力计算AI通用智商岌现问题识別嘴结学新知识多达猜髓知识反愦能力转意图立字盍达改造世界移动定位GIQ声音表达f丿图像麦达令智能系统的通用智商为IQ,FG是

15、二级评价指标项得分,WG是二AIGii级评价指标项的权重,N是评价指标项的个数。因此智能系统的通用智商公式如下:IQaig-fGlxWGii=l3.2智能系统的服务智商测试量表目前存在大量智能系统,例如聊天机器人,智能化的搜索引擎,智能音箱,智能手机,智能汽车,智能洗衣机,智能冰箱等,它们大部分是作为商品服务于人类的某一需求,这些智能系统可以称为智能产品。在标准智能系统和扩展的冯诺依曼架构下,提炼他们共同的智能特征,并根据不同的服务需求,形成如下智能系统服务智商的测试量表。在这个服务智商的测试量表中主要突出了以下几个方面.感知周围智能系统和使用者身份的能力与互联网云端交互的能力。将自身内部状况

16、实时显示给使用者,出现故障给予支持的能力按符合当地法律和伦理道德服务人类的能力危险情况下保护使用者和其他人的能力自身能源使用和自动补充的能力静国识別动囹识刖立字识別罚青识别知识的输入日祜联网知识的掌握Al服务智商知识的创新其feA爾席的也拓如为典scs铝曲土人皆创件知识的反馈碼敢宦肚屈片屈示/靱乐隈示/査晋血示茸单贈出智能系统的服务智商为IQ,FS是二级评价指标项得分,WS是二级AISii评价指标项的权重,N是评价指标项的个数。因此智能系统的服务智商公式如下:IQais=工FSiXWSi1=1作为一个智能产品服务智商的标准量表,为了尽量全面的覆盖不同种类的智能产品,在设计智能产品服务智商测试量

17、表时,在测试量表中从知识的获取,掌握,仓惭和反馈四个方面为同智能产品留下接口:1)在知识的获取分类中增加了”其他”信息输入方式,用来评估智能产品在知识输入方面的新方式。2)在知识的掌握中,增加了“专业常识”,用来评估不同领域智能产品的专业方面技能,3)在知识的输出能力中,增加其他输出能力,用来评估智能产品在知识输出方面的新方式。3.3AI价值智商的形成方法根据智能系统AI价值智商(AIVIQ)的定义,如果该智能系统通过出售变为产品服务于人类,令智能系统的服务智商为AISIQ,该智能产品的公开售价为P,形成智能系统价值智商的公式如下:IQ=(IQ/p)*100AIVAIS四针对小爱音箱、天猫精灵

18、、京东叮咚的AI测试4.1测试结果智能音箱AI通用智商(AIGIQ)(2017年丄2月20曰测试)AlGIQ就赴4系统以平等的身份与人类共同参与的AI智商测试AI通用智商总分为10。分序号智能音箱品腔AI通用智商1京东叮咚音箱未测试2小米小爱音箱未测试3阿里天猫精灵未测试智能音箱Ai服务智商SISIQ)(2017年空月2。日测试)AlSIQ就是Ail系统如何以服务者的角色服务人类时体现的智力能力AI服务智商总分対1万分(实际得分*100)序号智能音箱品牌AI服务智商1小米小爱音箱33652问里天猫精灵31853京东叮咯音箱2811智能音箱AI价值智商(AIVIQ)(2017年丄2月20日测试1

19、AIVIQ就是用户获得一个产品的AI服务智商与忖出价格的比值序号智能音箱品牌AI价值智商1小米小爱音箱3365/299元二1L252阿里天猫精灵3185/499元二6影3乐东叮咚音箱2811/998元=2.814.2。测试说明:因为对智能产品的智商测试是一项没有先例的科学实验和研究,会处于不断修正和发展的过程,因此研究团队并不认为这个测试结果是完全成熟和客观的。希望通过这个测试结果的发布,接受更多指正意见,以推动这项研究的深入。2。本次测试由科学院虚拟经济与数据科学研究中心刘锋,石勇,刘颖团队基于团队的AIIQ测试方法对智能音箱进行的AI智商水平测试,人工智能学家未来智能实验室发布。相关研究论

20、文请参考:/blog-39263T090494.html本次测试为2017年12月20日则试结果,测试产品在测试日和发布日之间的会有智能提升情况,本报告不能进行及时反映。为了区分AI通用智商和服务智商,在得分上AI通用智商总分为100分,AI服务智商总分为1万分(实际得分*100),因为本次重点测试智能音箱在服务人类过程中体现的智能,因此本次没有测试AI通用智商。(相关概念请看下文)作为智能音箱重要的辅助和控制工具,智能手机智能音箱APP的功能也在考察范围内智能音箱专业技能的设置,根据智能音箱的为了实现为人类服务的特定目标,反映智能音箱应该掌握的专业知识的能力,这些能力包括但不仅限于闹钟,故事

21、,提醒,控制设备,天气,新闻,娱乐,游戏,定位,购物等等从测试结果看,小米音箱在基本常识和专业技能,交互友好度等方面表现较优,在设备互联方面京东叮咚和阿里天猫精灵表现较好,原因是小米音箱目前只能控制小米的智能产品,而京东和阿里属于平台型互联网企业,合作商家多于小米音箱。阿里天猫精灵在识别用户身份上略优于其他两个品牌从测试结果看,智能音箱总体在自动联网方面明显较弱,用户需要多步骤配置,不够智能。由于智能音箱主要通过声音进行交互,因此总体得分不高。但作为人类重要的交互方式,图像输入和展示未来是不是智能音箱必备的功能值得厂家关注,目前亚马逊和腾讯的智能音箱产品已经具备了图像输入和展示功能,但带来的负

22、面影响是成本会大幅度提高。5总结通过AI三种智商认为,智能系统根据不同的使用和评测目标,可以有三种不同的智能水平评测方法和由此得出的三种智商:AI通用智商,AI服务智商和AI的价值智商,其中AI的通用智商已在2014年以来的论文中进行深入研究,也通过AI系统和人类的共同评测,分析了谷歌,SiRi,百度等与人类通用智商的差异。本文新提出的AI服务智商和AI的价值智商为评测智能产品的智能水平提供了理论分析和实现方法。后续工作将基于AI服务智商量表,面向具体的智能产品,如智能音箱,智能手机,智能汽车,智能洗衣机,智能电冰箱等,开展他们的AI通用智商、服务智商和AI价值智商的评测工作。六关于AIIQ的

23、研究论文从2014到2017年共有4篇,地址为: HYPERLINK /science/article/pii/S1877050914005389%23 /science/article/pii/S1877050914005389#! HYPERLINK /article/10.1007%2Fs40745-017-0109-0 /article/10.1007%2Fs40745-017-0109-0/doi/abs/10.1142/S0219622015500030/abs/1712.06440七新闻媒体报道2017年麻省理工科技评论,美国CBNC,日本每日新闻,以及中国,欧洲,中东等国家和地区主流媒体对研究团队AIIQ研究的报道。 HYPERLINK https:/www https:/www./s/609120/now-theres-an-iq-test-for-siri-and-alexa/ HYPERLINK /2017/10/02/google-ai-has-almost-twice-the-iq-of-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论