让计算机看懂世界

上传人：7*** IP属地：湖北上传时间：2023-01-01 格式：DOCX 页数：16 大小：43.54KB 积分：30 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

让计算机看懂世界世界顶级专家探讨图像识别的发展和未来新智元推荐：感谢雷鸣供稿时间：2015年9月13日（周日）22：00嘉宾：1）贾扬清：谷歌大脑资深科学家，全球最普遍使用的图像识别开源软件caffe的作者2）徐伟：百度深度学习实验室杰出科学家3）赵勇：格灵深瞳创始人，前谷歌研究院资深科学家，谷歌眼镜核心成员主持人：雷鸣：北大大数据与机器学习创新中心主任；百度七剑客，酷我创始人形式：实时互动，多群转发主群内容内容点1）图像识别的现状：物体识别、人脸识别、动作识别等发展到什么程度？2）未来5年，会有什么突破，真的能够超过人吗？3）在安防领域，尤其是公共安全、企业安全、家庭安全上的机会4）在身份识别领域，上班打卡、银行开户、身份认证等的机会5）在智能硬件，让硬件能够感知周边环境，变得更聪明的机会6）在机器人领域，让机器能够有超越人类的视觉，进而更加智能的机会主持人雷鸣：

各位，我们今天非常有幸请到了贾扬清，徐伟，赵勇三位人工智能专家，让我们欢迎他们的到来！下面开始今天的沟通话题。【现状】计算机视觉和图像识别雷鸣：首先，请三位嘉宾聊一下当前计算机视觉和图像识别的现状，现在到底到了什么水平？赵勇：

图像识别在过去几年发展太迅速了。五年前我博士毕业刚刚加入谷歌研究院的时候，我所在的组很多同事都在研究这个问题。回忆当时，可能不会有任何人可以想象到之后这几年个领域这么巨大的进展。如果盲目地看看ImageNet、ILSVRC上跑的分数，甚至给人这么一种感觉：计算机图像识别的能力是不是已经超越人类了？赵勇：

当然这些重要的进展，最大的贡献，来自于深度神经网络技术的发展，大数据的发展，以及大规模高性能运算的发展。贾扬清-谷歌-research：

对，计算机视觉在物体识别上的进展前几年突飞猛进，现在几乎可以说已经超越人类在特定的任务上的识别能力了，比如说人脸识别，具体物种的识别等等徐伟-百度IDL-杰出科学家：

我认为在一些特定的任务上，是超过人类了。比如人脸识别。雷鸣：

特定任务，也就是说当我们在聚焦在一类问题，并匹配相应的算法和数据训练，可以接近，并不是广泛的超越，也就是说在开放的数据上，和人类还是有很大差距的，对吧贾扬清-谷歌-research：

对的，比如说WashingtonUniversity最近开放的MegaFace项目，就有这样的结果。一些在LabeledFaceintheWild上比较好的算法在更大的MegaFace数据集上就可能出现瓶颈。说明在更开放的数据集上，我们还有很多进展可以期待雷鸣：各位感觉，以现在的发展速度，在开放数据上，在未来5年会有突破吗？赵勇：

我不会把超越人作为一个合理的目标。毕竟人拥有很多非常特殊的能力，在有些地方人的能力远远超过机器；在其他方面其实机器早就超过人了。譬如人脸识别今天的进展允许计算机在一个很大的数据库里识别人，这件事情人可能就做不到。因为毕竟大多数人的记忆能力有限，在他的生活中最多需要识别几百人。但是对于熟悉的人，人的识别能力是极其精确的。即使在很差的光线条件，很远的距离，甚至带上口罩和墨镜，有时候人都有很好的识别能力。俗话说：对于特别熟悉的对象，人眼可以做到“烧成灰我都认识你”。徐伟-百度IDL-杰出科学家：

另外说和人比，需要说明是和普通人还是和专家比。不少任务也已经超过普通人。比如动物识别，花卉识别雷鸣：

@赵勇，也就是说，我们人类在进行熟悉的人的识别时，其实不仅仅应用的图片信息赵勇：

我的意思就是徐伟的意思。对于识别自己熟悉的人，每个人都是专家。今天计算机仍然比不上人类的专家。徐伟-百度IDL-杰出科学家：

不过对特定人的识别，目前也还缺乏这样的数据。人是有了大量的数据才会作的很好的。徐伟-百度IDL-杰出科学家：

不过计算机比不上，一种可能是没有这么多的数据去做这样的研究贾扬清-谷歌-research：

我对视觉领域的进展还是挺乐观的，比如说今年的ImageNetChallenge准备不再包含objectclassification，但是要增加objectdetection和videodetection的比重，也说明研究界对于新的问题的兴趣赵勇：

首先，对于识别熟悉的人，人类掌握巨大规模的数据，例如识别自己的亲人。另外，人生活在一个时间和空间连续的世界中，我们的识别不是发生在一张照片里。这里面的机理可能非常复杂。今天的深度学习还没有到这种程度。徐伟-百度IDL-杰出科学家：

过去几年的进步有不少是因为有了合适的数据带来的，比如ImageNet,LFW贾扬清-谷歌-research：

如徐伟所说，数据可能会是将来研究这些算法的一大需求徐伟-百度IDL-杰出科学家：

如果有人提供了这样的数据，可能相应的结果很快就会出来。因为计算能力现在已经有了。【应用】三维信息与计算机视觉雷鸣：

现在我们很多识别都集中在图片上，对于视频流数据，以及3维的深度信息，对识别的帮助大吗？将来这些信息对于提升识别质量，是否会有非常大的帮助？赵勇：

动作识别这个领域，三维信息的作用就非常大。提到动作识别，大家可能印象最深的还是Kinect技术。这是一种依赖深度传感器的识别技术。毕竟，之于动作本身，最重要的核心信息是形状、结构，而不是色彩和纹理等传统两维彩色相机。因此这个结果也是非常合理的。但是，无论是Kinect还是OpenNI，本质上仍然解决的是人机交互过程中使用的动作识别问题。在这些应用中，识别的对象（交互者）往往站在相机的正面，用一种配合的姿态被识别。所以大多数时候不存在多个物体之间的相互遮挡，人体各个肢体之间的相互着当也不严重，而且人体的形态比较简单（不会附带其他物体，比如背包、雨伞、箱子等身体之外的物体）。基本上这些场景都属于比较可控的场景。贾扬清-谷歌-research：

很有帮助。去年techcrunch上有一个有趣的demo叫IsItYou-使用三维信息和时间维度可以得到比单纯图片更丰富的信息徐伟-百度IDL-杰出科学家：

我觉得，对于视频图像的学习，现在计算能力还有些欠缺。赵勇：

当时在完全不可控的场景中（例如安防监控），首先要同时应付更多的人，这些人之间可能有严重的相互遮挡，而且由于这些人都没有主动配合识别，和相机的视角方向有可能是正面、侧面、背面、甚至是下面。加上实际情况中的复杂性，比如人们可能携带着各种无法预测的物体，人与人之间可能非常接近以至于纠缠在一起。在这种不可控的情况下，动作识别的挑战还是很大的。赵勇：

事实上，格灵深瞳在过去两年基于ＲＧＢＤ相机，研发了一款用在安防监控领域里的视觉系统。在动作识别方面我们遭遇了严重的挑战。在面对这些挑战的过程中，深度神经网络技术，针对人体结构的先验知识，更好的volumetrictracking技术帮了大忙。尽管如此，实时动作识别这个feature仍然面临着运算成本高等现实问题。当然，也有很多学者通过大量样本的深度学习，在传统色彩相机捕捉的数据上试图识别肢体动作。这些研究也产生了一些有趣的结果。但是和基于深度信号的方法想必，这类技术的现状是只能比较好的处理简单的姿态。在对结果要求比较高的实时系统中，目前看来还是基于深度图像的方法比较靠谱。贾扬清-谷歌-research：

现在视频学习很多还是一些大公司在做，关键是因为数据和运算能力都还没有达到commoditize的程度【应用】视频信息处理雷鸣：

看来随着计算能力的提升，在我们可以期待在视频信息处理上的巨大发展！下面我们谈谈对于具体的应用领域吧，首先我们接着赵勇提到的，就是安防领域赵勇：

我希望高性能运算技术能够获得更大的突破，尤其是低成本低功耗的异构运算技术，能够使得我们能够更加有效地、低成本地在实时环境中使用深度神经网络技术。目前的深度学习技术严重依赖ＧＰＵ平台。虽然在训练模型阶段，这样的成本是可以接受的。但是在大规模应用深度学习，特别是在移动设备、机器人等实时应用中，使用ＧＰＵ来进行模型测试并不是最理想的方式。为了迎接这些挑战，我们需要更强大，更高效的半导体运算架构。雷鸣：

图像识别对于公共安全，企业安全和家庭安全，都有神马可能的作用和贡献呢？赵勇：

我希望传感器方面能够有重要的突破。在彩色传感器方面，我希望敏感性以及动态范围能够有大的改善。在深度传感器方面，我希望尺寸更小、工作距离更远、功耗更低的传感器能够被推上市场，这方面大家可以关注solidstatelidar这项技术。个人认为这项技术对于机器人领域有很大的影响力。徐伟-百度IDL-杰出科学家：

安防还是很有空间的。我家装了一个视频监视器，什么风吹草动都会触发赵勇：

其实计算机视觉在今天的安防领域里的存在感是很小的。市场上绝大多数安防产品，仍然停留在网络录像机阶段。贾扬清-谷歌-research：

我了解的在美国这边有很多传统的做家庭安防的公司，用的技术都很古老，所以效果也不很好，要不就是“风吹草动”就会有误报，要不就是在真实时间中很难触发。Dropcam、Nest等等在这方面做了一些尝试，但是目前还没有真正的产品问世，但是我觉得这会是一个很大的市场赵勇：

要大规模在安防领域里推广计算机视觉，首先需要把数据平台和运算平台结合起来。今天的安防系统大多数达不到这样的条件。雷鸣：现状不是太理想，如果有需求，恰恰说明未来有希望，各位畅想一下未来5年，这方面有哪些机会呢？徐伟-百度IDL-杰出科学家：

实时监控需要大量计算能力还是一个瓶颈赵勇：

格灵深瞳在过去两年一直研发安防系统使用的计算机视觉。我们使用了深度信号，使得问题简单一些。但是即使如此，在一个小小的摄像头里运行检测、跟踪、识别，甚至是深度学习识别，对于运算系统的挑战还是很大的。贾扬清-谷歌-research：

我觉得将来的安防系统应该会配备智能的摄像头，在本地就可以实现视频的理解，物体的识别以及跟踪等等技术，这样就不会需要长时间和服务器的通讯，并且避免服务器端被大量计算请求淹没的问题，专用的芯片可能会在这个领域很有帮助雷鸣：

@徐伟，这个能够通过一些专用的计算机视觉芯片解决吗？直接安装在本地？徐伟-百度IDL-杰出科学家：

目前的算法如果不计成本，应该可以做的不错了。算一低成本功耗的计算能力很重要贾扬清-谷歌-research：

比如说NVidia的Tegra和Movidius的Myriad2就在致力于解决本地计算能力的压力，但是目前的确还在初步尝试的阶段，在成本以及功耗速度比上面还有空间赵勇：

在安防领域，有些公司正在走云计算的方案，就是把所有的图像数据都上传到云上，然后利用云的计算能力来分析。但是这样作的成本很高。所以我还是把希望寄托在高性能的嵌入式系统上。雷鸣：

你们觉得考虑现在软硬件的综合发展，在未来5年，安防这个领域，计算机视觉这块会有巨大的机会吗？会有成熟可以接受的解决方案并大范围被使用吗徐伟-百度IDL-杰出科学家：

我同意赵勇的观点，都在云端计算代价太高。赵勇：

这点我还是乐观的。至少在有些特殊领域，计算机视觉已经可以解决实际问题了。比如银行安防（室内小场景），道路安防（汽车是比较容易处理的目标）。家庭安防的困难，就在于对成本要求很严格，几乎不可能承受高成本的计算机视觉运算。而且家庭安防需要应付的情况更加复杂，难以预料。我更看好需求明确的政府和企业应用。雷鸣：

说到汽车相关，我发现很多停车场已经不发卡了，直接拍照识别车牌贾扬清-谷歌-research：

对的，还有一个应用是babymonitor：）这方面大家往往会愿意投入不小的成本雷鸣：

下面我们再聊聊身份识别这一块儿，你们觉得会大范围使用吗贾扬清-谷歌-research：

parking是另外一个巨大的市场，比如说如何提供停车场内部的车流引导，如何动态计算停车场当中空余车位的分布，等等。比如说，大城市的机场停车场非常迫切地需要这样的技术赵勇：

是啊，车牌识别已经非常成熟了。但是目前套牌车很多，所以我们又开发了车行车款识别软件能够在几千车型车款和年份中精确识别目标。在结合联网的大数据，我估计以后套拍车就没有生存空间了。雷鸣：

本来邀请face++的创始人印奇过来，他们做这一块儿，但是由于时间冲突，没能行，略感遗憾。雷鸣：

@赵勇，打击套牌车，好啊！贾扬清-谷歌-research：

身份识别上我特别想提一下google做的ProjectAbacus，这个项目我一直在参与，前一段时间公开了，想法是通过检测和识别用户使用Android设备的各种行为和生物信息（点了什么app，说了什么话，人脸是不是匹配用户）来实现无密码的身份识别。人工智能在这方面是非常核心的技术贾扬清-谷歌-research：

这个项目我知道有很多咱们国内的同行在合作开发，比如说CUHK的汤老师组。更加智能的身份识别，特别是隐式的身份识别，可以非常明显地提高单纯基于密码的系统的安全程度赵勇：

总体来说，安防领域的挑战还是很大的。虽然面前市场上的产品基本上都是录像机，但是用户对于计算机视觉产品的期待还是非常高。如果不能解决实际问题，产生大量误报，用户宁可不使用。比如人脸识别技术，在安防系统中的使用量是很低的。雷鸣：

当前如果在照片相对理想的情况下，人脸识别的错误率是多少？人脸识别和其他生物特征识别相比，孰优孰劣，比如指纹，虹膜，声音等徐伟-百度IDL-杰出科学家：

人脸需要和传统的刷卡来用，确保刷卡人正确贾扬清-谷歌-research：

我个人的感觉是人脸目前作为一个单独的方法还是不够的，我们在LFW上可以达到0.2左右的错误率，这个对于银行来说还是太高雷鸣：

是否人脸识别当前，乃至很久一段时间，都只能作为身份识别的辅助手段，而很难作为主要手段使用？贾扬清-谷歌-research：

所以需要增加其他的信息，比如说密码，语音等等赵勇：

虹膜肯定精确的多。有文献表明虹膜识别的能力达到192bitentrophy(注：熵，平均信息量)，人脸现在好想只有十几个bit。但是虹膜识别的侵入式比较高，距离近。不过人脸识别目前工作距离也不远徐伟-百度IDL-杰出科学家：

语音不见得比人脸好贾扬清-谷歌-research：

我觉得整合才能达到效果，偷一张照片容易，但是偷照片+偷语音+偷密码+偷卡，并且要一一匹配起来就很难了：）雷鸣：

那么所谓的刷脸支付，如何理解贾扬清-谷歌-research：

每个单独的方法可能都只能达到十几个bit徐伟-百度IDL-杰出科学家：

卡和脸结合已经很好了。刷脸支付可以保证你的卡不被偷用，就是刷卡不用密码雷鸣：

@徐伟，刷脸支付实际是卡+脸（卡是唯一的）赵勇：

人脸支付的活体检测可能是个问题。也就是如何区分一张真的人脸还是一张照片，或者视频里的人脸。现在的活体检测往往要求人脸按照软件指引产生一些对应的移动，但是这样的体验并不好。徐伟-百度IDL-杰出科学家：

比如商场买东西，不用担心活体的问题赵勇：

无论如何，使用多种手段，结合各种优势，来提高可靠性，必然会是未来主流。【影响】计算机视觉与智能设备雷鸣：

下面我们再聊聊计算机视觉对智能硬件，以及机器人发展的影响雷鸣：

大家觉得计算机视觉和机器人发展之间会有什么相互关系？赵勇：

机器人从很多角度来讲，只剩下感知技术一个瓶颈了，如果能够解决感知问题，机器人这件事情就能够大规模的发生。雷鸣：

我记得和李飞飞教授聊的时候，他认为当前的机器人对世界的感知因为图像理解不深入，所有有很多局限，解决的好会非常促进贾扬清-谷歌-research：

机器人一直都是人工智能里面的一个大方向，不过我觉得机器人所需要的可能是广义的计算机视觉-因为机器人可以使用多种传感器，不光是单独图片或者视频的信息徐伟-百度IDL-杰出科学家：

认知技术会是更大的瓶颈，关键是听到了，看到了，该做什么。现在机器人还是缺乏决策推理的能力贾扬清-谷歌-research：

机器人领域另外的一个挑战是如何通过理解以后的信息来实现机器人的行为，在机器人领域目前很多方法都是casebycase的，如何找到一个通用的算法（比如说reinforcementlearning）是个挺大的挑战赵勇：

现在是听到、看到，但是听不懂、看不明白，尤其在现实世界里。@贾扬清，我想到了DARPA的机器人大赛徐伟-百度IDL-杰出科学家：

现在语音识别做的不错了，不过计算机还是不知道该干什么赵勇：

先不去想特别复杂的、有类人思想和行为的机器人，就说能够在现实世界里完成具体功能的机器人，例如汽车，现在核心问题仍然是怎样把可靠的感知技术变成可以大规模推广的现实。雷鸣：

@徐伟，语义理解，确实还在继续进展中徐伟-百度IDL-杰出科学家：

对，所以即使解决了计算机视觉问题，也只能作特定任务的机器人。贾扬清-谷歌-research：

这方面我觉得首先会在特定的方向上有突破（比如说自动驾驶汽车），因为从大规模推广的角度说，最后零点几的错误率是很重要的，这个需要很多工程上的努力。说句大家经常开玩笑的话，“机器学习最擅长的就是解决问题到一半”：）赵勇：

谷歌在无人驾驶方面作了很多领先的工作。听说在近期也要量产无人驾驶汽车了。当时目前这种技术依赖的激光雷达、差分ＧＰＳ，以及高精度ＩＭＵ，都价值不菲。距离走入平凡的汽车还有遥远的距离。徐伟-百度IDL-杰出科学家：

特定任务的机器人离人们心目中的智能机器人还有有不同的雷鸣：

@徐伟，估计机器人的发展还是先发展和完善特定机器人。赵勇：

人们心目中的智能机器人，我觉得还不是未来五年讨论的目标。徐伟-百度IDL-杰出科学家：

是啊，所以我说认知是最大的瓶颈雷鸣：

我突然在考虑，是否人类考虑的那种强人工智能机器人根本就不会出来？想象工业革命，估计人类在工业革命初期也考虑一个像人一样什么都能做，都能做好，力气大的机器，可是最终我们到现在为止，还是各种专用机器。。。赵勇：

我觉得既然人都可以依赖视觉系统开车，我希望未来的计算机视觉也能帮助自动驾驶汽车完成任务。毕竟这项技术的成本低得多，而不是目前以谷歌汽车为主的这种路线。贾扬清-谷歌-research：

谷歌汽车现在其实也越来越多地使用计算机视觉的技术，所以这应该是一个大方向：）雷鸣：

专用的设备，他的性价比会更高。而综合的东西，性价比低，虽然都能做，但是不如一组各自擅长不同功能的设备合作来的好。徐伟-百度IDL-杰出科学家：

依靠视觉自动开车，5年内应该有戏，不过激光雷达如果大规模生产，说不定就便宜了赵勇：

提到所谓的“强人工智能”，我个人挺悲观的。可能不是未来二十年能够看到的东西。徐伟-百度IDL-杰出科学家：

二十年不算悲观了。100年算悲观！！贾扬清-谷歌-research：

我觉得强人工智能的概念可能是一个伪问题，因为从一定程度上“智能”在语义上就是我们还无法理解的东西，如果我们了解了一个东西是如何实现的，就不算智能了，这个在以前人工智能解决各种游戏（backgammon）以后大家的反响上就可以看出来赵勇：

关键是，我根本就没有见到很多靠谱的“强人工智能”团队。这个概念已经在市场上被炒作的泛滥。【应用】再谈计算机视觉技术雷鸣：

我们拉回来到视觉，大家对计算机视觉在其他领域的应用，还有什么想法？比如农业，测量，医学，军事等有什么已知的有意思的公司或产品，或者未来5年可能有的机会徐伟-百度IDL-杰出科学家：

医学方面会有很大希望贾扬清-谷歌-research：

这方面应用很多，农业、医学方面的公司都有赵勇：人工智能的发展，肯定还是由弱到强。现在连“弱智能”都没搞定，太早的讨论“强智能”似乎不靠谱。贾扬清-谷歌-research：

加州有一个公司采用视觉的技术来实现生菜的苗距管理，可以实现3-10%的产量提升，这方面的效果非常明显赵勇：

我看好商业数据分析、生命科学研究、以及安全领域（例如金融安全、公共安全领域）贾扬清-谷歌-research：

军事也有很多应用，比如卫星图像的目标检测贾扬清-谷歌-research：

在医学上，很多公司比如说metamind，enlitic，cellscope，都有很好的应用雷鸣：

@贾扬清，你最近刚刚发布了2.0版本caffe，相对前一个版本有什么重要更新啊？贾扬清-谷歌-research：

简单地说是希望使得大家在科研应用上更加容易一些，比如说可以更容易地构建一个sgd的算法，这个目前是我们的一个尝试性的refactor，具体我就不多打岔啦：）民用的卫星检测也很有市场，比如说通过监测港口的货船来预测经济走势（这个对很多金融公司都是很有用的信号）赵勇：

最近我看到华大基因创始人王俊讨论用大数据和人工智能解决生命科学问题，觉得很有意思。赵勇：

说到机器人，除了家里用的扫地机器人，我个人最看好自动驾驶汽车成为人类历史上最早实现的大规模机器人。我很看好这项技术。如果成功，可以改善安全、交通效率和环保问题。Q&A第一轮[1]深度学习在医学图像有那些可以做的应用？贾扬清-谷歌-research：在医学上面，深度学习最直接的应用是医学图像检测，比如说癌症的病灶。更长远地说，可以通过自然语言处理等方法来index大量已知病例，来帮助医生安排医疗方案以及估计预后[2]多种传感器信息包括图像，语音等，用于机器人，有什么好的信息融合或协同学习的方法或研究？贾扬清-谷歌-research：协同学习目前还处于比较简单的后期融合上面[3]关于mix型的神经网络，有没有实际的工作证明？贾扬清-谷歌-research：他在任务中的效果优于单一的神经网络模型，比如说conv-lstm与单纯lstm的对比(工程师群)”单一的神经网络模型无法处理特定输入，比如说conv-lstm的conv部分是提取图像信息，这个是非卷积网络很难做到的，所以与其说效果区别，不如说mix是必须：）[4]请贾先生介绍一下适用于图像、动作识别的基础算法有哪些？贾扬清-谷歌-research：

图像识别基本上就是标准的CNN方法；物体检测有很多传统的方法，比如说Viola-Jones，最近比较有意思的是用CNN来做检测，比如说R-CNN和multibox；动作识别的话，可以用单纯的CNN，如果是视频的话也有结合sequencemodel（比如说LSTM）的方法[5]深层模型训练需要各种技巧，例如网络结构的选取，神经元个数的设定，权重参数的初始化，学习率的调整，Mini-batch的控制等等。现在有这方面的理论指导吗?贾扬清-谷歌-research：

这个还真不太容易，很多的时候有点像经验科学，KarenSimonyan在CVPR上的tutorial很值得看一下：

/tutorials/cvpr2015/recent.pdf[6]请问，我看到大家对图像识别和大数据应用讨论很深入，但是却忽略了用户隐私和系统安全的考虑，不知道这方面是否有值得关注的研究？徐伟-百度IDL-杰出科学家：

现在我们的网络空间已经很不安全了，未来如果大规模应用智能自动驾驶、或者机器人等时，我觉得网络安全的问题会更加突出”，隐私和安全需要区分对待。如果对人的价值足够大，人可能会愿意牺牲一些隐私。但是安全问题必须要有保证[7]我想问赵总一个问题，我现在做的方向就是您比较关注的智能交通，刚入门时候做了一些道路检测相关的东西，现在开始做场景语义分割，您觉得除了这些传统的方向，比如车辆，行人检测，车道线检测，道路检测等，在交通领域还有哪些计算机视觉可以入手解决的问题？车内？车外？交通流？谢谢赵总~赵勇：

我也入行不久。简单分享一下：计算机视觉无非就是解决检测、跟踪和识别的问题。接下来，需要根据这些结果产生行业需要的功能。在交通领域里，科技上能作的事情不多了。因为汽车的行为分析并不特别苦难，问题是产品。怎样造出性能特别稳定的产品？怎样是的产品在各种条件下可靠的工作？怎样大幅度地降低产品成本，使得这种能够能够被大规模地应用。我觉得这些是智能交通领域里的主要挑战。[8]也想问各种嘉宾，关于迁移学习，现在的研究现状如何，业界有比较好的应用么？(工程师群)徐伟-百度IDL-杰出科学家：

迁移学习在图像、语音、和语言都有成功的应用。ImageNet模型的特征在很多其他问题都有很好的表现。wordembedding也在很多语言问题里很有用。语音识别同样，DNN[9]刚才各位老师提到零点几的错误率很重要，那么对于控制机器学习的uncertainty方面，现在都有哪些技术或者手段呢？能否有可能像实验一样给出一个误差限？贾扬清-谷歌-research：

传统机器学习其实是有比较完整的处理uncertainty的方法的，比如说概率图模型的输出往往是概率分布，本身就有uncertainty。DNN经常被人诟病的一点是因为它输出是一个pointestimation，所以的确很难预测uncertainty。这方面一直有research的进展，但是没有off-the-shelf的解决方法[10]定制化深度学习专用芯片，从应用层面看，云端计算和嵌入式端计算，对芯片功能和性能设计，在需求上有什么异同?赵勇：

云端计算的好处是性能高，容量大，功耗被藏在应用背后了。但是缺点就是对带宽的依赖。很多时候，实时应用，尤其是移动的实时应用是不能依赖这种现场采集数据，后台解决问题的远程方式的。何况视觉信号的带宽成本非常高。所以我觉得未来大多数应用都必须实现人工智能前端实现。那么主要的挑战就是在前端，怎样设计高通量、高性能和低功耗低成本的芯片。Nvidia在Tegra系列中作了一些非常有意义的产品，但是未来还需要急需提高性能降低成本；还有一些公司，例如CEVA,Movidous也出了一些有趣的产品。无论是怎样的产品，有一件事情是确定的，未来的人工智能计算机必须实现更强大的并行计算。Q&A第二轮[1]请问赵勇先生，由于对数据的大量需求，计算机视觉和机器学习在当前是否只适应大公司开发和利用，如果小公司想做这块，有哪些好的突破点？”赵勇：

我们也是小公司，我们也找到了一些方法解决数据问题。更重要的数据收集手段，可能是循序渐进，让自己的产品在工作中自动采集更多的数据，来iteratively改善产品的性能。[2]对于图像检测问题，正负样本比例往往非常悬殊，即便是CNN这样强大的判别式模型做起来也有相当的难度。而对于人来说，检测某种物体似乎是一个生成式的问题。请问对此目前有没有比较好的解决方案。谢谢！贾扬清-谷歌-research：

正负样本比例悬殊是一个传统的机器学习问题，这一般可以通过resampling或者reweighting来解决，或者在后期基于测试数据/应用场景的实际分布来recalibrate。目前生成式模型（generativemodel）有一些有意思的研究，比如说Facebook发表的用CNN来生成图像的文章。但是总的来说，实际的识别问题还是使用区分式模型（discriminativemodel）效果更好[3]对于图像检测问题，正负样本比例往往非常悬殊，即便是CNN这样强大的判别式模型做起来也有相当的难度。而对于人来说，检测某种物体似乎是一个生成式的问题。请问对此目前有没有比较好的解决方案。谢谢！徐伟-百度IDL-杰出科学家：

特定物体的检测，如果训练数据充分，大多数都可以解决的不错了[4]图像识别技术，比如要做一个化学苯化物的识别，因为纸质和摄像头环境因素影响比较大，怎么做精准识别？大量的图片知识库？赵勇：

这个问题我不是很了解，一般来说，一个比较大的数据库还是必要的，特别是输入的图片和一般图像差别很大（化学试剂图片vs一般网图）的时候贾扬清-谷歌-research：

我觉得并不是所有问题都必须依赖深度学习，或者机器学习来解决。[5]请问Caffe什么时侯能支持多GPU，谢谢！贾扬清-谷歌-research：

已经支持啦:

/BVLC/caffe/pull/287

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

让计算机看懂世界

文档简介

温馨提示

最新文档

评论

让计算机看懂世界

文档简介

温馨提示

最新文档

评论

相关文档