版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、自动驾驶核心技术之三:环境感知自动驾驶四大核心技术,分别是环境感知、精确定位、 路径规划、线控执行。环境感知是其中被研究最多的部分, 不过基于视觉的环境感知是无法满足无人驾驶要求的。环境 感知主要包括三个方面,路面、静态物体和动态物体。 对于 动态物体, 不仅要检测还要对其轨迹进行追踪,并根据追踪 结果,预测该物体下一步的轨迹(位置) 。这在市区,尤其 中国市区必不可少,最典型场景就是北京五道口:如果你见 到行人就停, 那你就永远无法通过五道口, 行人几乎是从不 停歇地从车前走过。人类驾驶员会根据行人的移动轨迹大概 评估其下一步的位置,然后根据车速,计算出安全空间(路 径规划),公交司机最擅长
2、此道。无人车同样要能做到。 要 注意这是多个移动物体的轨迹的追踪与预测,难度比单一物 体要高得多。这就是MODAT(Moving Object Detection andTracking)。也是无人车最具难度的技术。图:无人车环境感 知框架 这是基于激光雷达的环境感知模型,搞视觉环境感知模型研 究的人远多于激光雷达。不过很遗憾地讲,在无人车这件事 上,视觉不够靠谱。 让我们来看计算机视觉的发展历程,神经网络的历史可追述到上世纪四十年代, 曾经在八九十年 代流行。 神经网络试图通过模拟大脑认知的机理,解决各种 机器学习的问题。1986年Rumelhart,Hinton和Williams在 自然发
3、表了着名的反向传播算法用于训练神经网络,直 到今天仍被广泛应用。不过深度学习自80年代后沉寂了许 久。神经网络有大量的参数,经常发生过拟合问题,即往往 在训练集上准确率很高,而在测试集上效果差。这部分归因 于当时的训练数据集规模都较小,而且计算资源有限,即便 是训练一个较小的网络也需要很长的时间。神经网络与其它 模型相比并未在识别的准确率上体现出明显的优势,而且难 于训练。因此更多的学者开始采用诸如支持向量机(SVM)、Boosting、最近邻等分类器。这些分类器可以用具有一个或 两个隐含层的神经网络模拟,因此被称作浅层机器学习模 型。它们不再模拟大脑的认知机理;相反, 针对不同的任务 设计不
4、同的系统, 并采用不同的手工设计的特征。例如语音 识别采用高斯混合模型和隐马尔可夫模型,物体识别采用SIFT特征,人脸识别采用LBP特征,行人检测采用HOG特征。2006年以后, 得益于电脑游戏爱好者对性能的追求,GPU性能飞速增长。同时,互联网很容易获得海量训练数据。 两者结合,深度学习或者说神经网络焕发了第二春。2012年,Hinton的研究小组采用深度学习赢得了ImageNet图像 分类的比赛。从此深度学习开始席卷全球,到今天,你不说 深度学习都不好出街了。深度学习与传统模式识别方法的最 大不同在于它是从大数据中自动学习特征,而非采用手工设 计的特征。好的特征可以极大提高模式识别系统的性
5、能。在 过去几十年模式识别的各种应用中,手工设计的特征处于统 治地位。它主要依靠设计者的先验知识,很难利用大数据的 优势。由于依赖手工调参数,特征的设计中只允许出现少量 的参数。深度学习可以从大数据中自动学习特征的表示,其中可以包含成千上万的参数。手工设计出有效的特征是一个 相当漫长的过程。回顾计算机视觉发展的历史,往往需要五 到十年才能出现一个受到广泛认可的好的特征。而深度学习 可以针对新的应用从训练数据中很快学习得到新的有效的 特征表示。一个模式识别系统包括特征和分类器两个主要的 组成部分,二者关系密切,而在传统的方法中它们的优化是分开的。在神经网络的框架下,特征表示和分类器是联合优 化的
6、。两者密不可分。深度学习的检测和识别是一体的,很 难割裂,从一开始训练数据即是如此,语义级标注是训练数 据的最明显特征。绝对的非监督深度学习是不存在的,即便 弱监督深度学习都是很少的。因此视觉识别和检测障碍物很 难做到实时。而激光雷达云点则擅长探测检测障碍物3D轮 廓,算法相对深度学习要简单的多,很容易做到实时。激光 雷达拥有强度扫描成像,换句话说激光雷达可以知道障碍物 的密度,因此可以轻易分辨出草地,树木,建筑物,树叶, 树干,路灯,混凝土,车辆。这种语义识别非常简单,只需 要根据强度频谱图即可。而视觉来说要准确的识别,非常耗时且可靠性不高。视觉深度学习最致命的缺点是对视频分析 能力极弱,而
7、无人车面对的视频, 不是静态图像。 而视频分 析正是激光雷达的特长。视觉深度学习在视频分析上处于最 初的起步阶段,描述视频的静态图像特征, 可以采用从ImageNet上学习得到的深度模型;难点是如何描述动态特 征。以往的视觉方法中,对动态特征的描述往往依赖于光流 估计,对关键点的跟踪,和动态纹理。如何将这些信息体现 在深度模型中是个难点。最直接的做法是将视频视为三维图 像,直接应用卷积网络,在每一层学习三维滤波器。但是这 一思路显然没有考虑到时间维和空间维的差异性。另外一种 简单但更加有效的思路是通过预处理计算光流场,作为卷积 网络的一个输入通道。也有研究工作利用深度编码器(deep auto
8、encoder)以非线性的方式提取动态纹理,而传统的方法大多采用线性动态系统建模。光流只计算相邻两帧的运动情 况,时间信息也表述不充分。two-stream只能算是个过渡方 法。目前CNN搞空域,RNN搞时域已经成共识, 尤其是LSTM和GRU结构的引入。RNN在动作识别上效果不彰,某些单 帧就可识别动作。除了大的结构之外,一些辅助的模型,比 如visual hard/soft attention model,以及ICLR2016上的压缩 神经网络都会对未来的深度学习视频处理产生影响。目前 深度学习对视频分析还不如手工特征,而手工特征的缺点,前面已经说过,准确率很低,误报率很高。未来恐怕也难以
9、 提升。太多的坑要填。MODAT首先要对视频分析,实时计 算出地平面,这对点云为主的激光雷达来说易如反掌,对视 觉来说难比登天。用分段平面拟合和RANSAC算法计算出真实地平面。实际 单靠激光雷达的强度扫描成像,一样可以得出准确的地平 面,这也是激光雷达用于遥感的主要原因,可以排除植被的 干扰,获得准确的地形图,大地基准面。用VOXEL GRID滤波器将动静物体分开,黑棕蓝绿是激光 雷达发射到行人身上的每个时间段的假设,与动态物体比, 静态物体捕获的点云数自然要多。左边是深度学习领域人尽皆知的权威Kitti数据集的采集车, 右边是数据集的数据格式和内容。Kitti对其Ground Truth有
10、 一段描述,Togenerate 3D object ground-truth we hired a set of annotators, andasked them to assign tracklets in the form of 3D bounding boxes toobjects such as cars, vans, trucks,trams, pedestrians and cyclists.Unlike most existing benchmarks, we do not rely on onlinecrowd-sourcing to perform the labelin
11、g. Towards this goal, we createa special purpose labeling tool, which displays 3D laser points aswell as the camera images to increase the quality of the annotations.这里Kitti说的很明确, 其训练数据的标签加注不是人工众包,而是打造了一个自动 标签软件,这个软件把3D激光云点像光学图像一样显示出来,以此来提高标注的质量。 很简单, 激光雷达是3D ObjectDetection的标准,即使视觉深度学习再强大,与激光雷达始 终有
12、差距。再来说一下Stixel(sticks above the ground in the image),中文一般叫棒状像素, 这是2008年由奔驰和法兰克 福大学Hernan Badino教授推出的一种快速实时检测障碍物的上下边缘和双目视差,构建一个Stixel,可以准确快速地检测障碍物, 特别是行人。 这是奔驰宝马大规模使用双目 的主要原因,相对单目的行人识别,双目Stixel拥有碾压性 优势。激光雷达的3D距离信息更容易获得,也更准确,因此建立Steixel更加快捷准确。现在该说Tracking了,现在不少人把 跟踪(tracking)和计算机视觉中的目标跟踪搞混了。前者更偏 向数学,是
13、对状态空间在时间上的变化进行建模,并对下一 时刻的状态进行预测的算法。 例如卡尔曼滤波, 粒子滤波等。 后者则偏向应用,给定视频中第一帧的某个物体的框,由算 法给出后续帧中该物体的位置。最初是为了解决检测算法速 度较慢的问题,后来慢慢自成一系。因为变成了应用问题, 所以算法更加复杂,通常由好几个模块组成,其中也包括数物的方法,尤其适合检测行人,这也是奔驰和宝马双目的由来。 隆大学的机器人实验室挖走了, 卡梅隆大学机器人实验室开发的每秒可做到150甚至200帧,Hernan Badino后来被卡梅Uber的无人车主要就是基于Stixel的核心是计算棒状学上的tracking算法,还有提取特征,在
14、线分类器等步骤。 在自成一系之后,目标跟踪实际上就变成了利用之前几帧的 物体状态(旋转角度,尺度),对下一帧的物体检测进行约束(剪枝)的问题了。它又变回物体检测算法了,但却人为地把 首帧得到目标框的那步剥离出来。在各界都在努力建立end-to-end系统的时候,目标跟踪却只去研究一个子问题, 选择性无视第一帧的框是怎么来的的问题。激光雷达的Tracking则很容易做到, 以IBEO为例,IBEO每一款激光雷 达都会附送一个叫IBEO Object Tracking的软件,这是一个 基于开曼滤波器的技术,最多可实时跟踪65个目标,是实时哟,这可是视觉类根本不敢想的事。Quanergy也有类似的 软件,叫3D Perception。感知、决策(路径规划) 、定位
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度建筑工程施工合同履约保证金担保协议3篇
- 二零二五年度农场农业保险投保合同
- 2025年度个人之间房屋装修借款合同范本4篇
- 2025年度苗木种植基地土地流转与租赁合同
- 2025年高端酒店集团品牌合作资金引进居间协议3篇
- 二零二五年度同安区二手房交易税费减免专项合同
- 2025年度投资融资经纪代理委托合同规范范本3篇
- 上海二手房交易细节须知协议指南(2024版)版B版
- 二零二五年度古典园林罗马柱安装服务协议3篇
- 专利申请处理专项服务合同
- 医疗健康大数据平台使用手册
- 碳排放管理员 (碳排放核查员) 理论知识考核要素细目表四级
- 撂荒地整改协议书范本
- GB/T 20878-2024不锈钢牌号及化学成分
- 诊所负责人免责合同范本
- 2024患者十大安全目标
- 会阴切开伤口裂开的护理查房
- 实验报告·测定鸡蛋壳中碳酸钙的质量分数
- 部编版小学语文五年级下册集体备课教材分析主讲
- 电气设备建筑安装施工图集
- 《工程结构抗震设计》课件 第10章-地下建筑抗震设计
评论
0/150
提交评论