光场相机的技术原理_第1页
光场相机的技术原理_第2页
光场相机的技术原理_第3页
光场相机的技术原理_第4页
光场相机的技术原理_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、什么是光场?在人类的五大感知途径中,视觉占据了70%~80%的信息来源;而大脑有大约50%的能力都用于处理视觉信息[1]。借助视觉,我们能准确抓取杯子,能在行走中快速躲避障碍物,能自如地驾驶汽车,能完成复杂的装配工作。从日常行为到复杂操作都高度依赖于我们的视觉感知。然而,现有的图像采集和显示丢失了多个维度的视觉信息。这迫使我们只能通过二维“窗口”去观察三维世界。例如医生借助单摄像头内窥镜进行腹腔手术时,因无法判断肿瘤的深度位置,从而需要从多个角度多次观察才能缓慢地下刀切割。从光场成像的角度可以解释为:因为缺乏双目视差,只能依靠移动视差来产生立体视觉。再例如远程机械操作人员通过观看监视器平面图像进行机械遥控操作时,操作的准确性和效率都远远低于现场操作。人眼能看见世界中的物体是因为人眼接收了物体发出的光线(主动或被动发光),而光场就是三维世界中光线集合的完备表示。“LightField”这一术语最早出现在AlexanderGershun于1936年在莫斯科发表的一篇经典文章中,后来由美国MIT的ParryMoon和GregoryTimoshenko在1939年翻译为英文[2]。但Gershun提出的“光场”概念主要是指空间中光的辐射可以表示为关于空间位置的三维向量,这与当前“计算成像”、“裸眼3D”等技术中提及的光场不是同一个概念。学术界普遍认为ParryMoon在1981年提出的“PhoticField”[3]才是当前学术界所研究的“光场”。随后,光场技术受到MIT、Stanford等一些顶级研究机构的关注,其理论逐步得到完善,多位相关领域学者著书立作逐步将光场技术形成统一的理论体系,尤其是在光场的采集[4]和3D显示[5,6]两个方面。欧美等部分高校还开设了专门的课程——计算摄像学(ComputationalPhotography)。如图1所示,人眼位于三维世界中不同的位置进行观察所看到的图像不同,用(x,y,z)表示人眼在三维空间中的位置坐标。光线可以从不同的角度进入人眼,用(θ,Φ)表示进入人眼光线的水平夹角和垂直夹角。每条光线具有不同的颜色和亮度,可以用光线的波长(λ)来统一表示。进入人眼的光线随着时间(t)的推移会发生变化。因此三维世界中的光线可以表示为7个维度的全光函数(PlenopticFunction,Plen-前缀具有“全能的、万金油”的意思)[7]。P(x,y,z,θ,Φ,λ,t)图1.7D全光函数示意图上述光场的描述是以人眼为中心。光路是可逆的,因此光场也可以以物体为中心等效的描述。与“光场”相类似的另一个概念是“反射场(ReflectanceField)”。如图2所示,物体表面发光点的位置可以用(x,y,z)三个维度来表示;对于物体表面的一个发光点,总是向180度半球范围内发光,其发光方向可以用水平角度和垂直角度(θ,Φ)来表示;发出光线的波长表示为(λ);物体表面的光线随着时间(t)的推移会发生变化。同理,反射场可以等效表示为7维函数,但其中的维度却表示不同的意义。图2.7D反射场示意图对比光场与反射场可以发现:光场与反射场都可以用7个维度来表征,光场是以人眼为中心描述空间中所有的光线,反射场是以物体表面发光点为中心描述空间中所有的光线。光场所描述的光线集合与反射场所描述的光线集合是完全一致的。换句话说,光场中的任一条光线都可以在反射场中找到。2、为什么要研究光场?【从光场采集的角度来看】以自动驾驶为例,首先需要通过多种传感器去“感知”外界信息,然后通过类脑运算进行“决策”,最后将决策以机械结构为载体进行“执行”。现阶段人工智能的发展更倾向于“类脑”的研究,即如何使计算机具有人脑类似的决策能力。然而却忽略了“眼睛”作为一种信息感知入口的重要性。设想一个人非常“聪明”但是视力有障碍,那么他将无法自如的驾驶汽车。而自动驾驶正面临着类似的问题。如果摄像机能采集到7个维度所有的信息,那么就能保证视觉输入信息的完备性,而“聪明”的大脑才有可能发挥到极致水平。研究光场采集将有助于机器看到更多维度的视觉信息。【从光场的显示角度来看】以LCD/OLED显示屏为例,显示媒介只能呈现光场中(x,y,λ,t)四个维度的信息,而丢失了其他三个维度的信息。在海陆空军事沙盘、远程手术等高度依赖3D视觉的场景中,传统的2D显示媒介完全不能达到期望的效果。实现类似《阿凡达》中的全息3D显示,是人类长久以来的一个梦想。当光场显示的角度分辨率和视点图像分辨率足够高时可以等效为动态数字彩色全息。研究光场显示将有助于人类看到更多维度的视觉信息。从1826全世界第一台相机诞生[8]至今已经有近两百年历史,但其成像原理仍然没有摆脱小孔成像模型。在介绍小孔成像模型之前,先看看如果直接用成像传感器(e.g.CCD)采集图像会发生什么事呢?如图3所示,物体表面A、B、C三点都在向半球180度范围内发出光线,对于CCD上的感光像素A'会同时接收到来自A、B、C三点的光线,因此A'点的像素值近似为物体表面上A、B、C三点的平均值。类似的情况也会发生在CCD上的B'和C'点的像素。因此,如果把相机上的镜头去掉,那么拍摄的图片将是噪声图像。图3.无小孔的噪声成像如果在CCD之前加一个小孔,那么就能正常成像了,如图4所示。CCD上A'点只接收到来自物体表面A点的光线。类似的,CCD上B'和C'点也相应只接收到物体表面B点和C的点光线。因此,在CCD上可以成倒立的像。图4.小孔成像实际的相机并没有采用如图4中的理想小孔成像模型,因为小孔直径较小会导致通光亮非常小,信噪比非常低,成像传感器无法采集到有效的信号;如果小孔直径足够小,当与光波长相当时还会产生衍射现象。而小孔直径过大会导致成像模糊。现代的成像设备用透镜来替代小孔,从而既能保证足够的通光量,又避免了成像模糊。如图5所示,物体表面A点在一定角度范围内发出的光线经过透镜聚焦在成像传感器A’点,并对该角度范围内所有光线进行积分,积分结果作为A点像素值。这大大增加了成像的信噪比,但同时也将A点在该角度范围内各方向的光线耦合在一起。图5.透镜小孔成像小孔成像模型是光场成像的一种降维形式,只采集了(x,y,λ,t)四个维度的信息。RGB-D相机多了一个维度信息(x,y,z,λ,t)。相比全光函数,其主要丢失的维度信息是光线的方向信息(θ,Φ)。缺失的维度信息造成了现有成像/呈像设备普遍存在的一系列问题。在图像采集方面,可以通过调节焦距来选择聚焦平面,然而无论如何调节都只能确保一个平面清晰成像,而太近或太远的物体都会成像模糊,这给大场景下的AI识别任务造成了极度的挑战。在渲染显示方面,由于(θ,Φ)维度信息的缺失会引起渲染物体缺乏各向异性的光线,从而显得不够逼真。好莱坞电影大片中渲染的逼真人物大多采用了光场/反射场这一技术才得以使得各种科幻的飞禽走兽能栩栩如生。3、光场4D参数化根据7D全光函数的描述,如果有一个体积可以忽略不计的小球能够记录从不同角度穿过该小球的所有光线的波长,把该小球放置在某个有限空间中所有可以达到的位置并记录光线波长,那么就可以得到这个有限空间中某一时刻所有光线的集合。在不同时刻重复上述过程,就可以实现7D全函数的完备采集。GoogleDaydream平台PaulDebevec团队在Steam平台上推出的《WelcomeToLightField》就是采用了类似的思想实现的。然而,采集的数据量巨大。按照当前的计算机技术水平,难以对7D光场这么庞大的数据进行实时处理和传输。因此有必要对7D光场进行简化降维。如图6所示,美国斯坦福大学的MarcLevoy将全光函数简化降维,提出(u,v,s,t)4D光场模型[9]。Levoy假设了两个不共面的平面(u,v)和(s,t),如果一条光线与这两个平面各有一个交点,则该光线可以用这两个交点唯一表示。Levoy提出的光场4D模型有一个重要的前提假设:在沿光线传播方向上的任意位置采集到的光线是一样的。换句话说,假设任意一条光线在传播的过程中光强不发生衰减且波长不变。考虑到日常生活中光线从场景表面到人眼的传播距离非常有限,光线在空气中的衰减微乎其微,上述Levoy提出的假设完全合理。Levoy提出的光场4D模型并不能完备地描述三维空间中所有的光线,与(u,v)或(s,t)平面所平行的光线就不能被该4D模型所表示,例如图6中红色标示的光线。尽管Levoy提出的4D模型不能完备描述三维空间中所有的光线,但可以完备描述人眼接收到的光线。因为当光线与人眼前视方向垂直时,该光线不会进入人眼。因此,这部分光线并不影响人眼视觉成像。Levoy提出的4D模型既降低了表示光场所需的维度,同时又能完备表示人眼成像所需要的全部光线。光场4D模型得到了学术界的广泛认可,关于光场的大量研究都是在此基础上展开。图6.4D光场模型4D光场模型具有可逆性,既能表示光场采集,又能表示光场显示。如图7所示,对于光场采集模型,右侧物体发出的光线经过(s,t)和(u,v)平面的4D参数化表示,被记录成4D光场。对于光场显示模型,经过(u,v)和(s,t)平面的调制可以模拟出左侧物体表面的光线,从而使人眼“看见”并不存在的物体。图7.4D光场模型的可逆性如图8所示,物体表面A、B、C三点发出的光线首先到达(u,v)平面,假设(u,v)平面上有三个小孔h1、h2、h3,则A、B、C三点发出的光线经三个小孔分别到达(s,t)平面。A、B、C三点在半球范围内三个不同方向的光线被同时记录下来,例如A点三个方向的光线分别被(s,t)平面上A3’、B3’、C3’记录。如果(u,v)平面上小孔数量更多,且(s,t)平面上的像素足够密集,则可以采集到空间中更多方向的光线。需要说明的是,图8中展示的是(u,v)(s,t)光场采集模型在垂直方向上的切面图,实际上可以采集到A、B、C三点9个不同方向(3x3)的光线。图8.4D光场采集空间光线示意图图像分辨率和FOV(FieldOfView)是传统相机成像性能的主要指标。衡量4D光场的指标不仅有图像分辨率和FOV,还有角度分辨率和FOP(FieldOfParallax)。图9展示了基于微透镜阵列的光场相机的光路示意图,物体表面发出的光线进入相机光圈,然后被解耦和并分别被记录下来。以B点为例,发光点B在半球范围内发出各向异性的光线,但并不是所有的光线都进入相机光圈,只有一定角度内的光线被成功采集,被光场相机采集到的光线的角度范围决定了能够观察的最大视差范围,我们记这个角度为FOP。换句话说,图9中光场相机只能采集到B点FOP角度范围内的光线。但FOP的大小随着发光点与光场相机的距离远近而不同,因此通常采用基线的长度来衡量FOP的大小,图9中主镜头的光圈直径等效为基线长度。图9中B点在FOP角度范围内的光线被微透镜分成4x4束光线,光场相机的角度分辨率即为4x4,光场相机的角度分辨率表征了一个发光点在FOP角度范围内的光线被离散化的程度。而基于小孔成像模型相机的角度分辨率始终为1x1。光场的视点图像分辨率同样表征了被采集场景表面离散化程度,成像传感器分辨率除以角度分辨率即为视点图像分辨率。图9.透镜阵列4D光场的图像分辨率和角度分辨率基于相机阵列的光场相机同样可以用视点图像分辨率、角度分辨率、FOV、FOP四个参数来衡量光场相机的各方面性能。如图10所示为4x4相机阵列,B点半球范围内发出的光线中FOP角度范围内的光线被相机阵列分成4x4束并分别被采集。相机的个数4x4即为角度分辨率,单个相机成像传感器的分辨率即为视点图像分辨率。所有相机FOV的交集可以等效为光场相机的FOV。基于相机阵列的光场相机的基线长度为两端相机光心之间的距离。一般而言,基于相机阵列的光场相机比基于微透镜阵列的光场相机具有更长的基线,也就具有更大的FOP角度。图10.相机阵列4D光场的图像分辨率和角度分辨率4、光场4D可视化4D光场数据可以表示为(Vx,Vy,Rx,Ry),其中(Vx,Vy)表征了角度分辨率,表示有Vx*Vy个视点(View)图像;(Rx,Ry)表征视点图像分辨率,表示单个视点图像的分辨率为Rx*Ry。如图11中上侧图展示了7x7光场的可视化,表示共有49个视点图像,每个视点的图像分辨率为384x512。视点图像分辨率越高,包含的细节越多。角度分辨率越高,单位角度内视点数量越多,视差过度就越平滑。角度分辨率越低,视点就越稀疏,观看光场时视点跳跃感越明显。假设在10度的可视角度内水平方向上包含了7个视点,相邻视点间的角度为1.67度,在2米的观看距离,相邻两个视点的水平距离为29毫米。当视点个数减少,相邻视点的空间距离变大,观看者移动观看位置时就会感到明显的视点跳跃。光场中任意两个视点间都存在视差,将光场(Vx,Vy,Rx,Ry)中的部分视点图像放大,如图11中下侧所示;同一行所有视点图像之间只有水平视差,没有垂直视差;同一列所有视点图像之间只有垂直视差,没有水平视差。图11.光场角度分辨率和视点分辨率可视化分析光场作为高维数据,不便于可视化分析。为了更好的分析光场中的视差,往往将光场中某一个水平/垂直视点上所有图像的同一行/列像素堆成一幅2D图像,称之为光场切片数据(LightFieldSlice)。光场切片图像可以将光场中的水平视差和垂直视差可视化,便于直观分析。如图12中蓝色线条所在的行像素堆叠后就形成了图12中下侧的光场切片图像。类似的,如图11中将光场中同一垂直视点上所有绿色线条所在的列像素堆叠后就形成了图11中右侧的光场切片图像。图12.光场切片图例5、光场相机光场相机的硬件结构是由主透镜、微透镜阵列和CCD/CMOS感光器三大块组成。这个结构模型看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论