震惊世界的Magic Leap和微软的Hololens有什么异同?
1,2014 110,Magic Leap在2014年9月招募了5亿,开设了名为“世界是你的新桌面”(The World is Your New Desktop)的Info环节。Magic Leap感知研究高级副总裁Gary Bradski和计算视觉技术总监Jean-Yves Bouguet分别在当时发表了演讲。加里是计算机视觉领域的领军人物。他在Willow Garage创建了OpenCV(计算视觉工具库),同时也是斯坦福大学的顾问教授。Jean-Yves原本在谷歌负责谷歌街景车的制造,是计算视觉技术的大牛。他们加入Magic Leap是非常令人震惊的。我参加了这个信息会议,当时Gary在传感部分介绍了Magic Leap的技术,并简要介绍了传说中的数字光场电影现实的原理,并在允许录像的部分进行了拍照。本文大部分干货都来自这篇演讲。
2.今年年初,我上了斯坦福计算摄影和数字光场显示教授Gordon Wetzstein的一门课:EE 367计算成像与显示:计算照明第四周,可穿戴显示器和显示块(光场显示器)都讲到了Magic Leap的原理。现在你也可以在这个课程网站上看到这些材料,ee 367/cs 448 I:计算成像与显示。
顺便介绍一下戈登的斯坦福计算图形学组。Marc Levoy(后来去造谷歌眼镜的丹尼尔教授)一直致力于光场的研究。从Marc Levoy提出光场相机,到他的学生Ren Ng创立Lytro公司,再到光场显示器(裸眼3D显示器)的制造,这个群体在光场研究方面一直是世界的领导者。Magic Leap可能会成为光场显示的最大应用。(相关内容请参考:计算成像研究概述)。
3.今年参加了光场成像工作坊,光场成像技术的研讨会。现场有很多光场技术的展示,我和很多光场显示技术大牛交流了对Magic Leap的看法。特别是我们体验了Demo,一种接近Magic Leap的光场技术,以及Nvidia的Douglas Lanman的近眼光场显示。(相关内容请参考近眼光场显示器。)
4.今年年中,我参观了微软研究院雷德蒙。该研究所的首席研究员Richard Szeliski让我们试试Hololens。感受到了Hololens无与伦比的定位感知技术。有保密协议,本文不提供细节,只提供与Magic Leap的原则性对比。
下面是干货:
首先,关于Magic Leap、Hololens等ar眼镜的科普,就是让你看到现实和现实世界中不存在的物体的图像,并与之互动。从技术上来说,可以简单地认为是两部分:
感知);真实世界的一部分。
头戴式显示器呈现虚拟显示。
我将分别在感知部分和显示部分讲解Magic Leap的相关技术。
首先,显示部分
先简单回答这个问题:
Q 1。HoloLens和Magic Leap有什么区别?魔术飞跃的本质原理是什么?
感知部分,Hololens和Magic Leap在技术方向上没有太大区别,都是空间感知定位技术。本文后面会重点介绍。Magic Leap和Hololens最大的区别应该来自显示部分。Magic Leap使用光纤将整个数字光场直接投射到视网膜上,以产生所谓的电影现实。Hololens采用了半透明玻璃,侧面的DLP投影显示虚拟物体始终是真实的,类似于市面上Espon的眼镜显示器或者Google Glass方案。是二维显示,40度左右的小视角,沉浸感会打折扣。
本质物理原理是光在自由空间的传播可以用一个四维光场来唯一表示。成像平面的每个像素包含该像素的所有方向的光的信息。对于成像平面来说,方向是二维的,所以光场是四维的。通常成像过程只是四维光场的二维积分(每个像素上各个方向的光的信息都叠加在一个像素上),但传统显示器显示的是这个二维图像,存在其他二维信息的损失。Magic Leap直接把整个4维光场投射到你的视网膜上,所以人们通过Magic Leap看到的物体和真实物体没有数学上的区别,没有信息损失。理论上,用Magic Leap的设备,你无法区分虚拟物体和真实物体。
使用Magic Leap和其他技术的设备最明显的区别是人眼可以直接选择对焦(主动选择性对焦)。比如我要看近处的物体,近处的物体是真实的,远处的物体是空的。注意:这不需要任何人眼追踪技术,因为投射的光场还原了所有信息,所以用户可以直接看到什么是人眼真实的,就像真实的物体一样。例如,在大约27秒的虚拟太阳系视频中(如下面的gif图),相机失焦,然后再次对准。这个过程只发生在镜头里,与Magic Leap的设备无关。换句话说,虚拟物体就在那里,你怎么想是观察者自己的事。这就是Magic Leap令人敬畏的地方,所以Magic Leap将自己的效果称为电影现实。
Q2。主动选择性对焦有什么好处?在传统的虚拟显示技术中,为什么会头晕?Magic Leap是如何解决这个问题的?
众所周知,人眼感知深度主要是通过两眼与被观察物体之间的三角测量线索来感知被观察物体与观察者之间的距离。然而,三角测量并不是人类感知深度的唯一线索,人类大脑还整合了深度感知的另一条重要线索:人眼聚焦引起的锐度或聚焦线索。而传统的双目虚拟显示技术(如Oculus Rift或Hololens)中的物体不是虚拟的,也不是真实的。举个例子,如下图,当你看到远处的城堡,附近的虚拟猫应该是空的,但是在传统的显示技术中,猫仍然是真实的,所以你的大脑会很混乱,认为猫是远处一个非常大的物体。但这和你双目定位的结果不一致。经过几百万年的进化,大脑程序一会儿认为猫在附近,一会儿认为猫在远处。来来回回会烧脑,所以会呕吐。Magic Leap投射的是整个光场,所以你可以主动有选择的对焦。这只虚拟的猫就放在附近,你看着它就是真的。看城堡的时候是虚拟的,跟真实情况一样,不会晕。演讲中,加里调侃让-伊夫(Jean-Yves),一个用Oculus服用10分钟就会呕吐的家伙,现在一天用Magic Leap服用16小时也不会晕倒。
补充:有人问为什么在线虚拟现实会因为帧率不够而头晕?
虽然帧率和延迟是目前的主要问题,但不是太大的问题,也不是导致头晕的决定性因素。这些问题用更快的显卡,好的IMU和好的屏幕,头部运动预测算法就能很好的解决。我们应该关心一些本质的头晕问题。
这就是虚拟现实和增强现实的区别。
在虚拟现实中,用户看不到真实世界,头晕往往是由于内耳半规管感受到的运动与视觉看到的运动不匹配造成的。所以虚拟现实游戏经常会有晕车呕吐的感觉。这个问题的解决方案不是单一设备可以解决的。如果用户真的坐着不动,如果图像在高速运动,用什么设备可以骗过你的内耳半规管?市面上的一些解决方案,比如Omni VR,或者像HTC Vive这种带追踪的VR系统,其实就是让你走路来解决这种不匹配的问题,但是这样的系统受到场地的限制。但是,VOID的应用很好地利用了VR的局限性。不一定要跑跳,但是可以用很小的空间做出很大的场面,让你觉得自己在一个很大的场景里。现在大部分虚拟现实体验或者全景电影都会以相对较慢的速度移动视角,不然你会吐槽。
但是Magic Leap是AR增强现实,因为可以看到真实世界,所以不存在内耳半规管感知不匹配的问题。对于AR来说,主要的挑战是解决投影物体和真实物体之间的锐度变化问题。所以Magic Leap给出的解决方案很好的解决了这个问题。但都是理论上的,实际工程能力会被时间证明。
Q3。为什么会有头戴式显示器?为什么裸眼全息不能?Magic Leap是如何实现的?
数百年来,人类一直在考虑凭空看到一个虚拟物体。在各种科幻电影中也有很多空气中的全息影像。
但其实想一想本质,这在物理上是很难做到的:纯净的空气中没有可以反射或折射光线的介质。展示最重要的是媒介。微信上很多传言认为Magic Leap不需要眼镜。我猜是翻译错误造成的。通过Magic Leap Tech直接拍摄。被写在了视频里,很多文章被错误的翻译成了“直视”或者“裸眼全息”。事实上,该视频是通过Magic Leap的技术由摄像头拍摄的。
目前全息摄影基本停留在全息胶片时代(如下图,我在光场研讨会上看到的全息胶片小佛像),或者初音初音演唱会用投影阵列对特殊玻璃制作的伪全息摄影(只显示某个角度的影像,忽略其他角度的光线)。
Magic Leap想要实现的是把整个世界变成你的桌面的愿景。所以,与其像初音未来那样做一个3D全息透明屏幕作为介质,或者在世界各地做一个全息膜,不如直接从人眼入手,直接把整个光场放在我们面前更容易。其实英伟达也在做这种光场眼镜。
英伟达采用的方法是在二维显示器前加入微透镜阵列,产生四维光场。相当于把2维像素映射到4维像素,自然分辨率不会高,所以这种光场显示器或者相机(Lytro)的分辨率也不会高。我亲自测试过,效果基本就是看马赛克画风的图案。
Magic Leap采用了完全不同的方法来显示光场,这种方法使用了光纤投影。不过Magic Leap使用的光纤投影方式并不是什么新鲜事。Brian Schowengerdt在Magic Leap担任光纤投影仪,他的导师是来自华盛顿大学的教授Eric Seibel。从事超高分辨率光纤内窥镜工作8年。简单的原理就是光纤束在1mm直径的管道中高速旋转,改变旋转方向,然后就可以进行大范围的扫描。Magic Leap创始人的聪明之处在于找到了这些高分辨率的光纤扫描仪。由于光的可逆性,可以反过来制作高分辨率的投影仪。如图,在他们6年前的论文中,1mm宽9mm长的光纤可以投射出几英寸的高清蝴蝶图像。现在的技术估计已经超过那个时候了。
但这样的光纤高分辨率投影仪无法还原光场,需要在光纤的另一端放置微透镜阵列来产生4维光场。你会想这是不是和英伟达的方法一样?不会,因为光纤束是扫描旋转的,这个微透镜阵列不需要很密很大,显示扫描区域就可以了。相当于把大量数据分布在时间轴上,这和通信中的分时是一样的,因为人眼很难分辨100帧中的变化。只要扫描帧率足够高,人眼是分辨不出显示器是否在旋转的。所以Magic Leap的设备可以小,分辨率可以高。
他亲自来到斯坦福大学,做了一个演讲,用扫描光近眼展示大容量3D显示器。这个讲的应该是Magic Leap的早期原型。(相关内容请参考光纤扫描显示器。)
第二,感知部分
Q4。首先,增强现实为什么会有感知部分?
正是因为设备需要知道自己在现实世界中的位置(定位)和现实世界的三维结构(地图构建),才能在显示器中将虚拟物体放到正确的位置。以最近的Magic Leap演示视频为例。例如,桌子上有一个虚拟的太阳能系统,当佩戴者的头部移动时,太阳能系统停留在原处。这就需要设备实时知道观看者视角的准确位置和方向,从而计算出图像应该显示的位置。同时可以看到阳光在桌面上的反射,这就需要设备知道桌子的三维结构和表面信息,从而正确地在桌子的图像层上投射出叠加的图像。难点在于如何实时计算出整个感知部分,让设备佩戴者感觉不到延迟。如果定位有延迟,佩戴者会感到眩晕,虚拟物体在屏幕上漂移会显得很假。Magic Leap宣称的所谓电影化的真实是没有意义的。
三维感知部分并不新鲜。计算机视觉或机器人学中的SLAM(同步定位和地图绘制)已经做了30年了。通过各种传感器(激光雷达、光学相机、深度相机、惯性传感器)的融合,设备将得到其在三维空间中的准确位置,同时可以实时重建周围的三维空间。
SLAM技术最近特别流行。最近两年和今年都有巨头和风投收购和布局做空间定位技术比较多的公司。因为最强大的三大技术趋势:无人车、虚拟现实、无人机,都离不开空间定位。SLAM是完成这些伟大工程的基础。我也是学SLAM技术的,所以接触很多。为了方便大家了解这个领域,下面列举几个最近大满贯界的大事件和人物:
斯坦福大学的机器人教授巴斯蒂安·特龙是现代SLAM技术的先驱。在DARPA大挑战赛中获胜后,他去谷歌制造无人驾驶汽车。SLAM学术圈的大多数研究派别都是塞巴斯蒂安的弟子和孙辈。
2.(无人车)优步今年获得了CMU卡耐基梅隆大学的NREC(国家机器人工程R&D中心),并联合建立了ATC(先进技术R&D中心)。这些曾经从事火星车定位技术的研究人员都去了优步空管局做无人车。
3.(虚拟现实)超现实视觉最近被Oculus Rift收购,其创始人Richard Newcombe是著名DTAM Kinect fusion(HoloLens的holo lens核心技术)的发明者。Oculus Rift也在去年收购了13th Labs(一家确实在手机上SLAM的公司)。
4.(虚拟现实)谷歌Project Tango今年发布了全球首款具备SLAM功能的商用平板电脑。苹果在5月份收购了Metaio AR,Metaio AR的SLAM已经在AR的app中使用了很长时间。英特尔发布了可以演示SLAM的深度相机Real Sense,并在CES上展示了无人机的自动障碍功能和自动巡线功能。
5.(无人机)Skydio,由Google X Project Wing UAV创始人尼古拉斯·罗伊的学生亚当·布里(Adam Bry)创立,获得了A16z的投资,估值2000万,并聘请了来自佐治亚理工学院的SLAM Daniel教授弗兰克·德拉雷特(Frank Dellaert)担任他们的首席科学家。(相关内容:http://www.cc.gatech.edu/~德拉雷特/弗兰克德拉雷特/弗兰克_德拉雷特/弗兰克_ dellaert.html)
SLAM作为一个基础技术,其实世界上做SLAM或者传感器融合做的好的人可能不会超过100,大部分都是认识的。这么多公司抢这么多人,竞争之激烈可想而知。所以Magic Leap作为一家创业公司,必须整合大量资本才能和大公司争夺人才资源。
Q5。Magic Leap的感性部分是什么技术?
这张照片是Magic Leap斯坦福招聘会上Gary教授在Magic Leap感知部分的技术架构和路线。可以看出,以校准为中心,开发了四种不同的计算机视觉技术栈。
1.从图片上看,整个Magic Leap传感部分的核心步骤是标定(图像或传感器标定),因为Magic Leap或Hololens等主动定位设备都有各种摄像机和传感器进行定位,摄像机参数和摄像机之间关系参数的标定是开始所有工作的第一步。如果这一步摄像头和传感器参数不准确,后面的定位就是扯淡。从事过计算机视觉技术的人都知道,传统的标定部分需要耗费大量的时间,需要用相机拍摄棋盘,反复采集数据进行标定。但是Magic Leap的Gary,他发明了一种新的标定方法,直接用一种形状奇特的结构作为校正器,相机一次完成标定,速度极快。这部分场景不允许拍照。
2.有了标定部分,就开始了最重要的三维感知定位部分(左下角的技术栈),分为四步。
2.1首先是平面曲面跟踪。在虚拟太阳系的演示中可以看到,虚拟的太阳在桌子上反射光线,这种反射会随着装备佩戴者的移动而改变位置,就像太阳真的挂在空中发光一样,反射到桌子表面。这就需要设备实时知道桌子表面在哪里,并计算出虚拟太阳与平面的关系,从而计算出太阳反射的位置并叠加在设备佩戴者眼镜的相应座上,深度信息是正确的。难点在于平面的实时检测和给定平面位置的平滑度(否则反射会跳)。从演示中我们可以看出Magic Leap在这一步做得很好。
2.2然后稀疏SLAM(稀疏SLAM);Gary在Info Session上展示了他们的实时3D重建和定位算法。为了算法的实时性,他们首先实现了一种高速稀疏或半稀疏三维定位算法。从效果上看,和现在的开源LSD算法差别不大。
2.3其次是传感器;视觉和IMU(视觉和惯性传感器的融合)。
导弹通常采用纯惯性传感器进行主动定位,但同样的方法不能用于民用级的低精度惯性传感器,二次积分后肯定会漂移。但视觉部分处理速度不高,容易被遮挡,定位鲁棒性不高。集成视觉和惯性传感器是近年来非常流行的做法。
例如:
Google Tango是IMU和深度相机在这方面的整合,非常好;DJI的无人机Phantom 3或Inspire 1将光学单目摄像头与无人机中的惯性传感器结合在一起,在没有GPS的情况下可以实现非常惊人的稳定悬停;Hololens在SLAM上可以说是做的很好了,专门定制了一个芯片做SLAM。算法据说和KinectFusion的核心一脉相承,通过个人测试定位效果非常好(面对一面白色毫无特色的墙,我可以站立跳跃,但是回到场地中央后,定位依然非常准确,一点都不漂移。)
2.4最后是3D贴图和Dense SLAM(3D贴图重建)。下图是Magic Leap山景办公室的3D地图重建:只要拿着设备走一圈,整个办公室的3D地图就还原出来了,还有精美的地图。书架上的书可以重建而不变形。
由于AR的交互是一个全新的领域,为了使人与虚拟世界顺利交互,基于机器视觉的识别与跟踪算法成为了重中之重。新的人机交互体验部分需要大量的技术储备来支撑。
Gary没有详细说明接下来的三个分支,但你可以看到他们的布局。我只是补充一些注释来帮助你理解。
3.1众包众包。它用于收集数据,供以后的机器学习使用。需要构建合理的反馈学习机制,动态增量收集数据。
3.2机器学习& amp深度学习机器学习和深度学习。需要构建一个机器学习算法架构,用于后续识别算法的生产。
3.3场景物体识别场景物体识别。识别场景中的物体,区分物体的类型和特征,进行更好的交互。比如看到小狗就认出来,然后系统就可以把狗P变成狗怪,直接打怪。
3.4行为识别行为识别。识别场景中的人或物的行为,例如跑或跳、走或坐,可以用于更动态的游戏交互。对了,国内有个斯坦福校友办的叫绿深眼的公司也在做这方面的研究。
跟踪方面
4.1手势识别。用于交互,其实每个AR/VR公司都在做这方面的技术储备。
4.2目标跟踪目标跟踪。这项技术非常重要。比如Magic Leap持有一只大象的Demo。至少你得知道自己手的三维位置信息,并实时跟踪,才能把大象放到正确的位置。
4.3 3D扫描3D扫描。可以虚拟现实物体。例如,如果你拿起一件艺术品并对其进行三维扫描,那么远处的用户就可以在虚拟世界中分享和玩同一件物品。
4.4人体跟踪人体跟踪。比如你可以给现实中的每个角色加一个血棒和能力点。
5.1眼球追踪眼球追踪。Gary解释说,虽然Magic Leap的渲染不需要眼球追踪,但是由于要计算4维光场,Magic Leap的渲染计算量巨大。如果做了眼动追踪,可以减轻3D引擎的物体渲染和场景渲染的压力,是一个极好的优化策略。
5.2情绪识别情绪识别。如果Magic Leap想成为她电影中描绘的人工智能操作系统,可以识别主人的情绪,做出充满关怀的情感护航效果。
5.3生物识别生物识别。例如,识别真实场景中的人,并在每个人头上显示一个名字。人脸识别就是其中之一,中国清华姚班兄弟运营的公司Face++在这方面做得最好。
总结:简单来说,Magic Leap的这部分和其他很多公司差不多。虽然加里也加入了我们,他的志向很远大,但是这部分的竞争非常激烈。
Q6:即使Magic Leap已经解决了感知和显示,下一个难点是什么?
1,计算设备和计算量
Magic Leap要计算4维光场,计算量惊人。不知道Magic Leap现在是怎么解决的。英伟达不出牛逼的移动显卡怎么办?你会建立自己的专用电路吗?带着四辆泰坦X上路可不是闹着玩的。
下图是今年我参加了SIGGraph 2015的其中一次VR演示,大家都背着一个大大的电脑包在玩VR。10年后的人类看到今天的人类追求VR会觉得好笑吗?哈哈。
2、电池!电池!电池!所有电子设备的痛苦
3.操作系统
说实话,如果说“世界是你的新桌面”是他们的愿景,那么真的没有一个操作系统可以支持Magic Leap愿景下的交互。他们必须自己发明轮子。
4.在虚拟物体的交互体验中加入物理感受。
为了有触觉,交互手套和交互手柄现在是VR界的热门话题。从目前的专利来看,看不出Magic Leap会有更高的洞察力。也许一个Kickstarter能最终称霸,Magic Leap会把他夺回来。