Magic Leap 和微软的 HoloLens 相比有哪些异同点?

刚微博上看到谷歌magic leap的裸眼全息视频吓傻了。请问是真的吗?视角不同所看的景象也是不同?如果是真的不需要一个载体吗?跟微软的相比又有什么区…
关注者
3,205
被浏览
275,851

40 个回答

最近看到国内网络上突然Magic Leap的话题火了,并且跟着很多人无理由和根据的赞或黑Magic Leap。我在斯坦福计算机系上学的时候,对Magic Leap很好奇,正好在学校能接触到各路和Magic Leap相关的大神,所以在这方面做了些研究,我觉得可以分享点技术性干货,解释一些原理,让大家有点材料来赞或黑。

目前Magic Leap只有一个公开视频是实际拍摄的: youtube.com/watch? (桌腿后的机器人和太阳系)(youku: Magic Leap Demo),本文只以这个视频的例子来做阐释。

-------------------------

先说一下我关于Magic Leap的信息来源: 1. 2014年11月10日,Magic Leap在2014年9月融了5个亿以后,来Stanford招人,开了一个Info Session,标题是"The World is Your New Desktop” (世界就是你的新桌面)多么霸气!当时是Magic Leap 感知研究的高级副总裁 (VP of Perception) Gary Bradski 和 计算视觉的技术负责人 (Lead of Computer Vision) Jean-Yves Bouguet 来作演讲。Gary是计算机视觉领域的领军人物,在Intel和柳树车库(Willow Garage)创造并发展了OpenCV(计算视觉工具库),也是ROS(机器人操作系统)的创始团队之一,同时也是Stanford顾问教授。Jean-Yves原来在Google负责谷歌街景车(Street View Car)的制造,是计算视觉技术的大牛。他们加入Magic Leap是非常令人震惊的。我参加了这次Info Session, 当时Gary来介绍Magic Leap在感知部分的技术和简单介绍传说中的数字光场Cinematic Reality的原理,并且在允许录影的部分都有拍照记录。本文大部分的干货来自这次演讲。





2. 我今年年初上了 Stanford 计算摄影和数字光场显示的大牛教授Gordon Wetzstein的一门课:EE367 Computational Imaging and Display(计算影像和显示器) :其中第四周的Computational illumination,Wearable displays 和 Displays Blocks(light field displays) 这三节都讲到Magic Leap的原理。现在大家也可以去这个课程网站上看到这些资料,EE367 / CS448I: Computational Imaging and Display

顺便介绍一下 Gordon 所在的Stanford 计算图形组,由Marc Levoy(后来跑去造Google Glass的大牛教授)一直致力于光场的研究,从Marc Levoy提出光场相机,到他的学生Ren Ng开创Lytro公司制造光场相机,到现在Gordon教授制造光场显示器(裸眼光场3D显示器),这个组在光场方面的研究一直是世界的领头羊。而Magic Leap可能正在成为光场显示器的最大应用。 Computational Imaging Research Overview



3. 今年参加了光场影像技术的研讨会 Workshop on Light Field Imaging ,现场有很多光场技术方面的展示,我和很多光场显示技术的大牛交流了对Magic Leap的看法。特别的是,现场体验了接近Magic Leap的光场技术Demo,来自Nvidia的Douglas Lanman的 Near-Eye Light Field Displays 。Near-Eye Light Field Displays



4. 今年年中去了微软研究院Redmond访问,研究院的首席研究员Richard Szeliski (计算机视觉大神,计算机视觉课本的作者,Computer Vision: Algorithms and Applications)让我们试用了Hololens。感受了Hololens牛逼无比的定位感知技术。有保密协议,本文不提供细节,但提供与Magic Leap原理性的比较。

========== 下面是干货。

首先呢,科普一下 Magic Leap 和 Hololens 这类AR眼镜设备,都是为了让你看到现实中不存在的物体和现实世界融合在一起的图像并与其交互。从技术上讲,可以简单的看成两个部分:1. 对现实世界的感知 (Perception) 2. 一个头戴式显示器以呈现虚拟的影像 (Display) 。

我会分感知部分和显示部分来分别阐释Magic Leap的相关技术。

先简单回答这个问题:

==== 显示部分 ===== Q1. Hololens和Magic Leap有什么区别?Magic Leap的本质原理是什么?


感知部分其实Hololens和Magic Leap从技术方向上没有太大的差异,都是空间感知定位技术。本文之后会着重介绍。Magic Leap 与 Hololens 最大的不同应该来自显示部分,Magic Leap是用光纤向视网膜直接投射整个数字光场(Digital Lightfield)产生所谓的Cinematic Reality(电影级的现实)。Hololens采用一个半透玻璃,从侧面DLP投影显示,虚拟物体是总是实的,与市场上Espon的眼镜显示器或Google Glass方案类似,是个2维显示器,视角还不大,40度左右,沉浸感会打折扣。

本质的物理原理是:光线在自由空间中的传播,是可以由4维光场唯一表示的。成像平面每个像素中包含到这个像素所有方向的光的信息,对于成像平面来讲方向是二维的,所以光场是4维的。平时成像过程只是对四维光场进行了一个二维积分(每个像素上所有方向的光的信息都叠加到一个像素点上),传统显示器显示这个2维的图像,是有另2维方向信息损失的。而Magic Leap是向你的视网膜直接投射整个4维光场, 所以人们通过Magic Leap看到的物体和看真实的物体从数学上是没有什么区别的,是没有信息损失的。理论上,使用Magic Leap的设备,你是无法区分虚拟物体和现实的物体的。

使用Magic Leap的设备,最明显的区别于其他技术的效果是人眼可以直接选择聚焦(主动选择性聚焦)。比如我要看近的物体,近的物体就实,远的就虚。注意这不需要任何的人眼跟踪技术,因为投射的光场还原了所有信息,所以使用者直接可以做到人眼看哪实哪,和真实物体一样。举个例子:在虚拟太阳系视频的27秒左右(如这个gif图),摄影机失焦了,然后又对上了,这个过程只发生在摄影机里,和Magic Leap的设备无关。换句话说,虚拟物体就在那,怎么看是观察者自己的事。这就是Magic Leap牛逼的地方,所以Magic Leap管自己的效果叫Cinematic Reality。




Q2. 主动选择性聚焦有什么好处?传统的虚拟显示技术中,为什么你会头晕?Magic Leap是怎么解决这个问题的?

众所周知,人类的眼睛感知深度主要是靠两只眼睛和被观察物体做三角定位(双目定位, triangulation cue)来感知被观察物体的与观察者的距离的。但三角定位并不是唯一的人类感知深度的线索,人脑还集成了另一个重要的深度感知线索:人眼对焦引起的物体锐度(虚实)变化(sharpness or focus cue) 。但传统的双目虚拟显示技术(如Oculus Rift或Hololens) 中的物体是没有虚实的。举个例子,如下图,当你看到远处的城堡的时候,近处的虚拟的猫就应该虚了,但传统显示技术中,猫还是实的,所以你的大脑就会引起错乱,以为猫是很远的很大的一个物体。但是这和你的双目定位的结果又不一致,经过几百万年进化的大脑程序一会儿以为猫在近处,一会儿以为猫在远处,来来回回你大脑就要烧了,于是你要吐了。而Magic Leap投影了整个光场,所以你可以主动选择性聚焦,这个虚拟的猫就放在了近处,你看它的时候就是实的,你看城堡的时候,它就是虚的,和真实情况一样,所以你不会晕。演讲中Gary调侃对于Jean-Yves这种带10分钟Oculus就吐的家伙来说,现在他一天带16个小时Magic Leap都不会晕。谁用谁知道,巴扎嘿!



补充:有人问为什么网上说虚拟现实头晕是因为帧率不够原因? 帧率和延时虽然是目前的主要问题,但都不是太大的问题,也不是导致晕得决定性因素。这些问题用更快的显卡,好的IMU和好的屏幕,还有头部动作预测算法都能很好解决。我们要关心一些本质的晕眩问题。

这里要说到虚拟现实和增强现实的不同。 虚拟现实中,使用者是看不到现实世界的,头晕往往是因为人类感知重力和加速度的内耳半规管感受到的运动和视觉看到的运动不匹配导致的。所以虚拟现实的游戏,往往会有晕车想吐的感觉。这个问题的解决不是靠单一设备可以搞定的,如果使用者的确坐在原定不动,如果图像在高速移动,什么装置能骗过你的内耳半规管呢?一些市场上的方案,比如Omni VR,或者HTC Vive这样的带Tracking的VR系统让你实际行走才解决这个不匹配的问题,但这类系统是受场地限制的。不过THE VOID的应用就很好的利用了VR的局限,不一定要跑跳,可以用很小的空间做很大的场景,让你以为你在一个大场景里就好了。现在大部分虚拟现实的体验或全景电影都会以比较慢得速度移动视角,否则你就吐了。

但是Magic Leap是AR增强现实,因为本来就看的到现实世界,所以不存在这个内耳半规管感知不匹配的问题。对于AR来讲,主要挑战是在解决眼前投影的物体和现实物体的锐度变化的问题。所以Magic Leap给出的解决方案是很好的解决这个问题的。但都是理论上的,至于实际工程能力怎么样就靠时间来证明了。

Q3. 为什么要有头戴式显示器?为什么不能裸眼全息?Magic Leap是怎么实现的?

人类希望能凭空看到一个虚拟物体,已经想了几百年了。各种科幻电影里也出现了很多在空气中的全息影像。 但其实想想本质就知道,这事从物理上很难实现的:纯空气中没有可以反射或折射光的介质。显示东西最重要的是介质。很多微信上的疯传,以为Magic Leap不需要眼镜,我估计是翻译错误导致的,视频中写了Shot directly through Magic Leap tech.,很多文章错误的翻译成”直接看到”或”裸眼全息",其实视频是相机透过Magic Leap的技术拍的。

目前全息基本还停留在全息胶片的时代(如下图,我在光场研讨会上看到的这个全息胶片的小佛像),或者初音未来演唱会那种用投影阵列向特殊玻璃(只显示某一特定角度的图像,而忽略其他角度的光线)做的伪全息。


Magic Leap想实现的是把整个世界变成你的桌面这样的愿景。所以与其在世界各个地方造初音未来那样的3D全息透明屏做介质或弄个全息胶片,还不如直接从人眼入手,直接在眼前投入整个光场更容易。其实Nvidia也在做这种光场眼镜,


Nvidia采用的方法是在一个二维显示器前加上一个微镜头阵列 Microlens array 来生成4维光场。相当于把2维的像素映射成4维,自然分辨率不会高,所以这类光场显示器或相机(Lytro) 的分辨率都不会高。本人亲测,效果基本就是在看马赛克画风的图案。

而 Magic Leap 采用完全不同的一个方法实现光场显示,它采用光纤投影。不过,Magic Leap用的光纤投影的方式也不是什么新东西。在Magic Leap做光纤投影显示( Fiber optic projector) 的人是Brian Schowengerdt ,他的导师是来自华盛顿大学的教授Eric Seibel,致力于做超高分辨率光纤内窥镜8年了。简单原理就是光纤束在一个1mm直径管道内高速旋转,改变旋转的方向,然后就可以扫描一个较大的范围。Magic Leap的创始人比较聪明的地方,是找到这些做高分辨率光纤扫描仪的,由于光的可逆性,倒过来就能做一个高分辨率投影仪。如图,他们6年前的论文,1mm宽9mm长的光纤就能投射几寸大的高清蝴蝶图像。现在的技术估计早就超过那个时候了。

而这样的光纤高分辨率投影仪还不能还原光场,需要在光纤的另一端放上一个微镜头阵列microlens array,来生成4维光场。你会疑问这不就和Nvidia的方法一样了么?不,因为光纤束是扫描性的旋转,这个microlens array不用做的很密很大,只要显示扫描到的区域就好了。相当与把大量数据在时间轴上分布开了,和通讯中的分时一样,因为人眼很难分辨100帧上的变化,只要扫描帧率够高,人眼就分辨不出显示器是否旋转显示的。所以Magic Leap的设备可以很小,分辨率可以很高。



他本人也来Stanford给过一个Talk,Near-to-Eye Volumetric 3D Displays using Scanned Light。这个Talk讲的应该就是Magic Leap早期的原型。参考: Fiber Scanned Displays


=== 感知部分 ===

Q4. 首先为什么增强现实要有感知部分?

是因为设备需要知道自己在现实世界的位置(定位),和现实世界的三维结构(地图构建),才能够在显示器中的正确位置摆放上虚拟物体。举个最近的Magic Leap Demo视频的例子,比如桌子上有一个虚拟的太阳系,设备佩戴者的头移动得时候,太阳系还呆在原地,这就需要设备实时的知道观看者视角的精确位置和方向,才能反算出应该在什么位置显示图像。同时,可以看到桌面上还有太阳的反光,这就要做到设备知道桌子的三维结构和表面信息,才能正确的投射一个叠加影像在桌子的影像层上。难点是如何做到整个感知部分的实时计算,才能让设备穿戴者感觉不到延时。如果定位有延时,佩戴者会产生晕眩,并且虚拟物体在屏幕上漂移会显得非常的虚假,所谓Magic Leap宣称的电影级的真实(Cinematic Reality)就没有意义了。



三维感知部分并不是什么新东西,计算机视觉或机器人学中的SLAM(Simultaneous Localization And Mapping,即时定位与地图构建)就是做这个的,已经有30年的历史了。设备通过各种传感器(激光雷达,光学摄像头,深度摄像头,惯性传感器)的融合将得出设备自己在三位空间中的精确位置,同时又能将周围的三位空间实时重建。



最近 SLAM 技术尤其火爆,去年到今年两年时间内巨头们和风投收购和布局了超级多做空间定位技术的公司。因为目前最牛逼的3大科技技术趋势:无人车,虚拟现实,无人机,他们都离不开空间定位。SLAM是完成这些伟大项目基础中的基础。我也研究SLAM技术,所以接触的比较多,为了方便大家了解这个领域,这里简单提几个SLAM界最近的大事件和人物:

1. (无人车)Stanford的机器人教授Sebastian Thrun是现代SLAM技术的开创者,自从赢了DARPA Grand Challenge的无人车大赛后,去了Google造无人车了。SLAM学术圈的大部分研究派系都是Sebastian徒子徒孙。 2. (无人车)Uber在今年拿下了卡耐基梅隆CMU的NREC(国家机器人工程研发中心),合作成立高等技术研发中心ATC。 这些原来做火星车的定位技术的研究人员都去Uber ATC做无人车了。 3. (虚拟现实)最近Surreal Vision被Oculus Rift收购,其中创始人Richard Newcombe是大名鼎鼎的DTAM,KinectFusion(HoloLens的核心技术)的发明人。Oculus Rift还在去年收购了13th Labs(在手机上做SLAM的公司)。 4.(虚拟现实)Google Project Tango 今年发布世界上第一台到手就用的商业化SLAM功能的平板。Apple五月收购Metaio AR,Metaio AR 的 SLAM 很早就用在了AR的app上了。Intel 发布Real Sense,一个可以做SLAM的深度摄像头,在CES上Demo了无人机自动壁障功能和自动巡线功能。 5. (无人机)由原来做Google X Project Wing 无人机的创始人MIT机器人大牛Nicholas Roy 的学生Adam Bry创办的Skydio,得到A16z的两千万估值的投资,挖来了Georgia Tech的SLAM大牛教授Frank Dellaert 做他们的首席科学家。cc.gatech.edu/~dellaert

SLAM作为一种基础技术,其实全世界做SLAM或传感器融合做的好的大牛可能不会多于100人,并且大都互相认识。这么多大公司抢这么点人,竞争激烈程度可想而知,所以Magic Leap作为一个创业公司一定要融个大资,才能和大公司抢人才资源。

Q5. Magic Leap的感知部分的技术是怎么样的?

这张照片是Gary教授在Magic Leap Stanford 招聘会中展示了Magic Leap在感知部分的技术架构和技术路线。可以看到以Calibration为中心,展开成了4支不同的计算机视觉技术栈。



1. 从图上看,整个Magic Leap感知部分的核心步骤是Calibration(图像或传感器校准),因为像Magic Leap或Hololens这类主动定位的设备,在设备上有各种用于定位的摄像头和传感器, 摄像头的参数和摄像头之间关系参数的校准是开始一切工作的第一步。这步如果摄像头和传感器参数都不准,后面的定位都是无稽之谈。从事过计算机视觉技术的都知道,传统的校验部分相当花时间,需要用摄像头拍摄Chess Board,一遍一遍的收集校验用的数据。但Magic Leap的Gary,他们发明了一种新的Calibration方法,直接用一个形状奇特的结构体做校正器,摄像头看一遍就完成了校正,极为迅速。这个部分现场不让拍照。

2. 有了Calibration部分后,开始最重要的三维感知与定位部分(左下角的技术栈),分为4步。

2.1 首先是 Planar Surface Tracking (平面表面跟踪)。大家可以在虚拟太阳系的Demo中看到虚拟太阳在桌子上有反光,且这个反光会随着设备佩戴者的移动而改变位置,就像是太阳真的悬在空中发出光源,在桌子表面反射产生的。这就要求设备实时的知道桌子的表面在哪里,并且算出虚拟太阳与平面的关系,才能将太阳的反光的位置算出来,叠在设备佩戴者眼镜相应的位子上,并且深度信息也是正确的。难点在平面检测的实时性和给出平面位置的平滑性(否则反光会有跳变)从Demo中可以看出Magic Leap在这步上完成的很好。



2.2 然后是 Sparse SLAM(稀疏SLAM); Gary在Info Session上展示了他们实时的三维重构与定位算法。为了算法的实时性,他们先实现了高速的稀疏或半稀疏的三维定位算法。从效果上看,和目前开源的LSD 算法差不了太多。



2.3 接着是 Sensors; Vision and IMU(视觉和惯性传感器融合 )。

导弹一般是用纯惯性传感器做主动定位,但同样的方法不能用于民用级的低精度惯性传感器,二次积分后一定会漂移。而光靠视觉做主动定位,视觉部分的处理速度不高,且容易被遮档,定位鲁棒性不高。将视觉和惯性传感器融合是最近几年非常流行的做法。

举例: Google Tango在这方面就是做IMU和深度摄像头的融合,做的很好;大疆的无人机Phantom 3或Inspire 1将光流单目相机和无人机内的惯性传感器融合,在无GPS的情况下,就能达到非常惊人的稳定悬停;Hololens可以说在SLAM方面是的做的相当好,专门定制了一个芯片做SLAM,算法据说一脉相承了KinectFusion的核心,亲自测试感觉定位效果很赞(我可以面对白色无特征的墙壁站和跳,但回到场中心后定位还是很准确的,一点都不飘。)

2.4 最后是 3D Mapping and Dense SLAM (3D地图重建 )。下图展示了Magic Leap 山景城办公室的3D地图重建:仅仅是带着设备走了一圈,就还原了整个办公室的3D地图,并且有很精致的贴图。书架上的书都能重建的不变形。



因为AR的交互是全新的领域,为了让人能够顺利的和虚拟世界交互,基于机器视觉的识别和跟踪算法成了重中之重。全新人机交互体验部分需要大量的技术储备做支持。

接下来的三个分支,Gary没有细讲,但是可以看出他们的布局。我就随便加点注解,帮助大家理解。

3.1 Crowdsourcing 众包。用于收集数据,用于之后的机器学习工作,要构建一个合理的反馈学习机制,动态的增量式的收集数据。 3.2 Machine Learning & Deep Learning 机器学习与深度学习。需要搭建机器学习算法架构,用于之后的识别算法的生产。 3.3 Scenic Object Recognition 场景物体识别。识别场景中的物体,分辨物体的种类,和特征,用于做出更好的交互。比如你看到一个小狗的时候,会识别出来,然后系统可以把狗狗p成个狗型怪兽,你就可以直接打怪了。 3.4 Behavior Recognition 行为识别 。识别场景中的人或物的行为,比如跑还是跳,走还是坐,可能用于更加动态的游戏交互。顺便提一下,国内有家Stanford校友办的叫格林深瞳的公司也在做这个方面的研究。

跟踪方面 4.1 Gesture Recognition 手势识别。用于交互,其实每个AR/VR公司都在做这方面的技术储备。 4.2 Object Tracking 物体追踪。这个技术非常重要,比如Magic Leap的手捧大象的Demo,至少你要知道你的手的三维位置信息,实时Tracking,才能把大象放到正确的位子。 4.3 3D Scanning 三维扫描。能够将现实物体,虚拟化。比如你拿起一个艺术品,通过三维扫描,远处的用户就能够在虚拟世界分享把玩同样的物体。 4.4 Human Tracking 人体追踪。比如:可以将现实中的每个人物,头上可以加个血条,能力点之类。

5.1 Eye Tracking 眼动跟踪。Gary解释说,虽然Magic Leap的呈像不需要眼动跟踪,但因为要计算4维光场,Magic Leap的渲染计算量巨大。如果做了眼动跟踪后,就可以减少3D引擎的物体渲染和场景渲染的压力,是一个优化的绝佳策略。 5.2 Emotion Recognition 情感识别。如果Magic Leap要做一个 Her 电影中描绘的人工智能操作系统,识别主人得情感,可以做出贴心的情感陪护效果。 5.3 Biometrics 生物识别。比如要识别现实场景中的人,在每个人头上显示个名字啥的。人脸识别是其中一种,国内有家清华姚班师兄弟们开得公司 Face++ 就是干这个干的最好的。

总结,简单来讲感知这个部分Magic Leap其实和很多其他的公司大同小异,虽然有了Gary的加盟,野心非常的宽广,但这部分竞争非常激烈。

Q6: 就算Magic Leap已经搞定了感知和显示,那么接下来的困难是什么?

1. 计算设备与计算量。 Magic Leap要计算4维光场,计算量惊人。不知道Magic Leap现在是怎么解决的。如果Nvidia不给造牛逼的移动显卡怎么办?难道自己造专用电路?背着4块泰坦X上路可不是闹着玩的。

下图是,今年我参加SIGGraph 2015里,其中一个VR 演示,每个人背着个大电脑包玩VR。10年后的人类看今天的人类追求VR会不会觉得很好笑,哈哈。



2. 电池!电池!电池! 所有电子设备的痛。

3. 一个操作系统。说实话,如果说“世界就是你的新桌面”是他们的愿景,现在的确没有什么操作系统可以支持Magic Leap愿景下的交互。他们必须自己发明轮子。

4. 为虚拟物体交互体验增加物理感受。为了能有触感,现在交互手套,交互手柄都是 VR 界大热的话题。从目前的专利上看,并没有看出Magic Leap会有更高的见地。说不定某个Kickstarter最后能够独领风骚,Magic Leap再把他收了。

===========

笔者斯坦福计算机系研究生毕业,方向是计算摄影和人工智能,目前在做无人机和虚拟现实技术的研究。

没错,我在招人,简历发me@botao.hu 带你搞计算摄影,飞行技术和浪天涯。

转载请注明作者: Botao Amber Hu,现从事无人机和虚拟现实技术的研究,光流科技C*O。

请在文章背后注明转载协议:BY-NC-ND 4.0 Creative Commons 署名,非商业,传播时不可修改 并附上知乎原帖链接。

转载联系我 me@botao.hu 有动图。

(实在不好意思,这篇文章是十个月前写的,很多东西在现在我看来是错的,但是现在不写知乎了,也就不改了)利益相关,朋友研发的眼球追踪视线系统(eyegaze system)和magic leap有合作。

—————————————————————————————————————

列个目录

  1. HoloLens的显示瓶颈——聚散冲突(accommodation-vergence conflict)
  2. magic leap的聚散匹配(accommodation-vergence matching)
  3. 关于magic leap遮挡效果和颜色效果的假想
1、HoloLens的显示瓶颈——聚散冲突(accommodation-vergence conflict)

Magic leap和HoloLens最大的区别在于它们的显示技术,hololens目前在显示上最大的问题除了FOV之外还有两个,一个是聚散冲突(accommodation-vergence conflict),另一个就是

不能显示比当前环境亮的物体

,而magic leap可以解决第一点。

据我军方的朋友说,目前他们军方使用的是头盔式显示器(Helmet Mounted Displays),而用的正是HoloLens的全息光波导光学(holographic waveguide optics)技术。

这样一说,大家就明白了,HoloLens的技术是军方正在用的,而magic leap的技术是军方正在开发研究中的。

重点来了,

大家都知道 HoloLens 的显示技术是全息光波导光学(holographic waveguide optics)。产生深度隐喻(depth cues)的方法只有双眼视差(binocular-disparity )——就是离你越近的物体两只眼睛看到的图像差别越大。

但是,眼睛除了有双眼视差外,还有单眼暗示(monocular cues),比如我们后问题到的accommodation(单眼的focus)。

我在开发HoloLens的时候发现,HoloLens 会严格控制全息图像的距离来保证聚散匹配(accommodation-vergence matching)

如图,两米的距离是最舒适的。

全息物体显示离你2米之内,则会导致聚散冲突(accommodation-vergence conflict),因为左右眼看到的图像差别太大。

而这个2米的舒适距离,几乎让我们身体不能直接接触到全息物体,(#‵′)靠,所有交互很难受,总感觉和交互物体之间隔了个空!!

这边是HoloLens 最大的局限性。

明明辐辏(vergence)在很远的地方,可是屏幕却离你很近,你的眼睛无法对焦到远处。

比如,明明显示远距离的物体,你的眼睛已经disconverge,可是焦点还是在眼前。简单的说,就是眼睛的这两种感知距离的机制,感觉到了不同的距离,从而引发冲突或者疑惑,最终带给用户视觉上的不适(visual discomfort)和眼疲劳(fatigue)(专业说法叫做眼压加大)。

明明显示很近的物体,眼睛都converge了,可是屏幕偏偏在焦点后面。

(偏眼科专业知识,这一段可以跳过)

自然的观察(natural viewing)下,Vergence和Accommodation其实是有联系(linked)的。它们之间形成了适应和辐辏的条件反射(accommodation convergence reflex)

简单理解,就是眼睛的这两个机制会一起动。如下图,眼睛的焦点在不同距离之间的移动时,Vergence和Accommodation一起发生了变化。

如图,从左到右的变化中,当convergence(双眼往鼻子的方向靠拢并旋转)时,accommodation也跟着引发连锁反应(伴随着晶状体变形和瞳孔放大)。

—————————————————————————————————————

两只眼睛正向或反向移动都称为辐辏(vergence),为了获得双眼单视(single binocular vision)

当看近处物体时,我们称汇聚(convergence),此时两只眼睛是朝内的;converge的目的正是让你聚焦的地方变清晰。

而看远处物体时,双眼朝外,我们叫做分散(divergence

双眼围绕Y轴的反方向旋转,为了让图像刚好落在两只眼睛的视网膜中央。

我们都玩过斗鸡眼(cross eyed viewing)吧?就是两只眼睛都朝着鼻子的方向看。这时你慢慢朝远处望去,双眼汇聚的焦点越来越远,远到无穷远,这时双眼实现平行了。

—————————————————————————————————————

我们都知道近视眼这个lens看近处看多了,拉不回去了(又叫近视眼)。睫状肌拉长又被压扁极其富有弹性,这个弹性就是15 屈光度(dioptres)。

而眼睛的适应(Accommodation),它改变了optical power。

从图中可以看到,晶状体是有弹性的,看近处的物体时,晶状体被压扁了,从而达到在视网膜上清晰成像的目的。而optical power正是通过睫状体(ciliary body)的收缩(contraction)来调节的……而睫状肌收缩和放松的过程就叫accommodation。

睫状肌主要改变了两个部分,晶状体的形状(lens shape)瞳孔的大小(pupil size)。当你看近处时,晶状体变成凸状(convex)为了提高折射率(
refractive power),同时,瞳孔收缩(constrict)为了避免多余的光线跑到你视网膜外围来,于是远处的物体就模糊了。

这就叫深度(depth)。

如果上面没看懂,我再用简单的话描述一遍:在现实生活中我们感到『深度』是因为物体表面反射自然光线形成的『场』。两个物体间不同的场就形成了不同的深度。

传统的显示技术(包括HoloLens和oculus都只能将物体显示在单一的平面上),所以丢失了深度线索(focus cue)

然后视觉系统就傻逼了,具体感觉就是眼压增加甚至恶心。

—————————————————————————————————————

2、magic leap的 accommodation-vergence matching

(图为magic leap原型机)

你可以看到它的细长的管道和凸起的电枢(armatures)。

我们注意一下它墙上那张图——

Magicl Leap的显示技术叫 VRD(virtual retinal display,虚拟视网膜显示)

也有人叫 retinal scan display (RSD) 或者 retinal projector (RP)。用到的技术正是 动态数字化光场信号(Dynamic Digitized Lightfield Signal)

按照magic leap某朋友的说法,这种显示生成的图像无法区分虚拟物体和现实物体,从而让虚拟图像和现实世界建立起了完美的连接:

Being able to generate images indistinguishable from real objects and then being able to place those images seamlessly into the real world.

我们把它拆分成两个核心问题:(1)光场;(2)视网膜投影。


(1)光场显示

解决accommodation-vergence matching的正是magic leap作为光场输出的特殊功能——连续对焦(continuous focus),而这个功能正对应lytro上的动态重新对焦(refocus dynamically),来模拟物体距离我们的远近。

近眼光场的两次对焦:

下面是lytro拍的光场视频,记录了开花的过程。我的眼睛可以选择凝视在不同的焦点上。

聚焦在两边的花上:

后面的花清晰

前面的花清晰。

我们把上面这幅光场视频用magic leap显示出来,如下:

(中间的图像是左右眼叠加后得到的)

传统的显示器,比如手机电脑电视,包括oculus和HoloLens……你直接看到的,都是实像(real image。但是,通过一个光学系统(optical system),射到你眼睛里的像是虚像(virtual image)

而magic leap 投影的虚像,用户的眼睛聚焦在不同深度都感觉舒服,从而达到accommodation-vergence matching

正如wired所说:

Intellectually, I know this drone is an elaborate simulation, but as far as my eyes are concerned it’s really there, in that ordinary office.It is a virtual object, but there is no evidence of pixels or digital artifacts in its three-dimensional fullness.

感觉上,他已经分辨不出magic leap里的是现实物体还是虚拟物体了,而且看不出上面的像素。

把电脑绘制好的激光或者说数字光场(digital light field ),射到用户视网膜上成像。从视觉上来说,它是目前非常完美的显示技术,用户感觉东西就像在眼前一样。magic Leap自己说叫:autostereoscopic visual effect(自动立体视觉效果),也是目前为一种能够完全复现你看到的场景的技术。

目前军方正在研究的是——近眼光场显示(near-eye light field display)。我们可以看到左右眼各一个显示器,每个显示器上都有一块屈光度不同的屈光镜!

@Botao Amber Hu

所说,光场是四维的。

怎么理解呢?我现在把光场在下面这张二维平面上展开,原本的二维图片在这里就成了一个点,横向和纵向地排列在光场里。(左下)

而你视觉系统感受到的图像。(右下)

正好对应lytro光场相机的64个CMES。(现在普遍的分辨率为1080P,而如果将1080P的二维图像光场化则需要1080×1920个1090P的图像二维排列)

上面三张在你视觉系统感知到的图像:

—————————————————————————————————————

(2)视网膜投影——激光二极管

直接在视网膜上绘制图像,对于我们正常人来说可以缓解和预防近视眼,请想象你虚拟一个离你七八米的全息巨幕来办公……另外的好处就是可以让那些晶状体玻璃体角膜受伤的盲人恢复视力,直接把图像画到视网膜上,而跳过了它们,不过前提是你得有良好的视网膜和黄斑……(畅想几十年后的可植入设备,可能直接把图像输入到你的视觉神经,而跳过视网膜,即使你全盲)

虽然是激光射在了眼睛里,却不会伤害人眼的光学系统,因为1、强度低;2、分散在大面积的视网膜上而不是点;3、时间周期长。因为激光的伤害主要是集中在狭小的区域内造成的。

VRD的三原光的光子源(photon source)产生相干光束(coherent beam of light),比magic Leap用的激光二极管(laser diode)就是一种相干光束。它会在视网膜上绘制一个衍射受限斑点(diffraction limited spot)。在渲染时,光束的强度会变化以匹配图像的强度,而在光束生成后,调整便完成了。

最后这个调节过的光束再scan到视网膜上。

关于相干光束(coherent beam of light),有张很直观的图便于大家理解:

因为是光子打到眼睛里,所以在亮的地方就显得比较透明,(无法显示比环境暗的虚拟物体),wired中说道:

I can get the virtual drone to line up in front of a bright office lamp and perceive that it is faintly transparent, but that hint does not impede the strong sense of it being present.

—————————————————————————————————————

3、关于magic leap遮挡效果和颜色效果的假想

关于第二点光线的问题,magic leap也无法吸收掉那些进去用户眼睛的环境光线,只能降低往眼睛里投射的光子。

但是和传统的显示相比,magic leap具有极其广阔的色域color gamut,在亮度还原方面也是非常出色的,想象你在室外阳光直射下玩iPhone或者用HoloLens,极高的亮度让你几乎看不清iPhone和HoloLens上的内容,但是magic leap不会。

目前有一家正尝试将VRD技术用到VR显示上的产品,叫glyph

VRD三个词中的virtual,是指虚拟成像中的虚像,是一个物理学概念,而不同于虚拟现实强调的虚拟。

和glyph不同,Magic leap的AR是把投影的虚像叠映(superimpose)在你眼睛已经看到的真实物体的实像上。对于叠加来说,最大的难点在于调节现实(mediate reality),用通俗的话说就是用相机capture到将要进入你眼睛的光,然后用计算机合成一组虚拟的光子去替代这一部分光,从而做到遮挡(occlusion)的效果。

(Magic leap最有可能的产品形态是eyeTap,下图为 Generation Glass。)

—————————————————————————————————————

—————————————————修路中—————————————————

(后面为正在写的草稿部分……请无视)

正常年轻人眼睛的焦点可以从无限远处聚焦到距离眼睛只有25cm的地方,这样的焦点转换大概耗时350毫秒。



目前已知的做VRD系统的公司,是日本的Brother Industries,它们的产品 AirScouter早在2010年9月就有过展示。


一个点光源的发射器(point source emits)发出的光波,辐射出一个个越来越大的圈。而眼睛的瞳孔,会看到波长的前段(wavefront)。


—————————————————————————————————————

最近传闻他们要用硅光子学(silicon photonics)来构造光场芯片(light-field chip)。

VRD References

LF References