模糊对VR同样重要？Facebook：这次我们让VR更清晰|人眼|图像|算法

　　模糊对VR同样重要？Facebook：这次我们让VR更清晰

　　大概一年前，Facebook公布了一项名为“DeepFocus”研究，这是一项通过AI实现类似人眼般的动态模糊变焦效果的技术，详情可参阅《为什么说“模糊”对VR同样重要？》。

　　论DeepFocus动态“模糊”的重要性

　　我们先来简单回顾一下DeepFocus。由于人眼天然具备“焦内和焦外”的视觉系统，而为了提升VR视觉观感，让其效果更接近人眼，Facebook Reality Labs决定通过具备人眼追踪的VR设备，结合DeepFocus算法，来实现逼真的动态焦外模糊效果。

　　这种所指的“焦外模糊”即像人眼般的焦点与焦外模糊切换效果。也就是说：当你注视一个区域时，其它区域就会基于“DeepFocus”进行自然的焦点切换效果。

　　模糊对VR同样重要？Facebook：这次我们让VR更清晰

　　上图中红色框代表人眼的焦点区域，可以看到整个实时的焦点切换效果非常自然。

　　DeepFocus算法支持偶然的眼神跳动和动态模糊效果，基本上可以模拟人眼的观看效果。而这也是DeepFocus的意义所在，也是眼球追踪对于VR的一大视觉体验提升。

　　显然DeepFocus是基于眼球追踪技术去发展的，而眼球追踪带来的另外的好处就是基于注视点渲染降低硬件压力，然后通过DeepFocus等技术达到“近人眼般的视觉观感”。

　　实际上，想要做到较佳的偶然性模糊切换效果也是比较困难的，由于“人眼动作的不确定性”因素，可能因最终模糊变化的速度不够快，导致视觉效果一般。为此，Facebook则通过一套机器学习技术算法来搞定这件事，当时演示需要4块高端GPU才能带动，对算力要求很高。不过Facebook表示后续算法还会继续优化，并让移动设备也支持，而且该算法已开源，未来的重要性不言而喻。

　　另一方面，前不久公开的苹果专利中也提到了类似的方案，为了解决AR中注视点渲染的连贯性和实际观感，苹果同样开发了一套AI算法，来预估眼球着落区域，以此实现虚拟图像在AR设备上更好的前景、背景切换效果。

　　将模糊变清晰，DeepFocus完美绝配来了

　　相对而言，上面的DeepFocus是将清晰的画面呈现动态模糊效果，主要是为了还原“接近人眼般的视觉效果”，相对来讲这项技术还比较容易实现，今天我们要介绍的主角就没那么简单了。

　　近期Facebook Reality Labs再次公布了一项新的VR/AR视频成像相关技术：DeepFovea。简单来讲，这是一个基于AI的注视点渲染方案，它可以通过较为稀疏的像素，来生成高清且逼真的图像。

　　模糊对VR同样重要？Facebook：这次我们让VR更清晰

　　首先来看看实际的效果，只需给定原图10%的像素数量，以花朵为中心点四周降噪处理。而通过DeepFovea，竟然模拟出一幅画面清晰、颜色艳丽的花朵图像，花瓣纹路、花茎结构都很清晰，甚至还有花瓣上还有些许露水。综合而言，画面主体的花朵和背景的绿叶几乎可以达到以假乱真的效果。

　　显然，DeepFovea的意义在于VR和AR系统呈现出更清晰的画面，尤其是在移动VR一体机算力普遍偏低的大背景下，甚至未来在云VR传输后模拟增强画质等都有极为重要的意义。

　　从名字来看，“DeepFovea”和“DeepFocus”名字十分接近，而且作用是相反的，前者意在呈现“近人眼的动态模糊”效果，而后者意在呈现“更清晰”的画面。

　　言外之意，DeepFovea和DeepFocus这对“亲兄弟”放在一块的价值更大，两项技术结合将会大幅提升VR和AR视觉体验。

　　DeepFovea诞生的背后

　　高质量的VR和AR对于图像分辨率的要求是极高的，以至于催生出小派这种追求极高分辨率的VR厂商以及Varjo这种双屏方案VR厂商，NVIDIA此前也展示过动态可调屏幕的AR眼镜原型，无一不是在追求更佳的显示效果。

　　然而，目前VR/AR图像在高分辨、高帧率、多视角图像等方面表现并不理想，因为这背后需要大量的计算资源，尤其是GPU资源。即便如此，我们对于很多PC VR内容的画质依然不能满足，更何况在VR一体机这种算力差距极大的移动平台。

　　模糊对VR同样重要？Facebook：这次我们让VR更清晰

　　据青亭网了解，DeepFovea的背后是一个生成式对抗网络（GAN），它能够通过较为稀疏像素的图像，生成一幅足够逼真、自然的图像。在Facebook的测试中，DeepFovea可以将渲染所需的计算资源降低10-14倍。

　　上面的视频展示了其中的测试方法，灰色方块代表人眼注视区域，测试时将该区域做密集区采样，而周围则作稀疏采样，目的就是模拟人眼注视效果。

　　细节方面，DeepFovea同样是基于人眼特性，注视区域清晰，区域外则模糊。DeepFovea目的就是通过输入这种注视区域外大幅丢失像素的视频，来帮助GAN模型学习如何填充缺失的图像细节。结果是，在60×40度视场角的视频中，通过稀疏像素的模糊视频生成的视频流在像素密度上降低了99%，并且这套系统还可以降低图像闪烁、重叠、伪影等，最终达到人眼辨别真假的阈值。

　　Facebook还表示，和目前最先进的注视点渲染方案相比，DeepFovea要更有效，而且不会出现明显的图像质量下降情况。为了进一步验证DeepFovea重建方法的效果，其还和现有的中心化渲染、视频压缩等方案进行对比，DeepFovea速度足够快，而且可在现代化硬件上实时驱动运行。

　　这里说的现代化硬件，文中指通过在4块NVIDIA Tesla V100 GPU做基础，推断一个1080p视频每帧耗时为9毫秒。然后通过c++在NVIDIA CUDA 10和cuDNN 7.6.1上实现了一个自定义推理框架，以16位半浮点精度执行，最终能在一块GPU上实现0.7毫秒每帧输出，这样在VR中足以实现90帧的画面输出。

　　长远来看，Facebook目标就是让让移动VR平台的算力也能运行，但显然这还有一定的距离。

　　据悉，DeepFovea和DeepFocus都是Facebook为了改善VR和AR图形显示质量而引入的几个研究，都用到了AI技术。如果没有意外，这些技术将应用到下一代VR头显中。

　　参考：Facebook

特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。