多尺度表征10亿像素图像，斯坦福神经场景表征新方法入选SIGGRAPH|训练|斯坦福

　　编辑：维度、陈萍

多尺度、全方位地表征 10 亿像素级别的图像以及缠结浮雕等复杂 3D 场景！斯坦福大学近日提出了用于神经场景表征的新型自适应坐标网络，不仅细节表征突出，还节省了大量的计算和时间成本。在表征 3D 形状时，训练时间可以从几天缩减至几小时，内存需求也至少降低了一个数量级。

　　当前，神经表征已经成为渲染、成像、几何建模和模拟应用的一种新范式。与网格、点云和体积网格等传统表征相比，神经表征可以灵活地合并入可微分、基于学习的 pipeline。神经表征近来的进展实现了在中等分辨率下表征具有丰富细节的信号，比如图像和 3D 形状，但充分地表征大尺度或复杂场景依然是一个挑战。

　　现有的神经表征无法准确地表征分辨率大于百万像素的图像或者数十万个多边形组成的 3D 场景。

　　斯坦福大学近日的一项研究给出了解决方案，他们提出了一种新的隐式 - 显式混合网络架构和相应训练策略，可以在训练和推理过程中根据信号的局部复杂度来自适应地分配资源。他们将这种用于神经场景表征的自适应坐标网络（ Adaptive coordinate network ）简称为 Acorn。

　　该方法中采用了类似于四叉树或八叉树的多尺度块坐标分解（multiscale block-coordinate decomposition），该分解在训练过程中进行细化。具体地，网络架构分为两个阶段：其一坐标编码器使用大量网络参数在单个正向传递中生成网格特征；其二每个块中数百或数千个样本通过轻量级特征解码器进行高效地评估。

　　项目主页：https://www.computationalimaging.org/publications/acorn/

　　论文地址：https://arxiv.org/pdf/2105.02788.pdf

　　利用这种混合的隐式 - 显式网络架构，研究者首次展示了将 10 亿像素图像拟合到接近 40dB 峰值信噪比。值得注意的是，与以往图像拟合实验中展示的分辨率相比，这一数据代表了 1000 多倍的尺度增加。此外，研究者的方法能够较以往更快且更好地表征 3D 形状，将训练时间从几天缩减至几小时或几分钟，内存需求也至少降低了一个数量级。

　　Acorn 的实际表征效果如下几个动图所示，首先是 10 亿像素的 2D 东京城市图像：

　　其次是 3D 浮雕的重建展示效果：

　　多尺度坐标网络

　　研究者提出的多尺度表征网络包含两个主要组件，即多尺度块参数化（基于局部信号复杂度划分输入空间）以及由坐标编码器和特征解码器组成的网络架构（负责将输入空间和尺度坐标高效地映射至输出值）。

　　多尺度块参数化

　　多尺度块参数化的核心是输入域的树分区（tree-based partition）。具体来讲，研究者使用二维四叉树或三维八叉树来划分域，并确定树的最佳尺度和最大深度，具体如下图 3 所示：

　　传统多尺度分解方法中，输入域的每个值在多尺度上进行表征，比如图像金字塔（ image pyramid）中的每个像素。与之不同，本研究的方法划分空间以在单尺度上表征每个输入值。

　　神经网络架构

　　多尺度表征网络的坐标编码器定义如下：

　　给定一个连续的局部坐标 X_1，特征向量提取如下：

　　这种两阶段架构的一个关键优势是：极大地降低了相同块中评估多个坐标的计算开销。另一优势是：由于特征网络在跨空间位置和尺度上可以在具有重复结构的信号中重复使用，因而有可能提升网络性能。

　　在线多尺度分解