🗒️Meta革新3D世界:用NeRF Analogies实现视觉属性跨界传递,用户青睐度爆表!
00 分钟
2021-7-2
2024-9-2
type
status
date
slug
summary
tags
category
icon
password
💡
AI论文解读  原创
作者 |  图南
notion image

探索3D世界的新视角——NeRF模拟与编辑

notion image
在数字内容创作和计算机视觉领域,Neural Radiance Fields(NeRF)已经成为一种重要的工具,它能够对三维场景的几何形态和外观进行编码。然而,NeRF的一个主要挑战在于其编辑性,尤其是如何在保持场景几何结构不变的同时,转换其外观。本文介绍了一种新的方法——NeRF模拟(NeRF Analogies),它允许我们在保留目标几何结构的前提下,将源NeRF的外观传递到目标几何上,从而实现3D几何和外观的混合和匹配。
1. 方法概述
NeRF模拟的核心思想是,通过在源NeRF和目标3D几何之间建立语义联系,来传递外观。这一过程涉及到利用大型预训练的2D图像模型中的语义特征,以实现多视角一致的外观传递。具体来说,研究者们使用了DiNO-ViT,一种大型预训练的视觉变换器,来计算源NeRF的2D切片和3D目标几何渲染之间的语义亲和力。通过这种方式,研究者们能够在多个视图和像素上重复这一过程,从而在保持目标几何结构的同时,创建出一个新的NeRF,它结合了源外观。
2. 实验结果
通过定量评估和用户研究,NeRF模拟方法被证明优于传统的基于样式化的方法,并且在多数情况下,用户更倾向于选择NeRF模拟方法。该方法不仅允许探索3D几何和外观的产品空间,而且提供了一种实用的方法来改变神经辐射场的新几何结构,同时保持其原始外观。
3. 结论
NeRF模拟为3D内容创作提供了新的可能性,例如,将用户捕获的几何结构与在线3D模型的外观结合起来。该方法在多对象设置和真实世界场景中都表现出色,并且在用户研究中,无论是转移质量还是多视角一致性方面,都取得了最高排名。未来的研究方向可能包括3D一致的纹理传递,或者传递场景的内在参数,如粗糙度或镜面反射率。

NeRF概述:理解NeRF的基础与应用

notion image
1. NeRF的定义与视图合成的成功
Neural Radiance Field(NeRF)是一种编码场景的三维几何和外观特定关系的工具。它通过优化颜色和密度映射,独特地编码了这种关系,使得高质量的新视角合成(NVS)成为可能。然而,尽管NeRF在视图合成方面取得了成功,但大多数NeRF表示仍然难以编辑,这促使了NeRF编辑研究领域的出现。
2. NeRF编辑的挑战与研究进展
NeRF编辑面临的挑战在于,往往几何和外观在非直观的隐式表示中以非平凡的方式交织在一起。最近的研究通常旨在基于文本嵌入更新编码的外观,同时保持几何结构(大体上)不变。而NeRF Analogies的概念则是在保持视觉外观的同时改变NeRF的几何结构。这需要解决在目标几何形状B和现有源NeRF A'之间找到语义相关区域的问题,这些区域将作为随后外观传递的指导。尽管存在诸多挑战,但研究人员已经展示了通过利用预训练的2D图像模型的语义特征,可以实现多视角一致的外观传递。

NeRF Analogies的核心概念

notion image
1. 从2D图像类比到NeRF的推广
NeRF Analogies的概念是从经典的2D图像类比推广而来的。研究人员利用预训练的视觉变换器(ViTs)的语义特征,通过计算源NeRF的2D切片和3D目标几何体渲染的像素查询之间的余弦相似性,来传递视觉外观。这种方法允许探索3D几何形状和外观的混合匹配产品空间。
2. 利用预训练的2D图像模型进行语义特征传递
预训练的2D图像模型,如DiNO-ViT,已被证明可以捕捉到丰富的语义和结构信息,这对于在对象及其语义部分之间建立对应关系至关重要。研究人员通过在多个视图和像素上重复此过程,生成了大量的位置-外观对,作为训练新NeRF的输入,从而实现了将目标几何形状与源外观相结合的多视角一致的3D表示。
实现NeRF Analogies的技术细节
特征提取与语义相似性的计算
实现NeRF Analogies的首要步骤是特征提取与语义相似性的计算。这一过程涉及到从源NeRF(A′)和目标3D几何结构(B)中渲染出的图像中计算密集的特征描述符。这些特征描述符被用来放置语义相似的图像部分在嵌入空间的接近区域。通过预训练的DiNO-ViT视觉转换器模型,提取的特征能够捕捉到丰富的语义和结构信息。通过计算源NeRF和目标3D几何结构渲染图像的特征之间的余弦相似性,建立起像素查询之间的语义亲和性,为后续的视觉属性传递奠定基础。
训练过程与视觉属性的传递
在特征提取和语义相似性计算的基础上,接下来的关键挑战是确定如何在给定目标位置下,找到源中相关外观信息的位置和观察角度。为此,研究者们采样了源和目标的特征点云,通过最大相似性映射每个目标位置索引到源位置索引。这一映射过程不强制要求3D一致性或双射性,而是依赖特征提取器找到跨多个视图一致的颜色匹配。最终,通过训练一个3D一致的NeRF表示,结合了目标几何结构和源外观,实现了视觉属性的传递。
通过DiNO-ViT特征提取器实现精细的语义对应
DiNO-ViT特征提取器的使用对于实现精细的语义对应至关重要。研究者们使用了具有高分辨率特征图的DiNO-ViT模型,并通过对图像进行垂直和水平平移来进一步提高特征图的空间分辨率。这些高分辨率的特征使得能够在像素粒度上产生密集的对应关系,从而在不同视图之间传递外观时保持高度的语义一致性。

NeRF Analogies与传统方法的比较

定性与定量评估:用户研究与指标分析
NeRF Analogies与传统方法的比较通过用户研究和定量评估进行。用户研究显示,绝大多数用户更喜欢NeRF Analogies方法而不是几个典型的基线方法。定量评估方面,NeRF Analogies在多个指标上超越了传统的基于样式化的方法,这些指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)和CLIP方向一致性(CDC)等。
与风格迁移和图像类比方法的对比
NeRF Analogies与风格迁移和图像类比方法相比,能够提供更为一致和语义上有意义的外观传递。传统的风格迁移和图像类比方法在2D图像上表现良好,但当它们被简单地提升到3D时,由于多视图训练和反向传播到共同的底层表示的挑战,结果往往质量较低。NeRF Analogies通过在多视图一致的光场上进行操作,解决了这一问题,允许在3D几何结构和外观之间进行探索,并提供了一种改变神经辐射场到新几何结构同时保持原始外观的实用方法。

用户研究:评估NeRF Analogies的语义质量

1. 研究设计与参与者反馈
在用户研究中,参与者被要求评估NeRF Analogies方法与其他几种典型基线方法的比较。研究分为两部分:首先,参与者观看2D结果的随机顺序,并被询问哪种方法最好地结合了目标几何形状和源NeRF的外观。其次,将2D方法提升到3D,通过训练InstantNGP网络,然后渲染一个围绕对象的圆形相机轨迹,并要求参与者选择他们最喜欢的方法,基于多视角一致性和浮动物体及伪影的质量。研究结果显示,大多数用户更倾向于NeRF Analogies方法,因为它在多视角一致性和细节质量上表现出优势。
2. NeRF Analogies在多视角一致性和细节质量上的优势
NeRF Analogies方法在多视角一致性和细节质量上的优势得到了用户研究的支持。与传统的图像类比和风格迁移方法相比,NeRF Analogies能够产生清晰的结果,并捕捉到语义相似性。例如,在处理包的手柄时,该方法能够保持正确的棕色,而在处理椅子腿部时,能够保持正确的米色。此外,与其他方法相比,NeRF Analogies在处理多对象场景和真实世界场景时也显示出一致性,能够以语义上有意义的方式传递外观。

局限性与未来方向

1. NeRF Analogies的局限性分析
尽管NeRF Analogies在多视角一致性和细节质量上表现出色,但该方法也有其局限性。例如,DiNO(和大多数其他对应方法)难以解决圆形对象上的旋转歧义。此外,由于采用基于点的外观传递,该方法无法传递纹理。在某些具有挑战性的案例中,例如由于镜面反射和旋转对称性,DiNO对应可能不准确,导致方法错误地将不同颜色编码在观看方向中。
2. 未来研究方向的展望
未来的研究方向可能包括3D一致的纹理传递,或者传递场景的内在参数,如粗糙度或镜面反射率。另一个有趣的研究方向可能是学习采样模式,以找到后续学习NeRF类比最相关的方向或视图。此外,随着更具描述性的特征提取器的发展,未来的方法可能能够在无纹理几何体上匹配对应质量。
总结:NeRF Analogies在3D内容创作中的潜力与影响
notion image
Neural Radiance Fields(NeRF)为计算机视觉领域带来了革命性的变化,特别是在三维世界的理解和表示方面。NeRF通过优化颜色和密度映射,独特地编码了场景的3D几何形状与外观之间的关系。然而,尽管NeRF在高质量新视角合成(Novel View Synthesis, NVS)方面取得了巨大成功,但其表示形式的可编辑性仍然是一个挑战。最近的研究工作开始探索NeRF的编辑问题,其中NeRF Analogies的概念应运而生,为3D内容创作带来了新的可能性。
1.NeRF Analogies的核心概念
NeRF Analogies的核心思想是将源NeRF的外观传递到目标3D几何结构上,以一种语义上有意义的方式进行转换,使得新生成的NeRF保留目标几何形状的同时,具有类似于源NeRF的视觉外观。这一过程需要解决的关键问题是在目标几何结构和现有源NeRF之间找到语义相关区域的对应关系,这些对应关系将指导后续的外观传递。
2. 方法实现
为了实现NeRF Analogies,研究者们利用了大型预训练的2D图像模型中的语义特征,通过语义亲和性驱动的对应关系传递,实现了多视图一致的外观传递。具体来说,研究者们使用了DiNO-ViT,一个大型预训练的视觉变换器(Vision Transformer),来计算目标3D几何结构的渲染像素查询和源NeRF的2D切片之间的语义亲和性。通过这种映射,将源NeRF的视觉外观传递到目标上,并通过多视图和像素的重复过程,生成了一大批位置-外观对,作为训练新的NeRF analogy的输入,从而实现了结合目标几何形状和源外观的多视图一致的3D表示。
3. 用户研究与评估
通过定量评估和用户研究,NeRF Analogies方法被证明优于传统的基于风格化的方法,并且在多数情况下更受用户青睐。用户研究显示,与其他基线方法相比,大多数用户更倾向于选择NeRF Analogies方法。这表明NeRF Analogies不仅在技术上可行,而且在视觉上也更符合人类的审美和认知。
4. 潜力与影响
NeRF Analogies为3D几何形状和外观的探索提供了一种新的途径,为改变神经辐射场的几何形状同时保持其原始外观提供了一种实用的方法。这一技术的潜力在于其能够帮助内容创作者将用户捕获的几何形状与在线3D模型的外观结合起来,同时也适用于多对象设置和真实世界场景。NeRF Analogies的引入,为3D内容创作和编辑领域带来了新的视角和工具,预示着未来在3D一致性纹理传递或内在场景参数(如粗糙度或镜面反射率)传递等方面的研究方向。
论文标题:NeRF Analogies: Example-Based Visual Attribute Transfer for NeRFs
论文链接:https://arxiv.org/pdf/2402.08622.pdf
项目地址:mfischer-ucl.github.io/nerf_analogies
notion image
💡
上一篇
腾讯AI实验室新突破,AnLLM模型实现99%缓存削减与3.5倍速度提升
下一篇
解锁几何题新挑战,中科院发布GeoEval基准:LLMs与多模态模型大比拼

评论
Loading...