🗒️牛津大学破局:用语义嵌入重塑记忆模型,AI从此告别“像素偏见”!
00 分钟
2024-7-2
2024-9-2
type
status
date
slug
summary
tags
category
icon
password
💡
AI论文解读  原创
作者 |  图南
notion image
💡
论文标题:Associative Memories in the Feature Space
作者:Tommaso Salvatori, Beren Millidge, Yuhang Song, Rafal Bogacz, Thomas Lukasiewicz
链接:https://arxiv.org/pdf/2402.10814.pdf

开篇:人脑与计算机中的记忆存储与检索

在人类的一生中,大脑能够存储大量的信息,并且能够基于相关刺激灵活地检索记忆。这种能力是在许多任务上表现出智能的关键。在大脑中,感觉神经元检测外部输入,并通过一个层级网络将这些信息传递到海马体,海马体能够通过一个生成性网络以一种建构性的方式检索信息。需要有意识努力检索的存储记忆被称为显式记忆,分为情景记忆和语义记忆。情景记忆包含经历过的事件,而语义记忆代表知识和概念。这两种记忆都是通过生成性网络以一种建构性方式检索的。
在计算机科学中,关联记忆的计算模型基本上是模式存储和检索系统。一个标准任务是存储一个数据集,并在展示一个损坏版本的数据点时检索正确的数据点。流行的关联记忆模型包括Hopfield网络,尽管这些模型在理论上有很大的容量,但在实践中并不反映出来,因为它们无法正确检索如高质量图像这样的记忆,即使是中等大小的数据集也是如此。实际上,两个数据点之间的相似性通常是在原始像素空间上使用简单函数(如点积)计算的,这对于我们希望区分的图像的“语义”特征不敏感。当使用更强的损坏,如旋转、裁剪和平移时,性能会进一步下降,因为像素之间的关系会丢失。这些问题可以通过学习对存储记忆的语义敏感的相似性函数来解决。本质上,我们需要将每个数据点嵌入到一个不同的空间,在这个空间中,简单的相似性分数可以很好地区分语义特征。这种方法类似于核方法,其中相似性操作是在应用特征映射后执行的,该特征映射将输入和数据点发送到点积更有意义的空间。
 

论文主要贡献简述

定义了一类名为语义Hopfield网络的关联记忆模型,该模型通过特征映射增强了关联记忆模型。使用了预训练的神经网络作为特征映射,显著提高了标准Hopfield网络的性能。该模型能够在呈现损坏和不完整版本的查询时,对复杂数据点(如CIFAR10、STL10和ImageNet图像)进行精确检索。
提出了一种存储模型,不需要存储所有数据点,从而提高了内存效率。该模型通过生成网络生成检索到的数据点,而不是简单地复制存储的数据点,这增加了生物合理性。通过在MNIST数据集上使用简单的自编码器提供了这种模型的概念验证。

认识关联记忆模型

1. 人脑记忆的存储与检索
人脑中,感觉神经元侦测外部输入并通过层级网络将信息传递至海马体,海马体能够通过生成性网络以建构性方式检索信息。记忆存储涉及两种类型:显性记忆和隐性记忆。显性记忆需要有意识的努力来检索,分为情景记忆和语义记忆。情景记忆包含经历过的事件,而语义记忆代表知识和概念。这些记忆通过生成性网络以建构性方式被检索。
2. 计算机中的关联记忆模型
在计算机科学中,关联记忆模型基本上是模式存储和检索系统。标准任务是存储数据集,并在展示一个损坏版本的数据点时检索正确的数据点。流行的关联记忆模型包括霍普菲尔德网络和稀疏分布式记忆。尽管这些模型理论上有很大的容量,但实际上并不反映出来,因为它们无法在面对中等大小的数据集时正确检索如高质量图像等记忆。这是因为两个数据点之间的相似性通常是在原始像素空间上使用简单函数(如点积)计算的,这对我们希望区分的图像的“语义”特征不敏感。通过学习一个对存储记忆的语义敏感的相似性函数,可以解决这些问题。本质上,我们需要将每个数据点嵌入到一个不同的空间,在这个空间中,简单的相似性评分可以很好地区分语义特征。

语义霍普菲尔德网络的提出

1. 语义记忆模型的定义
语义记忆模型是一类关联记忆模型,它增强了关联记忆模型与特征映射的结合。在这种模型中,原始数据点被存储,但在嵌入空间中计算相似性。这种模型能够在面对由损坏和不完整版本形成的查询时,对复杂数据点(如CIFAR10、STL10和ImageNet图像)进行精确检索。
2. 特征映射的角色与重要性
特征映射的问题在于找到一个将不同数据点嵌入到一个能够很好区分它们的空间的映射。在这项工作中,我们展示了使用预训练神经网络作为特征映射可以显著提高标准霍普菲尔德网络的性能。我们首先回顾了描述文献中存在的一次性关联记忆模型的最新数学形式,称为通用霍普菲尔德网络,并将这个框架扩展到包含这些特征映射。我们使用预训练的ResNet18和ResNet50作为特征映射,它们以对比方式进行了训练,类似于SimCRL中的做法。结果是一个模型,它存储了标准记忆模型中的原始数据点,但在嵌入空间中计算相似性。

实验设置与数据集介绍

1. 实验数据集的选择与特点
在本研究中,我们选取了CIFAR10和STL10两个数据集进行实验。CIFAR10包含60000张32×32的彩色图片,分为50000张训练集和10000张测试集。STL10则包含105000张96×96的彩色图片,其中100000张用于训练,5000张用于测试。这两个数据集的选择是因为它们具有丰富的图像内容和合适的挑战性,能够有效测试我们的语义记忆模型。
2. 特征映射函数的选择与训练
为了实现有效的特征映射,我们选择了预训练的神经网络作为特征映射函数。具体来说,我们使用了在SimCLR框架下预训练的ResNet18和ResNet50。这些网络通过对比损失进行训练,能够将相似的数据点映射到接近的特征空间,而将不同的数据点映射到远离的特征空间。这种方法能够有效地提取数据点的语义特征,从而提高记忆模型的性能。

实验结果与分析

1. 语义模型与传统模型的性能对比
我们的实验结果显示,语义记忆模型在处理像素位置改变的图像腐败时,性能明显优于传统的通用霍普菲尔德网络(UHNs)。这包括旋转、裁剪等操作。然而,在图像遮挡和椒盐噪声的情况下,UHNs的表现略胜一筹。这是因为这些腐败类型保留了一部分像素,使得基于像素空间的相似性函数能够返回较高的值。尽管如此,我们的模型在处理高斯噪声的图像时表现出了更好的稳定性和鲁棒性。
2. 不同相似性函数的表现分析
在不同的相似性函数中,我们发现负L1范数(曼哈顿距离)在大多数情况下都能获得最佳或接近最佳的性能。而在UHNs中,没有一个相似性函数表现出明显的优势。这表明语义模型在不同类型的图像腐败下更加稳健。此外,我们还发现,尽管点积计算速度稍快,但在某些腐败类型下,L1范数的更好性能使其成为最佳候选。
在效率方面,尽管语义模型需要进行前向传播来计算语义嵌入,但它们的运行时间比UHNs更短。这主要是由于嵌入空间的维度小于像素空间的维度,这在某些场景中可能至关重要。例如,CIFAR10图像的维度为3072,而STL10图像的维度为27648,而我们模型中的语义空间维度仅为512(ResNet18)和2048(ResNet50),这是一个显著的改进。
总的来说,我们的实验结果表明,通过在特征空间中计算相似性得分,我们的语义记忆模型能够在不改变存储数据点概念内容的情况下,执行关联记忆任务,并且在多种图像腐败情况下都表现出了优异的性能和鲁棒性。

完全语义记忆模型的构建

1. 完全语义记忆模型的定义与特点
完全语义记忆模型是一种新型的关联记忆模型,它通过特征映射函数ϕ将记忆映射到特征空间中。在这个空间中,即使是受损的数据点也能够被准确地检索出来。这种模型的核心在于,它不仅存储原始数据点,而且还能在嵌入空间中计算相似性,从而在面对复杂数据点,如CIFAR10、STL10和ImageNet图像时,即使查询条件是损坏或不完整的版本,也能进行精确的检索。
2. ϕ和ψ函数的学习与应用
ϕ函数是一个将数据点映射到低维嵌入空间的特征映射函数。在构建完全语义记忆模型时,ϕ函数的选择至关重要,因为它需要将受损版本的同一数据点映射到彼此接近的位置,同时将不同的数据点映射到远离彼此的位置。为了实现这一目标,可以使用预训练的神经网络作为特征映射,通过对比损失进行训练,这种方法在SimCLR中已经得到了证实。
ψ函数则是一个生成性网络,它能够从低维嵌入空间中生成数据点。在完全语义记忆模型中,数据点以声明方式存储,并通过构造性方式检索。这种模型在MNIST数据集上的概念验证使用了一个简单的自编码器来实现。

相关工作与文献回顾

1. 关联记忆模型的历史与发展
关联记忆模型的研究始于1961年的learnmatrix,它利用了铁磁性电路的硬件特性。Hopfield网络和稀疏分布式记忆模型是后来影响深远的两种计算模型。近年来,随着关联记忆模型与深度学习文献的交叉,这一领域再次受到关注。例如,Hopfield网络的多项式容量变体被引入用于分类任务,而连续状态Hopfield网络的泛化则在几年后发展出来。
2. 现代深度学习与关联记忆模型的交叉
现代深度学习与关联记忆模型的交叉主要体现在将深度学习架构与关联记忆模型相结合。例如,深度关联神经网络利用深度信念网络增强了密集Hopfield网络的存储和检索机制。此外,基于预测编码理论的生成预测编码网络也依赖于关联记忆模型来存储和检索图像。最近的研究还关注了实现遗忘操作,以移除不再需要的存储记忆。
在理解流行的变压器架构方面,也有研究表明,注意力机制是现代连续状态Hopfield网络的一种特殊表述,其动态也可以被稀疏分布式记忆模型的现代表述所近似。这些交叉研究不仅推动了记忆模型的发展,也为深度学习提供了新的视角和工具。

结论与未来展望

1. 论文研究的总结
本文探讨了在联想记忆模型中存储和检索自然数据(如彩色图像)的问题。我们首先讨论了在像素空间计算相似性的问题,这导致了人类与机器在关联存储数据点时性能上的不匹配。由于现代联想记忆模型在原始像素上计算简单的相似性得分,仅通过旋转或平移图像就可能欺骗现代记忆模型。然而,这些变换不会欺骗人类判断。为了解决这一不匹配,我们定义了两种联想记忆模型,它们在嵌入空间中计算相似性得分,允许在不改变存储数据点概念内容的情况下执行联想记忆任务。
我们的模型在对抗各种像素位置改变的损坏(除了遮罩和椒盐噪声)时,性能优于UHNs。在相似性函数方面,语义模型通常比UHNs更为健壮,特定相似性函数的最终性能强烈依赖于使用的损坏类型。在大多数情况下,负L1范数总是获得最佳(或接近最佳)的性能。在效率方面,尽管语义模型需要执行前向传播以计算语义嵌入,但它们比UHNs快得多,这主要是由于嵌入空间的维度小于像素空间的维度。
2. 未来研究方向的展望
未来的研究可以在几个方向上进行扩展。首先,可以探索使用更强大的嵌入函数来提高模型的性能。例如,使用在ImageNet上预训练的模型,而不是各自的训练集,可以显著提高结果。其次,可以研究如何使模型更轻量化和生物学上更合理,同时生成与存储的图像相似但不完全相同的图像。这涉及到完全语义模型,它在嵌入空间中执行相似性计算和重建。
此外,可以探索如何通过对抗性攻击来增强模型的鲁棒性。通过收集多个相同损坏类型的例子,并将其作为数据增强输入到对比损失中,可以强制模型将相同数据点的损坏版本聚集在一起。这将使模型能够更好地处理数据集将面临的相同损坏类型。
最后,实际应用中可能需要更强大的生成模型,这需要根据所需的任务和数据选择合适的模型。通过使用更复杂的编码器和解码器,可以改进结果,并将其扩展到更复杂的数据集。
notion image
💡
上一篇
控制AI的个性化表现,中科院联手英特尔推出ControlLM:实时调整语言模型特质!
下一篇
解构大模型难题,提速1.69倍不失品质!揭秘Skeleton Graph Decoding新策略

评论
Loading...