🗒️腾讯AI实验室新突破,AnLLM模型实现99%缓存削减与3.5倍速度提升
00 分钟
2024-8-26
2024-8-27
type
status
date
slug
summary
tags
category
icon
password
💡
AI论文解读  原创
💡
作者 |  图南
💡

引言:探索大型语言模型的记忆效率革新

notion image
在人工智能领域,大型语言模型(LLMs)的研究正成为一个重要的研究方向。然而,这些模型的实际应用并不主要受限于它们的性能,而是受限于它们巨大的内存开销和时间效率。特别是在资源有限的设备上部署LLMs,如智能手机,提出了一个新的挑战。为了解决这个问题,本文提出了一种基于锚点的LLM。实验表明,通过牺牲微小的1.5%精度,方法节省了99%的键/值缓存内存,同时将推理效率提高了3.5倍。在机器翻译中的应用展示了它们的兼容性和灵活性,有效地提高了实际使用中的内存效率。新方法是实用的、简单的、灵活的,并且与现有方法兼容,为LLMs在实际应用中的进一步采用铺平了道路。
论文标题: Anchor-based Large Language Models
机构: 1University of Macau, 2University College London, 3Tencent AI Lab
论文链接: https://arxiv.org/pdf/2402.07616.pdf
notion image

概述大型语言模型的记忆效率问题

notion image
大型语言模型(LLMs)主要采用仅解码器的变换器架构,这要求保留历史令牌的键/值信息,以提供上下文信息并避免重复计算。然而,这些LLMs的庞大规模和参数量需要大量的GPU内存。随着输入文本长度的增加,内存需求也随之增加,这导致了对信息存储和处理的更高效方法的迫切需求。本研究引入了基于锚点的大型语言模型(AnLLM),它利用创新的基于锚点的自注意力网络(AnSAN)和基于锚点的推理策略。这种方法使LLMs能够将序列信息压缩到锚点令牌中,减少键/值缓存,并提高推理效率。实验表明,AnLLM在保持与原始模型相当的准确性的同时,实现了高达99%的键/值缓存减少和高达3.5倍的推理加速。尽管牺牲了一点准确性,AnLLM显著提高了计算效率和资源利用率,展示了基于锚点注意力方法在LLMs实时推理实际应用中的潜力。
notion image

提出解决方案:基于锚点的大型语言模型(AnLLM)

notion image
1. 锚点自注意力网络(AnSAN)的设计理念
AnSAN旨在训练过程中强制模型将序列信息压缩到锚点令牌(在我们的实现中是最后一个令牌)中,通过基于锚点的注意力掩码来实现。在推理过程中,基于锚点的推理策略保留了锚点令牌的键/值缓存,这些锚点令牌已经聚合了整个序列信息,并丢弃了非锚点令牌的缓存,从而减少了内存需求。具体来说,基于锚点的注意力掩码为AnSAN服务两个目标:1)确保锚点令牌仅关注同一序列中的令牌,防止关注其他序列;2)引导非锚点令牌的注意力指向前序列锚点,阻止前序列中的其他非锚点令牌。值得注意的是,基于锚点的注意力技术与稀疏注意力原理相似。然而,与大多数现有研究使用稀疏注意力来扩展LLMs的上下文长度不同,我们的方法专注于调整模型以将序列信息压缩到锚点令牌中。
2. 基于锚点的推理策略
通过训练模型将信息压缩到自然语言序列的锚点/最终令牌中,我们可以通过修改键/值缓存机制来优化推理过程。具体来说,在推理过程中,当遇到将当前序列中前序令牌的综合语义信息压缩的锚点令牌时,模型可以通过删除该序列中非锚点令牌的键/值缓存来减少缓存。在算法1的“REDUCTION”函数中,当模型处理前缀文本时,或者在预测下一个令牌期间生成锚点令牌时,都会使用该函数来删除键/值缓存。
notion image

实验设计:数据集、训练过程和评估方法

notion image
1. 数据集
在本研究中,我们采用了公开可用的数据集RedPajama-Data-1T-Sample(Computer, 2023)进行AnLLM模型的持续预训练。该数据集包含约850,000个样本,总计大约10亿个tokens,所有样本都经过了右侧截断以适应模型的上下文长度为4,096的限制。
2. 训练过程
我们在数据集上对Llama2模型进行了微调,以实现AnLLM的训练。具体来说,我们将自注意力网络替换为了基于锚点的自注意力网络(AnSAN),如第3.2节所述。每个模型在数据集上以下一个token预测为目标进行了一个epoch的训练,批量大小设置为512。学习率固定为0.00002,经过20个更新步骤的线性预热后保持不变。我们采用了AdamW优化器,其β1为0.9,β2为0.95。所有训练过程都在配备了40G GPU内存的四台8×A100 GPU机器上进行。
3. 评估方法
我们使用了多个基准测试集来评估AnLLM模型的性能,包括OpenBookQA (OBQA)、WinoGrande (WG)、ARC-easy (ARC-e) 和 ARC-challenge (ARC-c)、PIQA、HellaSwag (HS)、SCIQ 和 BoolQ。这些基准测试覆盖了不同长度的文本,从而全面评估了模型在不同任务和文本复杂性上的表现。我们采用了三个不同的指标来评估模型的精确度和效率,包括准确率(Accuracy, Acc)、键/值缓存减少(Keys/Values Cache Reduction, C⇓)和测试加速比(Testing Acceleration Ratio, T⇑)。
notion image

实验结果:AnLLM在减少键/值缓存和加速推理上的表现

notion image
1. 准确率(Accuracy, Acc)
在零样本(zero-shot)设置中,AnLLM-AC和AnLLM-EP在全注意力机制下分别达到了65.1%和64.6%的平均准确率,与Llama2-7B的65.8%相当。这表明,集成锚点token的训练几乎不影响模型的容量。在五样本(five-shot)设置中,AnLLM-AC和AnLLM-EP在全注意力机制下保持了稳定的性能。当实施AnSAN技术时,所有模型的准确率略有下降,这是由于AnSAN旨在提高内存效率,需要移除token,可能导致信息丢失。然而,平均准确率下降幅度很小,约为1.5%,表明AnSAN在节省内存和保持模型性能之间实现了有效的平衡。
2. 键/值缓存减少
键/值缓存的大小是LLM实际应用中的一个关键因素。AnLLM-AC和AnLLM-EP策略通过采用AnSAN显著减少了推理过程中的键/值缓存大小。如表1所示,这些策略在缓存大小上实现了显著的减少,平均减少百分比约为90%对于AnLLM-EP,以及令人印象深刻的99%对于AnLLM-AC。这与传统方法相比是一个显著的改进,后者通常需要大量的缓存大小来存储键/值。
3. 推理加速比
推理加速比是测试阶段模型效率的另一个关键指标。通过将锚点token集成到自然语言文本中,我们可以将锚点token的隐藏状态作为演示中的键/值缓存,然后采用Wang等人(2023)提出的测试策略。在这种情况下,AnLLM-AC和AnLLM-EP策略都显示出显著的增强。平均推理加速比约为1.7倍,这比传统方法的处理时间显著缩短,后者通常需要处理大量的token。随着文本长度的增加,加速比也在上升,这与Wang等人(2023)的发现一致。这种处理时间的加速提高了效率,使这些策略特别适合资源有限的场景。
综上所述,AnLLM-AC和AnLLM-EP模型在自然语言理解基准测试中表现出色,在保持准确性的同时显著提高了内存效率和推理速度。在LLM中引入锚点token,并利用AnSAN技术减少键/值缓存大小,使这些策略能够在保持性能的同时显著提高内存效率和推理速度。在模型性能和计算效率之间实现的平衡是值得注意的,并为LLM的进一步发展打开了新的可能性。
notion image

讨论:AnLLM在不同任务和文本长度上的适用性

notion image
在探讨大型语言模型(LLMs)的适用性时,AnLLM(Anchor-based Large Language Model)的提出,旨在解决传统LLMs在处理长文本时所面临的内存效率和推理速度问题。AnLLM通过引入基于锚点的自注意力网络(AnSAN)和基于锚点的推理策略,能够将序列信息压缩到锚点token中,从而减少了键/值缓存的需求,并提高了推理效率。
1. 任务适用性
AnLLM在多种任务中表现出了良好的适用性。在零次学习(0-shot)和五次学习(5-shot)的设置中,AnLLM在OpenBookQA、WinoGrande、ARC-easy/challenge、PIQA、HellaSwag、SCIQ和BoolQ等基准测试中均展现出了与基线模型相当的准确性。这些任务覆盖了推理、理解、物理世界知识和预测未来事件等多个方面,涵盖了不同长度的文本,从而全面评估了AnLLM在不同任务和文本复杂性上的性能。
2. 文本长度适用性
AnLLM对于不同长度的文本也展现出了较好的适应性。实验结果表明,AnLLM在处理长文本时,通过AnSAN技术实现了高达99%的键/值缓存减少和3.5倍的推理加速比,尤其在BoolQ任务中,这一任务包含了最长的演示文本,表明了AnLLM在处理长文本时的高效性。然而,长文本的压缩可能会导致信息损失,这在BoolQ任务中表现得尤为明显,但平均准确率下降幅度较小(约1.5%),表明AnSAN在内存节省和模型性能之间取得了有效的平衡。
notion image

深入分析:AnLLM在德英翻译任务上的表现

notion image
在德英翻译任务上,AnLLM的表现进一步证实了其在不同任务上的适用性。使用COMET-DA评分作为翻译质量的指标,AnLLM在接受轻微的准确性折衷(约3 COMET-DA分)的同时,显著提高了内存效率。所有LLMs都在Alpaca数据集和newstest2017-2020数据集上进行了微调,以适应翻译任务。
1. 兼容性和灵活性
AnLLM在结合全注意力机制时,能够保持与仅使用全注意力机制的其他模型相当的COMET-DA分数(约80.0)。这表明AnSAN技术与全注意力机制兼容,允许用户根据需求在全注意力和基于锚点的注意力之间进行选择,强调了AnLLM的兼容性和灵活性。
2. 实时推理的有效缓存减少
在实时推理中,AnLLM的缓存减少策略证明了其有效性。通过在生成锚点token时(即端点或tokens),AnSAN-equipped模型执行缓存减少函数,实现了键/值缓存的显著减少。即使在保留源句子缓存的情况下,AnLLM仍然实现了约44%的缓存减少,并获得了约80.0的COMET-DA分数。这些结果证实了基于锚点的推理策略在实际的实时推理应用中的有效性。
综上所述,AnLLM在不同任务和文本长度上展现出了良好的适用性和灵活性,通过有效的信息压缩和推理加速,提高了LLMs在实际应用中的可行性和效率。
notion image

结论:AnLLM的实际应用潜力及对未来研究的启示

notion image
AnLLM模型通过其创新的锚点基础自注意力网络(AnSAN)和锚点基础推理策略,展示了在大型语言模型(LLM)中实现信息压缩和推理效率提升的巨大潜力。实验结果表明,AnLLM在保持与原始模型相当的准确性的同时,实现了高达99%的键/值缓存减少和3.5倍的推理加速。尽管牺牲了少量的准确性(在1.5%以内),但AnLLM在计算效率和资源利用方面的显著改进,为实时推理在实际应用中的潜力提供了有力证据。
此外,AnLLM在机器翻译等实际应用场景中的应用表明,该方法不仅在理论上是可行的,而且在实践中也是高效的。通过在保持源句子键/值缓存的情况下,AnLLM在德英翻译任务中仍然实现了44%的缓存减少,同时保持了约80.0的COMET-DA分数,这进一步证实了锚点基础推理策略在实际实时推理应用中的有效性。
综上所述,AnLLM不仅为未来的LLM研究提供了新的方向,也为在资源有限的设备上部署LLM提供了可能性。未来的研究可以在此基础上进一步探索如何优化锚点选择和信息压缩策略,以实现更高的准确性和效率。
notion image

总结:AnLLM如何在保持准确性的同时提高记忆效率和推理速度

notion image
1. 锚点基础自注意力网络(AnSAN)的设计:AnLLM通过AnSAN在训练过程中强制模型将序列信息压缩到锚点令牌中。这种设计使用锚点基础注意力掩码,确保锚点令牌只关注同一序列内的令牌,并指导非锚点令牌的注意力指向前序列的锚点,从而阻止其关注前序列的非锚点令牌。
2. 锚点基础推理策略:在推理阶段,AnLLM通过保留锚点令牌的键/值缓存并丢弃非锚点令牌的缓存,优化了键/值缓存机制。这种策略显著减少了内存需求,提高了推理速度。
3. 锚点令牌的选择:AnLLM实验中提出了两种实现方法:一种是使用序列的终点作为锚点令牌,另一种是引入一个新的特定令牌作为锚点令牌。这种灵活性允许AnLLM适应不同的应用场景。
4. 实验结果:AnLLM在各种基准测试中表现出了与基线模型相当的准确性,同时在键/值缓存减少和推理加速方面取得了显著成果。在保持准确性的同时,AnLLM-AC和AnLLM-EP策略在键/值缓存减少方面平均达到了90%和99%,在推理加速比方面平均达到了1.7倍。
5. 实际应用的兼容性和灵活性:AnLLM在德英翻译任务中展示了其与全注意力机制的兼容性,允许用户根据需要在全注意力和锚点基础注意力之间进行选择。这种灵活性使AnLLM能够在不同的实际应用场景中有效地运用。
综上所述,AnLLM通过其创新的设计在保持准确性的同时提高了记忆效率和推理速度,这对于资源有限的环境中的LLM部署具有重要意义。未来的研究可以在此基础上进一步优化模型,以实现更高的性能和效率。
notion image
💡
上一篇
清华大学破局数学推理,AutoMathText自主筛选数据让AI更精于算术!
下一篇
Meta革新3D世界:用NeRF Analogies实现视觉属性跨界传递,用户青睐度爆表!

评论
Loading...