解构大模型难题，提速1.69倍不失品质！揭秘Skeleton Graph Decoding新策略

type

status

date

slug

summary

开篇：大型语言模型的挑战与机遇

在自然语言处理领域，大型语言模型（LLMs）因其巨大的模型参数量（例如，超过700亿）而取得了显著的成功。这些模型在文摘、翻译和聊天机器人系统等多种任务上展现出了卓越的性能。然而，随着模型参数规模的增长至数十亿级别，LLMs在推理阶段所需的巨大计算和内存成本使得它们的部署变得非常昂贵。这些昂贵的推理成本严重影响了许多对延迟敏感的应用的用户体验，并阻碍了LLMs向更广泛的社区提供服务。

为了解决这一问题，研究人员提出了并行解码策略，例如“思维骨架”（Skeleton-of-Thought，SoT），通过将问题分解为可以并行解码的子问题来提高性能；然而，这些方法通常会降低响应质量。我们的关键洞察是，我们可以在生成子问题时请求额外信息，特别是依赖关系和难度信息，以改善响应质量和性能。

在这篇论文中，我们介绍了骨架图解码（Skeleton Graph Decoding，SGD），这是一种利用子问题之间确定的因果依赖关系的方法。这种方法促进了信息在依赖子问题之间的传递，从而提高了结果的质量。同时，它揭示了对独立子问题进行并行解码的机会，进一步降低了响应延迟。此外，我们利用对每个子问题的难度估计来选择合适大小的模型，以提高性能而不会显著降低质量。与标准自回归生成和SoT相比，SGD实现了1.69倍的加速，同时将质量提高了多达51%。

SGD方法概述：解决大型语言模型推理成本高的问题

1. 大型语言模型的推理成本分析

大型语言模型（LLMs）因其巨大的模型参数数量（例如，超过70B）而在自然语言任务中取得了显著的成功。然而，LLM的推理过程涉及显著的计算和内存成本。随着LLM扩展到数十亿级别的参数，部署LLM变得非常昂贵，这主要是由于它们的自回归生成过程导致GPU计算单元的利用率低下。

2. 并行解码的现状与SoT方法的局限

并行解码策略，如Skeleton-of-Thought（SoT），通过将提示分解为可以并行解码的子问题来提高性能；然而，这些方法通常会降低响应质量。SoT将原始问题制定为几个独立的子问题节点，但这种独立性假设在实践中并不总是成立，尤其是在需要强逻辑的任务上，性能会受到影响。

3. SGD方法的核心思想与目标

我们提出的Skeleton Graph Decoding（SGD）方法，不是将所有子问题视为独立节点，而是将子问题节点组织成一个更好地代表子问题之间因果依赖的有向无环图（DAG）。SGD利用因果依赖识别子问题之间的信息传递，提高了结果质量。同时，它揭示了并行解码独立子问题的机会，进一步降低响应延迟。此外，我们利用每个子问题的难度估计来选择合适大小的模型，提高性能而不会显著降低质量。与标准自回归生成和SoT相比，SGD实现了高达1.69倍的加速，同时提高了高达51%的质量。

SGD方法详解：构建骨架图解码

1. 骨架图的生成与因果依赖

SGD首先使用LLM将原始提示分解为逻辑上有依赖的子问题。然后，SGD可以构建DAG，并使用它来批处理没有任何未完成前置节点的不同子问题。这种方法不仅并行化了解码进程，而且保证了子问题之间的依赖性。通过这种方式，我们旨在在完全必要的知识和最小因果不一致的情况下解码每个节点。

2. 自适应模型选择机制

我们观察到子问题的生成揭示了不同的难度水平；例如，一些基于事实的子问题相对简单，可以由较小的模型有效解决，而复杂的子问题，如涉及逻辑的，需要使用较大的模型。因此，我们提出了一个自适应模型选择机制，利用在骨架图生成过程中产生的难度估计。使用两种难度等级（即简单和困难），我们可以将简单子问题卸载到较小的模型上，以减少生成延迟，而不会显著妥协整体响应质量。

3. 骨架图解码流程

SGD的工作流程如下：首先引导LLM生成一个骨架，其中为每个节点分配了一系列依赖关系和难度评分。然后，SGD根据依赖关系确定节点解码的调度，并根据难度评分选择合适的LLM。节点按照计划生成，并最终连接成最终答案。

实验设计与评估标准

1. 数据集与模型选择

在本研究中，我们使用了Vicuna数据集（Chiang et al., 2023），它包含了80个跨越九个类别的问题。这些问题被用来测试大型语言模型（LLM）的回答能力。我们评估了四种不同大小和能力的模型：GPT-4 Turbo、Miqu-70B、Llama2-70B和Vicuna-33B。对于每个模型，我们使用了一个较小的对应模型来解码简单节点，这些模型组合形成了我们在子章节3.2.2中定义的模型组M。我们通过OpenAI的API访问GPT-4 Turbo；对于开源模型，我们在两个80 GB NVIDIA A100 GPU上本地运行它们，使用模型并行性。

2. 基准方法与评价指标

我们将我们的解决方案与传统的自回归生成（AR）以及最先进的加速解码技术：Skeleton-of-Thought（SoT）进行比较。为了评估答案质量，我们采用了基于LLM的评价套件。一个LLM评判（在我们的评估中使用GPT-4 Turbo）被呈现一个问题和两个由不同解码技术在同一模型上生成的答案。评判的任务是确定哪一个更好（或者是否平局）。我们使用LLM-as-a-judge（Zheng et al., 2023）基准工具来评估整体答案质量，并使用LLMZoo（Chen et al., 2023b）来评估更详细的方面，例如相关性和连贯性。我们报告了每个模型的净胜率，定义为（#胜利 - #失败）/ #问题。净胜率为0%表示答案质量相似，更高的值表示更好的答案。我们通过测量吞吐量的速度提升来比较速度。

实验结果与分析

1. SGD方法的速度提升与答案质量改进

我们发现SGD和SGD(NA)在所有模型上都一致地生成了比AR更好的答案。SGD使用大型模型，实现了高达61%的净胜率，平均为46%。SGD的解码速度提升高达1.57倍。这些结果证明了图骨架的有效性。通过我们的自适应解码，SGD仍然实现了高达51%的净胜率（平均为33%），同时速度提升进一步增加到高达1.69倍。这些结果证明了自适应解码的有效性。

2. SGD在不同问题类别上的表现

我们还研究了SGD在不同问题类别上的质量和速度。SGD在大多数问题类别上都提高了质量，而SoT在大多数类别上都降低了质量。SoT在逻辑任务（如编码、数学、写作和费米问题）上表现最差。在一些相对不需要太多推理的任务上，如写作和费米问题，SGD和SGD(NA)显著优于SoT。然而，我们的方法在编码和数学问题上表现不佳。这两个子任务的答案质量和速度都受到了影响。

3. 与SoT方法的质量比较

在之前的章节中，所有的质量评估都使用AR作为基线进行成对评估，呈现给LLM评判。现在我们使用SoT作为基线，让LLM评判评估SGD和SGD(NA)相对于SoT的表现。我们的方法在回答质量上一致性地优于SoT，SGD实现了平均54.7%的净胜率。在不同问题类别的质量比较中，SGD和SGD(NA)在除编码外的所有问题类别上都优于SoT。如第4.2节图6所示，所有方法在编码问题上表现都不佳，它们都倾向于生成高层次的步骤而不是直接的代码实现。

案例研究：SGD方法的实际效果展示

在实际应用中，Skeleton Graph Decoding（SGD）方法展现了显著的性能提升。通过将复杂问题分解为逻辑上相关的子问题，并将这些子问题组织成有向无环图（DAG），SGD方法不仅提高了回答质量，还减少了响应延迟。在一个数学问题的案例中，与Skeleton-of-Thought（SoT）相比，SGD在处理依赖关系时更为高效。SoT在生成子问题时，未能考虑到它们之间的依赖性，导致后续节点无法获取前置节点的必要信息，而SGD通过考虑这些依赖关系，确保了正确答案的生成。

此外，SGD通过评估每个子问题的难度，能够选择合适大小的模型进行解码，进一步提升性能而不会显著降低质量。在实验中，与标准自回归生成和SoT相比，SGD实现了高达1.69倍的速度提升，同时将答案质量提高了最多51%。这一成果证明了SGD在提高大型语言模型（LLM）推理性能方面的有效性。

结论与展望：SGD方法的意义与未来发展方向

SGD方法的提出，对于解决大型语言模型在推理时昂贵的计算和内存成本问题具有重要意义。通过引入有向无环图来捕捉子问题之间的因果依赖关系，SGD不仅提升了答案质量，还加快了生成速度。这种方法在处理复杂任务时特别有效，因为它能够确保信息在依赖的子问题之间正确传递。

未来，SGD方法的发展方向可能会集中在进一步优化模型选择机制，以便更精确地根据子问题的难度分配模型。此外，结合其他并行解码技术，如推测性解码，可能会进一步提升SGD的性能。在实验中，结合推测性解码的SGD已经显示出比单独使用SGD更高的速度提升。

随着计算资源的限制和对即时响应的需求不断增长，SGD方法及其未来的改进有望为大型语言模型的实际部署提供更高效、成本效益更高的解决方案。这不仅能够改善用户体验，还可能使得LLM技术更加普及，为更广泛的社区带来好处。

💡

论文解读百篇推荐 点击查看：人工智能论文解读推荐

开篇：大型语言模型的挑战与机遇

SGD方法概述：解决大型语言模型推理成本高的问题

SGD方法详解：构建骨架图解码

实验设计与评估标准

实验结果与分析

案例研究：SGD方法的实际效果展示

结论与展望：SGD方法的意义与未来发展方向

柏企

柏企的个人空间

交流频道

欢迎关注公众号