今日最新大模型论文 | 清华新突破！CriticBench基准测试揭示大语言模型自我批判与修正能力

type

status

date

slug

summary

引言：探索大型语言模型的批判性推理能力

在人工智能领域，大型语言模型（LLMs）的出现引发了一场革命，它们在多样化的任务中展现出了惊人的能力。然而，这些模型在自我评估和改进方面的潜力尤其引人注目。研究表明，LLMs能够有效地评估模型输出，并且甚至能够进行自我反思和修正。这种能力依赖于LLMs的批判性推理技能，包括识别提供响应中的问题（批判）和提出合适的修改（修正）。

尽管如此，对LLMs批判性推理能力的全面理解仍然是一个难题。以往的研究通常只关注有限的模型和数据集，且发现的结果不一致，这突显了进行彻底调查的必要性。为了系统地评估LLMs在批判和修正方面的熟练程度，我们介绍了CRITICBENCH，一个全面的基准测试，旨在评估LLMs的批判和修正技能。CRITICBENCH包含了15个数据集，涵盖五个任务类别：数学、常识、符号、编码和算法。我们利用来自LLaMA、Vicuna和GPT系列的八个模型来创建待批判和修正的响应，并且包括了GPT-4，并进行了手动数据审查以确保数据质量，最终形成了3.8K个数据实例。通过在CRITICBENCH上进行广泛的实验，我们评估了17个LLMs在生成、批判和修正推理（GQC）方面的表现，并分析了影响LLM批判性推理的关键因素。

我们的研究揭示了以下发现：

（1）GQC能力之间存在线性关系，专注于批判的训练显著提高了性能；

（2）任务类型对批判和修正效果的影响显著，以逻辑为中心的任务更容易被修正；

（3）模型在这三个任务中的知识不一致性随着模型大小的增加而减少；

（4）模型间有趣的批判模式，更强的模型在批判较弱的模型时表现更好，而较弱的模型在自我批判时有时能超过较强的模型。我们希望这些对LLMs细腻的批判-修正推理的洞察能够促进LLM批判和自我改进方面的进一步研究。

CRITICBENCH基准测试的介绍

1. CRITICBENCH的设计目的和构成

CRITICBENCH是一个全面的基准测试，旨在评估大型语言模型（LLMs）批判和修正推理的能力。这一能力对于模型在评估、提供反馈以及自我改进方面的应用至关重要。CRITICBENCH涵盖了五个推理领域：数学、常识、符号、编码和算法。它汇编了15个数据集，并整合了来自三个LLM家族的响应。通过CRITICBENCH，研究人员评估了17个LLMs在生成、批判和修正推理（即GQC推理）方面的表现，并分析了影响LLM批判推理的关键因素。

2. 评估大型语言模型的批判和修正能力

CRITICBENCH的评估揭示了几个关键发现：（1）GQC能力之间存在线性关系，专注于批判的训练显著提高了性能；（2）任务类型对批判和修正效果的影响各不相同，以逻辑为中心的任务更易于修正；（3）GQC知识的不一致性随着模型大小的增加而减少；（4）模型间批判模式的有趣现象，即更强的模型在批判较弱模型方面表现更好，而较弱的模型在自我批判方面有时能超过更强的模型。

实验设计：CRITICBENCH的构建过程

1. 任务类型和数据集选择

CRITICBENCH的构建涉及多种任务类型，以全面展示模型的能力。为了构建数据集，研究人员选择了数学推理的GSM8K、MATH、AQuA和TabMWP数据集；常识推理的CSQA、AmbigNQ、StrategyQA和HotpotQA数据集；符号推理的Penguins、Colored Object和Date数据集；编码任务的MBPP和HumanEval数据集；以及算法任务的Object Counting和Repeat Copy数据集。这些数据集确保了CRITICBENCH中的问题涵盖了多样化的考察角度。

2. 响应收集和注释方法

在收集基准问题后，研究人员使用了包括GPT-3.5、GPT-4、LLaMa2和vicuna在内的多种LLMs生成每个问题的响应，并使用贪婪解码。然后，他们过滤掉没有提供有效推理的响应，并应用随机抽样策略以保持各数据集中模型生成响应的一致数量。响应的正确性最初通过基于规则的匹配确定，随后使用GPT-4进行更详细的评估，包括标记数学上正确但推理错误的答案，以及识别接近正确的常识响应。GPT-4评估与初始注释之间的差异通过人工审查解决。在审查过程中，研究人员识别了数据集中缺少正确选项的问题，并提供了详细的例子。

实验结果：大型语言模型的GQC能力分析

1. 基础模型和规模对性能的影响

在对大型语言模型（LLMs）的生成、批评和修正（GQC）能力进行评估时，我们发现模型的基础架构和规模对其性能有显著影响。例如，尽管Phi-2（2.7B）在生成任务中表现出色，但与具有类似生成性能的模型（如LLaMa-2-13b, Vicuna-33b）相比，其在批评和修正任务中的表现较弱。这表明Phi-2在训练中可能更侧重于生成任务。此外，我们观察到，具有超过13亿参数的模型表现出一定的批评能力，超过了随机猜测的基线。然而，只有Mixtral-8×7b及以上规模的模型能够实现有效的修正，超过了原始响应的基线生成分数。

2. GQC能力的相关性及其对任务类型的依赖性

GQC能力之间存在正相关性。我们发现生成和批评能力之间存在正线性关系，即使模型在训练中主要关注生成相关的学习任务，生成和批评的改进率几乎相同。然而，生成和修正能力之间的线性关系不那么明显。较弱的模型在修正后的正确性往往低于初始基准响应，这表明模型有限的生成精确度影响了其修正响应的能力。同样，批评和修正之间的关系表明，即使模型能够区分正确和错误的响应，它也未必能够纠正它们。

批判训练的影响：从Auto-J和UltraCM模型中获得的见解

批判训练对LLMs的GQC能力有显著影响。通过比较LLaMa家族中不同模型的结果，我们发现，尽管RLHF（Reinforcement Learning from Human Feedback）限制了生成性能，但在批评和修正任务中，RLHF一致性地优于BASE模型，表明RLHF可能抑制了知识在生成中的表达。此外，批评训练后的模型，如Auto-J和UltraCM，显示出在评估不同模型的响应正确性方面的增强能力，其中UltraCM的性能接近其对GPT-4的自我批评水平，强调了批评训练的价值。

在任务类型方面，模型的批评和修正能力取决于任务是否侧重于细节或逻辑。例如，模型在面对细节导向的算法任务时，其批评性能较弱，而在数学推理和代码生成任务中，其批评能力超过了生成能力。这表明，当模型执行批评和修正时，细节导向的任务中的错误答案会轻易干扰模型，而逻辑导向的任务则不会。

通过对不同模型之间的批评结果进行分析，我们发现，尽管强模型在批评方面具有更好的能力，但在自我批评方面，较弱的模型有时能够比强模型更有效地纠正强模型的输出。这些发现强调了CRITICBENCH在评估和分析LLMs的GQC能力方面的有效性。

讨论：大型语言模型在批判性推理中的表现和知识一致性

在人工智能领域，大型语言模型（LLMs）的出现引起了广泛关注，它们在多种任务中展现出了卓越的能力。然而，对于这些模型在批判性推理方面的能力，即识别问题并提出合适的修改建议，我们的理解仍然有限。批判性推理涉及两个关键方面：批判（critique）和纠正（correct）。最近的研究通过CRITICBENCH基准测试，对17个LLMs在生成、批判和纠正推理（GQC）方面的能力进行了评估，揭示了一些关键发现。

1. GQC能力的线性关系：研究发现，生成、批判和纠正能力之间存在线性关系。特别是，专注于批判任务的训练显著提高了模型的性能。例如，Auto-J和UltraCM这两个专门为批判训练的模型，在评估不同模型生成的响应的正确性方面表现出色。

2. 任务类型对纠正性能的影响：不同类型的任务对LLMs的批判和纠正效果有显著影响。模型在逻辑导向的任务（如代码生成）中更容易进行纠正，而在细节导向的任务（如算法任务）中，纠正性能较弱。

3. GQC知识的不一致性： 模型在生成、批判和纠正这三个任务中的知识表现出不一致性。随着模型规模的增加，这种不一致性有所减少。更强大的模型在批判能力上表现更好，但在自我批判方面，一些生成能力较弱的模型有时能超越更强大的模型。

挑战与未来方向：评估方法的改进和批判性训练的潜力

评估LLMs的批判性推理能力面临着一些挑战。目前的评估方法依赖于成本较高的人工注释或GPT-4的结果，这可能包含错误和偏见。未来的工作需要探索减少对人工注释依赖的替代评估方法，并开发更细致的批判指标，以有效捕捉模型在各种任务和评估场景中的多样化表现。

此外，批判性训练已经显示出提高模型在批判和纠正任务中的性能。例如，Auto-J和UltraCM模型在接受批判性训练后，能够更准确地评估其他模型的响应。这表明，通过专门的批判性训练，LLMs的自我评估和自我改进能力有很大的提升空间。

在使用LLMs的批判能力时，还需要注意潜在的风险，例如可能的偏见。当LLM的GQC能力不一致，且其批判能力超过其他两个方面时，需要仔细辨别其判别结果是否包含有害偏见。未来的研究应该继续探索如何提高LLMs的批判性推理能力，以及如何更准确地评估这些能力。

总结：CRITICBENCH对理解和提升大型语言模型批判性推理的贡献

1. CRITICBENCH的构建与目的

CRITICBENCH是一个全面的基准测试，旨在评估大型语言模型（LLMs）在各种任务中批判和纠正推理的能力。它涵盖了五个推理领域：数学、常识、符号、编码和算法，包含了15个数据集，并整合了三个LLM家族的响应。通过CRITICBENCH，研究人员能够评估和解剖17个LLMs在生成、批判和纠正推理（即GQC推理）中的表现，并分析影响LLM批判性推理的关键因素。

2. CRITICBENCH的主要发现

研究发现包括：

GQC能力之间存在线性关系，专注于批判的训练显著提高了性能。

任务类型对批判和纠正有效性有显著影响，逻辑导向的任务更容易被纠正。

GQC知识的不一致性随着模型大小的增加而减少。

强模型在批判弱模型方面表现更好，而弱模型在自我批判方面有时能超过强模型。

3. CRITICBENCH的影响

CRITICBENCH的研究不仅揭示了LLMs在批判-纠正推理方面的细微差别，而且为进一步研究LLM的批判和自我改进提供了有价值的见解。这些发现强调了CRITICBENCH在评估和分析LLMs的GQC能力方面的有效性。

4. CRITICBENCH的未来方向

未来的工作应该通过探索减少对昂贵人工注释依赖的替代评估方法来解决这些挑战，并且需要开发更细致的批判指标，以有效捕捉模型在各种任务和评估场景中的表现。

CRITICBENCH的构建基于现有的公共数据集和模型，并使用GPT-4和人工评估对结果进行注释。尽管采用了基于规则的过滤、GPT-4审查和人工审查，但仍可能存在不可预测的错误。

此外，使用LLMs的批判能力时，也需要注意潜在的偏见风险。当LLM的GQC能力不一致，且其批判能力超过其他两个方面时，需要仔细辨别其判别结果是否包含有害偏见。

引言：探索大型语言模型的批判性推理能力

CRITICBENCH基准测试的介绍

实验设计：CRITICBENCH的构建过程

实验结果：大型语言模型的GQC能力分析

批判训练的影响：从Auto-J和UltraCM模型中获得的见解

讨论：大型语言模型在批判性推理中的表现和知识一致性

挑战与未来方向：评估方法的改进和批判性训练的潜力

总结：CRITICBENCH对理解和提升大型语言模型批判性推理的贡献

柏企

柏企的个人空间

交流频道

欢迎关注公众号