type
status
date
slug
summary
tags
category
icon
password
AI论文解读 原创
作者 | 图南
论文标题:GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving
论文链接:https://arxiv.org/pdf/2402.10104.pdf
项目地址:https://github.com/geometry-problem-solving/GeoEval
几何问题解决的AI挑战
在人工智能领域,几何问题的解决一直是一个重要的研究方向。这类问题通常需要对文本和视觉信息进行综合理解,并运用数学推理技能。然而,尽管大型语言模型(LLMs)和多模态模型(MMs)在处理复杂推理任务方面展现出了显著的潜力,它们在解决几何数学问题上的能力尚未得到全面评估。为了填补这一空白,研究人员引入了GeoEval基准测试,这是一个全面的集合,包括2000个主要问题子集、750个专注于逆向推理的问题子集、2000个增强问题子集和300个难题子集。通过这一基准测试,研究人员可以更深入地探究LLMs和MMs在解决几何数学问题上的表现。
GeoEval基准测试介绍
数据集的构成与目的
GeoEval基准测试包括四个子集:GeoEval-2000(包含2000个问题)、GeoEval-backward(包含750个问题)、GeoEval-aug(包含2000个问题)和GeoEval-hard(包含300个问题)。这些子集的构建旨在全面评估LLMs和MMs在解决几何数学问题上的能力。GeoEval-2000子集旨在覆盖广泛的基本几何形状,确保几何概念的广泛代表性。GeoEval-backward子集通过逆向问题测试模型的多步推理能力。GeoEval-aug子集通过重述问题来评估当前模型的韧性,并减少数据泄露的风险。GeoEval-hard子集专注于固体几何和解析几何问题,提供更广泛的评估范围。
数据集的独特特点
GeoEval基准测试的独特之处在于其五个特征:综合多样性、问题多样性、双输入支持、多样化挑战和复杂度评级。综合多样性指的是GeoEval包含来自七个最新数据集的几何问题,因此问题涵盖了广泛的几何形状。问题多样性意味着GeoEval基准测试包括平面几何、固体几何和解析几何三个不同类别的几何数学问题。双输入支持是指GeoEval具有两种格式的问题:附有图表的问题和仅包含文本的问题。多样化挑战包括收集公共数据集以外,GeoEval还生成了自己的超出分布数据集,旨在解决数据泄露问题。复杂度评级则为每个问题提供了复杂度等级的注释,作为评估模型解决这些任务的能力的指南。
模型评估:选择的LLMs和MMs
在本研究中,我们对大型语言模型(LLMs)和多模态模型(MMs)在解决几何数学问题的能力进行了评估。我们选择了以下模型进行实验:
1. 专门的编程语言LLMs
CodeGen2-16B:专注于理解和生成编程代码的模型。
2. 数学专业LLMs
WizardMath-70B和WizardMath-7B-V1.1:专门在数学语料上进行预训练的模型。
3. 广泛主题LLMs
GPT-3.5和GPT-4:设计用于处理广泛主题的先进商业LLMs。
4. 多模态模型
llava-7B-V1.5、Qwen-VL、mPLUG-Owl2、InstructBLIP和GPT-4:这些模型结合了ViT架构作为视觉编码器和不同LLMs作为解码器。
实验设置与评估指标
1. 零样本方法与指令提示
我们采用零样本方法,通过直接的指令提示来评估模型在我们的基准测试上的几何问题解决能力,而无需进一步的针对性微调。
2. 答案提取与评估准确性
我们使用GPT-4来提取模型生成序列中的目标值或选项字母,并制定了复杂的后处理规则以提高答案提取的精确度,最终的提取准确率超过了97%。
实验结果与分析
1. LLMs之间的比较
在GeoEval-2000子集上,专门在数学语料上预训练的WizardMath-70B和WizardMath-7B-V1.1在解决几何数学问题方面表现出色,准确率分别为55.67%和54.78%,远超其他LLMs。然而,在GeoEval-hard子集上,所有模型的准确率普遍较低,表明在解决最具挑战性的固体几何和解析几何问题方面存在困难。
2. MMs之间的比较
mPLUG-Owl2在GeoEval-backward子集上表现最佳,准确率为35.33%,而在GeoEval-aug子集上,GPT-4V以45.75%的准确率领先。然而,GPT-4V在GeoEval-hard子集上的准确率仅为10.10%,再次证明了这些问题的复杂性。
3. LLMs与MMs的对比
在只包含文本的GeoEval-2000子集问题上,GPT-4的表现超过了最佳的MMs,Qwen-VL,准确率高出17.89%。然而,当评估GeoEval-2000子集的所有问题时,WizardMath-70B的准确率超过了最佳的MMs,Qwen-VL,高出17.91%。这些结果强调了数学预训练对于在几何问题解决中的重要性。
几何图形描述的影响
1. 描述的重要性
几何问题的解决往往需要对文本和视觉信息的综合理解。在GeoEval基准测试中,包含几何图形描述的问题样本被用来评估大型语言模型(LLMs)和多模态模型(MMs)的性能。研究结果表明,几何图形描述对于模型理解和解决几何问题至关重要。
2. 实验结果
在GeoEval-2000子集中,选取了300个包含几何图形描述的问题样本,对GPT-4V和WizardMath-7B-V1.1两个模型进行了测试。实验结果显示,当不使用几何图形描述时,GPT-4V的准确率下降了5.33%,而WizardMath-7B-V1.1的准确率更是下降了18.73%。这一发现强调了几何图形描述在提高模型解决几何数学问题效率方面的显著作用,尤其是对于LLMs来说。
外部知识的需求分析
1. 外部知识的角色
在GeoEval基准测试中,某些问题需要外部知识,例如π的值,这通常不包含在问题文本中。因此,模型需要具备预先的知识才能准确解决这些问题。
2. 性能对比
通过使用启发式方法将问题分类为解决方案是否需要常数,我们对四个模型在需要外部知识与不需要外部知识的问题上的性能进行了比较。这一分析揭示了模型在解决需要外部知识的问题时的性能差异。
不同复杂度问题的性能表现
1. 问题复杂度的影响
GeoEval基准测试中的问题被注释有复杂度等级,以指示解决问题所需的技能水平。模型在不同复杂度等级的问题上的表现被详细记录和分析。
2. 性能趋势
模型在GeoEval-2000子集上的表现显示,随着问题复杂度的增加,模型的准确率相应下降。例如,GPT-4V和GPT-4在问题长度增加时保持了相对稳定的准确率,而GPT-3.5和CodeGen2-16B在处理较长问题时的效率较低。这一趋势在模型在不同复杂度级别的几何数学问题上的性能中也得到了体现,凸显了随着问题复杂度的提升,模型准确率的相应降低。
结论:GeoEval基准测试的意义与模型性能
GeoEval基准测试的开发旨在填补现有研究中的空白,即评估大型语言模型(LLMs)和多模态模型(MMs)在解决几何数学问题上的能力。这些问题通常需要对文本和视觉信息的综合理解,以及数学推理技能的应用。GeoEval包含四个子集,涵盖了从基本的平面几何到更复杂的立体几何和解析几何的各种问题,以及后向推理、增强和困难问题的子集,以全面挑战模型的几何问题解决能力。
通过对十个最先进的LLMs和MMs进行评估,我们发现在主要子集上,WizardMath模型表现突出,准确率达到55.67%,但在挑战性子集上的准确率仅为6.00%,这突显了在未经预训练的数据集上测试模型的重要性。此外,我们的研究表明,GPT系列模型在处理它们已经改写过的问题时表现更为有效,这为提高模型能力提供了一种有前景的方法。
讨论与局限性:研究的限制与未来方向
尽管GeoEval基准测试为评估LLMs和MMs在解决几何问题上的能力提供了一个全面的框架,但本研究仍存在一些限制。首先,我们的评估主要集中在准确性的定量指标上,可能忽略了对于教育应用至关重要的模型推理和解释的定性方面。模型在困难子集上的表现也揭示了在高级推理能力方面的不足,表明即使是在数学语料库上预训练的LLMs和MMs也可能在处理高度复杂或新颖的问题类型时遇到困难。
此外,GPT系列模型在改写问题上的有效性表明了特定的交互效应,这可能不适用于所有类型的几何问题或其他LLMs和MMs,这表明需要更广泛的研究来充分理解改写对模型性能的影响。
论文标题:GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving
论文链接:https://arxiv.org/pdf/2402.10104.pdf
项目地址:https://github.com/geometry-problem-solving/GeoEval
论文解读百篇推荐 点击查看:人工智能论文解读推荐
- 作者:柏企
- 链接:https://www.292164.xyz//article/pager5
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。