type
status
date
slug
summary
tags
category
icon
password
AI论文解读 原创
作者 | 图南
论文解读百篇推荐 点击查看:人工智能论文解读推荐
开篇:数学推理与语言模型的新进展
在人工智能领域,数学推理能力的提升一直是一个重要的研究方向。近年来,随着大型语言模型(Large Language Models, LLMs)的快速发展,研究者们开始探索如何利用这些模型在数学领域中进行有效的推理和解决问题。特别是在数学数据集的预训练和微调方面,高质量、领域特定的数据集的开发和策划成为了一个关键需求和挑战。然而,数学领域面临着高质量资源稀缺的问题,这突显了需要创新解决方案来培养具有深入理解和问题解决能力的模型。
最新的研究努力,如Gunasekar等人(2023年)和Li等人(2023年)的工作,已经在这一挑战中取得了显著进展。他们展示了利用GPT-4评估Stack数据集中代码数据的教育价值的潜力,并使用模型生成的注释来训练用于质量预测的随机森林分类器。这些研究标志着提高模型训练数据质量的重要一步。然而,这些方法只能为数据点分配离散标签,例如好或坏,而不是分配连续的实数分数,例如教育价值0.95与0.001的数据点。
本文介绍了一种策略,该策略利用基础语言模型的内在能力,配合零样本元提示(zero-shot meta-prompts),自主评估数学内容的质量和教育价值。与以往主要侧重于二元分类的方法不同,我们的评分函数提供了更细致和粒度更高的分析。这使得我们能够采用更精细和复杂的训练策略,超越了二元过滤的局限性。
论文概览:标题、作者、机构和链接
1. 论文标题:AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts
2. 作者与机构:Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao (IIIS, Tsinghua University; Shanghai Qizhi Institute)
3. 论文链接:https://arxiv.org/pdf/2402.07625.pdf
自动化数据选择:从传统到创新
1. 传统方法的局限性
在自动化数据选择的领域,传统方法通常依赖于人工标注的数据或者经过训练的分类器来评估数据质量。例如,OpenWebMath项目中使用的分类器可能主要关注文本中存在的LaTeX符号、美元符号和数字的数量,但这种方法可能并不十分有效(如图2所示)。此外,这些方法通常只能为数据点分配离散标签(例如好或坏),而不能分配连续实数分数(例如,教育价值0.95与0.001的数据点)。这种二元过滤的局限性在于它不能提供更细致和精确的分析。
2. 零样本验证的概念与应用
零样本验证是一种新颖的方法,它利用基础语言模型的内在能力,通过零样本元提示(meta-prompted)来自主评估数学内容的质量和教育价值。这种方法不需要与人类生成的标签进行先前的对齐。通过对‘YES’和‘NO’响应的logits使用softmax函数,我们的方法可以自主评估内容的相关性和价值,从而促进一个主动学习过程,模型可以通过查询材料的教育价值来定制其学习路径。
3. 自动化数据选择的策略
我们的方法核心在于不需要与人类标注分数对齐,就可以自主评估内容。我们提出了一种利用特定token的logits直接制定量化评分函数的策略,避免了大量数据标注或分类器训练的需要。通过这种方法,我们可以更精细地选择高质量的数学内容,从而提高预训练令牌的效率。
AutoMathText数据集的构建
1. 数据来源与筛选过程
AutoMathText数据集利用了三个主要数据源:Common Crawl(特别是OpenWebMath子集)、arXiv(通过RedPajama数据集)和GitHub(Stack数据集)。这些数据源因其丰富的数学内容而被选中,涵盖了广泛的复杂性和格式。我们使用Qwen-72B基础语言模型处理这些数据集,该模型以其MMLU分数77.4而著称。处理结合的11.26M文档大约需要750小时,使用4个A100-80G GPUs,总共3000 GPU小时。
2. 数据集的规模与质量
AutoMathText数据集包含超过200GB的数据。尽管这个数据集并不是全面的,但它作为一个代表性的示例,优先考虑了成本效益和覆盖范围。手动注释这个数据集的成本将超过1000万美元,而我们的方法将成本显著降低到大约10000美元。
3. 数据集的可视化与分析
数据组成的可视化对于辨别我们数据集的质量和多样性至关重要。图4展示了Top30域的数据组成树图,LM-Score范围从0.50到1.00和0.75到1.00。这不仅揭示了不同来源之间质量的差异,还显示了StackExchange等域中高质量数据的显著体积。图5提供了Top10域中LM-Score分布的详细视图,表明StackExchange、mathhelpforum.com和physicsforums.com在高质量内容方面处于领先地位。
模型持续预训练的实验设计
1. 实验设置与参数
在本研究中,我们采用了7B参数的Mistral语言模型进行持续预训练,以提高模型在数学推理方面的能力。实验的设置包括使用AutoMathText数据集,这是一个经过筛选的包含高质量数学内容的数据集,总量超过200GB。我们的实验目的是验证通过使用基于语言模型的自动数据选择方法,能否提高预训练的数据效率,并在下游任务中取得更好的性能。
实验中,我们使用了LLaMA-Factory进行预训练,采用了余弦学习率调度,预热期为3%,峰值学习率为5e-6。我们在8xA800 GPU的节点上进行预训练,根据数据集大小调整批次大小。对于LM-Score在0.80到1.00之间的数据,我们使用了4的微批次大小和4的梯度累积(总批次大小为128),而对于LM-Score在0.75到1.00之间的数据,我们将微批次大小翻倍以适应数据量的增加,保持梯度累积不变,从而实现了256的总批次大小。
2. 模型训练的数据效率
我们的实验设计着重考虑了数据效率。与传统的持续预训练工作相比,我们的方法在使用的token数量上减少了数量级。通过使用基于语言模型的自动数据选择方法,我们能够专注于最具信息性的数据点,从而提高预训练的token效率。我们的方法在预训练token效率上实现了比基线方法高2倍的提升,这表明我们的方法在提升模型的数学推理能力方面具有潜力。
3. 模型性能的评估方法
为了评估模型性能,我们使用了标准的eval harness框架进行评估,与Huggingface Leaderboard的协议保持一致。我们将持续预训练后的模型在MATH数据集上进行测试,以评估模型在数学推理任务上的性能。此外,我们还在MetaMathQA数据集上进行了监督式微调(SFT),以进一步验证我们预训练方法的有效性。
实验结果与分析
1. 训练损失的对比分析
实验结果表明,使用自动选择的数据进行训练的模型不仅在训练损失上下降得更快,而且在更低的损失值上稳定下来。图6展示了使用均匀数据和自动选择数据的训练损失轨迹的对比,其中自动选择数据的模型在LM-Score较高的范围内(0.80到1.00,数据量为83.2M)实现了更显著的损失降低。
2. MATH数据集上的测试准确率
表2显示了持续预训练后模型在MATH测试集上的准确率。自动选择的数据在两个LM-Score组中都一致地超过了均匀对照组,准确率的提升幅度每十亿token增加11.15%,而使用均匀采样数据的模型每十亿token的准确率增加了5.53%。这一性能提升突出了使用高质量、特定领域数据进行持续模型预训练的战略优势。
3. 细化预训练后的模型性能
在对MetaMathQA数据集进行监督式微调(SFT)后,自动选择数据的模型再次展现了更高的准确率,这验证了我们预训练方法的稳健性。表3进一步检验了SFT设置下的MATH测试准确率,结果强调了AutoMathText数据集不仅能够在独立环境中提升模型性能,也能够作为后续微调过程的基础。
相关工作回顾
1. 数学数据集与语言模型
在数学推理领域,高质量的领域特定数据集对于提升语言模型的性能至关重要。然而,数学领域面临着优质资源稀缺的挑战,这突显了培养具有深刻理解和解决问题能力的模型的创新解决方案的需求。近期的研究如Gunasekar等人(2023年)和Li等人(2023年)在这一挑战上取得了显著进展,他们展示了利用GPT-4评估Stack数据集中代码数据的教育价值的潜力,并使用模型生成的注释来训练用于质量预测的随机森林分类器。
2. 语言模型的数据选择技术
我们的工作引入了一种新策略,利用基础语言模型的内在能力,通过零样本元提示(meta-prompted)作为验证器,自主评估和选择高质量的数学内容。与以往主要依赖二元分类的方法不同,我们的评分函数提供了更细致和粒度化的分析,使得训练策略更加精细和复杂。我们的方法避免了与人工标注分数对齐的必要性,通过对‘YES’和‘NO’标记的softmax函数,自主评估内容的相关性和价值。
3. 跨领域的数据选择策略
跨领域数据选择策略的研究不仅限于自然语言处理任务,还扩展到了视觉和一般领域适应等多个领域。例如,Moore-Lewis技术通过使用针对特定目标和一般语料库的n-gram语言模型之间的交叉熵差异,展示了这种方法的效果。在计算机视觉领域,针对优化训练数据集的方法也显示出了显著的好处。
结论与未来展望
1. 自动化数据选择方法的意义
我们的方法利用语言模型固有的自我评估和主动学习能力,显著提高了在复杂和专业领域(如数学)中训练数据的质量和相关性。这项研究为自主数据策划和模型训练技术的进一步调查打开了大门,预示着AI在专业领域内理解、推理和创新能力的新时代。
2. 对AI研究领域的影响
通过减少对人工标注数据的依赖,我们的方法将内容评估的责任转移到了AI本身,这引发了关于模型决策过程的重要问题。确保这些过程透明并且没有偏见是至关重要的,以防止现有不平等的延续或在AI系统中引入新的偏见。
3. 自动化数据选择方法的潜在应用
未来的研究领域包括探索自动数据选择方法适用于数学之外的其他专业领域,如物理、化学甚至文学或历史等非STEM领域。这种扩展提出了理论上的考虑和实践上的挑战,包括将元提示技术适应不同类型的专业知识、评估不同领域内容的相关性和教育价值,以及可能需要对自动选择过程进行领域特定的调整。
- 作者:柏企
- 链接:https://www.292164.xyz//article/pager2
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。