🗒️控制AI的个性化表现,中科院联手英特尔推出ControlLM:实时调整语言模型特质!
00 分钟
2024-8-2
2024-9-2
type
status
date
slug
summary
tags
category
icon
password
💡
AI论文解读  原创
作者 |  图南
notion image
💡
论文标题:ControlLM: Crafting Diverse Personalities for Language Models
项目链接:https://github.com/wengsyx/ControlLM
开篇:探索语言模型的个性化控制新境界
在人工智能领域,语言模型的发展正迅速突破新的边界。随着模型规模的不断扩大,它们展现出越来越复杂的行为和个性,这些行为既有益也可能引起担忧。这种趋势加剧了对模型行为进行精确控制的需求。我们希望在推理时能够控制语言模型的个性特征,以呈现出不同的性格特点,并满足各种任务的需求。个性是对语言模型行为的更高层次、更抽象的表示。本文介绍了ControlLM,这是一种利用模型潜在空间中的差异激活模式来影响模型个性特征的方法,它允许对模型行为进行精确、实时的调整。ControlLM的引入不仅为语言模型的个性化控制开辟了新的可能性,而且还为未来研究提供了深刻的见解。

论文概览:ControlLM的创新之处与研究价值

ControlLM的核心目标与方法简介
ControlLM旨在实现对语言模型个性特征的精细影响,而无需昂贵的重新训练。该方法涉及在可解释方向上移动激活模式,这些方向代表显著属性。具体来说,首先获取一小组对立的行为提示,并从模型的潜在空间中提取它们的差异向量。这些差异激活成为连接输入与相关个性的控制方向。在推理时,我们可以选择任意组合的方向,并通过精确控制,使个性特征与人类平均值紧密匹配。ControlLM提供了在推理时操纵个性特征的粒度和特异性,使得语言模型能够根据各种任务的细微需求调整其响应。例如,可以强调LLM的责任感,以增强其在推理任务中的表现。此外,ControlLM还解决了一个关键挑战:缓解在RLHF训练模型中观察到的谄媚倾向,这种倾向会损害模型输出的真实性,并侵蚀对其应用的信任。通过ControlLM,我们可以实施精细的校准,并赋予LLM定制的特征,如增加真实性。此外,通过使LLM能够扮演多样化的角色,ControlLM为构建异质合成社会贡献了力量,这是一种具有广泛潜力的创新方法,用于研究人工构建环境中的社会动态和人机交互。ControlLM提供了细致且具有上下文特异性的控制,为创建既多功能又符合价值观的LLM铺平了道路。

ControlLM的工作原理

notion image
ControlLM是一种在推理时精细控制语言模型(Language Models, LMs)个性特征的方法。它通过改变激活空间中的激活模式来影响模型的个性特征,从而实现对模型行为的实时调整。ControlLM的工作原理分为两个阶段:提取阶段和控制阶段。此外,还引入了AutoControlActivate工具包,以快速获取控制向量。
1. 激活空间与个性特征的关联
ControlLM的核心思想是在模型的激活空间中预先识别与个性和行为相关的多组方向,并在推理时沿着期望的方向移动激活值。这种方法允许在不直接修改模型参数的情况下,精确地控制模型的行为输出。
2. 提取阶段:捕获个性特征向量
在提取阶段,目标是识别出与不同个性特征对应的激活向量。通过对比行为提示来获取一小组反差行为提示,并从模型的潜在空间中提取它们的差异向量。这些差异激活成为连接输入与相关个性的控制方向。在推理时,可以选择任意组合的方向,并将其应用于模型的激活空间。
3. 控制阶段:实时调整模型行为
在控制阶段,通过预先识别的控制向量适当地移动模型的中间激活状态,以影响最终输出。具体来说,对于每一层,我们将控制激活向量添加到现有的激活状态中,然后继续前向传播以生成基于修改激活的结果令牌。通过引入缩放系数γ,可以精细调节模型输出行为的程度。
4. AutoControlActivate工具包:快速获取控制向量
AutoControlActivate(ACA)工具包简化了在语言模型中识别和创建个性化控制方向的过程。该工具包利用LLMs的生成能力,构建用于发现特定个性隐藏模式的关键数据集。ACA工具包的核心原则是一个初始的“种子上下文”,由展示不同个性的单词和示例组成。然后,工具包利用LLM内的采样技术生成额外的文本实例,捕捉每个个性的精髓。

实验设计与评估方法

notion image
为了评估ControlLM的效果,我们选择了特定的模型和数据集,并设置了评估指标和实验设置。
1. 选取的模型与数据集
我们的实验使用了Llama-2-Chat系列模型和Falcon-7B模型,但值得注意的是,我们的方法也适用于任何可以访问内部激活值的GPT风格模型。我们还使用了MPI-1K数据集和其他几个数据集来测试模型在不同个性设置下的表现。
2. 评估指标与实验设置
我们使用了多种评估指标来衡量模型的表现,包括准确度、困惑度和特定任务的改进。例如,在Control Personality任务中,模型需要选择一个选项来回答问题,指示模型对于描述的特征的“思考”。在语言建模任务中,我们使用困惑度和准确度作为评估指标。对于推理任务,我们遵循了Wei等人的设置,并使用了相同的少数提示。我们还使用了Alpaca-Eval和Sycphancy-Eval来评估模型在特定任务中的改进。

ControlLM在个性控制中的表现

1. 模型个性与人类水平的对比
ControlLM展示了在不经过训练的情况下,能够激发出多样化的个性行为,同时通过精确控制,使得模型的个性特征能够紧密匹配人类的平均水平。在对Llama-2-Chat 7B模型进行的个性分析中,ControlLM通过细粒度的控制,使得该模型在120项机器人格清单(MPI)上的表现与人类得分非常接近,这一点从表1中的灰色标记数值可以看出。这些结果强调了ControlLM在精细调节模型个性输出方面的能力,使其行为更加贴近人类。
2. 通过γ值调整实现细粒度个性操控
ControlLM通过调整γ值来实现对不同个性目标的精细操控。图3展示了通过调整γ值,模型输出可以展现出不同程度和组合的个性特征。通过改变γ值,可以精确地调节每个特征对模型整体个性轮廓的影响,从而实现对对话代理和其他交互系统中的动态个性适应。这种精确和细粒度的控制能力,使得ControlLM不仅能够选择性地增强特定特征,还能够根据需要抑制其他特征。

推理任务中的ControlLM应用

1. 提升推理能力:注入责任心等特质
在对Llama-2-Chat 70B模型进行的推理任务评估中,通过ControlLM框架注入的个性特质对模型性能有着细微的影响。特别是增强模型的责任心特质,导致在多步算术、符号推理和逻辑推理等多种任务中得分显著提高。这表明,通过ControlLM控制模型的个性特征,可以细致地调整大型语言模型(LLM)的推理能力,通过匹配不同推理任务的特定特征来优化LLM在各种应用中的表现。
2. 不同个性特质对推理性能的影响分析
在推理任务中,不同的个性特质对模型性能的影响各不相同。例如,开放性特质有助于提高符号和常识推理任务的性能,而外向性对符号推理有一定的积极影响。相反,宜人性特质并没有在给定的推理任务中带来显著的性能提升。而神经质特质,虽然在符号推理和常识推理中有轻微的提升,但总体上并不利于模型的推理性能。这些发现强调了ControlLM在通过特定个性特质微调LLM推理能力方面的有效性,尤其是责任心特质在提高算术和逻辑推理能力方面表现出强大的潜力。

语言建模任务中的ControlLM优化

1. 提高准确性与降低困惑度
ControlLM的设计旨在优化语言模型(LLM)的行为控制,通过在推理时调整激活模式来细致地影响模型的个性特征。这种方法允许模型在不经过昂贵的重新训练的情况下,实时精确地调整行为。ControlLM通过强调如尽责性和友好性这样的有益属性,展示了在推理和问答任务中的改进能力。例如,通过增强LLM的责任感,可以增强其在推理任务中的表现。此外,ControlLM还解决了减少模型行为中的有害倾向,如谄媚倾向,这种倾向会损害模型输出的真实性,并削弱对其应用的信任。
2. 细粒度优化对语言模型性能的提升
ControlLM提供了在推理时操纵个性特征的细粒度和特异性,使LLM能够根据各种任务的细微需求调整其响应。例如,可以强调LLM的责任感,以增强其在推理任务中的表现。此外,ControlLM通过实时、针对性的控制措施解决了特定的不适应行为,如谄媚倾向,从而在不重新训练的情况下保持了原始模型能力的完整性。

特定行为改善:减少谄媚倾向

notion image
1. Sycphancy-Eval任务中的表现改进
ControlLM在Sycphancy-Eval任务中的应用表明,通过控制谄媚特性,可以提升语言模型的诚实性。例如,在AQUA和TruthfulQA任务中,减少谄媚倾向导致了更真实和诚实的参与,这反映在当应用ControlLM时错误率的降低。这种能力减少了不适当的奉承,强调了通过个性控制引导语言模型朝着诚实和多样性对话的潜力。
2. 通过控制谄媚特性提升语言模型的诚实性
ControlLM的应用不仅限于提升模型在特定任务中的表现,还包括在维持模型原有能力的同时,通过精确调节来提升模型的诚实性和多样性。例如,在Sycphancy-Eval任务中,通过调节γ值来减少模型的谄媚特性,从而在对话中避免过度奉承。这种适应性控制确保了计算效率和模型多样性的保留,同时使模型行为更加符合人类价值观。

总结与展望

notion image
1. ControlLM的贡献与未来研究方向
ControlLM的研究为控制大型语言模型(LLMs)的个性化特征提供了新的视角和技术途径。通过在模型的潜在空间中利用对比行为提示来导出差异化的激活模式,ControlLM能够在推理时精确地调整模型的个性特征。这种方法的优势在于无需昂贵的重新训练,就能实现对模型行为的实时精细调整。ControlLM不仅展示了在不同任务需求下调整LLMs的能力,例如增强责任感以提升推理任务的表现,还成功地解决了减少模型行为中的谄媚倾向等关键挑战。此外,ControlLM通过允许LLMs呈现多样化的人格,为研究社会动态和人机交互提供了新的可能性。
未来的研究方向可以包括进一步提升ControlLM的泛化能力,例如通过AutoControlActivate工具包快速获取特定个性的激活向量,以及探索更多细粒度的个性特征控制。此外,研究者们还需要关注如何将ControlLM应用于更广泛的LLMs,并考虑如何在保持模型性能的同时确保其输出的真实性和可靠性。
2. 个性化AI与伦理考量
随着ControlLM等技术的发展,个性化AI的伦理问题也日益凸显。个性化AI的能力使得模型能够更好地与人类价值观和期望相协调,在交互场景中通过强调如友善和温暖等特质,促进了更具同理心和理解力的对话。然而,这种对AI人格的工程化也可能被用于欺骗和操纵目的,例如通过过度奉承或伪造亲和力来影响用户决策。
因此,控制LLMs的个性特征需要严格的伦理审查流程,以解决人类脆弱性、信任和适当拟人化之间的复杂关系。需要制定规范,以限制个性增强的程度,确保激活的特征的公平性和有效性,并对生成的个性档案的透明度进行监督。用户研究应该探讨对工程化人格的态度,以及通过激活调整针对特定群体的不对称性。
notion image
💡
 
上一篇
解锁几何题新挑战,中科院发布GeoEval基准:LLMs与多模态模型大比拼
下一篇
牛津大学破局:用语义嵌入重塑记忆模型,AI从此告别“像素偏见”!

评论
Loading...