CREATOR制造、使用工具，实现LLM「自我进化」

自古以来，工具的使用被视为区分人与其他物种的一大区别，也被视为是智能的一种根本体现。而当下，人工智能已不再局限于对工具的简单使用，它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上，这代表着当下大模型已经能够掌握更高层次的抽象思维认知，并将其与具象思维划分，共同解决问题；而在能力上，工具创造的出现也意味着模型已经能够从 “学习” 中蜕变，去运用已知 “创造” 未来的无限可能。

论文链接：https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年来，大规模语言模型（Large Language Models）取得了显著的研究进展，包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近发布的 GPT-4 等。这些模型在上下文学习（In-Context Learning）、代码生成（Code Generation）和各种其他自然语言处理任务方面表现出色，将模型的潜力进一步推向了通用人工智能。

尽管大模型在这些取得了巨大的成功，其当下仍然存在很多短板，包括无法识别或回答最新的实时信息、很难在大规模的数据计算上达到高准确性，在题干逻辑复杂时推理能力不稳定等等。针对这些短板，研究者开始致力于向当前模型架构中引入对外部资源的利用能力，例如引入计算器，问答系统，维基百科等等外部知识源，来增强模型能力。这一系列研究奠定了模型工具学习（Tool Learning）能力的基础。

然而，当下研究中利用的外部工具数量仍然有限，而在潜在的新任务类型几乎是无尽的。因此，在面对新的问题类型时，很难找到现有的适合解决问题的工具。此外，即使提供了有效的可利用的工具，模型需要在工具包文档中进行海量搜索、匹配并针对问题进行针对性地规划。这将给模型带来很大的认知负担，并需要较高的学习成本。

因此，研究团队提出了全新的一种研究范式：工具创造（Tool Creation）。其不再是简单利用大模型使用工具的能力，而是加入了全新的工具创造模块，让模型针对所面对的问题进行工具创造并寻求解决方案。

利用大模型创造工具能够提高工具的普适性、可复用性和多样性，超越给定 API 的限制。工具创造模块的设计还可以减轻大模型的认知负担，并解耦其进行抽象推理（创建可推广的具有普适性的工具）和具象推理（根据工具实现细节和工具使用文档进行决策）的能力。同时，该框架下模型以代码作为工具创造的媒介，这使得模型对于错误更加敏感，并能根据工具创造与使用中的问题进行回溯与修正。

CREATOR制造、使用工具，实现LLM「自我进化」

工具创造范式相比工具使用更加灵活并对不同场景有更强的适应能力

CREATOR 研究框架

大模型进行工具创造来解决问题的框架 CREATOR 主要分为了以下四个阶段：

创造（Creation）：运用大模型对于问题的抽象推理能力，通过代码有针对性性地创造所需工具以及其使用说明。
决策（Decision）：运用大模型对于问题的具象推理能力，决策如何调用工具来解决当前问题。
执行（Execution）：根据创造的工具以及决策内容，进行决策的执行，并捕获执行过程中的输出信息。
修正（Rectification）：运用大模型对于错因推理以及自我修复的能力，对执行阶段捕捉到的问题进行修复。

CREATOR制造、使用工具，实现LLM「自我进化」

大模型进行工具创造与决策的流程框架

大模型首先将根据问题创造所需要的工具以及其相关使用说明；此后，问题内容以及工具信息将同时再次返回给大模型，用以决策针对本问题的解决方案，以及如何使用这些工具。此后，模型将根据执行情况对工具及决策做出调整，以更好地适应问题并寻求解答。

整个工具创造框架灵活运用了大模型的不同思维能力：提取问题关键信息的抽象思维推理，根据任务实施方案决策的具象思维推理，以及根据问题寻求解决方案的自我修复推理。这些能力的解耦帮助大模型避免了在普通推理链（Chain-of-Thought, CoT）中的思维混乱而导致的失败现象，有效提升了大模型对于任务的适应能力及表现。

CREATOR 实验评测

作者将 CREATOR 框架与当前的普通推理链方法（CoT），程序推理链方法（Program-of-Thought, PoT）以及没有创造的简单工具使用（Tool Use）进行了比对。同时，为了验证框架中剥离抽象推理与具象推理的有效性，作者还额外引入了整体工具创造（Tool Create – whole）作为基线，该方法将 CREATOR 框架中的创造阶段与决策阶段合二为一，不再进行推理能力上的解耦。

CREATOR制造、使用工具，实现LLM「自我进化」

Creation Challenge 数据集问题，标准工具及决策示例

CREATOR制造、使用工具，实现LLM「自我进化」

在 MATH 数据集上 CREATOR 框架的表现高于其他推理方法以及简单的工具运用

在数据集的选取上，作者选择了 MATH 以及 TabMWP 数据集作为主要验证。其中前者包含了美国数学竞赛当中的高难度数学问题，而后者将问题与丰富的数据表结合，二者都考验了模型对于多样化场景的问题推理与解决能力。除此之外，作者还额外引入了全新构建的 Creation Challenge 数据集，其中的问题都无法直接套用现有工具或者代码包解决，从而考验了模型进行工具创造的能力。

CREATOR制造、使用工具，实现LLM「自我进化」

在 TabMWP 数据集以及 Creation Challenge 上 CREATOR 框架效果也显著更强

从实验结果看来，CREATOR 框架的推理结果要明显好于所有基线，尤其相对于标准的推理方法以及程序推理方法，均达到了更好的效果。同时实验也证明了对抽象与具象推理能力进行解耦也可以有效帮助模型提高准确率。在 Creation Challenge 测试集上，作者还额外验证了在有创造什么样的工具的提示（hint）的情况下，模型将会对问题有着更强的解决能力。因此，提示与思维解耦这两点也成为了工具创造中的重要影响因素。

CREATOR制造、使用工具，实现LLM「自我进化」

不同方法针对任务难度的准确率统计

CREATOR制造、使用工具，实现LLM「自我进化」

在修正阶段的参与下效果的提升

除此之外，作者还验证了不同方法对于任务难度的变化曲线，以及修正阶段参与轮次与大模型效果提升之间的联系。结果表明，CREATOR 框架面对有难度的问题能够保持更好的鲁棒性，以及修正阶段的参与能够让不仅是 CREATOR 框架，甚至是 PoT 推理方法都能得到大幅度提升，证实了在实验中引入修正阶段的合理性与有效性。