Prompt Engineering Through the Lens of Optimal Control

📜

原文：

arXiv.orgPrompt Engineering Through the Lens of Optimal Control

Prompt Engineering (PE) has emerged as a critical technique for guiding Large Language Models (LLMs) in solving intricate tasks. Its importance is highlighted by its potential to significantly...

问题定义

定义文本空间为，词汇表为。

LLM 可以数学建模为对的变换，其中代表 prompt，代表 response。

给定一个任务描述（或查询），使用评估函数衡量最优性。

Prompt Engineering 的目标为找到能带来最优响应的一系列提示，其中提示候选集序列，且随着轮次扩展：（因为用户会基于获取额外信息）。

因此，Prompt Engineering 包含以下任务：

确定一个合适的评估函数；

建立提示候选集的更新规则；

解决由此产生的最优控制问题，从中选择。

方法介绍

如何扩大提示候选集？

通过先前的响应扩大（渐进式提示 PHP）

通过直接提示进行扩展（Least-to-Most）

将复杂问题拆解为若干简单子问题（least）
逐个解决这些问题
在每一步的基础上逐步引导模型解决最终复杂问题（most）

如何优化提示？

随机搜索（自动提示工程 APE，Tree of Thought(ToT)）

强化学习方法

💡

RL 方法，特别是无模型变体，遵循“评估并展望”的原则，允许它们根据从先前交互中获得的反馈来更新策略。这有助于更细致地导航提示空间，使 RL 能够更有效地找到更好的提示。

另一方面，随机搜索方法（例如 APE 和 ToT）主要在没有前瞻机制的“生成和评估”范式下运行。它们从分布中采样、评估样本并进行替换，但通常不利用过去的评估来指导未来的探索。

虽然 RL 方法由于其迭代性质可能会产生更高的计算成本，并且可能需要一个明确定义的奖励函数，但随机搜索方法通常更容易实现，并且在存在可靠的先验知识时可以有效。

集成方法

针对任务的多查询场景，每个查询由提示和相应的响应表示，其中，是索引集。

任务的最终响应是通过所有响应的应用集成函数指定：

使用表示大模型内的随机性，提示工程（PE）通过集成方法的最佳控制问题可以表述为：

常见的集成方法：

多数投票 majority voting

复杂性阈值 complexity thresholds

Multi-Agent

表示基于 LLM 的智能体索引，提示候选集为，在时间上第个智能体的 prompt 表示为，response 表示为。优化目标从扩展到，以评估每个相应智能体的 PE 质量。