原文:
arXiv.orgPrompt Engineering Through the Lens of Optimal Control

Prompt Engineering Through the Lens of Optimal Control
Prompt Engineering (PE) has emerged as a critical technique for guiding Large Language Models (LLMs) in solving intricate tasks. Its importance is highlighted by its potential to significantly...
问题定义
定义文本空间为 ,词汇表为 。
LLM 可以数学建模为对 的变换,其中 代表 prompt, 代表 response。
给定一个任务描述(或查询),使用评估函数 衡量最优性。
Prompt Engineering 的目标为找到能带来最优响应的一系列提示 ,其中 提示候选集序列,且随着轮次扩展:(因为用户会基于 获取额外信息)。
因此,Prompt Engineering 包含以下任务:
- 确定一个合适的评估函数 ;
- 建立提示候选集的更新规则 ;
- 解决由此产生的最优控制问题,从 中选择 。
方法介绍
如何扩大提示候选集?
- 通过先前的响应扩大(渐进式提示 PHP)
- 通过直接提示进行扩展(Least-to-Most)
- 将复杂问题拆解为若干简单子问题(least)
- 逐个解决这些问题
- 在每一步的基础上逐步引导模型解决最终复杂问题(most)
如何优化提示?
- 随机搜索(自动提示工程 APE,Tree of Thought(ToT))
- 强化学习方法
RL 方法,特别是无模型变体,遵循“评估并展望”的原则,允许它们根据从先前交互中获得的反馈来更新策略。这有助于更细致地导航提示空间,使 RL 能够更有效地找到更好的提示。
另一方面,随机搜索方法(例如 APE 和 ToT)主要在没有前瞻机制的“生成和评估”范式下运行。它们从分布中采样、评估样本并进行替换,但通常不利用过去的评估来指导未来的探索。
虽然 RL 方法由于其迭代性质可能会产生更高的计算成本,并且可能需要一个明确定义的奖励函数,但随机搜索方法通常更容易实现,并且在存在可靠的先验知识时可以有效。
集成方法
针对任务 的多查询场景,每个查询由提示 和相应的响应 表示,其中 , 是索引集。
任务的最终响应是通过所有响应的应用集成函数 指定:
使用 表示大模型内的随机性,提示工程(PE)通过集成方法的最佳控制问题可以表述为:
常见的集成方法:
- 多数投票 majority voting
- 复杂性阈值 complexity thresholds
Multi-Agent
表示基于 LLM 的智能体索引,提示候选集为 ,在时间 上第 个智能体的 prompt 表示为 ,response 表示为 。优化目标从 扩展到 ,以评估每个相应智能体的 PE 质量。