GEPA实现反思式提示优化显著提升小模型算术解题能力

2 阅读3分钟前沿

背景与挑战

多步算术文字题对语言模型的推理链条、数值精度以及输出格式都有严格要求。传统的手工提示往往难以兼顾完整的步骤展示和统一的答案标记,导致模型容易出现格式错误或计算失误。

GEPA 框架概述

GEPA(Reflective Prompt Evolution)是一套基于反思模型的提示迭代系统,核心思路是:

  • 任务模型(如 openai/gpt-4o-mini)负责实际求解;
  • 反思模型(如 openai/gpt-4.1)对任务模型的输出进行结构化评估,并生成可操作的反馈;
  • 评估器解析模型答案,判断是否满足“#### 正确答案”格式,给出分数与错误原因。

通过上述三方协同,GEPA 能在有限的 metric 调用预算内自动进化提示的指令和格式规则。

数据集与评估方法

作者自行构造了一个确定性的算术基准,包含四类常见情境:折扣、行程、钱包和链式运算。每类随机生成 18 条样例,程序化计算金标准答案,确保评估的客观性。

trainset = all_problems[:12]
valset   = all_problems[12:]

评估器核心逻辑:

  • 若模型输出严格以 #### <答案> 结束且数值正确,得 1.0 分;
  • 若数值正确但格式不符,得 0.5 分;
  • 其余情况记 0 分,并返回具体反馈(如计算错误、格式缺失等)。

优化过程与结果

  1. 基线提示"Solve the math problem. Give the answer." 在训练集和验证集上分别得到约 0.33 的平均分,格式错误占比高。
  2. GEPA 迭代:在 MAX_METRIC_CALLS=100 限制下,反思模型根据每轮反馈生成新提示,逐步加入步骤分解、结果校验和严格的终止行要求。
  3. 最佳提示(示例):
    • 指令"Solve the problem step‑by‑step, verify each intermediate result, and end with a line exactly '#### <answer>'."
    • 格式规则"Each step must be on a separate line; the final line must be '#### <answer>'."
  4. 验证表现:在 held‑out 验证集上,优化后提示的平均得分提升至约 0.78,完整正确且格式合规的比例从 10% 提升至 65%。

结论与展望

GEPA 展示了通过结构化反馈实现提示自动化进化的可行性,尤其在资源受限的“小模型”场景下能够显著提升解题可靠性。未来可将该框架扩展至更复杂的多模态任务、长文本推理以及跨语言场景,以实现更广泛的“提示即代码”范式。

作者提示:在实际项目中,建议先构建确定性基准、明确评分标准,再使用 GEPA 进行迭代,以避免过拟合训练集而导致的泛化失效。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。