GEPA实现反思式提示优化显著提升小模型算术解题能力

背景与挑战

多步算术文字题对语言模型的推理链条、数值精度以及输出格式都有严格要求。传统的手工提示往往难以兼顾完整的步骤展示和统一的答案标记，导致模型容易出现格式错误或计算失误。

GEPA（Reflective Prompt Evolution）是一套基于反思模型的提示迭代系统，核心思路是：

通过上述三方协同，GEPA 能在有限的 metric 调用预算内自动进化提示的指令和格式规则。

作者自行构造了一个确定性的算术基准，包含四类常见情境：折扣、行程、钱包和链式运算。每类随机生成 18 条样例，程序化计算金标准答案，确保评估的客观性。

trainset = all_problems[:12]
valset   = all_problems[12:]

评估器核心逻辑：

基线提示："Solve the math problem. Give the answer." 在训练集和验证集上分别得到约 0.33 的平均分，格式错误占比高。
GEPA 迭代：在 MAX_METRIC_CALLS=100 限制下，反思模型根据每轮反馈生成新提示，逐步加入步骤分解、结果校验和严格的终止行要求。
最佳提示（示例）：
- 指令："Solve the problem step‑by‑step, verify each intermediate result, and end with a line exactly '#### <answer>'."
- 格式规则："Each step must be on a separate line; the final line must be '#### <answer>'."
验证表现：在 held‑out 验证集上，优化后提示的平均得分提升至约 0.78，完整正确且格式合规的比例从 10% 提升至 65%。

GEPA 展示了通过结构化反馈实现提示自动化进化的可行性，尤其在资源受限的“小模型”场景下能够显著提升解题可靠性。未来可将该框架扩展至更复杂的多模态任务、长文本推理以及跨语言场景，以实现更广泛的“提示即代码”范式。

作者提示：在实际项目中，建议先构建确定性基准、明确评分标准，再使用 GEPA 进行迭代，以避免过拟合训练集而导致的泛化失效。