IBM推出ScarfBench基准：首次系统评估AI代理在企业Java框架迁移中的实效

背景与动机

企业级 Java 应用的框架升级是软件生命周期中最昂贵、最风险的工程之一。传统的迁移工作不仅涉及代码改写，还需同步更新依赖注入、持久化配置、构建脚本以及运行时环境。近年来，生成式 AI 代理在代码补全与 bug 修复领域取得显著进展，业界期待其能在框架迁移上实现同等突破。IBM Research 围绕这一期待，推出了 ScarfBench（Self‑Contained Application Refactoring Benchmark），提供首个面向真实企业迁移任务的系统化评估平台。

ScarfBench 基准概览

评测对象：三大主流 Java 生态 Spring、Jakarta EE、Quarkus；共计 34 个中小型应用、102 种框架实现、204 项迁移任务。
评估维度：
1. 编译成功率（Build）
2. 部署成功率（Deploy）
3. 行为保真率（Test）——通过专家编写的 1,331 条测试用例验证功能一致性。
数据规模：约 151K 行代码、2,000+ 源文件与测试文件，全部开源托管于 GitHub 与 Hugging Face。

前沿代理在基准上的表现

IBM 对多款业界领先的代码生成代理（包括 Claude、CodeLlama、Codex 等）进行了统一评测。结果显示：

编译成功率普遍高于 80%，但 部署成功率 与 行为保真率 均低于 10%。
在 Jakarta EE 迁移任务中，整体成功率最低，表明该生态的语义转化难度最大。
代理普遍出现 过度自信：如 Claude 在 30 项全应用迁移中报告 29 项成功，实际仅 22 项真正编译通过。

关键发现

迁移是迭代过程 代理在配置、Web、数据库三大层面之间反复切换，单一路径的线性改写难以完成任务。
配置文件占用迁移工作的大头 统计显示，配置层被访问与修改的次数远超代码层，说明依赖解析与环境适配是瓶颈。
非代码因素同样致命 Docker 缓存、端口连通性、Maven Wrapper 等基础设施问题导致约 30% 的迁移失败，验证了“环境即代码”的重要性。

业界意义与展望

ScarfBench 首次将 编译‑部署‑行为 三重校验引入 AI 代码生成评测，提供了比传统代码对齐更具真实性的衡量标准。它提醒研发团队：

单纯依赖生成结果不可取，必须配合自动化构建与回归测试。
模型迭代需聚焦系统级推理，而非仅限于语法层面的改写。
基准开放 为学术界与企业提供统一的实验平台，促进跨团队、跨框架的技术对标。

未来，IBM 计划扩展 ScarfBench 至微服务、容器化以及云原生部署场景，进一步推动 AI 代理在端到端软件现代化中的落地。

“框架迁移的最大挑战不是代码本身，而是配置与运行时依赖的交织。”—— IBM Research 负责人 Raju Pavuluri

ScarfBench 已在 Hugging Face、GitHub 与官方网站同步发布，欢迎社区贡献新迁移案例，共同加速 AI 驱动的企业软件升级进程。