Hugging Face推出Every Eval Ever统一评测标准,加速模型分数透明化

1 阅读3分钟开源
Hugging Face推出Every Eval Ever统一评测标准,加速模型分数透明化

背景

自2026年2月推出Every Eval Ever(EEE)以来,Hugging Face致力于解决模型评测数据零散、难以比对的问题。此前同一模型在不同论文或排行榜上可能出现截然不同的分数,例如LLaMA 65B在MMLU上既有63.7也有48.8的报告。为提升评测透明度,Hugging Face在本月将EEE与其已上线的Community Evals功能实现跨平台兼容。

关键功能

  • 统一JSON Schema:一套完整的评测记录结构,记录运行者、模型、访问方式、生成配置、指标含义及可选的样本级JSONL文件。
  • 双向同步:将EEE记录自动转换为Community Evals所需的YAML文件,既出现在模型卡片的.eval_results/目录,也同步到对应基准的排行榜。
  • 溯源徽章:通过官方账号提交的记录会在模型页显示已验证徽章,点击即可跳转至完整的EEE JSON,保证数据来源可追溯。
  • 自动化审查:转换工具在提交PR前会检查同一基准是否已有记录,标记已有、冲突或缺失的模型,避免重复上报。

影响与前景

截至目前,EEE数据仓库已收录约229,000条评测结果,覆盖22,000余个模型和2,200多个基准,涉及31种不同的报告格式。若全部从头复现,成本将高达数十万美元。统一标准后,研究者可以直接在Hub上检索、比较不同模型的完整评测细节,政策制定者也能获得更可靠的安全与治理指标。此举进一步巩固了Hugging Face作为开放AI生态核心枢纽的地位。

使用指南

  1. 准备EEE记录:确保JSON符合官方Schema,包括dataset.idtask_idvaluedate等字段。
  2. 运行转换工具:```bash uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro \ --datastore evaleval/EEE_datastore@main
3. **审查预览**:工具会生成本地YAML预览文件和审查报告,确认无冲突后输入`OPEN PRS`并提交。
4. **查看效果**:提交成功后,模型卡片将展示新的评分条目,评级旁的徽章链接回完整的EEE记录。

通过上述流程,研究者和企业可以在保持开源精神的同时,实现评测结果的统一、可审计与可复现,为大模型竞争格局提供更公平的基准平台。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。