Hugging Face推出Every Eval Ever统一评测标准，加速模型分数透明化

背景

自2026年2月推出Every Eval Ever（EEE）以来，Hugging Face致力于解决模型评测数据零散、难以比对的问题。此前同一模型在不同论文或排行榜上可能出现截然不同的分数，例如LLaMA 65B在MMLU上既有63.7也有48.8的报告。为提升评测透明度，Hugging Face在本月将EEE与其已上线的Community Evals功能实现跨平台兼容。

关键功能

统一JSON Schema：一套完整的评测记录结构，记录运行者、模型、访问方式、生成配置、指标含义及可选的样本级JSONL文件。
双向同步：将EEE记录自动转换为Community Evals所需的YAML文件，既出现在模型卡片的.eval_results/目录，也同步到对应基准的排行榜。
溯源徽章：通过官方账号提交的记录会在模型页显示已验证徽章，点击即可跳转至完整的EEE JSON，保证数据来源可追溯。
自动化审查：转换工具在提交PR前会检查同一基准是否已有记录，标记已有、冲突或缺失的模型，避免重复上报。

影响与前景

截至目前，EEE数据仓库已收录约229,000条评测结果，覆盖22,000余个模型和2,200多个基准，涉及31种不同的报告格式。若全部从头复现，成本将高达数十万美元。统一标准后，研究者可以直接在Hub上检索、比较不同模型的完整评测细节，政策制定者也能获得更可靠的安全与治理指标。此举进一步巩固了Hugging Face作为开放AI生态核心枢纽的地位。

使用指南

准备EEE记录：确保JSON符合官方Schema，包括dataset.id、task_id、value、date等字段。
运行转换工具：```bash uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro \ --datastore evaleval/EEE_datastore@main

3. **审查预览**：工具会生成本地YAML预览文件和审查报告，确认无冲突后输入`OPEN PRS`并提交。
4. **查看效果**：提交成功后，模型卡片将展示新的评分条目，评级旁的徽章链接回完整的EEE记录。

通过上述流程，研究者和企业可以在保持开源精神的同时，实现评测结果的统一、可审计与可复现，为大模型竞争格局提供更公平的基准平台。

Hugging Face推出Every Eval Ever统一评测标准，加速模型分数透明化

背景

关键功能

影响与前景

使用指南

标签分类