Hugging Face推出Storage Buckets 为AI训练提供高效可变存储
•0 阅读•4分钟•开源
Hugging FaceStorage BucketsXetfsspec
•0 阅读•4分钟•开源

背景与意义
在模型研发的全流程中,Git‑style 的模型与数据仓库难以满足频繁写入、覆盖和同步的需求。Hugging Face 将这一痛点转化为产品,推出 Storage Buckets,为训练检查点、优化器状态、数据切片、Agent 轨迹等可变 artefacts 提供 S3‑like 的对象存储,兼容 Hub 权限体系并可直接在浏览器查看。
关键特性
- 可变、非版本化:Bucket 采用非版本化容器,支持快速写入与覆盖。
- 基于 Xet 的块级去重:文件被切分为数据块,重复块自动共享,显著降低带宽与存储成本。
- 预热(Pre‑warming):可声明数据所在云区域,系统提前将热点数据搬迁至计算节点附近,提升跨地域训练吞吐。
- 跨语言 SDK:CLI、Python(huggingface_hub)、JavaScript(@huggingface/hub)以及 fsspec 兼容文件系统全部支持。
- 权限与可见性:继承 Hub 的用户/组织权限,可设为私有或公开。
快速上手
# 安装并登录 CLI
curl -LsSf https://hf.co/cli/install.sh | bash
hf auth login
# 创建私有 Bucket
hf buckets create my-training-bucket --private
# 同步本地 checkpoint 目录
hf buckets sync ./checkpoints hf://buckets/username/my-training-bucket/checkpoints
使用 --dry-run 可预览同步计划,--plan 与 --apply 支持离线审查后批量执行。
生态集成
- Python:
create_bucket、sync_bucket、list_bucket_tree等函数封装完整工作流。 - fsspec:通过
HfFileSystem,pandas、Polars、Dask 等库直接读取hf://路径,无需额外适配。 - JavaScript:
@huggingface/hub提供uploadFile、downloadFile等 API,便于前端或 Node.js 服务接入。
路线图与合作伙伴
在公开前,Hugging Face 已与 Jasper、Arcee、IBM、PixAI 等企业完成私测,收集的使用反馈直接塑造了 Chunk 去重与预热机制。未来计划实现 Bucket 与模型/数据集仓库的双向迁移,支持一键将成熟 checkpoint 推送至模型 repo,或将处理完的分片提交至数据集 repo。
结论
Storage Buckets 为 AI 研发提供了“可变层”,让中间产物不必强行走 Git 流程,既提升了传输速度,又通过 Xet 的去重降低成本。对已有 Hub 使用习惯的团队而言,这是一条从实验到产品化的平滑通道;对习惯 S3 存储的用户,则提供了更贴合 AI 工作流的原生模型。免费账户即享入门额度,PRO 与 Enterprise 方案提供更高存储上限与专属预热区域,帮助企业在大规模训练中实现成本与效率双赢。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。