Hugging Face推出Storage Buckets 为AI训练提供高效可变存储

0 阅读4分钟开源
Hugging Face推出Storage Buckets 为AI训练提供高效可变存储

背景与意义

在模型研发的全流程中,Git‑style 的模型与数据仓库难以满足频繁写入、覆盖和同步的需求。Hugging Face 将这一痛点转化为产品,推出 Storage Buckets,为训练检查点、优化器状态、数据切片、Agent 轨迹等可变 artefacts 提供 S3‑like 的对象存储,兼容 Hub 权限体系并可直接在浏览器查看。

关键特性

  • 可变、非版本化:Bucket 采用非版本化容器,支持快速写入与覆盖。
  • 基于 Xet 的块级去重:文件被切分为数据块,重复块自动共享,显著降低带宽与存储成本。
  • 预热(Pre‑warming):可声明数据所在云区域,系统提前将热点数据搬迁至计算节点附近,提升跨地域训练吞吐。
  • 跨语言 SDK:CLI、Python(huggingface_hub)、JavaScript(@huggingface/hub)以及 fsspec 兼容文件系统全部支持。
  • 权限与可见性:继承 Hub 的用户/组织权限,可设为私有或公开。

快速上手

# 安装并登录 CLI
curl -LsSf https://hf.co/cli/install.sh | bash
hf auth login
# 创建私有 Bucket
hf buckets create my-training-bucket --private
# 同步本地 checkpoint 目录
hf buckets sync ./checkpoints hf://buckets/username/my-training-bucket/checkpoints

使用 --dry-run 可预览同步计划,--plan--apply 支持离线审查后批量执行。

生态集成

  • Pythoncreate_bucket、sync_bucket、list_bucket_tree 等函数封装完整工作流。
  • fsspec:通过 HfFileSystem,pandas、Polars、Dask 等库直接读取 hf:// 路径,无需额外适配。
  • JavaScript@huggingface/hub 提供 uploadFile、downloadFile 等 API,便于前端或 Node.js 服务接入。

路线图与合作伙伴

在公开前,Hugging Face 已与 Jasper、Arcee、IBM、PixAI 等企业完成私测,收集的使用反馈直接塑造了 Chunk 去重与预热机制。未来计划实现 Bucket 与模型/数据集仓库的双向迁移,支持一键将成熟 checkpoint 推送至模型 repo,或将处理完的分片提交至数据集 repo。

结论

Storage Buckets 为 AI 研发提供了“可变层”,让中间产物不必强行走 Git 流程,既提升了传输速度,又通过 Xet 的去重降低成本。对已有 Hub 使用习惯的团队而言,这是一条从实验到产品化的平滑通道;对习惯 S3 存储的用户,则提供了更贴合 AI 工作流的原生模型。免费账户即享入门额度,PRO 与 Enterprise 方案提供更高存储上限与专属预热区域,帮助企业在大规模训练中实现成本与效率双赢。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。