OpenAI携手Cerebras 引入750MW超低延迟算力 提速ChatGPT实时交互
•3 次浏览•3分钟•前沿
OpenAICerebrasAI基础设施超低延迟算力实时AI
•3 阅读•3分钟•前沿

背景
OpenAI 近年来在大模型研发方面保持领先,但在推理阶段的响应速度始终是受限因素。传统 GPU/TPU 集群在处理长文本或高并发请求时会出现带宽瓶颈和延迟累积,影响实时交互体验。为突破这一瓶颈,OpenAI 开始寻找专用硬件方案,以实现“瞬时”响应。
合作细节
- 合作伙伴:Cerebras Systems,全球领先的 AI 专用处理器制造商。其核心产品是基于单块巨型芯片的系统,将计算、存储与带宽深度融合。
- 算力规模:首次投放 750MW 级别的超低延迟算力,计划分批在 2026‑2028 年完成部署。
- 技术优势:单芯片上整合数十万亿次运算单元,提供 TB 级别带宽,几乎消除传统服务器间的互连延迟,实现毫秒级推理。
- 集成方式:Cerebras 芯片将作为专用推理层嵌入 OpenAI 的多模态模型服务,逐步覆盖文本、代码、图像以及强化学习智能体等工作负载。
“Cerebras 的低延迟推理解决方案让 OpenAI 能够在实时交互场景中提供更自然、更流畅的体验,” OpenAI 高级副总裁 Sachin Katti 说道。
行业影响
- 用户体验升级:ChatGPT 在复杂查询、代码补全或图像生成时的等待时间有望从数秒降至亚秒,提升用户粘性。
- 业务场景扩展:实时推理是金融交易、智能客服、工业控制等高价值场景的关键,算力提升将推动这些垂直行业的落地。
- 竞争格局变化:OpenAI 与硬件厂商深度合作的模式为行业树立标杆,其他大模型提供商可能加速自研或寻求类似合作,以保持竞争力。
- 供应链本土化:Cerebras 在美国本土拥有制造能力,此举也符合美国加强 AI 供应链自主可控的政策导向。
未来展望
OpenAI 表示,除了当前的 750MW 低延迟算力外,公司仍将继续扩展多元化硬件组合,包括 GPU、TPU 以及自研 ASIC,以构建“弹性计算组合”,匹配不同工作负载的需求。Cerebras 项目预计将在 2028 年完成全部部署,届时 OpenAI 的实时 AI 服务规模将提升数倍,开启“即时 AI”新纪元。
在行业观察者看来,这一合作标志着生成式 AI 正从“离线批处理”向“实时交互”转型,算力供给侧的创新将成为驱动下一波技术突破的核心力量。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。