OpenAI携手Cerebras 引入750MW超低延迟算力提速ChatGPT实时交互

背景

OpenAI 近年来在大模型研发方面保持领先，但在推理阶段的响应速度始终是受限因素。传统 GPU/TPU 集群在处理长文本或高并发请求时会出现带宽瓶颈和延迟累积，影响实时交互体验。为突破这一瓶颈，OpenAI 开始寻找专用硬件方案，以实现“瞬时”响应。

合作细节

合作伙伴：Cerebras Systems，全球领先的 AI 专用处理器制造商。其核心产品是基于单块巨型芯片的系统，将计算、存储与带宽深度融合。
算力规模：首次投放 750MW 级别的超低延迟算力，计划分批在 2026‑2028 年完成部署。
技术优势：单芯片上整合数十万亿次运算单元，提供 TB 级别带宽，几乎消除传统服务器间的互连延迟，实现毫秒级推理。
集成方式：Cerebras 芯片将作为专用推理层嵌入 OpenAI 的多模态模型服务，逐步覆盖文本、代码、图像以及强化学习智能体等工作负载。

“Cerebras 的低延迟推理解决方案让 OpenAI 能够在实时交互场景中提供更自然、更流畅的体验，” OpenAI 高级副总裁 Sachin Katti 说道。

行业影响

用户体验升级：ChatGPT 在复杂查询、代码补全或图像生成时的等待时间有望从数秒降至亚秒，提升用户粘性。
业务场景扩展：实时推理是金融交易、智能客服、工业控制等高价值场景的关键，算力提升将推动这些垂直行业的落地。
竞争格局变化：OpenAI 与硬件厂商深度合作的模式为行业树立标杆，其他大模型提供商可能加速自研或寻求类似合作，以保持竞争力。
供应链本土化：Cerebras 在美国本土拥有制造能力，此举也符合美国加强 AI 供应链自主可控的政策导向。

未来展望

OpenAI 表示，除了当前的 750MW 低延迟算力外，公司仍将继续扩展多元化硬件组合，包括 GPU、TPU 以及自研 ASIC，以构建“弹性计算组合”，匹配不同工作负载的需求。Cerebras 项目预计将在 2028 年完成全部部署，届时 OpenAI 的实时 AI 服务规模将提升数倍，开启“即时 AI”新纪元。

在行业观察者看来，这一合作标志着生成式 AI 正从“离线批处理”向“实时交互”转型，算力供给侧的创新将成为驱动下一波技术突破的核心力量。

OpenAI携手Cerebras 引入750MW超低延迟算力 提速ChatGPT实时交互

背景

合作细节

行业影响

未来展望

标签分类

OpenAI携手Cerebras 引入750MW超低延迟算力提速ChatGPT实时交互