首页 > 视频展示 > 行业新闻

英伟达芯片机架故障!大客户削减订单

上传时间:2025-01-14

据外媒报道,英伟达最新一代人工智能芯片Blackwell在部署至数据中心时遇到技术问题,包括服务器机架过热和芯片连接异常。主要客户微软、亚马逊云部门、谷歌母公司Alphabet和Meta等公司已经减少了英伟达Blackwell GB200机架订单。一些客户正在等待改进版本的机架,或者计划购买该公司旧款的AI芯片。

戴尔部分产品2.jpg

Blackwell芯片是英伟达的新一代图形处理器(GPU)。机架是数据中心中用于容纳芯片、电缆及其他关键设备的结构。

Blackwell 芯片以其卓越性能和高能效广受期待。与上一代产品 Hopper 相比,Blackwell 的能源效率提高四倍,微软、亚马逊、Google 和 Meta 等为此下达价值近100 亿美元的订单。然而,将多个高功耗芯片整合到一个服务器机架中比预期更具挑战。每个 Blackwell 机架比家用冰箱还高,重量接近本田 Civic 汽车。由于计算密度极高,机架必须采用水冷系统,而非传统的风冷系统。

对于多数 AI 开发商和数据中心营运商而言,部署这种特殊机架是全新且复杂的任务。此外,并非所有数据中心都能满足这些机架的环境需求,客户必须重新规划部署方案。

英伟达原本计划在去年年底开始向客户交付 Blackwell 机架,但由于芯片设计缺陷导致初期延迟了 3 个月。尽管英伟达已经修复这个问题,但到 11 月时,客户开始担心机架的过热问题。为此,英伟达多次要求供货商更改设计。

然而,问题并未完全解决。据参与机架测试的 3 位人士透露,客户也发现芯片之间数据传输 (即网络) 存在不一致的情况。这些问题可能导致 Blackwell 机架的设定时间比预期更长,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。

尽管面临挑战,英伟达仍有机会挽回局面。如果能够及时解决这些技术问题,客户或许会重新增加订单。此外,尽管机架有问题,Blackwell 芯片的性能仍然优于上一代产品,英伟达可能会为问题机架找到其他买家。


上一篇: 文晔、大联大,2024年营收创新高!

下一篇: 华为手机计划进军60个国家和地区

官方公众号

官方公众号

旗下自媒体

旗下自媒体

抖音APP

抖音APP