新闻
(原标题:冲破内存壁垒,将HBM和DDR 5交融)
要是您但愿不错往往碰面,迎接标星保藏哦~
起首:施行由半导体行业不雅察(ID:icbank)编译自nextplatform,谢谢。
到 2024 年,要是需要将数十、数百、数千以至数万个加快器拼接在一王人,则不会穷乏互连。
Nvidia 有 NVLink 和 InfiniBand。Google 的 TPU PoD使用光路开关 (OCS) 互调换讯。AMD 领有用于ie-to-die, chip-to-chip以及很快node-to-node流量的 Infinity Fabric。天然,还有邃密的旧式以太网,英特尔在 Gaudi2 和 Gaudi3 中使用的等于这种以太网。
这里的妙技不是构建一个饱胀大的网格,而是幸免与脱包(going off package)干系的雄伟性能损成仇带宽瓶颈。它也莫得弃取任何门径来科罚通盘 AI 处理所依赖的 HBM 内存与狡计以固定比率推敲在一王人的事实。
“这个行业正在使用 Nvidia GPU 当作全国上最腾贵的内存为止器,”戴夫·拉佐夫斯基 (Dave Lazovsky) 说谈,他的公司 Celestial AI 刚刚在 USIT 和繁密其他风险投资巨头支持的 C 轮融资中得到了 1.75 亿好意思元的贸易化资金它的Photonic Fabric。
旧年夏天,咱们磋议了 Celestial 的 Photonic Fabric,它包含一系列硅光子互连、中介层和小芯片,旨在将东谈主工智能狡计从内存平分辨出来。不到一年后, light wranglers 暗示,他们正在与几家超大限制客户和一家大型处理器制造商伙同,将其时候集成到他们的产物中。令咱们失望的是,但天然并不令东谈主骇怪的是,不外Lazovsky并莫得点名。
但事实上,Celestial 将 AMD Ventures 视为其支持者之一,其高等副总裁兼产物时候架构师 Sam Naffziger 在公告密布今日就盘考了共同封装硅光子小芯片的可能性,这无疑引起了一些东谈主的关心。话虽如斯,AMD 资助这家光子学初创公司并不料味着咱们会在 Epyc CPU 或 Instinct GPU 加快器中看到 Celestial 的小芯片。
诚然 Lazovsky 无法解析 Celestial 与谁伙同,但他如实提供了一些干系该时候若何集成的印迹,以及对行将推出的 HBM 内存拓荒的预览。
正如咱们在早先探讨 Celestial 的产物计策时所盘考的那样,该公司的部件分为三大类:小芯片、中介层以及基于英特尔 EMIB 或台积电 CoWoS (称为 OMIB)。
绝不奇怪,Celestial 的大部分眩惑力都王人集在小芯片上。“咱们所作念的并不是试图将就咱们的客户接纳任何一种特定的产物实施。当今提供光子结构接口的风险最低、速率最快、最浅薄的形态是通过小芯片,”Lazovsky 告诉The Next Platform。
一般来说,这些小芯片不错通过两种面孔使用:要么添加极端的 HBM 内存容量,要么当作芯片间互连、排序或雷同光学 NVLink 或 Infinity Fabric。
这些小芯片比 HBM 堆栈稍小,并提供安妥 14.4 Tb/秒或 1.8 GB/秒片外总带宽的光电互连。
话虽如斯,咱们被示知不错制作小芯片来支持更高的带宽。第一代时候每平淡毫米可支持约 1.8 Tb/秒。与此同期,Celestial 的第二代 Photonic 结构将从 56 Gb/秒提升到 112 Gb/秒 PAM4 SerDes,并将通谈数目从 4 个增多到 8 个,从而有用地将带宽增多到四倍。
因此,14.4 Tb/秒并不是上限,而是现存芯片架构粗略处理的扫尾。这是挑升旨的,因为不然任何极端的容量都会被亏空。
这种联结意味着 Celestial 不错杀青雷同于 NVLink 的互连速率,仅仅需要更少的要领。
诚然芯片到芯片的联结相对来说是不言自明的——在每个封装上放手一个光子结构小芯片并对王人光纤联结——但内存蔓延全都是另一种动物。诚然 14.4 Tb/秒 远非慢,但它仍然是多个 HBM3 或 HBM3e 堆栈的瓶颈。这意味着添加更多 HBM 只会使您的容量跨越某个点。不外,用两个 HBM3e 堆栈代替一个堆栈并不是什么都不是。
Celestial 通过其内存蔓延模块对此有一个道理的科罚形态。由于岂论若何带宽上限为 1.8 GB/秒,因此该模块将仅包含两个揣度 72 GB 的 HBM 堆栈。一组四个 DDR5 DIMM 对此进行了补充,支持高达 2 TB 的极端容量。
Lazovsky 徘徊是否要解析该产物的通盘细节,但如实告诉咱们它将使用 Celestial 的硅光子中介层时候当作 HBM、互连和为止器逻辑之间的接口。
说到该模块的为止器,咱们得知 5 纳米switch ASIC 有用地将 HBM 转机为 DDR5 的直写式缓存。“它为您提供了 DDR 的容量和老本以及 HBM 的带宽和 32 个伪互连通谈的通盘上风,这袒护了延伸,”Lazovsky 证明谈。
他补充说,这与英特尔 Xeon Max 的推崇或 Nvidia 的 GH200 超等芯片的推崇出入不远。“它基本上是一个增压的 Grace-Hopper,莫得通盘老本支出,而且后果要高得多。”
后果提升了几许?Lazovsky 宣称:“咱们的内存事务能量(memory transaction energy )支出约为每比特 6.2 皮焦耳,而通过 NVLink、NVSwitch 进行良友内存事务的能量支出约为 62.5 皮焦耳”,并补充说延伸也不算太厄运。
“这些良友内存事务的总来回延伸(包括通过光子结构的行程和内存读取期间)为 120 纳秒,”他补充谈。“是以它会比土产货内存的梗概 80 纳秒多少量,但它比赶赴 Grace 读取参数并将其拉至 Hopper 要快。”
据咱们了解,这些内存模块中的十六个不错组合在一王人酿成一个内存交换机,何况不错使用光纤洗牌来联结多个这些拓荒。
这里的含义是,除了狡计、存储和管制网罗以外,使用 Celestial 互连构建的芯片不仅粗略互相联结,而且粗略开发大家内存池。
“这让你粗略以相配相配高效的面孔进行机器学习操作,举例播送和归约( broadcast and reduce),而无需进行切换,”Lazovsky 说。
Celestial濒临的挑战是时机。Lazovsky 告诉咱们,他瞻望将在 2025 年下半年的某个时候运转向客户提供Photonic Fabric小芯片样品。然后,他瞻望至少还需要一年期间,咱们才调看到使用该想象的产物参加市集,并在 2027 年销量大幅增多。
然而,Celestial 并不是独逐个家追求硅光子学的初创公司。Ayar Labs 是另一家得到英特尔投资支持的光子学初创公司,它依然将其光子互连集成到原型加快器中。
然后是 Lightmatter,该公司在 12 月份得到了 1.55 亿好意思元的 C 轮融资,并试图通过其Passage中介层作念一些与 Celestial 相配相似的事情。那时,Lightmatter 首席实施官尼克·哈里斯 (Nick Harris) 宣称,它的客户使用 Passage“蔓延到 300,000 个节点超等狡计机”。天然,和拉佐夫斯基通常,哈里斯也不会告诉咱们它的客户是谁。
还有 Eliyan,它正试图全都解脱中介层偏握 NuLink PHY,或者增强中介层的性能和限制(要是您必须领有它们)。
岂论谁在这场竞赛中脱颖而出,向共同封装光学器件和硅光子中介层的转机确切运转似乎仅仅期间问题。
https://www.nextplatform.com/2024/04/04/celestial-ai-wants-to-break-the-memory-wall-fuse-hbm-with-ddr5/
点这里加关心,锁定更多原创施行
*免责声明:本文由作家原创。著述施行系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支持,要是有任何异议,欢管待洽半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3726期施行,迎接关心。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的施行就点“在看”共享给小伙伴哦