新浪新闻客户端

英特尔或为Aurora超算提供双路CPU+六GPU节点

英特尔或为Aurora超算提供双路CPU+六GPU节点
2019年11月18日 22:37 新浪网 作者 天极网

  【天极网DIY硬件频道】超算界近年来一直在努力探讨“exascale”(10^18)的算力愿景,其有望奠定未来十年的发展基调。英特尔与阿贡国家实验室合作打造的Aurora超级计算机,在向着这个目标挺进。

  英特尔或为Aurora超算提供双路CPU+六GPU节点

  英特尔与阿贡国家实验室签订合同已有一段时间,但随着市场的变化以及硬件制造商的挫折,项目进展并不是很顺利。阿贡国家实验室原本希望Argonne、Cray和英特尔能够在2020年交付Aurora超算的硬件,围绕英特尔Xeon Phi平台构建,可通过英特尔AVX-512指令和10nm Knights Hill架构来提高吞吐量和加速。

  英特尔或为Aurora超算提供双路CPU+六GPU节点

  遗憾的是Aurora超算计划在人工智能(AI)加速革命之前定制,英特尔随后在服务器处理器添加AVX-512支持,并终结至强融核平台(短命的Knights Mill)。英特尔因此不得不重新考虑如何构建Aurora以及如何融入自家的CPU和Xe GPU。

  英特尔披露Aurora超算的一些基础信息,虽未透露架构的核心数量、内存类型等信息,但至少可知标准节点将包含双路下一代CPU和六路下一代GPU硬件,且其通过全新的连接标准进行协作。英特尔计划采用的Sapphire Rapids CPU,是英特尔继Ice Lake至强处理器之后的第二代10纳米服务器处理器。

  英特尔或为Aurora超算提供双路CPU+六GPU节点

  公告还重申该处理器有望在2021年下半年推出,而Ice Lake将在2020年末实现量产。参数方面,在单个Aurora计算节点中,双路Sapphire Rapids处理器可协同工作,并支持下一代傲腾DCPMM持久性存储;Sapphire Rapids处理器支持8通道内存,具有足够连接至三路GPU的I/O。另有消息人士称Sapphire Rapids或支持DDR5,但尚未得到英特尔方面的证实。

  GPU方面,每个Aurora节点将支持六卡协作(英特尔7nm Ponte Vecchio Xe GPU),基于Xe架构的微体系架构打造,采用英特尔大量的关键封装技术,如Foveros芯片堆叠、嵌入式多芯片互连桥(EMIB)以及高带宽现存(HBM)等。英特尔声称PV将具有矢量矩阵单元和高双精度性能,可能是Argonne进行的研究所必需的。

  英特尔或为Aurora超算提供双路CPU+六GPU节点

  英特尔表示Xe图形架构非常灵活,可以做到从低功耗领域到高性能计算领域的全覆盖:“一种架构,多种微架构,通用编程模型”。Xe架构的灵活性在于内部微架构的可定制性,能针对不同市场的关键应用推出相对应的架构,比如说在高性能计算市场上面推出具有高双精度浮点运算性能的产品,而针对AI加速市场可以在架构中塞入更多张量单元来进行针对性的加速。

  英特尔或为Aurora超算提供双路CPU+六GPU节点

  HPC版本的Xe架构将具有的三个特征,首先是针对AI领域的弹性数据并行向量矩阵引擎,可以有效加速AI训练。第二个是双精度浮点单元,目前普通游戏图形对于双精度计算的需求并不高,不过在传统的高性能计算市场中,它仍然有着非常大的工作量,所以双精度计算单元仍然是高性能计算卡架构中的一个不可或缺的成员。最后是超高的缓存&内存带宽,对于计算卡来说这是帮助它实现高计算吞吐量的助推力量。

  英特尔或为Aurora超算提供双路CPU+六GPU节点

  Aurora节点中的另一项核心技术是采用全新的CXL连接标准,允许CPU和GPU直接连接并在统一的内存空间中工作。每个Aurora节点将具有8个Fabric 端点,从而提供了大量的拓扑连接选项。随着Cray部分的构建加入,连接系统将成为其Slingshot网络体系结构的一个版本。

  英特尔表示,Slingshot将为Aurora提供大约200个机架的连接,共有10PB内存和230PB的存储。

  英特尔或为Aurora超算提供双路CPU+六GPU节点

  • 综上所述,可简单估计Aurora超算有如下特点:

       支持200个机架协同工作;

       每个机架可能都采用标准的42U配置;

       每个Aurora节点都是一个标准的2U配置;

       系统或总共有200个机架;

       每个机架支持6U和联网特性;

       其中1/3可用于存储和其它系统;

       四舍五入可得2400个Aurora超算节点(2394)。

  若真如此,整个Aurora超算系统只采用5000颗英特尔Sapphire Rapids CPU和15000个Ponte Vecchio GPU,将ExaFLOP均摊到15000个子单元商,则每个GPU的平均算力为66.6TeraFLOP。当前GPU的FP32性能仅在14TeraFlops左右,英特尔能够将HPC的单GPU性能提升5倍,这样的提升也是相当惊人的(假设不考虑功耗限制的话)。

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
超算英特尔
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有