本文选自开放架构HPC技术与生态白皮书旨在介绍ARM指令集兼容架构的技术发展、演进与成果;并通过HPC生态特点分析,介绍ARM指令集兼容架构的生态完备度、易用性特征。最后介绍产业界伙伴,包括系统建设者、系统使用者与生态构建者的具体案例。
ARM 指令集兼容架构已成为HPC 主流技术与未来发展的重要趋势,可满足大型超算系统与商用HPC 系统的技术需求。
1、从国家超算战略看ARM指令集兼容架构在 HPC 领域的发展
中欧美日等算力高地都通过国家战略牵引各自的超算建设。如中国的科技部高性能计算专项、美国 ECP 计划、欧洲 EuroHPC 计划、日本 FLAGSHIP 2020 计划进行牵引。其中中国天河新一代超算依托ARM 指令集兼容芯片进行建设,欧洲 EuroHPC 计划中设置 ECP 计划开发欧洲独立自主的 ARM 指令集兼容架构 CPU,日本富士通采用 ARM 指令集兼容架构开发 A64FX 芯片,打造“富岳”超算,美国将采用基于 ARM 指令集兼容架构研发的 NVIDIA Grace CPU 构建一台名为 Venado 的超级计算机。
2、从TOP 500 看ARM指令集兼容架构在 HPC 领域的发展
2022 年 11 月,全球超级计算机 TOP500 排行榜中,共有 5 台基于 ARM 指令集兼容架构处理器构建的超级计算机入围。同时,美国、日本、欧洲也都发布了多台基于 ARM 指令集兼容架构处理器的超级计算机建设计划,ARM 指令集兼容架构正在成为未来 HPC 的主流技术和发展趋势。
日本在基于 ARM 指令集兼容架构处理器的超级计算机建设方面走在了世界前列:入围的 5 台超级计算机中有 4 台为日本建造,都采用了富士通(Fujitsu)基于 ARM 指令集兼容架构的 A64FX CPU,其中“Fugaku”超级计算机更是夺得了 2020 年 6 月发布的全球超级计算机TOP500 的榜首。美国在 2018 年也推出了 Astra 超级计算机,该超级计算机采用 Marvell 推出的基于ARM 指令集兼容架构的 ThunderX2 处理器,整个系统峰值性能也达到了 2.3PFlops。基于 ARM 指令集兼容架构处理器的超级计算机进入全球超级计算机 TOP500 排行榜,在很大程度上彰显了 ARM 指令集兼容架构在高性能计算领域的潜力。
在 TOP500 榜单之外,由 GW4 联盟、Cray 公司、英国气象局在 2018 推出的欧洲第一台基于 ARM指令集兼容架构处理器的超级计算机:”Isambard”超级计算机;中国天河新一代超级计算机同样采用了基于 ARM 指令集兼容架构的异构融合处理器。这充分说明 ARM 指令集兼容架构在未来超级计算机领域必将占领一席之地。
目前采用 ARM 指令集兼容架构的超级计算机介绍如下:
1)“Fugaku”超级计算机
2020 年 6 月 22 日,新一期全球超级计算机 TOP 500 榜单公布,日本 Fugaku(富岳)超级计算机夺得榜首。Fugaku 超级计算机采用了 Fujitsu(富士通)基于 ARM 指令集兼容架构的 A64FX CPU,整个系统理论峰值达到 537.21 PFlop/s,这是基于 ARM 指令集兼容架构处理器的超级计算机首次登顶全球高性能计算机 TOP500 榜单。Fugaku 超级计算机部署在日本神户理研计算科学中心,主要应用于药物研发、预防医学、模拟自然灾害、天气预报、清洁能源发展,开发 AI 模型等领域。
2)“Wisteria”超级计算机
Wisteria 超级计算机是由 Fujitsu(富士通)公司研发、部署在日本东京大学的一台集成 HPC 和 AI的超级计算机,主要用于仿真、大数据、人工智能等领域。Wisteria 采用节点间异构形式,包括两个部分:
Odyssey(仿真节点组)和 Aquarius( 数据分析节点 ), 其中 Odyssey 包含了 7680 个节点,每个节点包括 1路基于 ARM指令集兼容架构的 48核 A64FX CPU,集群总峰值性能为 25.9 PFlops,主要负责仿真任务;
Aquarius 为 GPU 计算集群,双精度峰值总性能达 7.2 PFlops,主要负责数据分析与人工智能。
3)“Flow”超级计算机
Flow 超级计算机采用了与 Fugaku 相同的 CPU,部署在名古屋大学的信息技术中心,峰值性能达到 7.79PFlops,主要应用于新冠肺炎解药的开发和解析、超级台风等异常气候检测、以及材料研究等领域。
4)“Astra”超级计算机
Astra 超级计算机由惠普公司打造,部署在美国新墨西哥州阿尔伯克基的桑迪亚国家实验室。Astra超级计算机采用 Cavium 推出的基于 ARM 指令集兼容架构的 ThunderX2 处理器,每颗处理器拥有 36 个核心,全系统共 2592 个计算节点,峰值计算性能可达到 2.3 petaflops,主要用于核武器安全性和可靠性方面的研究。
5)“Isambard”超级计算机
Isambard 由 GW4 联盟、Cray 公司、英国气象局于 2018 年联合建造,是欧洲第一台基于 ARM 指令集兼容架构处理器的超级计算机,采用 Marvell ThunderX2 处理器,包含 10000 个 ARM 指令集兼容架构的处理器核心,理论峰值为 172TFlop/s。其升级版 Isambard 2 超级计算机将其规模扩展了两倍,处理器核心数达到了 21504 个。Isambard 部署在英国的布里斯托尔大学,是英国新的 HPC 服务的基础,作为支持科学研究和评估的高性能计算技术的平台。
同时,美国和欧洲还有多台基于 ARM 指令集兼容架构处理器的超级计算机建造计划,主要如下:
1) “Mont-Blanc”超级计算机
Mont-Blanc 项目旨在为欧洲下一代百亿亿次超级计算机进行验证,将采用 Cavium 的 Thudner X2 64 位 ARM 指令集兼容架构处理器进行建造,部署地以及算力等具体参数尚未公布。现阶段 Mont-Blanc 2020 演示器已经完成,对下一阶段百亿亿次级完整超级计算系统的研制有重要参考作用。
2)“阿尔卑斯山”超级计算机
2021 年 4 月 12 日 , 瑞士国家超级计算中心、惠普和 NVIDIA 宣布,他们正在基于 ARM 指令集兼容架构处理器架构打造全球最强大的 AI 超级计算机 :“阿尔卑斯山”超级计算机,该超级计算机计划于2023 年上线,将取代瑞士国家超级计算中心现有的 Piz Daint 超级计算机。“阿尔卑斯山”将使用全新基于 ARM 指令集兼容架构的 NVIDIA Grace CPU,将应用在包括气候和天气,材料科学,天体物理学,计算流体动力学,生命科学,分子动力学,量子化学和粒子物理学,以及经济学和社会科学等领域。
3)“Venado”超级计算机
NVIDIA 将使用 Grace CPU 和 Grace Hopper GPU 为美国洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory,LANL)构建一台名为 Venado 的超级计算机,预计 AI 峰值性能将超过 10 ExaFlops。Venado 将成为美国第一个采用英伟达 Grace CPU 的超级计算机,将主要应用于材料科学和可再生能源等领域。NVIDIA Grace CPU 基于最新的 ARM V9 架构,专为 AI、HPC、云计算和超大规模应用而设计。
3、ARM 指令集兼容架构在商用 HPC 领域的崛起
除在超级计算机领域发展的如火如荼之外,ARM 指令集兼容架构在商用 HPC 领域也异军突起,基于 ARM 指令集兼容架构处理器的商用 HPC 系统不断推出,并在不同行业得到成功应用。
国内基于 ARM 指令集兼容架构的服务器芯片厂商主要有三家:华为、飞腾以及阿里平头哥。
基于华为鲲鹏 920 CPU 的 TaiShan 服务器 鲲鹏 920 CPU 是华为于 2019 年初推出的一款基于ARM 指令集兼容架构的高性能处理器,具有高性能、高吞吐、高集成和高效能等特点。基于鲲鹏 920 CPU 的 TaiShan 系列服务器,推出高性能型、均衡型、存储型和高密型等不同机型。
基于飞腾系列 CPU 的商用服务器 飞腾系列 CPU 是基于 ARM 指令集兼容架构设计的处理器,共推出高性能服务器 CPU、高效能桌面 CPU 和高端嵌入式 CPU 等多个系列,其中服务器芯片主要有飞腾腾云 S2500、FT-2000+/64 和 FT-1500A/16 三款不同型号。
基于倚天 710 CPU 的商用服务器 2021 年 10 月 19 日云栖大会,阿里巴巴旗下半导体公司平头哥发布自研高性能倚天 710 CPU。倚天 710 CPU 采用最新的 ARMv9 架构,是阿里首款全栈自研的通用CPU,也是全球首款采用 5nm 工艺的服务器芯片。目前,基于倚天 710 CPU 的商用服务器已部署于阿里云数据中心并对外提供服务。
国外基于 ARM 指令集兼容架构的服务器芯片厂商主要有五家:NVIDIA、MARVELL、Ampere、亚马逊和富士通。
基于 NVIDIA Grace 超级芯片的商用服务器 NVIDIA Grace CPU 基于最新的 ARMv9 架构,专为AI、HPC、云计算和超大规模应用而设计,部署的 144 个核心和 1TB/s 的内存带宽将为基于 CPU 的高性能计算应用提供前所未有的性能。同时,基于 NVIDIA NVLink-C2C 技术的 NVIDIA Grace Hopper 超级芯片将 Grace CPU 和新一代 Hopper GPU 高速相连,并能够为加速 AI 和 HPC 计算提供 CPU+GPU 的一致内存模型。更为重要的是,Grace CPU 可以运行所有的 NVIDIA 计算软件栈。
基于 MARVELL ThunderX 系列 CPU 的商用服务器 Marvell ThunderX 系列 CPU 是基于 ARM指令集兼容架构设计的处理器,先后推出 ThunderX1、ThunderX2 和 ThunderX3 三款高性能服务器CPU。ThunderX 系列 CPU 应用于超算领域外,在商业领域也应用广泛,包括微软 Azure 富士康、技嘉、和硕、惠普和 Atos 等公司均使用该系列服务器芯片。
基于 Ampere 系列 CPU 的商用服务器 Ampere Computing(安晟培半导体)是英特尔前总裁Renee James 创立的服务器芯片独角兽公司。安晟培半导体先后发布了多款基于 ARM 指令集兼容架构的服务器芯片,如 80 核 Ampere Altra CPU、128 核 Ampere Altra Max CPU、以及新推出的以 ARM 指令集兼容架构为基础的 Ampere One CPU。
基于亚马逊(AWS)的 Graviton 系列服务器 ARM 与亚马逊(AWS)合作,在亚马逊云中成功应用基于 ARM 指令集兼容架构的 CPU 芯片。2018 年,AWS 首次推出基于 ARM 指令集兼容架构的自研服务器芯片 Amazon Graviton,将部分工作负载能耗降低至 45%;2019 年底推出 Graviton2,将针对各种工作负载又提升了 40% 的性价比。接着,AWS 在 2021 年 12 月推出了 Graviton3,在相同性能下,Graviton3 处理器与同类型基于 x86 的实例对比,可节省高达 60% 的能耗。
富士通的 HPC 商业化 富士通制造的超级计算机 Fugaku 是现在世界上最快的基于 ARM 指令集兼容架构处理器的超级计算机,同时富士通在基于 ARM 指令集兼容架构的 HPC 商业化方面也很出色。2020 年 2 月 3 日,富士通为名古屋大学信息技术中心打造的超级计算机将成为世界上第一台采用富岳技术的商用超级计算机。2022年 4月 13日,冰岛初创公司 Atmonia ehf.与富士通合作,利用高性能计算(HPC)和人工智能技术,开展联合研究,加速用于清洁生产氨的催化剂开发。
4、ARM 指令集兼容架构针对 HPC 的改进及演化
在 HPC 领域,X86 CPU 作为主处理器一直“一统江湖”,虽然期间受到 Power、MIPS 以及国内申威架构的挑战,但谁都无法撼动 X86 架构在 HPC 领域的统治地位。近年来,随着移动领域的霸主 ARM架构处理器向服务器芯片市场进行拓展,特别是 2020 年搭载基于 ARM 指令集兼容架构处理器的日本Fugak 超级计算机荣登全球超算 TOP500 榜首,以及中国、美国、欧洲多台基于 ARM 指令集兼容架构处理器的超级计算机的建成,ARM 指令集兼容架构在高性能计算领域异军突起,形成了对 X86 架构的持续性挑战。
2011 年 10 月,随着 ARM 公司第一款 64 位 ARMv8 架构的发布,标志这 ARM在 HPC 领域的“觉醒”。相比 ARMv7,ARMv8 是一个巨大的跨越:64 位通用计算器、128 位向量寄存器、专为高性能计算新开发的向量指令集 NEON,使 ARM 指令集兼容架构芯片有了更为广泛的应用场景,可以说 ARMv8 让 ARM 指令集兼容架构芯片从嵌入式或移动设备,进入了高性能计算领域。
从这一阶段开始,采用 ARM 指令集兼容架构的服务器芯片开始对标主流服务器芯片性能。Marvell的 ThunderX 和 ThunderX2 CPU 是这一阶段的代表性芯片,这两款芯片已经具备了服务器芯片的主要特征:超多核设计(ThunderX CPU 48 个核,ThunderX2 CPU 32 个核 )、高性能、高吞吐,处理器整体性能已经可以对标 X86 架构。
Neoverse 架构的发布,标志这 ARM 架构在服务器领域的成熟。这一阶段基于 ARM 指令集兼容架构的服务器芯片百花齐放,国内如华为鲲鹏 920、飞腾、阿里倚天 710 等 CPU;国外如 Marvel 的ThunderX3、富士通的 A64FX、Ampere Altra, AWS Gravition2 等 CPU。
2021 年,ARM 公司推出的全新 ARMv9 架构,针对高性能计算的计算负载特征进行了一系列改进,ARMv9 相比于 ARMv8 最主要的区别有三点:AI、改进矢量扩展指令集 SVE2 以及安全。机器学习成为ARMv9 架构的重要组成部分,ARM 公司认为未来 ML 工作负载将会越来越普遍,同时,矩阵乘法指令成为 ARMv9 架构的基础功能,也标志着 ARM 架构对 AI 工作负载支持的强化。
5、ARM 指令集兼容架构在 HPC 的未来发展趋势
1. 单核性能更高,超多核 / 众核趋势明显:为了应对 HPC 领域越来越高的工作负载,ARM 指令集兼容架构服务器芯片频率越来越高,单核性能越来越高,逐渐可以对标 X86 单核性能。除此之外,从富士通 A64FX CPU 的 48 核,到鲲鹏 920 CPU 的 64 核,再到 Ampere Altra Max CPU 的 128 核,ARM 指令集兼容架构服务器芯片的超多核 / 众核的趋势越来越明显,以实现在相同体积内能够部署更高的算力。
2. 更完善的向量化指令集:针对 HPC 领域工作负载的多样性,SVE2 指令集更加完善,已经可以初步对标 X86 AVX512 指令集;同时,SVE2 可变长向量功能,能够适应更加灵活的数据访问和计算。除了对通用指令继续完善外,还添加了对矩阵乘指令的支持,加强了对 AI 工作负载的支持。
3. 更高的访存性能:使用 HBM2e/HBM3高带宽内存,提高访存性能,提高对数据密集型应用的支持。包括华为鲲鹏 920 在内的多款 ARM 指令集兼容架构 CPU 的访存带宽已经整体上超越了相应主流 CPU。
4. 更安全:提高安全性是 ARM 指令集兼容架构的一个重要特征,为此,许多 ARM 指令集兼容建构处理器特意增加了专门的安全模块,以此来应对越来越严峻的安全威胁。这是 ARM 指令集兼容架构进军服务器和 HPC 市场的一个重要进步。
5. 自研芯片会越来越多,ARM 指令集兼容架构服务器芯片越来越“百花齐放” :ARM 指令集兼容架构芯片强大的定制能力,使得越来越多的芯片厂商在授权的 ARM IP 基础上,开始根据市场的判断对芯片进行重新设计和改进,以适应不同的应用场景。
6.“终端”用户“下海”:除传统芯片厂商外,如亚马逊、阿里巴巴等终端用户也开始研制 ARM指令集兼容架构服务器芯片,部署在自己的大数据中心或者云服务中心。
7. 应用迁移难度不断降低:ARM 指令集兼容架构在 HPC 领域的产业链成员越来越丰富,大量的开发者不断参与到 ARM 指令集兼容架构 HPC 生态的构建中,而随着生态的不断完善和技术的不断成熟,典型应用到 ARM 指令集兼容架构 HPC 上的迁移难度越来越低,这会有力推动 ARM 指令集兼容架构在HPC 领域的发展。同时,越来越多的 ARM 指令集兼容芯片加入了“二进制转码”功能,例如苹果公司等。这类技术可以动态的进行其他指令集到 ARM 指令集的翻译,在无需进行代码重新迁移的情况下,直接运行其他指令集编译的软件。
白皮书内容覆盖技术、生态、用户篇,详情参看白皮书报告开放架构HPC技术与生态白皮书
申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情

继续阅读
阅读原文