在ISC 23 的演讲中,英特尔强调了其在高性能计算 (HPC) 和人工智能 (AI) 工作负载方面的性能领先地位,分享了其未来 HPC 和 AI 产品组合,并宣布了利用 Aurora 进行国际合作的雄心勃勃的计划超级计算机为科学和社会开发生成人工智能模型。
竞争性能位居榜首,英特尔的结果在竞争中明显获胜。英特尔数据中心 GPU Max 系列在各种工作负载上的性能平均比 NVIDIA H100 PCIe 卡高出 30%。软件供应商 Ansys 的独立结果表明,在 AI 加速的 HPC 应用程序中,Max 系列 GPU 的速度比 H100 提高了 50%。
在高性能共轭梯度 (HPCG) 基准测试中,Xeon Max 系列 CPU 比 AMD Genoa 处理器提高了 65%,而且功耗更低。第四代英特尔至强可扩展处理器是 HPC 的宠儿,其速度比 AMD Milan4 平均提高 50%。BP 最新的第四代 Xeon HPC 集群的性能比上一代处理器提高了 8 倍,同时能源效率也得到了提高。Gaudi2 深度学习加速器在深度学习、训练和推理方面表现出色,性能比 NVIDIA A100 快 2.4 倍。
(资料图)
下一代 CPU 和 AI 优化的 GPU
英特尔公司副总裁兼超级计算集团总经理Jeff McVeigh介绍了英特尔专为满足高内存带宽需求而设计的下一代CPU。英特尔为 Granite Rapids 开发了一种新型 DIMM——多路复用器组合列 (MCR)。MCR 基于 DDR5 实现每秒 8,800 兆传输的速度,并在双插槽系统中实现超过 1.5 太字节/秒 (TB/s) 的内存带宽能力。
英特尔还披露了 Supermicro 全新的 AI 优化 x8 Max 系列 GPU 子系统,旨在加速深度学习训练。OEM 预计将在今年夏天的某个时候提供带有 Max 系列 GPU x4 和 x8 OAM 子系统以及 PCIe 卡的解决方案。
英特尔的下一代 Max 系列 GPU Falcon Shores 将使客户能够灵活地实施系统级 CPU 和独立 GPU 组合,以应对未来不断变化的新工作负载。Falcon Shores 系统采用模块化、基于图块的架构,使其能够:
支持从 FP64 到 BF16 到 FP8 的 HPC 和 AI 数据类型。
启用高达 288GB 的 HBM3 内存、高达 9.8TB/s 的总带宽和大幅改进的高速 I/O。
增强 CXL 编程模型。
通过oneAPI呈现统一的GPU编程接口。
科学生成人工智能
阿贡国家实验室与英特尔和 HPE 合作,宣布计划为科学研究界创建一系列生成式人工智能模型。这些科学生成人工智能模型将接受来自生物学、化学、材料科学、物理、医学和其他来源的通用文本、代码、科学文本和结构化科学数据的训练。
由此产生的模型(具有多达 1 万亿个参数)将用于各种科学应用,从分子和材料的设计到数百万来源的知识综合,以提出系统生物学、高分子化学领域令人兴奋的新实验以及能源材料、气候科学和宇宙学。该模型还将用于加速识别与癌症和其他疾病相关的生物过程,并为药物设计提供目标建议。
Aurora 今年推出时预计将提供超过 2 exaflops 的峰值双精度计算性能。
oneAPI 使 HPC 应用程序受益
最新的英特尔 oneAPI 工具通过 OpenMP GPU 卸载为 HPC 应用程序提供加速,扩展对 OpenMP 和 Fortran 的支持,并通过优化的框架(包括 TensorFlow 和 PyTorch)以及 AI 工具加速 AI 和深度学习,从而提高性能。
通过 oneAPI 的 SYCL 实现、Codeplay 开发的适用于 NVIDIA 和 AMD 处理器的 oneAPI 插件以及将代码从 CUDA 迁移到 SYCL 和 C++ 的英特尔 DPC++ 兼容性工具(其中 90-95% 的代码通常会自动迁移),程序员可以更轻松地进行多架构编程。生成的 SYCL 代码显示出与在 NVIDIA 和 AMD 本机系统语言上运行的相同代码相当的性能。数据显示,在 Max 系列 GPU 上运行的 DPEcho 天体物理应用程序的 SYCL 代码的性能比在 NVIDIA H100 上运行的相同 CUDA 代码高出 48%。
标签:
下一篇:最后一页