ANSYS GPU加速 Mechanical Fluent HFSS

2020-10-09 18:14:22 NJTST 2073

GPU最早用于提升图形计算的性能，增加图形质量。

现今GPU已经不局限于图形处理，还可以用于并行计算的加速。

计算机辅助工程（CAE）模拟让工程师能够设计更多的虚拟原型产品，因而在打造物理原型产品上花费的时间更少。更多次的反复设计可以成就更高质量的产品，通过加速模拟，GPU 能够进一步提高生产率，从而有助于缩短产品开发时间，为企业带来更具竞争力的优势。

ANSYS与 NVIDIA密切合作，以确保在 ANSYS 并行软件上运行的模拟能够达到性能。NVIDIA GPU 支持下列产品：

结构：ANSYS Mechanical 17.0支持全套特性，其中包括在多颗 GPU上运行。

流体：ANSYS Fluent 17.0能够为基于压力的耦合解算器和辐射传热模型提供GPU支持。

电磁：ANSYS HFSS 17.0支持瞬态流动仿真计算瞬时求解器。

现在利用 NVIDIA GPU 加速 ANSYS 模拟比以往任何时候都更加容易。

在 17.0 版本中，所有的 HPC 许可产品（HPC、HPC Pack、HPC Workgroup）均支持 GPU。

具体而言，在许可证要求这方面，每一路 GPU 被视为一个 CPU 核心。

如此一来，利用现有 HPC 许可证再加上 NVIDIA GPU，即可大幅提升模拟生产率，从而能够完成更多模拟工作。

瞬态电磁场（EM）分析是现代电子设计不可或缺的环节。

自ANSYS HFSS瞬态求解器问世以来，其一直用于解决电子、半导体、能源、汽车、航空航天和国防行业的各类设计难题。

该产品可提供稳健可靠的解决方案，从而满足电磁干扰和电磁兼容性（EMI/EMC）、信号完整性、时域雷达散射截面（RCS）、时域反射/时域传输（TDR/TDT）、雷击和探地雷达（GPR）相关的应用需求。

对需要时域直觉和场可视化的应用来说，HFSS瞬态求解器最为适用。

此外,它还能用于执行S参数和频域远场等频域分析。

bar

四个GPU上不同堆叠通孔的网络分析。

仿真工作并行运行，用进度条和NVIDIA系统管理界面（nvidia-smi）显示。

该模型离散成为68,401个四面体。

对移动手持设备触摸屏上的静电放电研究正在日渐兴起。

ESD往往被视为固体电子产品装运后发生故障的最大原因所在。

这种现象就其本质来说是瞬态的，非常适合采用面向场可视化的瞬态电磁场求解器进行分析。

通过仿真传感器垫上的场强度，工程师就能够判断热点上的薄膜氧化物是否可能被介质击穿损坏。

由于结构的细微性和放电时间极为短暂，通过测量难以获得可靠的预测。

除了分析毫米大小的结构，HFSS瞬态求解器还能求解大规模问题，比如变电站内超高压/特高压（EHV/UHV）总线充电电流开关引起的溢出场。

这种瞬态溢出场会给人员和设备带来潜在的安全隐患，而且无法通过稳态电磁场分析进行预测。

因此应该在工厂规划的早期阶段仿真不同的总线布局和设备布置。

通过ANSYS Q3D Extractor抽取总线和开关的电阻、电感、电容和电导（RLCG）等效电路，并使用ANSYS Designer执行宽带SPICE电路仿真，工程师就能够获得用于HFSS瞬态仿真的时变电压源。

瞬态电磁场分析是现代电子设计不可或缺的环节。

跨多个物理场扩展GPU支持

为充分发挥先进硬件的功能，并为用户提供速度更快的工程仿真技术，ANSYS与NVIDIA®联手开发并推出了GPU加速的计算流体动力学（CFD）求解器。

作为双方多年战略合作所取得的成果，这款新求解器能满足客户对更快速度的需求，能处理更大型、更复杂的CFD仿真模型。

在ANSYS 15.0中提供该求解器和全新的HPC许可，能够让所有的HPC用户充分利用GPU技术的优势，在ANSYS产品组合内拓宽对GPU加速的支持。GPU现在可以加快流体、结构和电磁场仿真的速度，从而提升ANSYS HPC功能的价值。

——Wim Slagter，ANSYS首席产品经理

GPU加速

ANSYS HFSS瞬态求解器的引擎基于时域间断伽略金（DGTD）方法，特别适用于在拥有数千个内核的通用图形处理单元（GPU）上的并行执行。

随着GPU加速性能的进步，在耗电不足240瓦的单个GPU上可实现4万亿次以上的计算能力。

ANSYS电磁场仿真套件版本15能够让工程师充分发挥NVIDIA® CUDA™技术的优势，用GPU计算为HFSS瞬态求解器提速。

与八核INTEL® Xeon® X5675相比，在使用单块NVIDIA Tesla K20的情况下，用GPU加速的求解器一般可实现两倍加速。

一般来说，需要高强度计算的问题倾向于获得更高的加速因子。

以15个样本的基准测试来看，可实现最大5.2倍的加速。

此外，该求解器还能检测到GPU不能提供加速的情况，并自动退回CPU。

在这些情况下，由于CPU使用OpenMP多线程处理，因此不会出现明显的性能下降。

bar

在单块NVIDIA Tesla K20和八核INTEL Xeon X5675上进行的ANSYS HFSS瞬态基准测试的对比情况。

本图只显示了15项基准测试结构的9项。

虚线表示GPU未能提供加速，自动使用CPU的情况。

在为多个HPC任务提供参数化扫描仿真，或使用多激励进行网络分析时，使用GPU加速得到的加速性能随使用的GPU数量线性缩放。

例如，如果以串行方式在一个GPU上用40分钟完成四端口网络的瞬态分析，使用4个GPU并行运行，就可以将仿真时间缩短到10分钟左右。

在依次求解四个激励时，单块NVIDIA Tesla C2075的加速性能是八核INTEL Xeon E5-2650的7.2倍。

因此，在使用全部四块NVIDIA Tesla C2075的情况下，总加速为28.9倍。

多个GPU的工作分配完全自动化，无需用户干预。

HFSS瞬态求解器使用NVIDIA的专属进程计算模式将进程一对一地分配给GPU。

因此工程师不会遇到载荷均衡问题或多个HFSS进程竞争单个GPU上的硬件资源问题。

bar

手持设备触摸屏传感器垫之间桥接器上的强大电场（图中为红色）导致铟锡氧化物薄膜的介质击穿。

例如在GPU上使用HFSS瞬态求解器执行智能电话电源浪涌分析时，仿真加速就会发挥作用。

与八核INTEL Xeon E5-2687W相比，采用5.99 GB GPU RAM的单块NVIDIA Tesla K40可将仿真速度提升4.8倍。

就印刷电路板的信号完整性分析而言，采用3.98 GB GPU RAM的单块NVIDIA Tesla C2075的仿真速度是八核INTEL E5-2650的两倍。

bar

电池充电过程中电源浪涌引起的智能电话CPU、存储器、GPS和蓝牙端口的瞬态场分析。该模型离散成为1,093,376个四面体。

ANSYS电磁场仿真套件让您能够充分发挥NVIDIA CUDA技术的优势，用GPU计算为HFSS瞬态求解器提速。

bar

三个放置在直升机尾部的贴片天线（上图）及它们从DC到1.2GHz的S参数（S11下左、S12和S13下右）。

直升机的长度、高度和翼展分别为17.73米、4.05米和5.23米。该模型离散成为549,247个四面体。

此外，当使用瞬态求解器分析直升机上的天线耦合时，

单块NVIDIA Tesla K40的加速能力是八核INTEL Xeon E5-2687W的4.5倍，此时所需的GPU RAM为4.35GB。

无论在任何情况下，GPU求解器所需要的内存都要比CPU求解器少。

频域S参数在瞬态仿真过程中是通过动态计算得来的。

仿真显示了0.91GHz下贴片天线的谐振频率以及天线之间的低互耦性（小于–60 dB）。

安装与设置

要发挥GPU的加速能力，必须在计算机和集群上安装NVIDIA GPU和驱动程序。

ANSYS HFSS瞬态求解器的GPU加速功能得到了Tesla和高端Quadro系列卡的正式支持。

为获得理想的性能，用于运行仿真工作的GPU不应同时用于显示工作。

只有具备CUDA计算技术兼容性2.0版本及其更高版本的GPU卡可供使用。

为加速瞬态场显示，GPU卡应安装在配有PCIe 3.0插槽的系统上。

混合使用较低版本PCIe的接口卡可能会导致GPU和CPU之间的数据传输速度无法达到最佳状态。

在运行HFSS瞬态仿真之前，最重要的一点是要确保GPU正确设置，

包括禁用纠错码（ECC）以提升性能，

启用Tesla计算机集群（TCC）以实现远程执行，

启用排他进程以实现GPU分布式计算。

GPU的处理器和内存使用情况可通过NVIDIA的实用程序nvidia-smi进行监控。

感谢Rickard Petersson和Matt Commens对本文的宝贵贡献。应用示例由Jack Wu、Ally Liu和Sara Louie提供。

从参考文档内描述的TESLA K40

CUDA核心数2880，12G显存，算力方面单精度4.29TFLOPS 双精度1.43TFLOPS

技术文档

ANSYS GPU加速 Mechanical Fluent HFSS

技术文档

技术文档

ANSYS GPU加速 Mechanical Fluent HFSS

技术文档

为您推荐