技术文档

ANSYS GPU加速 Mechanical Fluent HFSS

2020-10-09 18:14:22 NJTST 1694



GPU最早用于提升图形计算的性能,增加图形质量。

现今GPU已经不局限于图形处理,还可以用于并行计算的加速。

计算机辅助工程(CAE)模拟让工程师能够设计更多的虚拟原型产品,因而在打造物理原型产品上花费的时间更少。更多次的反复设计可以成就更高质量的产品,通过加速模拟,GPU 能够进一步提高生产率,从而有助于缩短产品开发时间,为企业带来更具竞争力的优势。

ANSYS与 NVIDIA密切合作,以确保在 ANSYS 并行软件上运行的模拟能够达到性能。NVIDIA GPU 支持下列产品:

结构:ANSYS Mechanical 17.0支持全套特性,其中包括在多颗 GPU上运行。

流体:ANSYS Fluent 17.0能够为基于压力的耦合解算器和辐射传热模型提供GPU支持。

电磁:ANSYS HFSS 17.0支持瞬态流动仿真计算瞬时求解器。


现在利用 NVIDIA GPU 加速 ANSYS 模拟比以往任何时候都更加容易。

在 17.0 版本中,所有的 HPC 许可产品(HPC、HPC Pack、HPC Workgroup)均支持 GPU。


具体而言,在许可证要求这方面,每一路 GPU 被视为一个 CPU 核心。

如此一来,利用现有 HPC 许可证再加上 NVIDIA GPU,即可大幅提升模拟生产率,从而能够完成更多模拟工作。





瞬态电磁场(EM)分析是现代电子设计不可或缺的环节。

ANSYS HFSS瞬态求解器问世以来,其一直用于解决电子、半导体、能源、汽车、航空航天和国防行业的各类设计难题。

该产品可提供稳健可靠的解决方案,从而满足电磁干扰和电磁兼容性(EMI/EMC)、信号完整性、时域雷达散射截面(RCS)、时域反射/时域传输(TDR/TDT)、雷击和探地雷达(GPR)相关的应用需求。

对需要时域直觉和场可视化的应用来说,HFSS瞬态求解器最为适用。

此外,它还能用于执行S参数和频域远场等频域分析。


bar

四个GPU上不同堆叠通孔的网络分析。

仿真工作并行运行,用进度条和NVIDIA系统管理界面(nvidia-smi)显示。

该模型离散成为68,401个四面体。
 

对移动手持设备触摸屏上的静电放电研究正在日渐兴起。

ESD往往被视为固体电子产品装运后发生故障的最大原因所在。

这种现象就其本质来说是瞬态的,非常适合采用面向场可视化的瞬态电磁场求解器进行分析。

通过仿真传感器垫上的场强度,工程师就能够判断热点上的薄膜氧化物是否可能被介质击穿损坏。

由于结构的细微性和放电时间极为短暂,通过测量难以获得可靠的预测。


除了分析毫米大小的结构,HFSS瞬态求解器还能求解大规模问题,比如变电站内超高压/特高压(EHV/UHV)总线充电电流开关引起的溢出场。

这种瞬态溢出场会给人员和设备带来潜在的安全隐患,而且无法通过稳态电磁场分析进行预测。

因此应该在工厂规划的早期阶段仿真不同的总线布局和设备布置。

通过ANSYS Q3D Extractor抽取总线和开关的电阻、电感、电容和电导(RLCG)等效电路,并使用ANSYS Designer执行宽带SPICE电路仿真,工程师就能够获得用于HFSS瞬态仿真的时变电压源。


瞬态电磁场分析是现代电子设计不可或缺的环节。

跨多个物理场扩展GPU支持


为充分发挥先进硬件的功能,并为用户提供速度更快的工程仿真技术,ANSYSNVIDIA®联手开发并推出了GPU加速的计算流体动力学(CFD)求解器。


作为双方多年战略合作所取得的成果,这款新求解器能满足客户对更快速度的需求,能处理更大型、更复杂的CFD仿真模型。

ANSYS 15.0中提供该求解器和全新的HPC许可,能够让所有的HPC用户充分利用GPU技术的优势,在ANSYS产品组合内拓宽对GPU加速的支持。GPU现在可以加快流体、结构和电磁场仿真的速度,从而提升ANSYS HPC功能的价值。

——Wim Slagter,ANSYS首席产品经理


GPU加速

ANSYS HFSS瞬态求解器的引擎基于时域间断伽略金(DGTD)方法,特别适用于在拥有数千个内核的通用图形处理单元(GPU)上的并行执行。

随着GPU加速性能的进步,在耗电不足240瓦的单个GPU上可实现4万亿次以上的计算能力。


ANSYS电磁场仿真套件版本15能够让工程师充分发挥NVIDIA® CUDA™技术的优势,用GPU计算为HFSS瞬态求解器提速。

与八核INTEL® Xeon® X5675相比,在使用单块NVIDIA Tesla K20的情况下,用GPU加速的求解器一般可实现两倍加速。


一般来说,需要高强度计算的问题倾向于获得更高的加速因子。


以15个样本的基准测试来看,可实现最大5.2倍的加速。


此外,该求解器还能检测到GPU不能提供加速的情况,并自动退回CPU。


在这些情况下,由于CPU使用OpenMP多线程处理,因此不会出现明显的性能下降。


bar

在单块NVIDIA Tesla K20和八核INTEL Xeon X5675上进行的ANSYS HFSS瞬态基准测试的对比情况。

本图只显示了15项基准测试结构的9项。

虚线表示GPU未能提供加速,自动使用CPU的情况。
 

在为多个HPC任务提供参数化扫描仿真,或使用多激励进行网络分析时,使用GPU加速得到的加速性能随使用的GPU数量线性缩放。


例如,如果以串行方式在一个GPU上用40分钟完成四端口网络的瞬态分析,使用4个GPU并行运行,就可以将仿真时间缩短到10分钟左右。

在依次求解四个激励时,单块NVIDIA Tesla C2075的加速性能是八核INTEL Xeon E5-2650的7.2倍。

因此,在使用全部四块NVIDIA Tesla C2075的情况下,总加速为28.9倍。


多个GPU的工作分配完全自动化,无需用户干预。


HFSS瞬态求解器使用NVIDIA的专属进程计算模式将进程一对一地分配给GPU。

因此工程师不会遇到载荷均衡问题或多个HFSS进程竞争单个GPU上的硬件资源问题。


bar

手持设备触摸屏传感器垫之间桥接器上的强大电场(图中为红色)导致铟锡氧化物薄膜的介质击穿。
 

例如在GPU上使用HFSS瞬态求解器执行智能电话电源浪涌分析时,仿真加速就会发挥作用。

与八核INTEL Xeon E5-2687W相比,采用5.99 GB GPU RAM的单块NVIDIA Tesla K40可将仿真速度提升4.8倍。

就印刷电路板的信号完整性分析而言,采用3.98 GB GPU RAM的单块NVIDIA Tesla C2075的仿真速度是八核INTEL E5-2650的两倍。


bar

电池充电过程中电源浪涌引起的智能电话CPU、存储器、GPS和蓝牙端口的瞬态场分析。该模型离散成为1,093,376个四面体。
 

ANSYS电磁场仿真套件让您能够充分发挥NVIDIA CUDA技术的优势,用GPU计算为HFSS瞬态求解器提速。

bar

 

bar

三个放置在直升机尾部的贴片天线(上图)及它们从DC到1.2GHz的S参数(S11下左、S12和S13下右)。

直升机的长度、高度和翼展分别为17.73米、4.05米和5.23米。该模型离散成为549,247个四面体。
 

此外,当使用瞬态求解器分析直升机上的天线耦合时,

单块NVIDIA Tesla K40的加速能力是八核INTEL Xeon E5-2687W的4.5倍,此时所需的GPU RAM为4.35GB。

无论在任何情况下,GPU求解器所需要的内存都要比CPU求解器少。

频域S参数在瞬态仿真过程中是通过动态计算得来的。

仿真显示了0.91GHz下贴片天线的谐振频率以及天线之间的低互耦性(小于–60 dB)。



安装与设置


要发挥GPU的加速能力,必须在计算机和集群上安装NVIDIA GPU和驱动程序。

ANSYS HFSS瞬态求解器的GPU加速功能得到了Tesla和高端Quadro系列卡的正式支持。


为获得理想的性能,用于运行仿真工作的GPU不应同时用于显示工作。

只有具备CUDA计算技术兼容性2.0版本及其更高版本的GPU卡可供使用。

为加速瞬态场显示,GPU卡应安装在配有PCIe 3.0插槽的系统上。

混合使用较低版本PCIe的接口卡可能会导致GPU和CPU之间的数据传输速度无法达到最佳状态。


在运行HFSS瞬态仿真之前,最重要的一点是要确保GPU正确设置,

包括禁用纠错码(ECC)以提升性能,

启用Tesla计算机集群(TCC)以实现远程执行,

启用排他进程以实现GPU分布式计算。


GPU的处理器和内存使用情况可通过NVIDIA的实用程序nvidia-smi进行监控。



感谢Rickard Petersson和Matt Commens对本文的宝贵贡献。应用示例由Jack Wu、Ally Liu和Sara Louie提供。


从参考文档内描述的TESLA K40

CUDA核心数2880,12G显存,算力方面 单精度4.29TFLOPS 双精度1.43TFLOPS 


解决方案