跳过主要内容

Nutanix框架和GPU-选项,工具和最佳实践

·11分钟阅读
Ruben Spruijt

这个沉重的博客描述了公共云和本地框架中的用例和GPU选项。它还提出了如何正确大小的GPU驱动工作负载VM,使用的工具以及与帧一起使用GPU时要避免的常见错误。

PlayStation 5,RPI,Chromebook,MacBook和Apple iPhone-什么是共同点?

如今,每个现代的最终用户设备都有一个图形处理单元(GPU)一个基于硬件的解码器或两者兼而有之。您会在Chromebook,RPI,Windows Ultrabook,PlayStation 5,Tesla Model S,Apple Watch,Oculus VR Set和最新Android智能手机的技术封面下查看它们时找到它们。但是,为什么在桌面AS-A-Service(DAAS)世界中,为什么GPU和基于硬件的编码器/解码器很重要?

尽管GPU和编码器/解码器最终提供了不同的目的,但这全都是为了提供最佳的图形用户体验,支持DirectX,OpenGL等应用程序API,并将CPU卸载用于编码/解码以优化资源消耗。

这里的目标是为运行的操作系统(例如Windows 10及其Windows应用程序)提供最佳的用户体验,并在通过Nutanix框架,Amazon Workspaces,Citrix虚拟应用程序和台式机等DAAS解决方案(例如DAAS解决方案)上交付的“云工作站”服务,Microsoft Windows虚拟桌面(WVD)和VMware Horizo​​n Cloud。

GPU很热 - 游戏,VR,AI,设计师和Daas

每个技术极客都希望在他们的游戏PC中使用最新,最出色的AMD或NVIDIA GPU。虚拟现实,带有实时射线跟踪功能的GPU以及与基于AI的噪音融合业务和娱乐的统一通信是真实的!加密货币采矿爱好者也经常使用GPU,由于数据,云和GPU的开发,机器和深度学习的最新发展是高空的。

在专业图形的背景下,设计人员知道从Adobe,Autodesk,Siemens,PTC,Dassault Systems等运行工作站应用程序时的GPU值。此外,当前Windows 10操作系统,浏览器,视频会议工具(例如团队和Zoom)以及Microsoft Office 365当物理或虚拟机配备了GPU时,都受益。

gpus -yay!?

那么,为什么还不是使用GPU在全球范围内所有数百万个虚拟桌面和应用程序用户?GPU仅适用于特殊的“云工作站”用例?(提示:否)。他们是否用于使用远程协议来提供可以使用GPU并提供最佳用户体验的虚拟桌面和应用程序?(提示:是)。

现代DAA远程协议,例如Nutanix框架远程桌面协议(FRP),能够使用基于硬件(GPU)的编码,在下载CPU的同时,提供了令人敬畏的用户体验来“在浏览器中运行任何应用程序”。这是利用GPU或VGPU的一个巨大好处,另一个好处是能够支持OpenGL,DirectX和CUDA等应用程序API。

客户经常问:“我的所有应用程序和用例,包括单个任务和知识工作者,我真的需要GPU吗?”

有人说“ GPU4ALL”,但我认为总有一些细微差别。事实是,使用最新AMD和Intel CPU的Windows 10的DAA可以在没有GPU的情况下运行良好。实际上,使用虚拟桌面和应用程序使用仅CPU的配置,有90K+客户部署。

当然,使用共同实践的基础架构和虚拟机器的右派大小至关重要。在此中可以找到有关尺寸的更多见解博客文章

要问的关键问题是:

  1. “仅CPU”配置是否提供最佳的用户体验?使用了什么应用程序,它们会从GPU中受益吗?
  2. 用户体验和成本之间的正确平衡是什么?当前和建议的费用是多少?
  3. 仅CPU的配置未来是否适用?Windows OS期望“内部GPU”以及越来越多的应用程序,包括Windows,浏览器,Microsoft Teams,Zoom和Microsoft Office都从GPU功能中受益。

CPU,GPU,VGPU,PassThrough GPU-选择什么?框架桌面AS-A-Service解决方案具有几种可用于“云PC”和“ Cloud Workstation”用例的强大处理选项。其中包括仅CPU,NVIDIA Virtual GPU(VGPU又名网格),具有虚拟函数(VF)的AMD GPU(MXGPU)以及来自AMD和NVIDIA的PassThrough GPU选项。

选择最佳GPU选项取决于预期的用户体验,用例,应用程序要求和业务案例。(注意:要了解GPU为何对虚拟台式机和应用程序很重要,请查看此伟大解决方案简介)。

专用和虚拟GPU

让我们深入研究Nutanix框架在公共云和本地都可以使用的GPU选项。从GPU的角度来看,有两个技术方向:

  • 专用的GPU
  • 虚拟GPU(VGPU)

专用的GPU

专用的GPU也称为GPU“通行”或“ DDA”(离散设备分配)。这意味着虚拟机(VM)具有专用的“完整GPU”。

如果GPU板每个板有多个GPU,则每个VM都可以访问其自己的专用GPU。例如,NVIDIA TESLA M10有四个GPU,这意味着可以在1:1映射中访问四个VM并访问GPU。当GPU板只有一个GPU可用时,可以使用一个VM并使用该GPU。常用的GPU,例如NVIDIA TESLA T4,P40和RTX8000具有强大的GPU,但每个板确实有一个GPU。

公共云中专用的GPU选项

截至今天,基于Microsoft Azure,AWS和Google Cloud的典型实例正在使用专用GPU。常见实例家族是Azure NV(基于NVIDIA),AWS G4(基于AMD和NVIDIA GPU)和GCP(基于NVIDIA)的实例。这些实例都使用专用的“ PassThrough/dda” GPU,基于NVIDIA的实例包括NVIDIA VGPU许可证。这些实例家族中有一些机器具有多个专用GPU,支持高端工作站应用程序,例如Autodesk Vred和实时射线缩放。

图1:具有4个专用NVIDIA TESLA T4 GPU的框架驱动实例

图1:具有4个专用NVIDIA TESLA T4 GPU的框架驱动实例

这些专用的GPU实例提供了一致和高性能,因为GPU并未与他人共享。GPU框架缓冲区(内存),内核和编码器/解码器都专用于实例。不利的一面是,从基础架构的角度来看,您不能与他人共享GPU,因此可以与其他用户分享运行成本。

总体而言,与本地选项相比,在公共云中,适合DAA的GPU选项和可用的GPU板正在落后。例如,Nvidia VGPU在Azure,AWS,Google Cloud上不可用,而GPU板落后了几年。话虽如此,许多客户将这些实例用于DAA,从而受益于您的付费价格,多个云区域,灵活性在几分钟和几个小时内旋转数百或数千个VM的灵活性,等等。

很高兴注意到Microsoft Azure,AWS和Google Cloud提供了最新一代GPU的访问权限,但是这些实例针对“深度学习”和“计算”,而不是“虚拟化/DAA”,因为它们不包括在内灵活桌面作为服务所需的NVIDIA许可证。

本地部署中专用的GPU选项

在本地的DAA场景中,由于灵活性和可扩展性有限,因此使用专用GPU并不常见。将VGPU与工作站级的GPU配置文件特性一起使用更常见。

在本地部署中的虚拟GPU

“虚拟GPU”一词对不同的人意味着不同的事物。在这种情况下,这意味着虚拟机将接收由低级软件或硬件组件处理的GPU的“切片”。

“切片”,“分区”,或虚拟化GPU可以在软件,硬件或两者的组合中完成,从而导致混合方法。例如,在Nutanix AHV上运行的NVIDIA VGPU Manager软件与SR-IOV结合使用,是混合设置的一个示例。在这种情况下,可以在管理程序(例如,Nutanix AHV)级别,可以由VM使用。

AMD使用的切片技术正在利用SR-IOV,创建用于VM的虚拟功能。诸如应为每个VM提供多少GPU帧缓冲区和GPU核心等问题,以及GPU调度程序配置应超出此博客的范围。关键是要了解VGPU配置文件和虚拟功能的性能和功能,并了解NVIDIA VGPU许可选项。

如果您想了解更多有关NVIDIA VGPU软件许可以及软件提供的功能,则NVIDIA VGPU许可和包装指南是必读的。

公共云中的虚拟GPU选项

此时,公共云中只有一个虚拟GPU选项。此选项可在Microsoft Azure上找到,并由AMD提供动力。Azure NVV4实例家族由AMD Radeon Instinct MI25 GPU和AMD EPYC ROME CPU提供动力。可以在此博客文章中找到更多详细的信息。引入Azure NVV4和Nutanix框架”(请务必在此博客中查看视频;您将在WAN -100ms延迟 - 场景中使用NVV4计算机在操作中看到框架)。不幸的是,Microsoft Azure,AWS或Google Cloud中没有NVIDIA VGPU。但是,Alicloud确实支持NVIDIA VGPU。

用于工具箱的尺寸和GPU工具

重要的是要知道如何使用远程协议,操作系统和应用程序使用GPU。关键是要捕获GPU内核,框架缓冲区和编码器的利用,并在相当长的时间内捕获。有了这些信息,可以启动工作量机器的正确大小。

幸运的是,合作伙伴提供了各种解决方案,可帮助您轻松监视和捕获GPU/应用程序使用情况。示例包括Controlup,,,,液体软件,,,,湖边, 和Uberagent

除这些解决方案外,还有免费的社区工具,例如RD分析仪,,,,GPU剖面,,,,GPU-Z,以及Windows10和Server2019/2022+中的Windows Performance Monitor

图2:使用Windows10/Server 2019+中的任务管理器提供GPU利用率见解

图2:使用Windows10/Server 2019+中的任务管理器提供GPU利用率见解

图3:使用GPU Profiler运行的框架,提供GPU利用率的见解

图3:使用GPU Profiler运行的框架,提供GPU利用率的见解

常见的GPU错误和避免它们的技巧

坏消息是有很多可能的错误。好消息是我分享有关如何避免它们的简单提示!

  • 错误:无需任何操作系统和应用程序用法洞察力而调整GPU。
    提示:没有用法见解的尺寸就像在黑暗中开车,没有开灯。这是危险而愚蠢的。使用工具获取此数据。

  • 错误:使用物理PC或工作站的规格,1:1将它们映射到DAAS Workload VM。
    提示:物理资源的利用通常要低得多 - 不适合峰值。同样,使用工具来获取这些利用见解来改善您的尺寸。通常,框架缓冲区是您使用GPU达到的第一个限制。

  • 错误:捕获GPU使用一小时是可以的;我很急。
    提示:捕获使用时间更长的时间,以确保数据集完成并捕获了足够的信息。

  • 错误:期望在VM中有两个GPU时,应用程序的执行速度是两倍。
    提示:99%的应用程序不具有多GPU。最好使用现代的最先进的GPU。

  • 错误:我购买了Nutanix AHV部署的本地框架Nvidia Tesla GPU-我很高兴!
    提示:别忘了正确的NVIDIA VGPU软件许可证,硬件 +软件是这里的完整解决方案。

  • 错误:我们对Windows 10并使用NVIDIA VGPU配置文件的1 GB框架缓冲区完全很好。
    提示:也许您是,但是您确定吗?当您使用多个监视器,更高的分辨率,当然要求“ Power用户”应用程序的应用程序1 GB的帧缓冲区可能还不够。一个好的起点是:Windows 10具有生产力应用程序的1 GB框架缓冲区;2 GB框架缓冲区用于双监视设置;4 GB VGPU框架缓冲区,用于中等至高端图形。

  • 错误:端点设备对用户体验没有影响,因为应用程序实际上正在运行;端点只是显示设备。
    提示:端点的功能确实会影响实际的用户体验。硬件解码功能是什么?关于多个监视器和更高分辨率的功能是什么?是否可以在端点上运行最新的浏览器或框架应用程序?

  • 错误:公共云中GPU的性能和可用性。当然。没问题。
    提示:了解不同的GPU选项和GPU硬件特性,并了解资源和保证容量的可用性并不总是给定的!当您需要这些资源时,请确保在云提供商方面提高您的GPU限制。有时,提高限制可能需要几天或更长时间。

愉快的阅读!

您是否想从Nutanix中阅读有关DAA的更多信息,并发现框架与Amazon,Citrix,Microsoft或VMware有何不同?好吧,请务必检查一下博客

作者

Ruben Spruijt
更多的内容由Ruben Spruijt
Ruben Spruijt是Nutanix Frame的高级技术专家,也是备受推崇的作家,演讲者,市场分析师,技术专家。全能最终用户计算怪胎。他为制造产品开发做出了贡献,为客户提供了EUC战略的支持,并分析了影响当前工作和未来的EUC技术趋势。鲁本(Ruben)是Microsoft最有价值的专业人士(MVP),NVIDIA网格社区顾问,并在Citrix CTP计划和VMware Vexpert中担任了10年。
©2020-2022 Nutanix,Inc。保留所有权利。Nutanix,Nutanix徽标和所有Nutanix产品,此处提到的功能和服务名称是美国和其他国家的Nutanix,Inc。的注册商标或商标。本文提到的所有其他品牌名称仅用于识别目的,可能是其各自持有人的商标。这篇文章可能包含指向不属于Nutanix.com一部分的外部网站的链接。Nutanix不控制这些站点,并对任何外部站点的内容或准确性不承担所有责任。我们决定链接到外部站点的决定不应被视为对该站点上任何内容的认可。本文中包含的某些信息可能与从第三方来源以及我们自己的内部估计和研究获得的研究,出版物,调查和其他数据有关。尽管我们认为这些第三方研究,出版物,调查和其他数据是在本文之日起可靠的,但它们尚未独立验证,我们对任何信息的充分性,公平性,准确性或完整性都没有任何代表性从第三方来源获得。
Baidu