博客

Nutanix框架和GPU:选项,工具和最佳实践。

经过 Ruben Spruijt
| 最小

这个沉重的博客描述了公共云和本地框架中的用例和GPU选项。它还提出了如何正确大小的GPU驱动工作负载VM,使用的工具以及与帧一起使用GPU时要避免的常见错误。

PlayStation 5,RPI,Chromebook,MacBook和Apple iPhone-什么是共同点?

如今,每个现代的最终用户设备都有一个图形处理单元(GPU)一个基于硬件的解码器或两者兼而有之。您会在Chromebook,RPI,Windows Ultrabook,PlayStation 5,Tesla Model S,Apple Watch,Oculus VR Set和最新Android智能手机的技术封面下查看它们时找到它们。但是,为什么GPU和基于硬件的编码器/解码器在世界上很重要桌面AS-A-Service(DAAS)

尽管GPU和编码器/解码器最终提供了不同的目的,但这全都是为了提供最佳的图形用户体验,支持DirectX,OpenGL等应用程序API,并将CPU卸载用于编码/解码以优化资源消耗。

这里的目标是为运行的操作系统(例如Windows 10及其Windows应用程序)提供最佳用户体验,并在通过Nutanix框架,Amazon Workspaces,Citrix虚拟应用程序和台式机等DAAS解决方案(例如DAAS解决方案)上提供的“云工作站”上提供最佳的用户体验。服务,Microsoft Windows虚拟桌面(WVD)和VMware Horizo​​n Cloud。

GPU很热 - 游戏,VR,AI,设计师和Daas

每个技术极客都希望在他们的游戏PC中使用最新,最出色的AMD或NVIDIA GPU。虚拟现实,带有实时射线跟踪功能的GPU以及与基于AI的噪音融合业务和娱乐的统一通信是真实的!加密货币采矿爱好者也经常使用GPU,由于数据,云和GPU的开发,机器和深度学习的最新发展是高空的。

在专业图形的背景下,设计人员知道从Adobe,Autodesk,Siemens,PTC,Dassault Systems等运行工作站应用程序时的GPU值。此外,当前Windows 10操作系统,浏览器,视频会议工具(例如团队和Zoom)以及Microsoft Office 365当物理或虚拟机配备了GPU时,都受益。

gpus -yay!?

那么,为什么还不是使用GPU的全球所有数百万个虚拟桌面和应用程序用户?GPU仅适用于特殊的“云工作站”用例?(提示:否)。他们是否用于使用远程协议来提供可以使用GPU并提供最佳用户体验的虚拟桌面和应用程序?(提示:是)。

现代DAA远程协议,例如Nutanix框架远程桌面协议(FRP),能够使用基于硬件(GPU)的编码,在下载CPU的同时,提供了令人敬畏的用户体验来“在浏览器中运行任何应用程序”。这是利用GPU或VGPU的一个巨大好处,另一个好处是能够支持OpenGL,DirectX和CUDA等应用程序API。

客户经常问:“我的所有应用程序和用例,包括单个任务和知识工作者,我真的需要GPU吗?”

有人说“ GPU4ALL”,但我认为总有一些细微差别。事实是,使用最新AMD和Intel CPU的Windows 10的DAA可以在没有GPU的情况下运行良好。实际上,使用虚拟桌面和应用程序使用仅CPU的配置,有90K+客户部署。

当然,使用共同实践的基础架构和虚拟机器的右派大小至关重要。有关尺寸的更多见解可以在这篇博客文章

要问的关键问题是:

  1. “仅CPU”配置是否提供最佳的用户体验?使用了什么应用程序,它们会从GPU中受益吗?
  2. 用户体验和成本之间的正确平衡是什么?当前和建议的费用是多少?
  3. 仅CPU的配置未来是否适用?Windows OS期望“内部GPU”以及越来越多的应用程序,包括Windows,浏览器,Microsoft Teams,Zoom和Microsoft Office都从GPU功能中受益。

CPU,GPU,VGPU,PassThrough GPU-选择什么?

框架桌面AS-A-Service解决方案具有几种可用于“云PC”和“ Cloud Workstation”用例的强大处理选项。其中包括仅CPU,NVIDIA Virtual GPU(VGPU又名网格),具有虚拟函数(VF)的AMD GPU(MXGPU)以及来自AMD和NVIDIA的PassThrough GPU选项。

选择最佳GPU选项取决于预期的用户体验,用例,应用程序要求和业务案例。(注意:要了解GPU为何对虚拟台式机和应用程序很重要,请查看此伟大解决方案简介)。

专用和虚拟GPU

让我们深入研究Nutanix框架在公共云和本地都可以使用的GPU选项。从GPU的角度来看,有两个技术方向:

  • 专用的GPU
  • 虚拟GPU(VGPU)

专用的GPU

专用的GPU也称为GPU“通行”或“ DDA”(离散设备分配)。这意味着虚拟机(VM)具有专用的“完整GPU”。

如果GPU板每个板有多个GPU,则每个VM都可以访问其自己的专用GPU。例如,NVIDIA TESLA M10有四个GPU,这意味着可以在1:1映射中访问四个VM并访问GPU。当GPU板只有一个GPU可用时,可以使用一个VM并使用该GPU。常用的GPU,例如NVIDIA TESLA T4,P40和RTX8000具有强大的GPU,但每个板确实有一个GPU。

公共云中专用的GPU选项

截至今天,基于Microsoft Azure,AWS和Google Cloud的典型实例正在使用专用GPU。常见实例家族是Azure NV(基于NVIDIA),AWS G4(基于AMD和NVIDIA GPU)和GCP(基于NVIDIA)的实例。这些实例都使用专用的“ PassThrough/dda” GPU,基于NVIDIA的实例包括NVIDIA VGPU许可证。这些实例家族中有一些机器具有多个专用GPU,支持高端工作站应用程序,例如Autodesk Vred和实时射线缩放。

(图1:具有4个专用NVIDIA TESLA T4 GPU的框架驱动实例)

这些专用的GPU实例提供了一致和高性能,因为GPU没有与他人共享。GPU框架缓冲区(内存),内核和编码器/解码器都专用于实例。不利的一面是,从基础架构的角度来看,您不能与他人共享GPU,因此可以与其他用户分享运行成本。

总体而言,与本地选项相比,在公共云中,适合DAA的GPU选项和可用的GPU板正在落后。例如,Nvidia VGPU在Azure,AWS,Google Cloud上不可用,而GPU板落后了几年。话虽如此,许多客户将这些实例用于DAA,从而受益于您的付费价格,多个云区域,灵活性在几分钟和几个小时内旋转数百或数千个VM的灵活性,等等。

It is good to note that Microsoft Azure, AWS, and Google Cloud provide access to the latest generation GPUs, but these instances are targeted for “Deep Learning” and “Computing” and not for “Virtualization/DaaS” since they don’t include the NVIDIA licenses needed for flexible Desktop as a Service.

本地部署中专用的GPU选项

在本地的DAA场景中,由于灵活性和可扩展性有限,因此使用专用GPU并不常见。将VGPU与工作站级的GPU配置文件特性一起使用更常见。

在本地部署中的虚拟GPU

“虚拟GPU”一词对不同的人意味着不同的事物。在这种情况下,这意味着虚拟机将接收由低级软件或硬件组件处理的GPU的“切片”。

“切片”,“分区”,或虚拟化GPU可以在软件,硬件或两者的组合中完成,从而导致混合方法。例如,在Nutanix AHV上运行的NVIDIA VGPU Manager软件与SR-IOV结合使用,是混合设置的一个示例。在这种情况下,可以在管理程序(例如,Nutanix AHV)级别,可以由VM使用。

AMD使用的切片技术正在利用SR-IOV,创建用于VM的虚拟功能。诸如应为每个VM提供多少GPU帧缓冲区和GPU核心等问题,以及GPU调度程序配置应超出此博客的范围。关键是要了解VGPU配置文件和虚拟功能的性能和功能,并了解NVIDIA VGPU许可选项。

如果您想了解更多有关NVIDIA VGPU软件许可以及软件提供的功能,则NVIDIA VGPU许可和包装指南是必读的。

公共云中的虚拟GPU选项

此时,公共云中只有一个虚拟GPU选项。此选项可在Microsoft Azure上找到,并由AMD提供动力。Azure NVV4实例家族由AMD Radeon Instinct MI25 GPU和AMD EPYC ROME CPU提供动力。可以在此博客文章中找到更多详细的信息。引入Azure NVV4和Nutanix框架”(请务必在此博客中查看视频;您将在WAN -100ms延迟 - 场景中使用NVV4计算机在操作中看到框架)。不幸的是,Microsoft Azure,AWS或Google Cloud中没有NVIDIA VGPU。但是,Alicloud确实支持NVIDIA VGPU。

用于工具箱的尺寸和GPU工具

重要的是要知道如何使用远程协议,操作系统和应用程序使用GPU。关键是要捕获GPU内核,框架缓冲区和编码器的利用,并在相当长的时间内捕获。有了这些信息,可以启动工作量机器的正确大小。

幸运的是,合作伙伴提供了各种解决方案,可帮助您轻松监视和捕获GPU/应用程序使用情况。示例包括Controlup,,,,液体软件,,,,湖边, 和Uberagent

除这些解决方案外,还有免费的社区工具,例如RD分析仪,GPU剖面,,,,GPU-Z,以及Windows10和Server2019/2022+中的Windows Performance Monitor

图2:使用Windows10/Server 2019+中的任务管理器提供GPU利用率见解

(图3:使用GPU Profiler运行的框架,提供GPU利用率的见解)

常见的GPU错误和避免它们的技巧

坏消息是有很多可能的错误。好消息是我分享有关如何避免它们的简单提示!

  • 错误:无需任何操作系统和应用程序用法洞察力而调整GPU。
    提示:没有用法见解的尺寸就像在黑暗中开车,没有开灯。这是危险而愚蠢的。使用工具获取此数据。
  • 错误:使用物理PC或工作站的规格,1:1将它们映射到DAAS Workload VM。
    提示:物理资源的利用通常要低得多 - 不适合峰值。同样,使用工具来获取这些利用见解来改善您的尺寸。通常,框架缓冲区是您使用GPU达到的第一个限制。
  • 错误:捕获GPU使用一小时是可以的;我很急。
    提示:捕获使用时间更长的时间,以确保数据集完成并捕获了足够的信息。
  • 错误:期望在VM中有两个GPU时,应用程序的执行速度是两倍。
    提示:99%的应用程序没有多GPU。最好使用现代的最先进的GPU。
  • 错误:我购买了Nutanix AHV部署的本地框架Nvidia Tesla GPU-我很高兴!
    提示:别忘了正确的NVIDIA VGPU软件许可证,硬件 +软件是这里的完整解决方案。
  • 错误:我们对Windows 10并使用NVIDIA VGPU配置文件的1 GB框架缓冲区完全很好。
    提示:也许您是,但是您确定吗?当您使用多个监视器,更高的分辨率,当然要求“ Power用户”应用程序的应用程序1 GB的帧缓冲区可能还不够。一个好的起点是:Windows 10具有生产力应用程序的1 GB框架缓冲区;2 GB框架缓冲区用于双监视设置;4 GB VGPU框架缓冲区,用于中等至高端图形。
  • 错误:端点设备对用户体验没有影响,因为应用程序实际上正在运行;端点只是显示设备。
    提示:端点的功能确实会影响实际的用户体验。硬件解码功能是什么?关于多个监视器和更高分辨率的功能是什么?是否可以在端点上运行最新的浏览器或框架应用程序?
  • 错误:公共云中GPU的性能和可用性。当然。没问题。
    提示:了解不同的GPU选项和GPU硬件特性,并了解资源和保证容量的可用性并不总是给定的!当您需要这些资源时,请确保在云提供商方面提高您的GPU限制。有时,提高限制可能需要几天或更长时间。

愉快的阅读!

您是否想从Nutanix中阅读有关DAA的更多信息,并发现框架与Amazon,Citrix,Microsoft或VMware有何不同?好吧,请务必检查一下这个博客呢对DAA和框架的所有事物的广泛而深刻的看法感兴趣吗?我的博客可以在一个简单的概述中可见且可见这里

Ruben Spruijt -Nutanix高级技术专家 -ruben.spruijt@nutanix.com@rspruijt

©2021 Nutanix,Inc。保留所有权利。Nutanix,Nutanix徽标以及此处提到的所有Nutanix产品和服务名称是美国和其他国家的Nutanix,Inc。的注册商标或商标。本文提到的其他品牌名称仅用于识别目的,可能是其各自持有人的商标。这篇文章可能包含指向不属于Nutanix.com一部分的外部网站的链接。Nutanix不控制这些站点,并对任何外部站点的内容或准确性不承担所有责任。这篇文章可能包含明确和暗示的前瞻性陈述,这些陈述不是历史事实,而是基于我们当前的期望,估计和信念。此类陈述的准确性涉及风险和不确定性,并取决于未来的事件,包括可能无法控制的事件,实际结果可能与此类陈述所预期或暗示的事件差异。本文所包含的任何前瞻性陈述仅在本文之日起说,除非法律要求,否则我们没有义务更新或以其他方式修改任何此类前瞻性陈述,以反映后续事件或情况。

Baidu