棱镜界面允许调查磁盘I/O延迟。结果,提出了以下问题。
笔记:Nutanix建议不应将最大的延迟读数用作群集性能和健康的量度。平均延迟是群集性能和健康的有用度量。
生产集群的平均潜伏期应该是多少?
最大延迟应该是什么?
等待时间太高了什么意义?
如何调查高潜伏期?
考虑以下延迟调查。
最终用户对任何绩效调查的影响。如果最终用户无法测量影响,那么对绩效统计的任何研究都将揭示正常和健康的群集操作。
VM组合,当时的流量类型,写或读取大小,顺序与非顺序,读取与写作因子相对于哪些调查取决于依赖。
Nutanix群集中的延迟变量
以下几点为您提供有关Nutanix群集延迟的信息。
Nutanix提供了全闪 - 阵列节点,但该KB的焦点是两层(SSD和HDD)节点。这种两层设计旨在将常见的数据保留在主机(SSD)和信息生命周期管理(ILM)中,促进并降低了热层的数据。这提供了具有可变延迟响应的成本效益的解决方案。
范围存储:HDD和SSD共同使范围存储。但是,SSD的某些部分用于OPLOG。
OPLOG:这用于随机写入数据,其中数据是临时编写并提供快速确认的。最终将其排入一定程度的商店。
正确尺寸的群集将具有适合SSD层的工作集(WSS)。这样可以确保可从SSD获得群集上常见的数据。如果ILM正在将数据从热到冷层移动到后,则意味着该群集的大小不足,并且由于数据读取的较高的冷率命中率,将会经历更高的延迟。
从冷层(HDD -spinning磁盘)中读取的数据将比从热层读取的数据更高。
在群集中,直到数据写入两个节点(如果使用默认冗余因子2(RF2)配置)之前,在Nutanix群集上的数据写入。与单个本地写作相比,这引入了一些延迟。
非序列数据写入很小且对时间敏感。他们通常是候选人写给热门层的候选人。非顺序(随机)写入首先写入OPLOG,并最终转移到范围内商店。
如果出色的写作大于1.5 MB,则顺序写入OPLOG。在这种情况下,它直接写入范围存储。
写入大小对写的延迟有很大的影响。1 MB的写入比8 KB写入要高得多。
平均延迟与最大延迟
在Nutanix群集中的延迟变量部分介绍了高潜伏期的时期。例如,几乎瞬时的尖峰写给了HDD。
生产集群的平均潜伏期应该是多少?
这取决于集群上工作负载的类型,但是大多数工作负载应看到平均延迟报告为1至10毫秒,由于特定的流量模式,其范围为10至20毫秒(例如,顺序大块写入)。
等待时间太高了?
理想情况下,这个问题的答案是“在最终用户报告缓慢的响应时”,或者更确切地说,如果您关心较高的延迟。是否可以调查重复(如果间歇性或零星)并与最终用户一起查看是否对它们有任何影响?
高潜伏期的时期:
如果在大多数情况下的潜伏期高于10毫秒,或者一次超过20毫秒,则每次等于20毫秒。
如果有很高的尖峰,则数百至数千毫秒的延迟量很高,很可能会产生最终用户影响,并且必须进行研究。
但是,如果尖峰是瞬时且不经常出现的,则在20毫秒以上的潜伏期中的非周期性尖峰(进入低数百毫秒)的可能性更大,因为正常读取或写入冷层。如果没有最终用户影响,并且与已知的VM或网络事件没有相关性,则应忽略这些尖峰。
笔记:VM I/O潜伏期的NCC健康检查将报告200毫秒或更高的问题。
如何研究高潜伏期?
以下是您可以使用的一些方法来研究高潜伏期。使用这些适合您情况的方法:
检查WSS(棱镜中可用),以查看工作组是否太大而对于热层。
使用PRISM创建图形来检查读取延迟,并且分别编写延迟可能会有所帮助。
考虑网络:
是连接到10 GB线路率开关的主机(根据大多数Nutanix群集的要求)。特别是使用Cisco Fabric Extender开关吗?看KB 1612然后用10 GB线路速率开关替换织物扩展器。
有网络错误吗?(例如,主机NIC或开关接口上的RX错误)。电缆的变化是否可以稳定错误计数?
考虑集群的初始尺寸计划。
指定群集运行多少个VM?VM的大小和组合?您运行的VM比群集的配置更多?
将延迟事件与集群的活动相关联:
防病毒在群集上大量(或全)VMS同时扫描。
笔记:在Nutanix群集上运行防病毒软件的最佳做法是在VM上错开扫描。数据库批处理作业。读取大量冷数据的数据库应与其他节点上的其他VM隔离(尽可能),以使其热层需求不会干扰其他VM。
保护域复制。集群通常不应允许这些背景任务干扰VMS I/O要求。
其他备份任务
新的VM创作
用Nutanix支持筹集票
Nutanix支持可以调查您的性能问题。如果您有任何无法解释的延迟问题,尤其是任何具有最终用户影响的任何内容,请记录一个与Nutanix支持讨论的案例。
有关更多信息,请关注:https://portal.nutanix.com/page/documents/kbs/details?targetId=KA03200000098BBCAQ