Join this episode for more Stories from the EUC Road as Sean Donahue (Nutanix) and Al Solorzano (E360) tackle this all too familiar question. But does it have to an \u201cOR\u201d statement? Can you have an \u201cAND\u201d statement instead? Tune in to learn more about performance in EUC, happy employees and how you might sleep better at night in the age of Malware and Ransomware.<\/p><\/oembed>

Resources<\/p>

Nutanix群集的磁盘I/O等待时间

  • 2020年9月16日
  • 0答复
  • 8277意见

UserLevel 3
徽章 +2

棱镜界面允许调查磁盘I/O延迟。结果,提出了以下问题。

笔记:Nutanix建议不应将最大的延迟读数用作群集性能和健康的量度。平均延迟是群集性能和健康的有用度量。

  • 生产集群的平均潜伏期应该是多少?

  • 最大延迟应该是什么?

  • 等待时间太高了什么意义?

  • 如何调查高潜伏期?

考虑以下延迟调查。

  • 最终用户对任何绩效调查的影响。如果最终用户无法测量影响,那么对绩效统计的任何研究都将揭示正常和健康的群集操作。

  • VM组合,当时的流量类型,写或读取大小,顺序与非顺序,读取与写作因子相对于哪些调查取决于依赖。

Nutanix群集中的延迟变量

以下几点为您提供有关Nutanix群集延迟的信息。

  • Nutanix提供了全闪 - 阵列节点,但该KB的焦点是两层(SSD和HDD)节点。这种两层设计旨在将常见的数据保留在主机(SSD)和信息生命周期管理(ILM)中,促进并降低了热层的数据。这提供了具有可变延迟响应的成本效益的解决方案。

  • 范围存储:HDD和SSD共同使范围存储。但是,SSD的某些部分用于OPLOG。

  • OPLOG:这用于随机写入数据,其中数据是临时编写并提供快速确认的。最终将其排入一定程度的商店。

  • 正确尺寸的群集将具有适合SSD层的工作集(WSS)。这样可以确保可从SSD获得群集上常见的数据。如果ILM正在将数据从热到冷层移动到后,则意味着该群集的大小不足,并且由于数据读取的较高的冷率命中率,将会经历更高的延迟。

  • 从冷层(HDD -spinning磁盘)中读取的数据将比从热层读取的数据更高。

  • 在群集中,直到数据写入两个节点(如果使用默认冗余因子2(RF2)配置)之前,在Nutanix群集上的数据写入。与单个本地写作相比,这引入了一些延迟。

  • 非序列数据写入很小且对时间敏感。他们通常是候选人写给热门层的候选人。非顺序(随机)写入首先写入OPLOG,并最终转移到范围内商店。

  • 如果出色的写作大于1.5 MB,则顺序写入OPLOG。在这种情况下,它直接写入范围存储。

  • 写入大小对写的延迟有很大的影响。1 MB的写入比8 KB写入要高得多。

平均延迟与最大延迟

Nutanix群集中的延迟变量部分介绍了高潜伏期的时期。例如,几乎瞬时的尖峰写给了HDD。

生产集群的平均潜伏期应该是多少?

这取决于集群上工作负载的类型,但是大多数工作负载应看到平均延迟报告为1至10毫秒,由于特定的流量模式,其范围为10至20毫秒(例如,顺序大块写入)。

等待时间太高了?

理想情况下,这个问题的答案是“在最终用户报告缓慢的响应时”,或者更确切地说,如果您关心较高的延迟。是否可以调查重复(如果间歇性或零星)并与最终用户一起查看是否对它们有任何影响?

高潜伏期的时期:

  • 如果在大多数情况下的潜伏期高于10毫秒,或者一次超过20毫秒,则每次等于20毫秒。

  • 如果有很高的尖峰,则数百至数千毫秒的延迟量很高,很可能会产生最终用户影响,并且必须进行研究。

但是,如果尖峰是瞬时且不经常出现的,则在20毫秒以上的潜伏期中的非周期性尖峰(进入低数百毫秒)的可能性更大,因为正常读取或写入冷层。如果没有最终用户影响,并且与已知的VM或网络事件没有相关性,则应忽略这些尖峰。

笔记:VM I/O潜伏期的NCC健康检查将报告200毫秒或更高的问题。

如何研究高潜伏期?

以下是您可以使用的一些方法来研究高潜伏期。使用这些适合您情况的方法:

  • 检查WSS(棱镜中可用),以查看工作组是否太大而对于热层。

  • 使用PRISM创建图形来检查读取延迟,并且分别编写延迟可能会有所帮助。

  • 考虑网络:

    • 是连接到10 GB线路率开关的主机(根据大多数Nutanix群集的要求)。特别是使用Cisco Fabric Extender开关吗?看KB 1612然后用10 GB线路速率开关替换织物扩展器。

    • 有网络错误吗?(例如,主机NIC或开关接口上的RX错误)。电缆的变化是否可以稳定错误计数?

  • 考虑集群的初始尺寸计划。

    • 指定群集运行多少个VM?VM的大小和组合?您运行的VM比群集的配置更多?

  • 将延迟事件与集群​​的活动相关联:

    • 防病毒在群集上大量(或全)VMS同时扫描。
      笔记:在Nutanix群集上运行防病毒软件的最佳做法是在VM上错开扫描。

    • 数据库批处理作业。读取大量冷数据的数据库应与其他节点上的其他VM隔离(尽可能),以使其热层需求不会干扰其他VM。

    • 保护域复制。集群通常不应允许这些背景任务干扰VMS I/O要求。

    • 其他备份任务

    • 新的VM创作

  • 用Nutanix支持筹集票

    • Nutanix支持可以调查您的性能问题。如果您有任何无法解释的延迟问题,尤其是任何具有最终用户影响的任何内容,请记录一个与Nutanix支持讨论的案例。

有关更多信息,请关注:https://portal.nutanix.com/page/documents/kbs/details?targetId=KA03200000098BBCAQ


该主题已关闭以供评论
Learn more about our cookies.<\/a>","cookiepolicy.button":"Accept cookies","cookiepolicy.button.deny":"Deny all","cookiepolicy.link":"Cookie settings","cookiepolicy.modal.title":"Cookie settings","cookiepolicy.modal.content":"We use 3 different kinds of cookies. You can choose which cookies you want to accept. We need basic cookies to make this site work, therefore these are the minimum you can select. Learn more about our cookies.<\/a>","cookiepolicy.modal.level1":"Basic
Functional","cookiepolicy.modal.level2":"Normal
Functional + analytics","cookiepolicy.modal.level3":"Complete
Functional + analytics + social media + embedded videos"}}}">
Baidu