博客

1点击的演变......

通过 卡梅伦斯托克
| 最小值

几周前,在我们的Anaheim . next Conference的主题演讲中,Dheeraj强调了管理升级与我们的投资组合增长同时保持我们来之不易的简单运营声誉的挑战。

“五六年前,我们对两件事进行了升级——AOS和Prism。这就是增长的悖论——增长带来了复杂性。复杂性杀死增长。”

“从总体上看,升级的增长已经从半小时的操作增长到我们的一些客户在大型集群中的四到五个小时。

但这是责任的负担。它真的在照顾所有的服务器、所有的固件、所有的管理程序——所有这些工作都没有停机。”


“这次会议就是要真正从你们所有人那里得到反馈,问他们:“在最复杂的事情上表现出色意味着什么?”因为我们的画布不再是五年前的简单画布。

帆布要复杂得多,酒吧Nutanix必须带来同样的快乐从我们的现有客户和新客户,谁看不出这种复杂性在他们面前,但去做这个快10倍——就像它是五年前,是这次会议应该是什么”。

在46:57开始视频,进入一键升级的故事。

回到绘图板进行1-click

在2016年初,很明显,我们需要一种新的方式来保持我们的承诺,即简单的1-click升级,同时我们的投资组合正在扩大。很明显,值得信赖的旧设计——内置升级代码和逻辑的AOS——无法解决这个问题。当每个产品或组件都是单独的“1点击”时,我们不能坐视不管,说我们有“1点击”,因为我们一次只能执行一个组件。与此同时,随着投资组合的扩大,不同组件之间的依赖矩阵也在扩大。

我们需要速度,我们需要敏捷;我们需要捆绑升级,难以提供升级逻辑的内容,如果升级逻辑被绑定到AOS的特定版本,甚至是管理程序内核。一些客户不经常升级他们的数据或管理飞机,但软件和固件的紧急修复(思维幽灵/熔点)和/或安全补丁都厚厚而快速。这几天是一个不同的世界安全性,缓慢不再适合。

必须有更好的方法。

我们借鉴了消费者设计手册,开始像对待应用程序一样对待升级,就像智能手机一样。想象一下这样一个世界:每当开发者发布谷歌Chrome或Microsoft Outlook的新版本时,你都必须升级苹果的iOS系统——这是不可容忍的。然而,这就是企业IT已经变成的样子。你想要最新的幽灵修复吗?升级您的系统管理程序内核或数据平面,这样我们就可以添加应用这些修复程序的功能。不,谢谢。那不是我们在Nutanix的方式。

LCM - Nutanix的“新”1-click

Nutanix生命周期管理器(LCM)就是为了这个“应用程序”而创建的。最初,我们决定在2017年初在NX平台上专注于LCM支持固件升级——这是我们当时提供的产品中的一个缺口。此后,戴尔XC和联想HX也相继推出了OEM产品。HPE DX系列将在该平台于2019年第三季度发布GA时加入。在2019年,至少有四家运行Nutanix软件的不同硬件供应商的产品将能够“1键”升级固件。

回顾,我们低估了为多个制造商提供真正的'1次单击固件'按钮 - 这本身就是“10x”问题 - 这是一个没有其他公司代表“客户选择”意识形态的问题。无论硬件制作,'1次点击'经验应与尽可能多的体验。

我们本可以通过让LCM先做我们自己的软件升级来走简单的路——这是我们已经知道的——但是从固件升级中吸取的教训将使我们的软件升级比我们想象的要好得多。

在LCM第一版发布两年后,我们已经覆盖了大多数客户部署的硬件平台,用于固件升级,并继续覆盖所有OEM合作伙伴。

LCM的道路上有坎坷;例如硬件制造商的启动设备的固件质量和烦人的BIOS多次重启与Spectre/Meltdown修复导致LCM的声誉受到质疑。一些人哀叹将这样的升级应用到大型集群所花费的时间。自然地,我们承担了交付机制的责任,我们应用了这些制造商的固件,不管原因是什么,我们都承担了责任。当你的iPhone硬件坏了,你就把它拿回苹果,不管苹果用哪家制造商生产电池或内存。也很好!

如果没有这些障碍,我们就不会做出更好的LCM框架设计更改,以帮助克服这些我们无法控制的外部因素,这导致了LCM下一阶段旅程的改进设计……软件升级。

LCM现在已经为软件升级做好了准备

2019年,LCM的重点已转移到软件升级,需要从旧的AOS/Prism内置的“一次一键”转换;特别是为了解决Dheeraj在我们自己的产品线中提到的复杂性。我们想要反映云的体验,在这里保持集群的最新是不可见的——没有阅读发布说明;没有停机时间;没有问题。交付的唯一方法是将升级逻辑与需要升级的实体解耦,与数据和管理平面解耦,并与hypervisor内核解耦。

作为一个“应用程序”,LCM可以在任何必要的时候升级自己,而不管数据平面(AOS)、管理平面(Prism)或运行在客户集群上的Hypervisor版本。这种将升级逻辑与这些实体分离的方法带来了很大的灵活性。
虽然我们已经通过LCM在Prism Central支持Calm和Karbon等软件,但我们很快也会添加Buckets。此外,在Prism Element方面,我们将在未来几周开始将NCC和AHV过渡到LCM,进行升级。

介绍LCM 2.2

最新版本的LCM是第一个UI与Prism完全分离的版本,这意味着我们可以随时更新UI,包括消息和UX布局,并在每次升级LCM“应用”时刷新它而不受干扰。您仍然可以通过Prism访问LCM,但是LCM现在可以控制它自己的外观和功能,而与集群上的Prism/AOS版本无关。

因此,在LCM 2.2中,您将看到完全重新设计的UI提供不同的视图,导出功能,更好的任务信息,升级状态和工作计划。

LCM的核心原则之一是让IT管理员不必担心阅读发布说明,因此依赖性处理和显示方式也在改进。

自动处理依赖关系

LCM的神奇之处在于我们如何处理对另一个实体有需求的任何组件升级。例如,可能来自特定硬件制造商的BIOS升级也需要升级相关的BMC控制器。LCM不仅会强调这一点,还会决定应用升级的正确顺序。

下面的YouTube LCM 2.2演示演示了这个功能

在所有情况下,LCM中组件升级“模块”的创建者定义了升级过程所需的需求,LCM代表管理员对其进行编排。这包括将升级“捆绑”在一起,或者如果模块创建者允许的话,将多个重新启动组合成一个。

OEM制造商可以为LCM定义他们自己的“配方”,并决定升级的顺序,是否允许单独升级和其他合规规则。

最终,我们的目标是以真正的1键式方式提供一致性和可靠性的升级。

还有很多事要做

在我们完成整个投资组合到LCM的过渡之前,这项工作还没有完成。即便如此,我们仍需要LCM来覆盖多集群升级、节点跨集群移动、维护模式和其他实用操作、减少进行升级的时间、更好的暗站点选项、无重启升级、扩展LCM框架现有的自动升级功能,以覆盖其他组件等等……10倍的挑战还在继续!也许有一天,我们将向第三方开放LCM模块开发,扩展Nutanix基础设施之外的1-click。

为了在规模上实现此类改进,任何分布式系统都必须采取措施使其在其内部更小。例如,通过容器部署的功能和有效载荷的少迹 - 这就是为什么Nutanix已经开始在MSP / Kubernetes旅程中,我们将继续探讨使用此类技术的方法来提供更多速度的升级。AOS本身必须变小;我们通过数据平面提供的智能存储服务本身就是在CVM之上的“服务” - 完全在虚拟机管理程序内核 - 切割升级和新存储功能部署到几秒钟而不是分钟。

3层基础设施升级需要花费数月时间和数万美元的日子必须结束。管理程序和相关产品臃肿不堪的日子必须结束了,因为有几十个依赖步骤,管理员不敢进行升级。这些东西不像云。Nutanix和LCM正在努力结束这一切痛苦。

一如既往,我们将重视反馈和建议,请让他们来。最终,我们希望制作Nutanix套件,内部部署或廉政地的操作,真正'1点击'。请继续让我们诚实,帮助我们到达那里......并感谢您与我们建造LCM的客户。

前瞻性声明

此博客帖子包括关于我们正在开发的新产品功能和技术的计划和期望的前瞻性陈述,这些产品特征和技术的功能以及我们在未来发布中发布产品特征和技术的计划。这些前瞻性陈述不是历史事实,而是基于我们目前的期望,估计,意见和信仰。此类前瞻性陈述的准确性取决于未来的事件,并涉及超出我们控制的风险,不确定性和其他因素,可能导致这些陈述不准确,并导致我们的实际结果,表现或成就差异,从预期或预期的那些这些陈述暗示,包括:其中包括竞争解决方案,包括公共云基础设施的介绍或加速;行业或竞争力的动态或客户需求的转变;我们在我们的季度报告中详细说明了关于Securities和Exchange委员会的表格10-Q的报告。这些前瞻性陈述仅截至本新闻稿的日期,除非法律要求外,我们不承担更新前瞻性陈述的义务以反映实际结果或后续事件或情况。

©2019 Nutanix,Inc。保留所有权利。Untanix,Nutanix徽标和本文提到的其他Nutanix产品和特征是Nutanix,Inc。的注册商标或商标。本文提到的所有其他品牌名称仅供识别目的,可能是其各自持有人的商标。

Baidu