由于ssd盘导致Ubuntu和Debian内核损坏的问题。

  • 2014年2月3
  • 8回答说
  • 1675的浏览量

徽章 +5
  • “航行者”号
  • 2回答
我们有一个NX-3050,我们经常不得不重新构建linux虚拟机的,因为他们的ext4文件系统损坏和进入只读。我们的研究指出,linux内核与SSD存在问题的文章。其他人有过这样的经历吗?如果有,你是如何解决的?


编辑:我们创建了一个绕过SSD的容器,我们还没有看到这个问题,但我们很乐意在我们的服务器上重新启用SSD。linux版本/发行版是Ubuntu 12.04.3 LTS。

我们找到了一篇与此相关的文章:http://askubuntu.com/questions/262717/ubuntu-12-04-ssd-root-frequent-random-read-only-file-system

我希望这对你们有帮助,如果你们有过这样的经历。

8回答说

徽章 +7
你在Windows或Centos上看到过类似的问题吗?从Guest OS的角度来看,它是一个HDD驱动器,不应该将其视为SSD驱动器,所以这个内核损坏bug应该无关紧要。

如果在容器中绕过SSD来修复这个问题,那将是令人惊讶的。
徽章 +4
我也注意到了类似的问题。在我们的例子中,我们有关闭的模板虚拟机,我们根据需要将它们克隆为可用的虚拟机。当运行Ubuntu 12.04 LTS时,我们开始经常遇到磁盘IO错误,这导致虚拟机被暂停,在糟糕的情况下,驱动器变成只读,正如OP报告的那样。

我们只需要一个Ubuntu应用程序,它现在运行在CentOS 6上。在相同的情况下,我们没有在CentOS中看到这个问题。
徽章 +5
@jerome

这个问题也让我们感到困惑,因为我同意客户操作系统不应该知道它们是ssd,但我们在日志中发现的错误与上面提到的错误一致。Windows还没有出现问题,而且我们还没有尝试Centos,因为我们发现在使用ssd的Centos上也出现了类似的问题(如果不是相同的话)。我们只创建了容器,应该忽略SSD的几个星期前,但到目前为止,没有任何问题。如果所有这些都失败了,我们有一个通过NFS呈现给vSphere的NAS,我们可以把我们的linux机器放在上面,有新的容器和更新的内核,事情看起来很好。

@kiboro

我很高兴我不是唯一一个这样做的人,我也很高兴听到CentOS的消息,我们可能要换了。我还是linux的新手(大约1年经验),从一开始就使用Ubuntu和Debian。你有没有向Nutanix报告过这个问题,当我第一次和他们谈论这个问题时,他们没有听说过。
徽章 +4
您是否都有失败的日志副本或屏幕截图,即/var/log/messages或/var/log/dmesg

由于hypervisor提供了一个磁盘,它对VM应该是透明的,特别是考虑到集群中的分布式文件系统是如何工作的。

是KVM、vSphere还是HyperV?
徽章 +4
我用的是Ubuntu,有一次用的是KVM下的Windows。虚拟机暂停,唯一的证据是在/var/log/libvirt/qemu中,它报告了磁盘IO错误,这是虚拟机暂停的原因。虚拟机重启正常。

在CentOS和非克隆驱动器中从未见过这个问题。

如果移除SSD层停止它(不是我试过的),那么我怀疑某种延迟问题。我想知道克隆磁盘上的写时复制是否会导致SSD缓存层短暂地出错,而旋转磁盘的运行速度足够慢,不会发生这种情况。在这一点上,可能是内核参数调整的数量级,这可能可以解释为什么CentOS没有表现出相同的行为。
徽章 +4
所有有效的思维过程。当问题发生时,检查日志将是有帮助的,是否有任何特定的事件正在进行,高磁盘IO,或VM上的某些进程?

当有一个暂停的VM时,潜在地联系支持将是一件好事,这样在最坏的情况下,支持可能能够找到根本原因。
徽章 +4
这是很久以前的事了。我们需要为一个特定的应用程序使用Ubuntu,这个应用程序现在已经被移植到我们的默认发行版CentOS上。我确实开了一张罚单,但在任何记录里都没有任何记录。Nutanix的支持也花了相当长的时间来研究它。即使使用与Ubuntu相同的设置,在CentOS下也从来没有出现过问题。
徽章 +5
我得看看能不能把日志弄出来。我现在已经把所有东西都切换到CentOS,但我可能仍然有两个VM的存档。如果我能找到他们,我将把他们添加到这个线程。

这是在vSphere 5.1和Ubuntu是12.04.3 LTS。

@kiboro有趣的是你提到了克隆驱动器,我没有克隆我们的CentOS盒子的驱动器,但我克隆了Ubuntu的驱动器,我想知道这是否是一个因素。

移除SSD层不能工作,我们甚至在“noSSD”容器中也有一些失败。
@swatkins我们从来没有遇到过nutanix认为高的I/O,我认为我们见过的最高的是2000 iops(峰值期间)。

我联系了Nutanix,在回顾了他们建议使用VMware打开机箱的所有内容后,我们还没有考虑到这一点,因为我们切换到了CentOS(无论如何都是时候更新了)。

我最初认为这是转换机器的副作用(前nutanix,我们在hyper-v 2)

无论如何,我将尝试找到日志,但我们认为这是解决了,因为CentOS为我们工作。

谢谢大家! !

回复


Baidu