解决了

CVM由于磁盘错误而无法启动

  • 2020年10月15日
  • 3个答复
  • 1749年的观点

UserLevel 2
徽章 +5
  • 引导者
  • 42个答复

我对CVM的疑问是不启动的。这是在没有工作负载的半退休生产集群(非CE)上。

我在 /tmp/ntnx.serial.out.0中找到了控制台输出,我可以看到它试图启用RAID设备,扫描UUID标记并找到其中的2个,然后中止并卸载MPT3SAS内核模块,然后再尝试再次尝试5秒。在管理程序将其重置之前,这重复了几次,然后重新开始启动。

日志的最相关部分(删除了大量内核污点)是

[9.543553] SD 2:0:3:0:[SDD]附加SCSI磁盘
svmboot:=== svmboot
MDADM主:无法在Mapfile上获得独家锁定
[9.790075] MD:MD127停止。
MDADM:忽略 /dev /sdb3在报告 /dev /sda3中为失败
[9.794087] MD/RAID1:MD127:2分中有1个镜子活跃
[9.796034] MD127:检测到的容量从0到42915069952
mdadm:/dev/dev/md/phoenix:2启动了1驱动器(2分)。
[9.808602] MD:MD126停止。
[9.813330] MD/RAID1:MD126:2分中有2个镜子活跃
[9.815279] MD126:检测到的容量从0到10727981056
mdadm:/dev/dev/md/phoenix:1启动了2个驱动器。
[9.832111] MD:MD125停止。
MDADM:忽略 /dev /sdb1,因为它报告 /dev /sda1失败
[9.840436] MD/RAID1:MD125:2分中有1个镜子活跃
[9.842341] MD125:检测到的容量从0到10727981056
mdadm:/dev/dev/md/phoenix:0启动了1驱动器(2分)。
mdadm:/dev/md/phoenix:2存在 - 忽略
[9.887613] MD:MD124停止。
[9.896418] MD/RAID1:MD124:2分中有1个镜子活跃
[9.898373] MD124:检测到的容量从0到42915069952
MDADM: /dev /md124已从1驱动器开始(2分)。
mdadm:/dev/md/phoenix:0存在 - 忽略
[9.926863] MD:MD123停止。
[9.937962] MD/RAID1:MD123:2分中有1个镜子活跃
[9.939950] MD123:检测到的容量从0到10727981056
MDADM: /dev /md123已从1驱动器开始(2分)。
svmboot:检查 /dev /md for /nutanix_active_svm_partition
svmboot:检查 /dev /md123 for /nutanix_active_svm_partition

[9.994541] EXT4-FS(MD123):具有订购数据模式的已安装文件系统。选择:( null)
SVMBOOT:适当的启动分区,用/.cvm_uuid at /dev /md123

[10.009251] EXT4-FS(MD125):具有订购数据模式的安装文件系统。选择:( null)
SVMBOOT:使用/.cvm_uuid at /dev /md125适当的启动分区

svmboot:checking /dev /nvme?* p?* for /nutanix_active_svm_partition
svmboot:错误:有效的CVM_UUID: /dev /md123 /dev /md125的分区太多
SH:缺少]
SVMBOOT:在5秒内重试。

[10.430316] MD123:检测到的容量从10727981056到0
[10.432058] MD:MD123停止。
MDADM:停止 /DEV /MD123
[10.467498] MD124:检测到的容量变化从42915069952到0
[10.469245] MD:MD124停止。
MDADM:停止 /DEV /MD124
[10.507492] MD125:检测到的容量从10727981056到0
[10.509276] MD:MD125停止。
MDADM:停止 /DEV /MD125
[10.547497] MD126:检测到的容量变化从10727981056到0
[10.549243] MD:MD126停止。
MDADM:停止 /DEV /MD126
[10.577498] MD127:检测到的容量从42915069952到0
[10.579245] MD:MD127停止。
MDADM:停止 /DEV /MD127
[10.586750] ATA2.00:禁用
modprobe:删除'virtio_pci':没有这样的文件或目录
[10.673882] MPT3SAS版本14.101.00.00卸载

由于它发生在网络启动并被管理程序重置之前,我没有任何方式与VM进行交互。

如何解决?

图标

最好的答案涉水2020年10月16日,05:03

After much mucking around, I was\u00a0finally able to boot a System Rescue CD which had\u00a0access to the RAID disks so I could fix it.<\/p>

FYI - the hypervisor boots from the SATADOM but it does not have a device driver for the SAS HBA device so it cannot normally see the storage disks. The hypervisor boots the CVM which has a SAS device driver (mpt3sas), therefore all disk access is done through the CVM. The CVM boots off software RAID devices using the first 3 partitions of the SSDs.<\/p>

In my case, 2 of the software RAID devices had lost sync.<\/p>

[root@sysresccd ~]# lsscsi
[0:0:0:0] disk ATA INTEL SSDSC2BX80 0140 \/dev\/sdb
[0:0:1:0] disk ATA ST2000NX0253 SN05 \/dev\/sda
[0:0:2:0] disk ATA ST2000NX0253 SN05 \/dev\/sdc
[0:0:3:0] disk ATA ST2000NX0253 SN05 \/dev\/sde
[0:0:4:0] disk ATA ST2000NX0253 SN05 \/dev\/sdd
[0:0:5:0] disk ATA INTEL SSDSC2BX80 0140 \/dev\/sdg
[4:0:0:0] disk ATA SATADOM-SL 3ME 119 \/dev\/sdf
[11:0:0:0] cd\/dvd ATEN Virtual CDROM YS0J \/dev\/sr0
[root@sysresccd ~]# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
loop0 7:0 0 632.2M 1 loop \/run\/archiso\/sfs\/airootfs
sda 8:0 0 1.8T 0 disk
\u2514\u2500sda1 8:1 0 1.8T 0 part
sdb 8:16 0 745.2G 0 disk
\u251c\u2500sdb1 8:17 0 10G 0 part
\u2502 \u2514\u2500md127 9:127 0 10G 0 raid1
\u251c\u2500sdb2 8:18 0 10G 0 part
\u2502 \u2514\u2500md125 9:125 0 10G 0 raid1
\u251c\u2500sdb3 8:19 0 40G 0 part
\u2502 \u2514\u2500md126 9:126 0 40G 0 raid1
\u2514\u2500sdb4 8:20 0 610.6G 0 part
sdc 8:32 0 1.8T 0 disk
\u2514\u2500sdc1 8:33 0 1.8T 0 part
sdd 8:48 0 1.8T 0 disk
\u2514\u2500sdd1 8:49 0 1.8T 0 part
sde 8:64 0 1.8T 0 disk
\u2514\u2500sde1 8:65 0 1.8T 0 part
sdf 8:80 0 59.6G 0 disk
\u2514\u2500sdf1 8:81 0 59.6G 0 part
sdg 8:96 0 745.2G 0 disk
\u251c\u2500sdg1 8:97 0 10G 0 part
\u251c\u2500sdg2 8:98 0 10G 0 part
\u2502 \u2514\u2500md125 9:125 0 10G 0 raid1
\u251c\u2500sdg3 8:99 0 40G 0 part
\u2514\u2500sdg4 8:100 0 610.6G 0 part
sr0 11:0 1 693M 0 rom \/run\/archiso\/bootmnt
[root@sysresccd ~]# cat \/proc\/mdstat
Personalities : [raid1]
md125 : active (auto-read-only) raid1 sdg2[1] sdb2[2]
10476544 blocks super 1.1 [2\/2] [UU]
bitmap: 0\/1 pages [0KB], 65536KB chunk

md126 : active (auto-read-only) raid1 sdb3[2]
41909248 blocks super 1.1 [2\/1] [U_]
bitmap: 1\/1 pages [4KB], 65536KB chunk

md127 : active (auto-read-only) raid1 sdb1[2]
10476544 blocks super 1.1 [2\/1] [U_]
bitmap: 1\/1 pages [4KB], 65536KB chunk

unused devices: <none><\/code><\/pre>

I could see the RAID devices probed as sdb and sdg, with partitions 1, 2, 3 configured but only partition 2 correctly in sync. The 4th partition is used for NFS in the CVM (ie. fast storage for the cluster).<\/p>

So my solution was\u00a0<\/p>

  1. Set the devices I needed to modify back to writable mode\t
    [root@sysresccd ~]# mdadm --readwrite md126
    [root@sysresccd ~]# mdadm --readwrite md127
    [root@sysresccd ~]# cat \/proc\/mdstat
    Personalities : [raid1]
    md125 : active (auto-read-only) raid1 sdg2[1] sdb2[2]
    10476544 blocks super 1.1 [2\/2] [UU]
    bitmap: 0\/1 pages [0KB], 65536KB chunk

    md126 : active raid1 sdb3[2]
    41909248 blocks super 1.1 [2\/1] [U_]
    bitmap: 1\/1 pages [4KB], 65536KB chunk

    md127 : active raid1 sdb1[2]
    10476544 blocks super 1.1 [2\/1] [U_]
    bitmap: 1\/1 pages [4KB], 65536KB chunk

    unused devices: <none><\/code><\/pre>\t

    \u00a0<\/p>\t<\/li><\/ol>

    1. Rejoin the devices back into the RAID1 mirror and let them resync\u00a0\t
      [root@sysresccd ~]# mdadm \/dev\/md126 -a \/dev\/sdg3
      mdadm: re-added \/dev\/sdg3
      [root@sysresccd ~]# mdadm \/dev\/md127 -a \/dev\/sdg1
      mdadm: re-added \/dev\/sdg1
      [root@sysresccd ~]# cat \/proc\/mdstat
      Personalities : [raid1]
      md125 : active (auto-read-only) raid1 sdg2[1] sdb2[2]
      10476544 blocks super 1.1 [2\/2] [UU]
      bitmap: 0\/1 pages [0KB], 65536KB chunk

      md126 : active raid1 sdg3[1] sdb3[2]
      41909248 blocks super 1.1 [2\/1] [U_]
      [=========>...........] recovery = 48.5% (20361856\/41909248) finish=1.7min speed=200123K\/sec
      bitmap: 1\/1 pages [4KB], 65536KB chunk

      md127 : active raid1 sdg1[1] sdb1[2]
      10476544 blocks super 1.1 [2\/1] [U_]
      \tresync=DELAYED
      bitmap: 1\/1 pages [4KB], 65536KB chunk

      unused devices: <none><\/code><\/pre>\t
      [root@sysresccd ~]# cat \/proc\/mdstat
      Personalities : [raid1]
      md125 : active (auto-read-only) raid1 sdg2[1] sdb2[2]
      10476544 blocks super 1.1 [2\/2] [UU]
      bitmap: 0\/1 pages [0KB], 65536KB chunk

      md126 : active raid1 sdg3[1] sdb3[2]
      41909248 blocks super 1.1 [2\/2] [UU]
      bitmap: 0\/1 pages [0KB], 65536KB chunk

      md127 : active raid1 sdg1[1] sdb1[2]
      10476544 blocks super 1.1 [2\/2] [UU]
      bitmap: 0\/1 pages [0KB], 65536KB chunk

      unused devices: <none><\/code><\/pre>\t<\/li>\t
    2. As an added check, run fsck on the volumes\u00a0\t
      [root@sysresccd ~]# fsck \/dev\/md125
      fsck from util-linux 2.36
      e2fsck 1.45.6 (20-Mar-2020)
      \/dev\/md125 has gone 230 days without being checked, check forced.
      Pass 1: Checking inodes, blocks, and sizes
      Pass 2: Checking directory structure
      Pass 3: Checking directory connectivity
      Pass 4: Checking reference counts
      Pass 5: Checking group summary information
      \/dev\/md125: 62842\/655360 files (0.2% non-contiguous), 1912185\/2619136 blocks

      [root@sysresccd ~]# fsck \/dev\/md126
      fsck from util-linux 2.36
      e2fsck 1.45.6 (20-Mar-2020)
      \/dev\/md126: clean, 20006\/2621440 files, 5177194\/10477312 blocks

      [root@sysresccd ~]# fsck \/dev\/md127
      fsck from util-linux 2.36
      e2fsck 1.45.6 (20-Mar-2020)
      \/dev\/md127: clean, 66951\/655360 files, 1866042\/2619136 blocks<\/code><\/pre>\t<\/li><\/ol>

      After rebooting back into the hypervisor, the CVM came up normally.<\/p>","className":"post__content__best_answer"}">

查看原件

3个答复

UserLevel 2
徽章 +5

经过大量的困扰,我终于能够启动一个系统救援CD,该CD可以访问RAID磁盘,以便我可以修复它。

仅供参考 - 来自SATADOM的管理程序靴子,但没有SAS HBA设备的设备驱动程序,因此通常无法看到存储磁盘。管理程序启动具有SAS设备驱动程序(MPT3SAS)的CVM,因此所有磁盘访问均通过CVM完成。CVM使用SSD的前三个分区启动软件RAID设备。

就我而言,其中2个软件RAID设备失去了同步。

[root@sysresccd〜]#lsscsi
[0:0:0:0]磁盘ata intel ssdsc2bx80 0140 /dev /sdb
[0:0:1:0]磁盘ATA ST2000NX0253 SN05 /dev /sda
[0:0:2:0]磁盘ATA ST2000NX0253 SN05 /dev /sdc
[0:0:3:0]磁盘ATA ST2000NX0253 SN05 /dev /sde
[0:0:4:0]磁盘ATA ST2000NX0253 SN05 /dev /sdd
[0:0:5:0]磁盘ata intel ssdsc2bx80 0140 /dev /sdg
[4:0:0:0]磁盘ATA SATADOM-SL 3ME 119 /DEV /SDF
[11:0:0:0] cd/dvd aten虚拟CDROM ys0j/dev/sr0
[root@sysresccd〜]#lsblk
名称少校:最小RM大小RO类型Mountpoint
loop0 7:0 0 632.2m 1循环/run/archiso/sfs/airootfs
SDA 8:0 0 1.8T 0磁盘
└─SDA18:1 0 1.8T 0零件
SDB 8:16 0 745.2G 0磁盘
├─SDB18:17 0 10G 0零件
MD127 9:127 0 10G 0 RAID1
├─SDB28:18 0 10G 0零件
MD125 9:125 0 10G 0 RAID1
├─SDB38:19 0 40G 0零件
MD126 9:126 0 40G 0 RAID1
└─SDB48:20 0 610.6G 0零件
SDC 8:32 0 1.8T 0磁盘
└─SDC18:33 0 1.8T 0零件
SDD 8:48 0 1.8T 0磁盘
└─SDD18:49 0 1.8T 0零件
SDE 8:64 0 1.8T 0磁盘
└─SDE18:65 0 1.8T 0零件
SDF 8:80 0 59.6G 0磁盘
└─SDF18:81 0 59.6G 0零件
SDG 8:96 0 745.2G 0磁盘
├─SDG18:97 0 10G 0零件
├─SDG28:98 0 10G 0零件
MD125 9:125 0 10G 0 RAID1
├─SDG38:99 0 40G 0零件
└─SDG48:100 0 610.6G 0零件
SR0 11:0 1 693M 0 ROM/RUN/ARCHISO/BOOTMNT
[root@sysresccd〜]#cat /proc /mdstat
个性:[RAID1]
MD125:活动(仅自动阅读)RAID1 SDG2 [1] SDB2 [2]
10476544封锁Super 1.1 [2/2] [UU]
位图:0/1页[0KB],65536KB块

MD126:活动(仅自动阅读)RAID1 SDB3 [2]
41909248封锁Super 1.1 [2/1] [U_]
位图:1/1页[4KB],65536KB块

MD127:活动(仅自动阅读)RAID1 SDB1 [2]
10476544块超级1.1 [2/1] [u_]
位图:1/1页[4KB],65536KB块

未使用的设备:

我可以看到RAID设备探测为SDB和SDG,分区1、2、3配置了,但仅在同步中正确地分区2。第四个分区用于CVM中的NFS(即集群的快速存储)。

所以我的解决方案是

  1. 设置我需要修改为可写模式所需的设备
    [root@sysresccd〜]#mdadm-ReadWrite MD126
    [root@sysresccd〜]#mdadm-ReadWrite MD127
    [root@sysresccd〜]#cat /proc /mdstat
    个性:[RAID1]
    MD125:活动(仅自动阅读)RAID1 SDG2 [1] SDB2 [2]
    10476544封锁Super 1.1 [2/2] [UU]
    位图:0/1页[0KB],65536KB块

    MD126:Active RAID1 SDB3 [2]
    41909248封锁Super 1.1 [2/1] [U_]
    位图:1/1页[4KB],65536KB块

    MD127:Active RAID1 SDB1 [2]
    10476544块超级1.1 [2/1] [u_]
    位图:1/1页[4KB],65536KB块

    未使用的设备:

  1. 将设备重新加入RAID1镜子,让它们重新同步
    [root@sysresccd〜]#mdadm /dev /md126 -a /dev /sdg3
    MDADM:重新添加 /DEV /SDG3
    [root@sysresccd〜]#mdadm /dev /md127 -a /dev /sdg1
    MDADM:重新添加 /DEV /SDG1
    [root@sysresccd〜]#cat /proc /mdstat
    个性:[RAID1]
    MD125:活动(仅自动阅读)RAID1 SDG2 [1] SDB2 [2]
    10476544封锁Super 1.1 [2/2] [UU]
    位图:0/1页[0KB],65536KB块

    MD126:Active RAID1 SDG3 [1] SDB3 [2]
    41909248封锁Super 1.1 [2/1] [U_]
    [=========>...........] recovery = 48.5% (20361856/41909248) finish=1.7min speed=200123K/sec
    位图:1/1页[4KB],65536KB块

    MD127:Active RAID1 SDG1 [1] SDB1 [2]
    10476544块超级1.1 [2/1] [u_]
    resync =延迟
    位图:1/1页[4KB],65536KB块

    未使用的设备:
    [root@sysresccd〜]#cat /proc /mdstat
    个性:[RAID1]
    MD125:活动(仅自动阅读)RAID1 SDG2 [1] SDB2 [2]
    10476544封锁Super 1.1 [2/2] [UU]
    位图:0/1页[0KB],65536KB块

    MD126:Active RAID1 SDG3 [1] SDB3 [2]
    41909248封锁Super 1.1 [2/2] [UU]
    位图:0/1页[0KB],65536KB块

    MD127:Active RAID1 SDG1 [1] SDB1 [2]
    10476544封锁Super 1.1 [2/2] [UU]
    位图:0/1页[0KB],65536KB块

    未使用的设备:
  2. 作为额外的检查,在卷上运行FSCK
    [root@sysresccd〜]#fsck /dev /md125
    FSCK来自Util-Linux 2.36
    E2FSCK 1.45.6(20-MAR-2020)
    /dev/md125已经消失了230天,没有检查,请检查强制。
    通过1:检查inodes,块和尺寸
    通过2:检查目录结构
    通过3:检查目录连接
    通过4:检查参考计数
    通过5:检查小组摘要信息
    /dev/md125:62842/655360文件(0.2%无连锁),1912185/2619136块

    [root@sysresccd〜]#fsck /dev /md126
    FSCK来自Util-Linux 2.36
    E2FSCK 1.45.6(20-MAR-2020)
    /dev/md126:清洁,200​​06/2621440文件,5177194/10477312块

    [root@sysresccd〜]#fsck /dev /md127
    FSCK来自Util-Linux 2.36
    E2FSCK 1.45.6(20-MAR-2020)
    /dev/md127:清洁,66951/655360文件,1866042/2619136块

重新启动回到管理程序后,CVM正常出现。

你好,

感谢您的分享,这对我来说非常少,仅用于我使用Pheonix图像从Prism(Boot Repaire部分)下载的信息,以下命令不起作用。

[root@sysresccd〜]#MDADM - ReadWrite MD126

[root@sysresccd〜]#MDADM - ReadWrite MD127

我试图应用更改和这项工作(它已经在读写状态中)

最好的问候,谢谢。

如果可以访问CVM控制台。

  1. 重新启动CVM;
  2. 在grub菜单上选择“调试外壳”;
  3. 在外壳提示下做。模块。SH”(加载所需的驱动程序);
  4. 组装突袭阵列“ mdadm - 组合 - 扫描 - 运行”;
  5. 检查RAID阵列是否有两个驱动器(“ CAT /PROC /MDSTAT”);

如果将RAID阵列组装在一起,则正如前面评论中所描述的那样,将其重新组装不正确。((MDADM /DEV /MD127 -A /DEV /SDG1

重新启动CVM(来自管理程序)。

重建女士阵列有一些外部链接,例如https://www.thomas-krenn.com/en/wiki/mdadm_recovery_and_resync

回复


Baidu