ESXi host slutar svara vid hög I/O
Hej,
Detta kommer nog bli ett långt inlägg men nu har jag verkligen tröttnat på mitt bekymmer. Jag har två VM's på min SATADOM den ena är min router en OpenBSD 6.2 + pf samt min Linux jumphost. När jag skickar mycket trafik genom min router så rasslar följande i loggen på ESXi:
2017-11-12T03:29:26.871Z cpu1:66147)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148" state in doubt; requested fast path state update...
2017-11-12T03:29:27.189Z cpu0:66147)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148" state in doubt; requested fast path state update...
2017-11-12T03:29:31.891Z cpu3:66147)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148" state in doubt; requested fast path state update...
2017-11-12T10:06:51.081Z cpu4:65565)ScsiDeviceIO: 2927: Cmd(0x439500d22cc0) 0x2a, CmdSN 0x73050 from world 65551 to dev "t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148" failed H:0x2 D:0x0 P:0x0 Invalid sense data: 0x75 0x70 0x6$
2017-11-12T10:06:51.152Z cpu4:65565)ScsiDeviceIO: 2927: Cmd(0x439500de7740) 0x2a, CmdSN 0x73051 from world 65551 to dev "t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148" failed H:0x2 D:0x0 P:0x0 Invalid sense data: 0x0 0x0 0x0.
2017-11-12T17:37:40.408Z cpu5:66147)NMP: nmp_ThrottleLogForDevice:3546: last error status from device t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148 repeated 20 times
2017-11-12T17:37:40.678Z cpu5:66147)NMP: nmp_ThrottleLogForDevice:3546: last error status from device t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148 repeated 40 times
2017-11-12T17:37:41.186Z cpu5:65566)NMP: nmp_ThrottleLogForDevice:3546: last error status from device t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148 repeated 80 times
2017-11-12T17:37:42.243Z cpu1:65562)NMP: nmp_ThrottleLogForDevice:3546: last error status from device t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148 repeated 160 times
2017-11-12T17:38:40.417Z cpu3:66034)NMP: nmp_ResetDeviceLogThrottling:3348: last error status from device t10.ATA_____SuperMicro_SSD__________________________SMC0515D95116BCC2148 repeated 18 times
Det lustiga är att detta händer också när jag flyttat min VM(s) till en intel 530 ssd. När detta inträffar är mitt nätverk som väntat väldigt ostabilt vilket är nästan alltid då de körs 30-35 andra VMs över iSCSI via mellanox kortet som också behöver nät..
Jag har följande hårdvara i min ESXi:
Moderkort: X10SDV-4C-TLN4F, Xeon-D 1518
Minne: 2x32GB DDR4 RDIMM
SSD: SuperMicro SuperDOM 32GB SATADOM 280/50 MB/s
PCI-E: Mellanox ConnectX2 10Gb
BIOS: 1.1c
OS: ESXi 6.5
Man börjar ju undra om det är moderkortet som är trasigt när det är samma problem på både SATADOM:n och 530 SSD:n. Såg att de fanns en ny BIOS, 1.2c.. morgondagens projekt. Hur som önskar jag tips om vad mer jag kan testa av er!
Mvh