服务器、存储、网络产品购买热线:400-860-6708 ERP、管理软件购买热线:400-018-7700云服务产品销售热线:400-607-6657
您当前所在位置:首页 > 支持下载 > 自助服务 > 常见问题 > 服务器

Intel S4510 S4610 1.92T 3.84T SSD掉盘问题

发布时间: 2019年12月17日

问题描述

intel S4510 1.92T&3.84T SSD FW存在一个严重BUG,会导致服务器掉盘或OS报错。

涉及范围

FW为XCV10100的intel S4510&S4610 1.92T&3.84T SSD,PN如下

V023105000000000  S4510  1.92T

V023102000000000  S4510  3.84T

V023123000000000  S4610  1.92T

处理方案

1、在线还可以识别的硬盘,升级fw解决,需要升级硬盘FW至XCV10110,升级方法与raid卡搭配有关。

XCV10110_XBUB0008_signed.bin文件MD5值如下,升级前请使用以下命令确认MD5值相同:

#md5sum XCV10110_XBUB0008_signed.bin
258CEEC92F6284907770BBD4E5F0BBF4

注:根据配置的raid卡型号选择升级方案,需要在线升级的联系后台技术支持咨询升级方案;

RAID卡

YZCA-00389-102

RAID卡_INSPUR_ PM8060_2GB_SAS12G_PCIE3.0

YZCA-00582-103

RAID卡_INSPUR_SAS3108_4GB_SAS12G_PCIE3

V020001000000000

RAID卡_L_8R0_9271-8i_1G_MSAS600_PCIE3_V2

V06B411000000013

RAID卡_L_8R0_9361-8i_1GB_HDM12G_PCIE3.0

V06B611000000013

RAID卡_L_8R0_9361-8i_2GB_HDM12G_PCIE3.0

YZCA-00424-102

SAS卡_INSPUR_SAS3008+IR+PCIE3.0

2、对于已经故障无法升级fw的硬盘,换用已经升级fw后的新编码硬盘,具体编码如下:

V023102000000000 硬盘_I_3.84KTD_SSDSC2KB038T8_T2_6_100_451 V023170000000000 硬盘_I_3.84KTD_SSDSC2KB038T8_T2_6_110_451 3.84T
V023105000000000 硬盘_I_1.92KTD_SSDSC2KB019T8_T2_6_100_451 V02316M000000000 硬盘_I_1.92KTD_SSDSC2KB019T8_T2_6_110_451 1.92T
V023123000000000 硬盘_I_1.92KTD_SSDSC2KG019T8_T2_6_100_461 V023177000000000 硬盘_I_1.92KTD_SSDSC2KG019T8_T2_6_110_461

补充说明(重要!):旧版FW的盘可能已经有异常,但是没有掉线,有隐患!!!需要结合日志判断所有老FW版本硬盘的当前状态,确认方法如下,只要有报错也需更换。

通过如下四点信息确认硬盘状态:

a)    smart信息该项为0正常: 184/B8  end-toend error detection count

b)   smart信息该项为0正常:187/BB uncorrect error count

c)     raid卡日志下看到硬盘predictive failure count为0正常;

d)   raid卡日志下看到硬盘无media error则盘正常;

smart信息查看方法(推荐使用linuxPE,已经有storcli工具,在/opt/Megasas目录)

1、 使用storcli64查看SSD在raid卡下的DID号,

./storcli64 /c0/eall/sall show

2、根据磁盘DID号,透过raid阵列去查看硬盘smart信息(确认上述两项ab两项smart信息)        smartctl -a --device=sat+megaraid,12 /dev/sdb 

(其中sdb为硬盘所属raid在OS下的盘符)

RAID卡日志在线查看方法

1、执行./storcli /c0/eall/sall show all |grep “Predictive Failure Count”  -----查看PDlist中硬盘是否有预期错误,下方为日志内容(非命令直接打印内容)

2、执行./storcli /c0 show alilog |grep “medium error“  ------查看日志历史记录是否有其它盘报错(注意区分已经掉线的盘)

故障根因

Intel S4510/S4610(2.5寸)的低版本FW(XCV10100)存在“Idle状态超过1700H掉盘”问题(此问题存在1.92T&3.84T产品)。当Intel S4510/S4610处于Idle状态(非IO读写)下,SSD内部后台会进行Nand Intel SSD D3 block温度扫描,当Idle状态达到1700H后,时间寄存器会达到上限,导致Block指针和CE芯片的偏移,从而发生Channel Hang,Channel Hang触发后会发生掉盘或media error现象。


线




×
联系我们
服务器、存储、网络产品购买热线
400-860-6708
ERP、管理软件购买热线
400-018-7700
云服务产品销售热线
400-607-6657