Mit den Intel SSDs D3-S3510 und D3-S4610 in den Varianten mit 1,92 TB und 3,68 TB kam es zu einem Firmware-Fehler, welcher Probleme nach etwa 1700 Stunden kumulierter Leerlaufzeit hervorrufen kann.
Symptome
Die Problematik kann durch schlechtere Performance und kritische Statusreports der SSD auffallen. Im Worst-Case kommt es nach etwa 1700 Stunden kumulierter Laufzeit zu einem sog. Channel Hang, welcher dafür sorgt, dass die SSD dem Bus nicht mehr antworten kann, sprich die SSD reagiert nicht mehr.
Betroffen sind SSDs mit Firmware-Version kleiner als XCV10110. Die Firmware-Version kann mithilfe des Intel SSD Data Center Tool oder des entsprechenden RAID-Manager ausgelesen werden.
Problembehebung
Die Aktualisierung der Firmware auf die aktuelle Version (mind. XCV10110) wird mithilfe des Intel SSD Data Center Tool durchgeführt und behebt die Problematik.
Sind die SSDs nicht direkt per SATA am Mainboard angeschlossen, sondern sind über einen SAS RAID-Controller oder HBA mit dem System verbunden, müssen die SSDs ggf. ausgebaut und die SSD-Firmware mithilfe eines weiteren Rechners aktualisiert werden.
Eine Ausnahme stellen dabei aktuelle RAID-Controller und HBAs der Marke Broadcom (beispielsweise LSI 9361-4i MegaRAID Controller und Broadcom SAS 9300 HBA-Series) dar, bei welchen mit aktueller Firmware das Update direkt durch den RAID-Controller bzw. HBA durchgeführt werden kann.
Vor dem Firmware-Update sollte der Server zunächst einmal aus- und wieder eingeschaltet werden (kein Neustart) und anschließend ein Backup der Daten angelegt werden.
Das Aus- und wieder Einschalten des Systems verringert die wahrscheinlich eines Ausfalls während des Anlegen des Backups drastisch, siehe Workaround.
Installation des Updates
Zunächst muss die aktuelle Version des Intel SSD Data Center Tool heruntergeladen und installiert werden.
Ein Download steht für Linux, Windows und VMware bei Intel bereit: https://downloadcenter.intel.com/de/download/29720
Nach erfolgreicher Installation kann der aktuelle Status der SSDs, die Indizes der betroffenen SSDs, sowie die installierte Firmware-Version ausgelesen werden:
isdct show -intelssd
Werden bei Nutzung eines Broadcom RAID-Controllers oder HBA wie oben beschrieben dennoch keine SSDs erkannt, so muss die Option "EnableLSIAdapater=True" gesetzt werden:
isdct set -system EnableLSIAdapter=True
Wurden die IDs (Index) der betroffenen SSDs lokalisiert, so kann das Update durchgeführt werden, wobei <INDEX> der zu aktualisierenden SSD entspricht:
isdct load -intelssd <INDEX>
Soll also beispielsweise das Update auf der SSD mit Index 4 installiert werden, so lautet der Befehl wie folgt:
isdct load -intelssd 4
Nach diesem Verfahren muss das Update für alle betroffenen SSDs durchgeführt werden.
Ist die Installation des Updates abgeschlossen, so muss der Server einmal neugestartet werden, sodass die Änderungen wirksam werden.
Im Anschluss kann nun überprüft werden, ob alle SSDs über die aktuelle Firmware verfügen:
isdct show -intelssd
Workaround
Ist eine Installation des Updates nicht direkt möglich, so kann mit einem Workaround gearbeitet werden.
Der Workaround ersetzt keinesfalls dauerhaft das oben beschriebene Firmware-Update. Es kann nicht garantiert werden, wie lange dieser Workaround die Problematik tatsächlich behebt.
Hierbei wird der Server einmal aus- und wieder eingeschaltet. Zu beachten ist dabei, dass nicht ein einfacher Neustart durchgeführt werden darf.
Das Durchführen dieser Schritte sorgt dafür, dass die etwa 1700 Stunden kumulierte Leerlaufzeit wieder erneut bei 0 beginnen.