目次
背景
- SSDで2つの課題がある
- 1つ目は、メインPC(OMEN 45L)のSSDがUnhealthと警告がでるようになってしまった
- 2つ目は、SSDの容量が足らない問題
- そこで、古いSSDのCheckと、新規にSSDの取り付けとそのCheckを行った
- 後々のために、その時の作業記録を残す
新規のSSD
SSDの詳細
買ったもの:
- 東芝のM.2 2280 NVMe SSD 4TB
- Thermalright製ヒートシンク

インストールが必要なもの:
| |
取り付け後の認識されるのかの確認
nvme1n1 3.6T TLD-M5B04T4 diskが新たに取り付けたSSD。
| |
- デバイス名:
/dev/nvme1n1 - 製品名:
TLD-M5B04T4 - 表示容量:3.6T
- パーティション:まだなし
- ファイルシステム:まだなし
- マウント:まだされていない
パーテーションの作成とフォーマット
GPTパーティションを作ってext4でフォーマット。
| |
手動でマウント
| |
確認:
| |
自動マウントの設定
/etc/fstab に登録すれば、毎回 /mnt/data4tb に自動マウントされるので、設定する。
UUIDのCheck。
| |
UUID=7c391bf3-9dca-4591-82fd-9f5e5ae63661 /mnt/data4tb ext4 defaults,nofail 0 2をfstabの末尾に追加する。
| |
再起動せずにテスト:
| |
sudo mount -aで何もエラーが出なければ、ほぼ成功。
mntの確認。
| |
書き込みも確認。
| |
SMART
| |
SMART結果:
- critical_warning : 0 → 重大な警告なし
- temperature : 31°C → 十分低く、ヒートシンクも問題なさそう
- available_spare : 100% → 予備領域は健全
- percentage_used : 0% → 寿命消費はほぼゼロ
- media_errors : 0 → SSD内部の読み書きエラーなし
- num_err_log_entries : 0 → NVMeエラーログなし
- unsafe_shutdowns : 0 → 異常な電源断なし
自己診断
| |
- Operation Result : 0 → エラーなく完了
- Self Test Code : 1 → 実行したのはショートテスト
- Valid Diagnostic Information : 0 → 報告すべき故障箇所なし
- Power on hours : 0 → 使用時間がまだ1時間未満、または時間単位で切り捨て表示
- Result[1]以降の0xf → 過去のテスト履歴が入っていない空き欄
結論
まず、マウントは以下になった。
- デバイス名:
/dev/nvme1n1 - パーティション:
/dev/nvme1n1p1 - マウント先:
/mnt/data4tb
新品買ったから当たり前だが、健康状態は以下の結果になった:
- 重大な警告: なし
- 温度: 31℃
- 寿命消費: 0%
- メディアエラー: 0
- NVMeエラー: 0
- 自己診断: 正常終了
既存の壊れかけのSSD
エラーメッセージ
以下の警告が出るようになってしまった。

SMART
| |
NVMe専用コマンドでCheck
| |
システムログのチェック
今の所、マザーボード側やPCIeリンク側で現在進行中の通信障害はなし。
| |
こっちも念の為。
| |
PCIe接続のCheck
| |
AERのエラーカウンター
こっちも+が多いとエラー。
| |
AI診断のまとめ
| 項目 | 判定 |
|---|---|
| PCIe Gen4 x4リンク | 正常 |
| MSI-X割り込み | 正常 |
| Fatal/Non-Fatal PCIeエラー | なし |
| 過去の訂正可能PCIeエラー | あり |
| 過去のUnsupported Request | あり |
| カーネルのNVMe timeout/reset | なし |
| SSD内部SMART | FAILED |
| SSD内部メディアエラー | 7件 |
PCIeに軽微な履歴はあるものの、現時点でSSDのSMART故障をマザーボード側だけの問題として説明できる材料はなし。
結論
ログ:
- PCIeリンク:正常
- MSI-X割り込み:正常
- Gen4 x4速度:正常
- カーネルのtimeout/reset/I/O error:なし
- SSD内部SMART:FAILED
- Media/Data Integrity Errors:7
- Critical Warning:0x04
問題:
- Critical Warning: 0x04
- SMART overall-health: FAILED
- NVM subsystem reliability has been degraded
詳細:
0x04はNVMe規格の Reliability Degraded(信頼性低下) を意味する。- つまり、SSD自身が、重大なメディア関連エラーまたは内部エラーによって信頼性が低下したと判定
Media and Data Integrity Errors: 7は、SSDコントローラーが回復できなかったデータ整合性エラーを7回検出したという事
つまり、書き込み寿命を使い切ったわけではなく、比較的新しい状態なのにNAND、コントローラー、ファームウェアなどの内部障害が起きている可能性がある。
まとめ
- 壊れかけのSSDも交換しよう
- pushしていないリポジトリはすべてpushするようにしよう
