S.M.A.R.T.
S.M.A.R.T. (англ. Self Monitoring Analysis and Reporting Technology — Технологія Самоконтролю, Аналізу й Звітування) — промисловий стандарт прогнозу надійності для IDE/ATA і SCSI дисководів твердих дисків (англ. HDD) та твердотілих накопичувачів (англ. SSD). Дисководи твердих дисків з функцією S.M.A.R.T. дозволяють заздалегідь попередити про можливу швидку відмову твердого диску, завдяки чому важливі дані можуть бути збережені.
Історія
Перший твердий диск із самодіагностикою був представлений у 1992 фірмою «IBM» у дискових масивах IBM 9337 для серверів AS/400, що використовували SCSI-2 диски IBM 0662. Технологія була названа Predictive Failure Analysis (PFA). Вимірювалися кілька ключових параметрів і оцінка їх велася безпосередньо у вбудованій програмі диска. Результат був обмежений одним бітом: або добре, або значення тестованого параметра сумнівне і може скоро призвести до виходу диску з ладу.
Пізніше компаніями «Compaq», «Seagate», «Quantum» та «Conner» була розроблена інша технологія, названа IntelliSafe. У ній загальним був протокол видачі інформації про стан твердого диска, але вимірювані параметри та їхні пороги кожна компанія визначала самостійно.
На початку 1995 «Compaq» запропонувала провести стандартизацію, що було підтримана «IBM», «Seagate», «Quantum», «Conner» та «Western Digital» (остання на той момент ще не мала системи стеження за параметрами твердого диска). За основу була взята технологія IntelliSafe. Спільно розроблений стандарт назвали S.M.A.R.T.
SMART I передбачав моніторинг основних параметрів і запускався тільки після команди по інтерфейсу.
До розробки SMART II долучилася Hitachi, запропонувавши методику повної самодіагностики накопичувача (extended self-test), так само з'явилася функція журналювання помилок.
У SMART III з'явилася функція виявлення дефектів поверхні і можливість їхнього відновлення «прозоро» для користувача.
Опис
SMART проводить спостереження за основними характеристиками накопичувача, кожна з яких отримує оцінку. Характеристики можна розділити на дві групи:
- параметри, що відображають процес природного старіння твердого диска (число обертів шпинделя, число переміщень головок, кількість циклів увімкнення-вимкнення);
- поточні параметри накопичувача (висота головок над поверхнею диска, число секторів, що перепризначувалися, час пошуку доріжки і кількість помилок пошуку).
Дані зберігаються в шістнадцятковому вигляді, званому «Raw value», а потім перераховуються в «value», значення, що символізує надійність щодо деякого еталонного значення. Зазвичай «value» має значення в діапазоні від 0 до 100 (деякі атрибути мають значення від 0 до 200 і від 0 до 253).
Висока оцінка говорить про відсутність змін контрольованого параметра або повільне його погіршення, низька — про можливий швидкий збій.
Значення, менше за мінімальне значення, при якому виробником гарантується безвідмовна робота накопичувача, означає вихід вузла з ладу.
Технологія SMART дозволяє здійснювати:
- моніторинг параметрів стану;
- сканування поверхні;
- сканування поверхні з автоматичною заміною сумнівних секторів надійними.
Технологія SMART дозволяє передбачати вихід пристрою з ладу в результаті механічних несправностей, що становить близько 60% від загальної кількості всіх причин[1] виходу вінчестерів із ладу. Передбачити наслідки стрибка напруги або пошкодження накопичувача в результаті удару SMART нездатний.
Атрибути SMART
Таблиця відомих атрибутів SMART має такий вигляд:
Більше значення параметра — краще | |
Менше значення параметра — краще | |
Критичний параметр — червоний фон рядка | Індикатор можливої швидкої відмови пристрою |
№ | Hex | Ім'я атрибута | Краще якщо… | Опис |
---|---|---|---|---|
01 | 01 | Raw Read Error Rate | Частота помилок при читанні даних з диска, походження яких обумовлено апаратною частиною диска. Для всіх дисків Seagate, Samsung (сімейства F1 і новіших) і Fujitsu 2,5 це — число внутрішніх корекцій даних, проведених до видачі в інтерфейс, отже на «страшенно» величезні цифри можна реагувати спокійно.[2] | |
02 | 02 | Throughput Performance | Загальна продуктивність диска. Якщо значення атрибута зменшується, то велика ймовірність, що з диском є проблеми. | |
03 | 03 | Spin-Up Time | Час розгону пакету дисків зі стану спокою до робочої швидкості. Зростає при зносі механіки (підвищене тертя в підшипнику, тощо.), також може свідчити про неякісне живлення (наприклад, осіданні напруги при старті диска). | |
04 | 04 | Start/Stop Count | Повне число циклів запуск-зупинка шпинделя. У дисків деяких виробників (наприклад, Seagate) — лічильник включення режиму енергозбереження. У полі raw value зберігається загальна кількість запусків-зупинок диска. | |
05 | 05 | Reallocated Sectors Count | Число операцій перепризначення секторів. Коли диск виявляє помилку читання/запису, він позначає сектор «перепризначеним» та переносить дані в спеціально відведену резервну область. Ось чому на сучасних твердих дисках не можна побачити bad-блоки — всі вони заховані в перепризначених секторах. Цей процес називають remapping, а перепризначений сектор — remap. Чим більше значення, тим гірше стан поверхні дисків. Поле raw value містить загальну кількість перепризначених секторів. Зростання значення цього атрибута може свідчити про погіршення стану поверхні диска. | |
06 | 06 | Read Channel Margin | Запас каналу читання. Призначення цього ознаки не документовано. У сучасних накопичувачах не використовується. | |
07 | 07 | Seek Error Rate | Частота помилок при позиціонуванні блоку магнітних головок. Чим їх більше, тим гірше стан механіки і/або поверхні твердого диска. Також на значення параметра може вплинути перегрів та зовнішні вібрації (наприклад, від сусідніх дисків у кошику). | |
08 | 08 | Seek Time Performance | Середня продуктивність операції позиціонування магнітних головок. Якщо значення атрибута зменшується (уповільнення позиціонування), то велика ймовірність проблем із механічною частиною приводу головок. | |
09 | 09 | Power-On Hours (POH) | Число годин (хвилин, секунд — у залежності від виробника), проведених у включеному стані. Як порогове значення для нього вибирається паспортний час напрацювання на відмову (MTBF — mean time between failure). | |
10 | 0A | Spin-Up Retry Count | Число повторних спроб розкручування дисків до робочої швидкості тоді, коли перша спроба була невдалою. Якщо значення атрибута збільшується, то велика ймовірність неполадок із механічною частиною. | |
11 | 0B | Recalibration Retries | Кількість повторів запитів рекалібровки у разі, якщо перша спроба була невдалою. Якщо значення атрибута збільшується, то велика ймовірність проблем із механічною частиною. | |
12 | 0C | Device Power Cycle Count | Кількість повних циклів ввімкнення-вимкнення диска. | |
13 | 0D | Soft Read Error Rate | Число помилок при читанні з вини програмного забезпечення, які не піддалися виправленню. Всі помилки мають не механічну природу та вказують лише на неправильну розмітку/взаємодію з диском програм або операційної системи. | |
184 | B8 | End-to-End error | Цей атрибут — частина технології HP SMART IV, це означає, що після передачі через кеш пам'яті буфера даних паритет даних між хостом та твердим диском не збігаються.[3] | |
187 | BB | Reported UNC Errors | Помилки, які не могли бути відновлені внутрішніми апаратними засобами. | |
188 | BC | Command Timeout | Кількість перерваних операцій у зв'язку з HDD тайм-аут. Зазвичай, це значення атрибуту має дорівнювати нулю, і, якщо значення набагато вище нуля, то, мабуть, там будуть якісь серйозні проблеми з живленням або можливе окислення кабелю передачі даних. | |
190 | BE | Airflow Temperature (WDC) | Температура повітря всередині корпусу твердого диска. Для дисків Seagate розраховується за формулою (100 - HDA temperature). Для дисків Western Digital — (125 - HDA). | |
191 | BF | G-sense error rate | Кількість помилок, що виникають внаслідок ударних навантажень. Атрибут зберігає свідчення вбудованого акселерометра, який фіксує всі удари, поштовхи, падіння та навіть неакуратну установку диска в корпус комп'ютера. | |
192 | C0 | Power-off retract count | Число циклів вимкнень або аварійних відмов (ввімкнення/вимкнення живлення накопичувача). | |
193 | C1 | Load/Unload Cycle | Кількість циклів переміщення блоку магнітних головок у паркувальну зону / в робоче положення. | |
194 | C2 | HDA temperature | Тут зберігаються покази вбудованого термодатчика для механічної частини диска — банки (HDA — Hard Disk Assembly). Інформація знімається зі вбудованого термодатчика, яким служить одна з магнітних головок, зазвичай нижня в банці. У бітових полях атрибуту фіксуються поточна, мінімальна та максимальна температура. Не всі програми, що працюють зі SMART, правильно розбирають ці поля, так що до їх показів варто ставитися критично. | |
195 | C3 | Hardware ECC Recovered | Число корекції помилок апаратною частиною диска (читання, позиціонування, передача через зовнішній інтерфейс). На дисках із SATA-інтерфейсом значення нерідко погіршується при підвищенні частоти системної шини — SATA дуже чутливий до розгону. | |
196 | C4 | Reallocation Event Count | Число операцій перепризначення. У полі «raw value» атрибута зберігається загальне число спроб перенесення інформації з перепризначених секторів у резервну область. Враховуються як успішні, так і невдалі спроби. | |
197 | C5 | Current Pending Sector Count | Число секторів, що є кандидатами на заміну. Вони не були ще визначені як погані, але зчитування з них відрізняється від читання стабільного сектора (це так звані підозрілі або нестабільні сектори). У разі успішного подальшого читання сектора він виключається з числа кандидатів. У разі повторних помилкових читань накопичувач намагається відновити його і виконує операцію перепризначення (remaping). Зростання значення цього атрибута може свідчити про фізичну деградацію твердого диска. | |
198 | C6 | Uncorrectable Sector Count | Число секторів, які не можуть бути скорегованими засобами диска. У разі збільшення числа помилок велика ймовірність критичних дефектів поверхні та/або механіки накопичувача. | |
199 | C7 | UltraDMA CRC Error Count | Число помилок, що виникають при передачі даних через зовнішній інтерфейс у режимі UltraDMA (порушення цілісності пакетів, тощо.). Зростання цього атрибута свідчить про погані (м'яті, перекручені) кабелі та погані контакти. Також подібні помилки з'являються при розгоні шини PCI, збоях живлення, сильних електромагнітних наведеннях, а іноді — і з вини драйвера. Можливо, причина в неякісному шлейфі. Для виправлення спробуйте інший шлейф або замініть на SATA шлейф без клямок, що має щільне з'єднання з контактами диска. | |
200 | C8 | Write Error Rate/ Multi-Zone Error Rate | Показує загальну кількість помилок, що з'являються при запису сектора. Показує загальну кількість помилок запису на диск. Може служити показником якості поверхні та механіки накопичувача. | |
201 | C9 | Soft read error rate | Частота появи «програмних» помилок при читанні даних з диска.
Цей параметр показує частоту появи помилок при операціях читання з поверхні диска з вини програмного забезпечення, а не апаратної частини накопичувача. | |
202 | CA | Data Address Mark errors | Number of Data Address Mark (DAM) errors (or) vendor-specific. | |
203 | CB | Run out cancel | Кількість помилок ECC. | |
204 | CC | Soft ECC correction | Кількість помилок ECC, скоригованих програмним способом. | |
205 | CD | Thermal asperity rate (TAR) | Number of thermal asperity errors. | |
206 | CE | Flying height | Висота між головкою та поверхнею диска. | |
207 | CF | Spin high current | Величина сили струму при розкручуванні диска. | |
208 | D0 | Spin buzz | Number of buzz routines to spin up the drive. | |
209 | D1 | Offline seek performance | Продуктивність пошуку під час офлайнових операцій (Drive's seek performance during offline operations.) | |
220 | DC | Disk Shift | Дистанція зміщення блоку дисків щодо шпинделя. Переважно виникає через удар або падіння. Одиниця виміру невідома. При збільшенні атрибуту диск швидко стає непрацездатним. | |
221 | DD | G-Sense Error Rate | Число помилок, що виникли через зовнішні навантаження та удари. Атрибут зберігає свідчення вбудованого датчика удару. | |
222 | DE | Loaded Hours | Час, проведений блоком магнітних головок між вивантаженням із паркувальної області в робочу область диска та завантаженням блоку назад у паркувальну область. | |
223 | DF | Load/Unload Retry Count | Кількість нових спроб вивантажень/завантажень блоку магнітних головок до/з паркувальної області після невдалої спроби. | |
224 | E0 | Load Friction | Величина сили тертя блоку магнітних головок під час його вивантаження з паркувальної області. | |
225 | E1 | Load Cycle Count | Кількість циклів переміщення блоку магнітних головок у паркувальну область. | |
226 | E2 | Load 'In'-time | Час, протягом якого привід вивантажує магнітні головки з паркувальної області на робочу поверхню диска. | |
227 | E3 | Torque Amplification Count | Кількість спроб компенсувати обертальний момент. | |
228 | E4 | Power-Off Retract Cycle | Кількість повторів автоматичного паркування блоку магнітних головок внаслідок вимкнення живлення. | |
230 | E6 | GMR Head Amplitude | Амплітуда «тремтіння» (відстань повторюваного переміщення блоку магнітних головок). | |
231 | E7 | Temperature | Температура твердого диска. | |
240 | F0 | Head flying hours | Час позиціонування головки. | |
250 | FA | Read error retry rate | Число помилок під час читання твердого диска. |
Виноски
Посилання
- Out SMART Your Hard Drive Using the smartmontools program to monitor S.M.A.R.T. values
- How S.M.A.R.T. is your hard drive?