Что диск грядущий нам готовит или жесткие диски большого объема в RAID уровней 5 и 6
Эволюция жестких дисков и грядущая революция
В 2005 году был выпущен жесткий диск с рекордным объемом 500 ГБ, использовавший технологию продольной магнитной записи. Максимально достижимая плотность данных при использовании этого метода записи составляет около 150 Гбит/дюйм². В 2007 году компания Hitachi GST представила первую в мире модель жесткого диска объемом 1 ТБ, используя технологию перпендикулярной записи, которая позволяет достичь плотности данных до 1 Тбит/дюйм². Осенью 2017 года был выпущен жесткий диск объемом 14ТБ на базе технологии черепичной магнитной записи , при которой уплотнение данных достигается за счет того, что запись дорожек производится с частичным наложением друг на друга, как черепица на крыше домов. Это можно делать, т.к. ширина области чтения меньше, чем ширина записывающей головки диска. Потенциально черепичная запись позволяет увеличить объем жесткого диска с перпендикулярной записью на 20-25%, т.к. увеличивается количество дорожек на дюйм, но эта технология имеет и существенный недостаток – пониженную и нестабильную скорость записи данных. Уже через 2 месяца в конце 2017 года был представлен 14 ТБ жесткий диск без наложения дорожек с обычной перпендикулярной записью. На момент написания статьи, этот диск является самым ёмким на рынке, хотя в 2018 году возможно появление 16 ТБ дисков на основе традиционной перпендикулярной записи.
В тоже время, 2018 год может стать революционным, как в технологиях жестких дисков, так и в росте их объемов. Оба основных игрока на рынке жестких дисков – компании Seagate и Hitachi GST (подразделение Western Digital) объявили о готовности представить до конца 2018 года первые жесткие диски на технологиях магнитной записи с энергетической поддержкой. Идея в том, чтобы использовать точечное энергетическое воздействие на магнитный слой пластины диска для снижения энергетического барьера для записи, что позволит записывающей головке намагничивать очень мелкие области. Тем самым, плотность записи может быть значительно повышена, что увеличит и емкость жесткого диска. Компания Seagate работает с технологией тепловой магнитной записи HAMR (Heat-Assisted Magnetic Recording), предварительно разогревая лазером место записи, а Hitachi GST использует технологию микроволнового воздействия на магнитный слой MAMR (Microwave-Assisted Magnetic Recording). По сведениям от производителей, использование HAMR позволит получить плотность записи до 5 Тбит/дюйм², а MAMR до 4 Тбит/дюйм². Это дает возможность создавать жесткие диски стандартного форм-фактора 3,5” объемом 20-40 ТБ и более. Маркетологами обеих компаний развернута «битва технологий», подчеркивающая свои преимущества и недостатки у конкурента, причем Hitachi GST сражается агрессивнее. Пока сложно предсказать, какая из технологий завоюет рынок, будут ли они существовать параллельно или одна из них окажется в результате победителем, но уже сейчас очевидно, что через год или менее станут доступны диски очень большого объема. Более того, в дальнейшем объемы жестких дисков будут только расти. Но почему же так важен объем единичного жесткого диска? Представим, что будет происходить, если жесткие диски объединить в RAID массив уровней 5 или 6.
Жесткие диски в RAID массивах уровней 5 и 6
RAID массивы из жестких дисков создаются для повышения производительности и отказоустойчивости дисковых подсистем серверов и систем хранения данных. Отказоустойчивость в RAID 5 и 6 достигается за счет избыточности, т.е. часть получаемого дискового хранилища используется для служебных данных четности (XOR parity), которые позволяют при выходе из строя одного или нескольких физических дисков не потерять данные всего массива. Так, в RAID массивах уровня 5, можно «потерять» один диск, а в RAID 6 - два диска при полной сохранности данных.
Если 8 шт. одинаковых физических дисков объединены в RAID 5, то «полезный» объем хранилища составит сумму емкостей 7 шт. дисков. Но зато в случае выхода из строя одного (причем любого) физического диска, данные хранилища не потеряются. При этом RAID массив перейдет в т.н. критический режим, т.е. не сможет обеспечивать отказоустойчивость, хотя данные и будут доступны. Для возвращения такого массива в отказоустойчивое состояние необходимо заменить вышедший из строя физический диск и запустить процесс восстановления массива, при котором на новый диск записываются данные, которые считываемые со всех других жестких дисков массива, а также служебные данные, вычисляемые из уже считанных.
Процесс восстановления ощутимо снижает производительность дискового хранилища, а также связан с повышенным риском, т.к. во время восстановления нет отказоустойчивости и любая ошибка диска приведет к потере всех данных хранилища. А насколько вероятно получить невосстановимую ошибку в процессе восстановления RAID массива, если у физических дисков большой объем? Давайте подробно рассмотрим ответ этот вопрос.
Невосстановимые ошибки чтения URE
В спецификациях жестких дисков производитель обычно указывает значение для количества невосстановимых ошибок чтения (уровень URE - Unrecoverable Read Error или BER - Bit Error Rate), например, URE = 1х на 1014 бит или BER = 1014 бит. Это означает, что в процессе чтения с диска указанного количества бит очень велика вероятность получить одну невосстановимую ошибку чтения, хотя до этого уже возможно были ошибки, восстановить данные при которых диску удавалось по кодам коррекции ошибок (ECC). Значение уровня URE или BER применимо и для других носителей данных:
- BD/DVD - 1x 1013 бит, т.е. 1 ошибка при чтении 1,25 ТБ данных
- Жесткие диски для ПК - 1x 1014 бит, т.е. 1 ошибка чтения 12,5 ТБ данных
- Серверные жесткие диски 7K RPM - 1x 1015 бит, т.е. 1 ошибка чтения 125 ТБ данных
- Серверные жесткие диски 10/15К RPM - 1x 1016 бит, т.е. 1 ошибка чтения 1,25 ПБ данных
- Твердотельные диски - 1x 1016-17 бит, т.е. 1 ошибка чтения 1,25-12,5 ПБ данных
- Серверные твердотельные диски - 1x 1017-18 бит, т.е. 1 ошибка чтения 12,5-125 ПБ данных
- Магнитные ленты LTO-7 - 1x 1018-19 бит, т.е. 1 ошибка чтения 125-1250 ПБ данных.
Обратите внимание, что некоторые диски для NAS и диски для видеонаблюдения имеют значении URE равное 1x 1014 бит как у дисков для персональных компьютеров (ПК). Значением URE равным 1x 1016 бит могут похвастаться лишь жесткие диски с числом оборотов шпинделя 10000-15000 в минуту, но такие диски не бывают емкими. Для дисков большого объема уровень URE равен 1x 1015 бит. Иногда производители, обычно Toshibа и WD, указывают для дисков большого объема уровень URE равный 10x 1016 бит, но это равносильно значению уровня URE 1x 1015 бит как в спецификациях у Hitachi GST или Seagate.
Если в RAID массиве уровня 5 состоящего из 8 шт. 2 TБ жестких дисков с уровнем URE равным 1x 1014, вышел из строя один диск, то для восстановления отказоустойчивости массива необходимо будет прочитать объем 7 шт. 2 TБ дисков, что составляет 14 ТБ и теоретически обеспечит сбой из-за невосстановимой ошибки чтения и полную потерю всех данных - ведь уровень URE 1x 1014 означает одну ошибку чтения на 12,5 ТБ. Очевидно, что если в массив RAID5 поставить диски бОльшего объема и увеличить их количество, то ситуация сильно ухудшится. Именно поэтому, еще в 2007 году была объявлена «кончина» RAID уровня 5, начиная с 2009 года, из-за роста единичного объема жестких дисков.
Появление емких дисков с уровнем URE равным 1x 1015 несколько улучшило ситуацию и частично «воскресило» RAID5. Так, для восстановления массива RAID5 из предыдущего примера, но построенного на дисках с уровнем URE 1x 1015 , можно без проблем прочитать 14 ТБ, т.к. уровень ошибок позволяет читать до 125 ТБ, и такой массив RAID5 из 8 шт. 2 TБ жестких дисков строить кажется оправданным. Но уже в RAID5 из 10 шт. дисков объемом 14 ТБ каждый, при восстановлении отказоустойчивости массива необходимо прочитать 126 ТБ, что выше уровня URE 1x 1015.
Из-за роста объема единичного жесткого диска, а также то, что аппаратные RAID контроллеры позволяют объединять в RAID5 и RAID6 до 32 физических дисков, даже RAID уровня 6 может оказаться подверженным сбоям во время восстановления из-за невосстановимых ошибок чтения. Аналитики уже назначили «кончину» RAID 6 на 2019 год, но попробуем разобраться подробнее.
Вероятность сбоя в процессе восстановления отказоустойчивости RAID 5 и 6
Важно понимать, что появление невосстановимой ошибки чтения – это событие вероятностное, и можно встретить отзывы, что массив RAID5 на дисках с URE 1x 1014 бит успешно прочитал более 12,5 ТБ в процессе восстановления отказоустойчивости. На самом деле, вероятность сбоя при восстановлении отказоустойчивости массива RAID5 из 8 шт. 2 TБ дисков с уровнем URE равным 1x 1014 составляет 67 %, а не 100%, как это казалось бы. См. Таблицу 1 с вероятностями сбоя при восстановлении для RAID массивов уровней 5 и 6, построенных из 8 шт. 2 ТБ жестких дисков с разным уровнем URE ниже:
Уровень URE | RAID 5 | RAID 6 |
1x 1014 | 67,34 % | 30,77 % |
1x 1015 | 10,59 % | 0,57 % |
Таблица 1
Обратите внимание, указанные выше значения не говорят о вероятности сбоя в RAID массивах 5 и 6 при их нормальной работе в отказоустойчивом режиме. Для потери данных в этом случае нужно получить одновременно 2 сбоя в массиве RAID5 и 3 сбоя в RAID6, что намного менее вероятные события. Так для RAID5 это около 0,52 %, а для RAID6 порядка 0,01%. В Таблице 1 указана вероятность сбоев именно в тот период, когда RAID массив находится в критическом режиме и идет процесс восстановления его отказоустойчивости, который при больших объемах дисков занимает очень значительное время.
Вероятность сбоя из-за невосстановимой ошибки чтения при восстановлении отказоустойчивости в RAID массивах уровней 5 и 6 вычисляется с использованием формулы Бернулли. Считаем, что в RAID массиве один диск уже вышел из строя, был заменен, и начался процесс восстановления отказоустойчивости. Вспомним, что для полной потери данных при восстановлении отказоустойчивости в RAID5 достаточно одной невосстановимой ошибки чтения, а для RAID6 двух независимых ошибок. Тогда вероятность сбоя из-за невосстановимых ошибок P будет равна:
P=n!/(k!*(n-k)!)*p^k*q^((n-k)), где
n – количество бит, которое требуется прочитать в процессе восстановления
k – количество невосстановимых ошибок чтения
p – вероятность ошибки чтения
q – равно 1-p
Ниже на графиках представлены вероятности сбоя в процессе восстановления отказоустойчивости массивов RAID уровня 5 и уровня 6 в зависимости от количества дисков (до 32 шт. в массиве), объемов дисков (1-50 ТБ) и для трех значений уровня URE (1x 1014, 1x 1015 и 1x 1016 бит). Картинки открываются крупнее по клику, линией красного цвета показаны значения для самого емкого на момент написания статьи жесткого диска объемом 14 ТБ:
Рекомендации по работе с массивами RAID уровней 5 и 6
Анализируя эти графики вероятности, с учетом перспективы революционного увеличения единичного объема жестких дисков, можно сформулировать следующие рекомендации по работе с RAID 5 и 6:
1. При проектировании RAID 5 и RAID6 необходимо всегда учитывать вероятность сбоя при восстановлении отказоустойчивости, т.к. это критически важный параметр дисковой подсистемы!
1.1. Категорически не рекомендуется использовать жесткие диски с уровнем URE 1x 1014 бит для работы в RAID 5 и в RAID6. ГК «ВИСТ» не использует в своих серверах и СХД такие диски.
1.2. Массивы RAID 5 и 6 можно строить на большом количестве дисков с уровнем URE 1x 1016 бит, т.к. такие жесткие диски имеют сегодня малый объем.
1.3. Использовать твердотельные диски с уровнем URE 1x 1016 бит в RAID массивах уровня 5 следует только с учетом их количества в массиве и их объема. Например, в RAID 5: 15 шт. SSD объемом 8 ТБ или 30 шт. SSD объемом 4 ТБ дают вероятность сбоя при восстановлении массива ~ 10%.
1.4. Использование массивов RAID уровня 6 с современными дисками большого объема может быть опасным для данных уже сейчас. Так, RAID6 из 16 шт. 14ТБ дисков с URE равный 1x 1015 имеет шанс успешно пройти процесс восстановления отказоустойчивости без потери всех данных лишь в 50% случаев.
2. При возможности, не следует ставить много дисков в массивы RAID 5 или 6. Кроме вероятности сбоя из-за невосстановимой ошибки, стоит учитывать, что время необходимое для восстановления отказоустойчивости на больших по объему дисках будет очень велико и может составить несколько суток. Действительно, чтение 10 ТБ данных при скорости 100 MБ/сек займет более суток, причем реальная скорость чтения, учитывая, что массив может продолжать работу с запросами, может оказаться намного меньше - 30-50 MБ/сек. Чем дольше идет процесс восстановления массива, тем более вероятным становится сбой из-за длительной повышенной механической нагрузки на диски.
3. Казалось бы, в складывающейся ситуации надо рассматривать возможность использования уровней RAID массивов со значением отказоустойчивости не менее N-3 (выход из строя трех дисков не приводит к потере данных). Но современные аппаратные RAID контроллеры не имеют поддержки уровней RAID с контролером четности (XOR parity) и со значением отказоустойчивости N-3, подобных, например, уровню RAID 7.3. Теоретически на аппаратном RAID контроллере можно получить отказоустойчивость N-3 и даже более, но лишь с использованием зеркалирования, например, построив RAID массив уровня 61 – RAID 6 из зеркал RAID 1. Так, в массиве RAID 61 из 8 шт. дисков по 2 ТБ, построенном как 4 зеркала из 2х дисков, данные сохранятся даже в случае выхода из строя 4х шт. любых дисков, т.е. отказоустойчивость составит N-4. Но значительным недостатком, кроме низкой скорости записи данных, у такого массива будет его полезная емкость. Она составит лишь 6 ТБ - это менее половины суммы объемов 8ми физических 2 ТБ дисков массива, что значительно удорожает дисковую подсистему, и что далеко не всегда приемлемо.
Хорошей альтернативой использованию RAID 5 и 6 могут стать RAID массивы уровней 50 и 60 – комбинация RAID 5 и 6 с RAID 0 (чередование stripe), т.е. это массивы RAID 0, построенные из нескольких RAID 5 или 6. При этом для каждого субмассива RAID 5 и 6 уровень отказоустойчивости сохраняется, соответственно, как N-1 и N-2, а отказоустойчивость RAID 50 и 60 составит, соответственно, от N-1 до N-2 и от N-2 до N-4, в зависимости от того выйдут ли из строя диски из разных субмассивах или нет. Но самое важное, что время восстановления отказоустойчивости в RAID 50 и 60 гораздо меньше, чем при больших единых массивах RAID 5 и 6, а значит и вероятность сбоя из-за ошибки при восстановлении отказоустойчивости резко уменьшается. Например, если в RAID 50 из 8 шт. дисков по 2 ТБ вышел из стоя один диск, то для восстановления отказоустойчивости массива RAID 50, достаточно будет прочитать данные только того субмассива RAID5, из которого был сбойный диск, т.е. это лишь объем 3 шт. дисков по 2 ТБ.
4. Необходимо регулярно проводить проверки жестких дисков входящих в RAID массивы 5 и 6 средствами предоставляемыми RAID контроллерами. Это проверка целостности массива - Consistency Check и проверка читаемости - Patrol Read. Процесс Consistency Check проверяет только те части дисков, где находятся данные и служебная информация четности, что позволяет судить об отказоустойчивости RAID массива, а процесс Patrol Read читает все, включая незанятые сектора диска. Если в процессах таких проверок выявляются нечитаемые сектора, то они помечаются как сбойные и более не используются в работе. Если сбойный сектор содержал данные, то они вычисляются и перезаписываются в новый сектор. Стоит отметить, что проверки необходимо проводить периодически, и можно эти задачи автоматизировать, запуская их по расписанию.
5. Регулярное резервное копирование данных с массивов RAID 5 и 6 становится еще более важным и нужным инструментом. Но, увы, как показывает практика, отсутствие восстановимых резервных копий не редкость у компаний и организаций. Если резервной копии данных нет или она устарела, то необходимо рекомендовать перед запуском процесса восстановления отказоустойчивости массивов RAID 5 и 6 сделать копию хотя бы с особо важных данных, пока они еще доступны. Чтобы процесс восстановлении отказоустойчивости RAID не начался автоматически, не рекомендуется использовать диски горячего резерва hot spare, т.к. копирование данных лучше выполнить без дополнительной нагрузки на RAID массив. Диски горячего резерва для RAID 5 и 6 на больших по объему дисках можно использовать только при наличии актуальной копии резервных данных.
6. Теоретически имеющаяся ситуация со сбоями при невосстановимых ошибках чтения в RAID5 и 6 может измениться, если:
6.1. Появятся жесткие диски большого объема с уровнем URE 1x 1016, но такие планы не обнародованы.
6.2. Появятся аппаратные RAID контроллеры с уровнем RAID 7.3 (N-3 c контролем четности), что вообще маловероятно, т.к. слишком велики накладные расходы на вычисление четности.
7. Становятся все более интересными программно-аппаратные решения для хранения данных, например, программно-определяемые СХД на основе ПО Open-E JovianDSS, где есть возможность и построить RAIDZ3 с уровнем отказоустойчивости N-3 и использовать все преимущества файловой системы ZFS.
Надеюсь эта статья поможет оценить риски, с которыми возможно придется столкнуться при работе с RAID массивами уровней 5 и 6 на дисках большого объема. Но какой же процент вероятности сбоя при восстановлении отказоустойчивости RAID массива с потерей всех данных можно считать приемлемым? Этот процент сбоя будет зависеть от ценности данных и от задач дисковой подсистемы, но, пожалуй, его значение не должно быть более 10-20% (не менее 4х успешных восстановлений массива из 5ти попыток), при обязательном условии, что имеется резервная копия данных.
Хотелось бы, чтобы представленные в статье рекомендации пригодились в практической деятельности по проектированию RAID массивов, и в работе с дисковыми подсистемами, построенными на основе RAID уровней 5 и 6.
Для получения дополнительной информации, пожалуйста, обращайтесь в наш отдел продаж.
© Александр Матвеев, 2018 Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
директор по развитию бизнеса ООО «Вист СПб»
При перепечатке и использовании этого материала
указание авторства (Александр Матвеев, 2018)
и ссылка на источник (www.vist-spb.ru) обязательны.
Похожие материалы:
Более новые статьи:
Более старые статьи:
- Расширенная гарантия Intel на серверные компоненты - 30/01/2018 17:04
- Дисковая NVMe подсистема серверов на платформе Intel Purley - 26/09/2017 14:40
- Монтажные шкафы с активным подавлением шума VIST AcoustiRACK powered by Silentium - 18/07/2017 10:34
- 10 особенностей серверных процессоров Intel Xeon E5-2600v5 - 22/02/2017 10:15
- Программно-определяемые СХД на Open-E JovianDSS и Open-E DSS V7 – выбирайте правильно - 05/12/2016 16:32