Информация – один из основных активов любой современной организации, поэтому обеспечение безопасности данных и оперативного доступа к ним относится к числу приоритетных задач, которые стоят перед компанией любого профиля.
Характеристики устройств, предназначенных для решения этих задач, непрерывно улучшаются, появляются новые схемы и архитектуры хранения данных. На что же следует обращать внимание при построении корпоративной системы работы с данными? К числу важных для пользователя характеристик относится не только емкость, быстродействие аппаратных средств и их стоимость, но и масштабируемость решения, простота его администрирования и возможность мультиплатформенного функционирования.
Универсальной методики построения корпоративной системы хранения данных, которая подошла бы всем или хотя бы большинству компаний, не существует. В каждом случае этот вопрос должен решаться строго индивидуально. Однако есть основные принципы и схемы, задающие общие контуры организации работы с информацией и определяющие основные типы корпоративных систем. Только после того как организация выбрала одну из возможных архитектур, следует переходить к выбору конкретных моделей аппаратных средств.
Оборудование, входящее в состав системы хранения данных, имеет множество характеристик, и главную среди них выделить весьма затруднительно: для одних приложений требуется большая пропускная способность, другим - большая емкость, третьим – повышенные надежность функционирования и безопасность, четвертым - быстрота подключения устройств и т.д. Только учет всех особенностей деятельности компании и ее потребностей в информационном обеспечении позволит построить соответствующую ее нуждам систему.
Рассмотрим основные типы аппаратных средств, которые могут быть частью корпоративной системы хранения данных.
RAID-системы
Самые распространенные устройства для хранения информации – жесткие диски. Их использование обеспечивает высокую скорость передачи данных. Однако у этих устройств есть значительный недостаток: они недостаточно надежны, их выход из строя – всего лишь вопрос времени. Помимо этого, у жестких дисков относительно большая стоимость хранения одного мегабайта информации, и хотя производители приводов постоянно повышают надежность выпускаемых ими изделий, по сравнению с другими аппаратными средствами она пока остается недостаточно высокой. Кроме того, в случае выхода диска из строя теряется вся находящаяся на нем информация, что недопустимо. Для сохранности данных, к которым требуется организовать быстрый доступ, применяются RAID-массивы. Эта технология, разработанная в 1987 г., предполагает создание быстродействующей и отказоустойчивой системы, использующей при этом стандартные жесткие диски. Основная идея заключается в следующем: данные разбиваются на блоки, каждый из которых записывается на отдельный диск, параллельно с операцией записи вычисляется контрольная сумма, впоследствии хранящаяся в отведенном для этого месте. «Поблочное» хранение информации позволяет одновременно проводить несколько операций считывания/записи, что значительно увеличивает производительность дисковой подсистемы, а наличие контрольных сумм делает возможным полное восстановление информации в случае поломки одного из накопителей.
Существуют различные способы реализации RAID-систем, называемые также уровнями RAID. Самые популярные уровни 0, 1, 3 и 5. А самый производительный уровень – RAID 0, но он не обеспечивает избыточного хранения данных, в нем поблочно разбитые данные записываются на массив жестких дисков, и при выходе из строя одного из накопителей вся информация теряется. Реализация RAID-системы уровня 0 применима в тех случаях, при которых требуется быстрая передача большого объема данных (область мультимедиа) и когда параллельно существует сильное решение резервного копирования данных.
Уровень RAID 1 – антипод нулевого уровня. Вся информация одного диска зеркально отображается на другом (данные на блоки не разбиваются). В случае сбоя не надо затрачивать время на восстановление данных, так как пользователи могут обратиться к файлам, находящимся на другом накопителе. Такая схема хранения информации используется, в основном, в тех случаях, когда цена безопасности данных намного выше стоимости реализации системы хранения. Недостаток этого уровня – низкий коэффициент использования дискового пространства (всего 50%), и как следствие, - относительно высокая цена.
Реализация уровня RAID 3 заключается в следующем: поблочно разбитая информация записывается на накопитель, а вычисляемые контрольные суммы хранятся на выделенном диске. При сбое одного из дисков с информацией, запускается механизм восстановления, использующий специальные алгоритмы и контрольные суммы. В случае поломки выделенного накопителя система продолжает работать, но уже не обеспечивает отказоустойчивости. Уровень RAID 3 имеет высокую производительность при считывании данных, так как в этом режиме не происходит обращений к накопителю, хранящему контрольные суммы. Этот уровень имеет высокий коэффициент использования дискового пространства и потому относительно низкую стоимость.
В RAID-системах уровня 5 контрольные суммы записываются не на отдельный диск, а циклически по всему массиву. В случае сбоя любого диска данные восстанавливаются при помощи информации, находящейся на остальных накопителях. Кроме того, отсутствие выделенного диска для хранения контрольной информации дает возможность параллельно производить несколько операций записи (например, уровень RAID 3 таким свойством не обладает). RAID 5 имеет достаточно высокую скорость записи/считывания и малую избыточность. Реализация этого уровня – оптимальный вариант для web-серверов и серверов баз данных.
Существует несколько способов построения RAID-систем, самый неэффективный и дешевый – программный способ: OC Windows NT и Novell NetWare позволяют реализовать уровни 0 и 1. Из-за высокой загрузки центрального процессора сервера и большой вероятности потери всех данных при сбое подобное решение практически не применяется. Для повышения надежности, производительности и масштабирования RAID-систем, их строят на основе контроллеров, устанавливаемых в один из слотов расширения сервера. Применение подобных устройств, в частности, позволяет заменять и добавлять диски без потери данных. К недостаткам внутренних контроллеров относится их привязка к определенной платформе и ОС, а также зависимость от состояния сервера.
Самые производительные и надежные RAID-системы – внешние. Они могут быть собраны на основе внешнего контроллера или представлять собой законченное решение. Для настройки внешнего RAID-массива не нужны драйверы, а вышедшие из строя диски легко заменяются. Внешнюю RAID-систему и сервер, к которому она подключена, можно разнести на значительное расстояние, что спасает информацию в том случае, если в помещении, где установлен сервер, произойдет ЧП.
Роботизированные библиотеки
У RAID-решений много плюсов, однако, хранить на них редко используемую информацию экономически нецелесообразно. Бывают ситуации, когда к некоторым файлам пользователи не обращаются несколько месяцев подряд, а потом количество обращений к ним резко возрастает. Такое нередко происходит при работе с электронными архивами. Чтобы удешевить стоимость хранения данных и при этом иметь возможность быстро обратиться к любому файлу, применяют роботизированные библиотеки.
Библиотеки могут быть магнитооптическими (МО), оптическими (на CD или DVD) или стримерными (ленточными). Все они имеют сходное строение, в их состав входят приводы, занимающиеся чтением/записью данных на носители, слоты и робототехника (jukebox mechanism), которая меняет в приводах носители информации и распределяет их по слотам. Возможность автоматической смены носителей сводит к минимуму необходимость обслуживания хранилища данных системным администратором. Библиотеки могут иметь емкость до нескольких терабайт (модели с такой емкостью уже несколько лет присутствуют на рынке), причем возможность замены записанных носителей на пустые делает объем информации, с которым могут работать библиотеки, поистине огромным.
Большое преимущество библиотек заключается в том, что они позволяют организовать систему структурированного хранения данных. С помощью специального программного обеспечения дисковый массив сервера и библиотека объединяются в единый логический том. Наиболее часто используемые файлы находятся на накопителях первичного устройства хранения (т.е. сервера), редко запрашиваемые – вторичного устройства (библиотеки). При смене фактического местонахождения файла (смена уровня устройств), его логическое положение остается прежним, а именно к нему и обращаются приложения. Подобная «миграция» обеспечивает (более или менее) оперативный доступ ко всем файлам: если сетевому пользователю понадобятся данные, находящиеся в библиотеке, для их получения ему придется подождать не более одной минуты.
Библиотеки применяются не только как вторичные хранилища данных, но и как устройства для резервного копирования. Этому способствует возможность выемки из них носителей информации для последующего хранения в безопасном месте (например, банковском сейфе).
Сегодня основная борьба за право стоять в серверных комнатах компаний ведется между магнитооптическими и стримерными библиотеками. Их технические параметры намного лучше, чем у оптических собратьев, которые характеризуются медленной скоростью чтения/записи и относительно небольшим объемом носителя. Как правило, оптические библиотеки применяются для хранения архивов, в которые уже не потребуется вносить изменений, например, отчеты за прошедший год. Самое большое достоинство таких библиотек – распространенность технологии и низкая стоимость хранения одного мегабайта информации.
Стримеры
Если объем файлов организации не требует приобретения роботизированной библиотеки, то проблема резервного копирования решается с помощью накопителей на магнитной ленте или стримеров (у нас в стране часто используются и МО-приводы). Технология записи информации на магнитную ленту существует уже несколько десятков лет и постоянно совершенствуется. Если первые устройства имели низкую скорость передачи данных и требовали частого ухода, то сейчас состояние дел существенно изменилось. Например, технология DLT (разработчик компания Quantum) позволяет передавать данные со скоростью до 12 Мбайт/с, кроме того, при записи информации головка привода не касается ленты, что увеличивает срок службы картриджа и снимает необходимость в частой профилактической чистке устройства. Недостаток хранения данных на магнитной ленте заключается в отсутствии общепризнанного формата записи. Каждый крупный производитель имеет собственную технологию записи, поэтому, как правило, картридж и привод от различных производителей несовместимы.
С ростом локальной сети увеличивается и количество данных, которые требуется каждодневно резервировать. Емкости одного картриджа может не хватить. В таких случаях применяются стримерные автозагрузчики. Их устройство сходно с устройством электронных библиотек, но они значительно меньше, количество слотов для носителей не превышает десятка. Программное обеспечение позволяет полностью автоматизировать процесс резервного копирования, что дает возможность решить проблему пропущенных сеансов архивирования информации и устранить воздействие человеческого фактора.
Новые веяния
Описанные системы хранения данных основаны на архитектуре «клиент-сервер». Как правило, в сети есть несколько серверов, каждый из которых имеет свои собственные хранилища данных. В большинстве компаний топология локальной сети представляет собой ромашку: внутреннее кольцо составляют серверы, к которым подключены рабочие станции и системы хранения данных. В этом случае доступ к информации, которую «курирует» какой-либо сервер, может быть весьма медленным (даже при малом количестве запросов), поскольку сам сервер обычно несет высокую нагрузку. Кроме того, в случае выхода сервера из строя, оказывается закрытой вся информация на присоединенных к нему устройствах хранения. В этих условиях использование привычной архитектуры становится неудобным и слишком дорогим. Предприятие вынуждено постоянно увеличивать пропускную способность сети и подключать к серверам все новые дисковые массивы. Следует отметить, что классическая архитектура неудобна для резервного копирования большого объема данных, так как при этом сильно возрастает нагрузка на локальную сеть, и эффективная работа пользователей становится невозможной. В принципе, можно использовать нерабочее время, но иногда требуется обеспечить беспрерывную работу приложения 24 часа в сутки, 365 дней в году.
Описанные проблемы (или хотя бы часть из них) могут быть решены двумя новыми архитектурами хранения данных SAN и NAS.
SAN
Storage Area Network (SAN) – это выделенная сеть, предназначенная для высокоскоростного соединения серверов и устройств хранения данных, таких как дисковые массивы, стримерные и магнитооптические накопители, и др. SAN позволяет любому серверу получить доступ к любому накопителю, не загружая при этом ни другие серверы, ни локальную сеть. Кроме того, возможен обмен данными между накопителями без участия серверов. Для подключения к сети SAN используется протокол Fibre Channel.
Структуру сети SAN можно представить следующим образом: мощные массивы накопителей объединяются высокоскоростными каналами в кольцо, являющееся центром корпоративной системы, к которому подключается кольцо серверов, а к нему, в свою очередь, - всевозможные рабочие станции. Получается, что серверы и устройства хранения данных связаны не по классическому принципу «один-к-одному», а по принципу «многие-ко-многим». Серверы приложений и баз данных связаны как с SAN, так и с локальной и глобальной сетями. Это обеспечивает гибкость в управлении памятью и эффективность ее использования. Ресурсы для хранения данных можно легко распределять между серверами, приложениями и пользователями, производить дублирование данных на нескольких дисковых массивах, перераспределять данные, не загружая сеть. SAN обеспечивает эффективное наращивание и масштабирование системы хранения данных компании.
Подключение новых устройств происходит с минимальным влиянием на скорость работы серверов и других компонентов сети. Недостаток нового подхода заключается в необходимости применения мощных дисковых массивов, по сути представляющих собой специализированные компьютеры, предназначенные для выполнения операций с дисками. SAN позволяет отказаться от применения большого числа небольших накопителей в пользу нескольких крупных дисковых массивов и библиотек, что зачастую оказывается дешевле.
Для того чтобы обеспечить серверам, находящимся в различных местах, прямой доступ к большому объему данных, SAN требует точной настройки. Эта сеть также обеспечивает прямую связь между устройствами хранения, например, между RAID-массивами или между дисковым массивом и стримерной библиотекой. Кроме того, SAN дает возможность совместного использования информации на различных платформах. В основе сетей SAN лежит протокол Fibre Channel – высокоскоростная технология последовательного соединения, имеющая много общих черт с широко распространенным протоколом SCSI. В частности, серверы и приложения «видят» накопители, подключенные к SAN, как локальные ресурсы. Fibre Channel допускает применение как медных, так и волоконно-оптических кабелей. В случае использования первых, максимальное расстояние между устройствами может достигать 30 м, вторых – 10 км (при использовании длинноволновых лазеров). Fibre Channel поддерживает передачу данных со скоростью 1 Гбит/с. Способность быстро передавать данные на расстояние в несколько километров – весьма ценное качество в случае необходимости восстановления потерянной информации.
В состав сетей SAN входят такие же компоненты, как и в сети LAN (адаптеры, волоконно-оптические и медные кабели, концентраторы, коммутаторы, мосты и расширители, ПО для управления и настройки). Архитектура сетей SAN аналогична архитектуре сетей LAN. Одно из самых больших преимуществ сетей хранения данных – возможность производить резервное копирование, не загружая локальную сеть и даже сервер. К недостаткам данного способа хранения информации следует отнести возможность некорректной совместной работы аппаратных средств различных производителей (следствие молодости технологии) и их относительную дороговизну, однако, несмотря на это, все ведущие ИТ-компании уже вышли на рынок со своими SAN-решениями.
NAS
NAS (Network Attached Storage) – устройство хранения данных, подключаемое к сети. NAS представляют собой независимые от операционных систем серверы хранения данных. Эта архитектура позволяет напрямую подключать устройства хранения данных к сети (т.е. фактически к концентратору, без участия сервера или ПК), встраивать непосредственно в них поддержку сетевых протоколов (например, ТСР/IР), а также использовать их в специальных приложениях, например, для хранения и передачи видеоизображения.
NAS-устройства не являются полноценными серверами, они выполняют одну специализированную задачу - менеджмент файлов, и ни для каких других целей неприменимы, и поэтому они являются тонкими серверами хранения данных. В состав NAS-серверов входит только самое необходимое – им не нужны клавиатуры, мыши, мониторы, порты ввода-вывода – это положительно сказывается на их цене. Несомненный плюс NAS-устройств – обеспечение доступа к файлам даже при отключенном основном сервере. Стоит отметить, что эти устройства нельзя называть просто накопителями, которые подключаются к сети. К самому NAS-серверу можно подключить несколько дополнительных устройств хранения. Так что суммарный объем информации, который будет «опекать» тонкий сервер, может составлять несколько сотен гигабайт, вплоть до терабайта. NAS-сервер и накопители соединяются по схеме «точка-точка». Каждый из тонких серверов взаимодействует с локальной сетью с помощью стандартных сетевых протоколов и полностью контролирует передачу данных между подключенными к нему устройствами хранения и другими узлами сети.
Устройства NAS находятся под управлением мини-ОС (как правило, это модификации Linux или FreeBSD), которая предназначена для выполнения одной функции – обслуживания файлов. Небольшой размер этой операционной системы означает более высокое быстродействие и меньшее число ошибок, допущенных при ее программировании.
Применение NAS-устройств, чье функционирование не зависит напрямую от сервера сети и установленной на нем ОС, позволяет обойти многие трудности, связанные с обеспечением мультиплатформенного доступа к данным. С любого узла сети эти устройства «видны» как Windows NT, NetWare или другие серверы, и обращение к ним не отличается от обращений к полнофункциональным серверам.
В локальной сети NAS-сервер можно использовать как первичное или вторичное устройство хранения данных, а также как совместно используемое устройство для резервного копирования. Конструкторские бюро и фирмы по разработке дизайна используют NAS-устройства в качестве недорогого решения проблемы хранения CAD/CAM и графических файлов. Кроме того, тонкий сервер можно использовать и как переносное устройство хранения, на котором могут находиться объемные графические презентации, что позволит легко их транспортировать и демонстрировать на выставках и в удаленных офисах. Как правило, быстродействие NAS-устройств находится на более низком уровне, чем у выделенных файловых серверов, однако, оно значительно выше, чем у ленточных или МО-накопителей.
Как уже говорилось, для работы NAS-устройства не требуется специального сервера. После подключения NAS-сервера к концентратору и выделения ему IP-адреса, он сразу же становится доступным для пользователей сети. Для него не требуется устанавливать какое-либо дополнительное программное обеспечение, его настройка может быть произведена из окна обыкновенного web-браузера с любого узла сети или из Интернета. За последнее время NAS-серверы значительно эволюционировали: если раньше они представляли собой небольшие коробки с жесткими дисками, то теперь это намного более функциональные устройства. Производители добавляют в них функции поддержки служб протокола динамического конфигурирования узла (DHCP), системы безопасности, возможность организации RAID-массивов, web-серверы и т.д., тем самым, стирая границы между сетевыми устройствами памяти, традиционными серверами и серверными системами.
Подводя итоги этого обзора, можно констатировать, что существует множество способов создания систем хранения данных, а эффективное решение для конкретной компании может быть только одно. Чтобы найти требуемое решение, нужно быть настоящим профессионалом и обработать огромное количество разнообразной информации.