Будущее хранения данных по мнению Phison

Будущее хранения данных по мнению Phison

Phison уже предлагает шифрование «на лету» на наших твердотельных накопителях Opal и продуктах FIPS 140-2. Как упоминалось выше, это работает, поскольку эту возможность можно запустить с данными, уже поступающими на SSD. Сжатие легко интегрируется в твердотельный накопитель и соответствует концепции модели потоковой передачи, но дает ограниченную выгоду, поскольку большинство больших данных (фотографии, видео или музыка) уже полностью сжаты. Существуют большие наборы данных, которые можно извлечь из сжатия, но этот вариант использования встречается относительно редко, поэтому его обычно делегируют выделенным серверным устройствам. Случай дедупликации нарушает модель потоковой передачи по нескольким причинам: 1) Для отслеживания хэшей каждого сектора требуется большой объем памяти. 2) SSD-накопители уже полностью работают в средах центров обработки данных, поэтому любая исследовательская работа по вводу-выводу хоста подавляется. Единственное реальное преимущество поиска SSD — это небольшое сокращение времени передачи данных по шине PCIe и снижение нагрузки на главный процессор. Напротив, стоимость твердотельных накопителей должна возрасти из-за более высоких требований к вычислительным ресурсам и дополнительной оперативной памяти. Его активная мощность также обязательно должна увеличиться. Проблему дедупликации лучше всего решить, используя запасные системные ресурсы, особенно ночью, когда люди спят, а не добавляя 10–20% SSD. Сегодня существует очень успешный тип гибридных вычислительных устройств: Smart NIC. Они сочетают в себе высокоскоростную сетевую карту (тип. 10 Гбит/с) с мощным процессором или FPGA. Хотя эта комбинация работает для сетевой карты, она не работает для хранилища. Причина очень проста. Интеллектуальная часть сетевой карты обрабатывает данные, которые уже проходят через сетевую карту на хост. Интеллектуальная сетевая карта работает хорошо, когда она может обрабатывать данные в процессе их передачи или когда интеллектуальная сетевая карта может удовлетворить спрос путем прямого доступа к ресурсам корпуса. Типичное ценностное предложение для компьютерного хранилища представлено следующим образом: SSD находится ближе к данным, освобождает полосу пропускания шины и разгружает хост-процессор. На первый взгляд кажется, что компьютерное хранилище легко продать, но это не так. Прежде всего, SSD уже использует 100% своих ресурсов и бюджета мощности для выполнения своей основной функции. Во многих случаях корпоративным твердотельным накопителям высокой плотности приходится ограничивать производительность, чтобы не превысить бюджет мощности или охлаждения. Во-вторых, твердотельные накопители обычно используют небольшие процессорные ядра, которые далеки от возможностей хост-процессора или графического процессора. В-третьих, этот эксперимент был предпринят до того, как вычислительное хранилище стало модным словечком. Одна компания попыталась объединить графический процессор и твердотельный накопитель, но в итоге это решение ухудшило обе технологии. Чтобы соответствовать требованиям графического процессора, твердотельный накопитель должен был работать очень быстро и создавать большую тепловую нагрузку на графический процессор. Графический процессор намного горячее, чем SSD, и создает значительную нагрузку на NAND. Наконец, твердотельный накопитель — это расходный материал с ограниченной пропускной способностью записи, тогда как графический процессор может работать бесконечно, пока не устареет. Применив другой подход, мы могли бы добавить более мощный процессор непосредственно в SSD. Далее мы сталкиваемся с проблемой оперативной памяти. Сегодня большинство корпоративных твердотельных накопителей поддерживают соотношение NAND/DDR 1000:1. SSD необходимо извлечь всего несколько байт за трансляцию 4K LBA, поэтому пропускная способность DDR относительно невелика. Это означает, что твердотельный накопитель может использовать DRAM более медленного качества, что снижает общую стоимость модуля. Добавление более крупного гостевого процессора к твердотельному накопителю с большим количеством памяти DDR для приложений снижает мощность, доступную для основной функции твердотельного накопителя — обеспечения ввода-вывода на основной хост. Это также увеличивает стоимость SSD, но не обеспечивает пропорционального прироста вычислительной мощности. Кроме того, существует вопрос о том, как сегодня реализуется хранилище, и его необходимо решить. Данные обычно агрегируются в RAID-массивах с несколькими дисками, поэтому ни один твердотельный накопитель не видит весь набор данных. Мы могли бы изменить способ использования хранилища, гарантируя, что каждый твердотельный накопитель всегда видит полные элементы данных и использует полную репликацию для обеспечения избыточности. Это маловероятно, поскольку эта модель не разделяет пропускную способность хранилища, если твердотельный накопитель содержит больше данных, чем необходимо в данный момент. Ленты RAID решают эту проблему, распределяя доступ таким образом, чтобы каждый последующий клиент запускался вскоре после текущего клиента. Мы могли бы расширить модель, в которой каждый твердотельный накопитель имеет полную копию набора данных, реализовав репликацию на нескольких дисках, но тогда нам нужно добавить механизм поиска и распределения нагрузки. Зеркальное отображение также требует гораздо большего объема памяти, чем простой RAID5 или RAID6. Проще говоря, способ, которым мы сегодня используем хранилище, является экономически эффективным, простым в реализации и хорошо подходит для большинства сценариев. Полное изменение инфраструктуры хранения данных, эквивалентное добавлению нескольких серверных процессоров, трудно оправдать. Несмотря на недостатки компьютерного хранилища общего назначения, есть некоторые конкретные случаи, которые имеют смысл. Это происходит, когда вариант использования хранилища отражает выигрышный вариант для Smart NIC. То есть SSD необходимо обработать данные только один раз, когда вы перемещаете их через устройство. Мы можем приравнять шифрование и сжатие к компьютерному хранению, но это несколько преувеличено. Точнее определить эти два варианта использования как онлайн-обработку или потоковую обработку данных с использованием очень простого алгоритма. Phison и один из наших клиентов разработали продукт, в котором мы нашли очень подходящее применение для SSD-накопителей. Он не требует большого объема памяти или мощности процессора и не мешает основной цели SSD — хранению данных ввода-вывода. Мы разрабатываем продукт безопасности, который использует машинное обучение для поиска признаков атаки на данные.