Сетка файловая система

редактировать

A Сетка файловая система - это компьютерная файловая система, цель которой улучшена надежность и доступность за счет использования множества меньших областей хранения файлов.

Содержание

1 Компоненты
2 Сравнение
3 Функции
4 Структура
5 Реализация
6 Доступность
7 Проблемы
8 Примеры
9 См. Также
10 Ссылки

Компоненты

Файловые системы содержат до трех компонентов:

Таблица файлов (таблица FAT, MFT и т. Д.)
Данные файла
Метаданные (права пользователя и т. Д.)

Файловая система сетки будет иметь аналогичные потребности:

Таблица файлов (или поисковый индекс)
Данные файла
Метаданные

Сравнения

Поскольку файловые системы спроектированы так, чтобы они представляли собой единый диск, которым может управлять один компьютер (полностью), в сценарии сетки возникает много новых проблем, когда любой отдельный диск внутри сетки должен быть способен обрабатывать запросы на любые данные. содержится в сетке.

Особенности

В большинстве хранилищ файлов используются уровни избыточности для достижения высокого уровня защиты данных (невозможность потери данных). Текущие средства резервирования включают репликацию и проверку четности. Такая избыточность может быть реализована с помощью массива RAID (при этом несколько физических дисков отображаются на локальном компьютере как один диск, который может включать репликацию данных и / или разбиение диска на разделы). Точно так же файловая система сетки будет состоять из некоторого уровня избыточности (либо на уровне логических файлов, либо на уровне блоков, возможно, включая некоторую проверку четности) для различных дисков, присутствующих в «сетке».

Framework

Прежде всего, необходим механизм файловых таблиц. Кроме того, таблица файлов должна включать механизм для поиска (целевого / целевого) файла в сетке. Во-вторых, должен существовать механизм работы с файловыми данными. Этот механизм отвечает за доступность данных файла для запросов.

Реализация

С технологией BitTorrent можно провести параллель с файловой системой сетки, в которой торрент-трекер (и поисковая система) будет "таблицей файлов" ", а торрент-приложения (передающие файлы) будут компонентом" данные файла ". Механизм RSS, подобный каналу, может использоваться узлами таблицы файлов для указания, когда в таблицу добавляются новые файлы, для запуска репликации и других подобных компонентов.

Файловая система может включать аналогичную технологию (распределенная репликация, распределенный запрос / выполнение данных).

Если бы обе такие системы (таблица файлов и данные файла) могли быть адресованы как единое целое (т. Е. С использованием виртуальных узлов в кластере), то развитие такой системы можно было бы легко контролировать, просто приняв решение который использует член сетки, будет ответственным (таблица файлов и поиск файлов и / или данные файла).

Доступность

Предполагая, что существует некоторый метод управления репликацией данных (назначение квот и т. Д.) Автономно в пределах сети, данные могут быть настроены для обеспечения высокой доступности, независимо от потери или сбоя.

Проблемы

Самая большая проблема в настоящее время связана с распространением обновлений данных. Торренты поддерживают минимальную иерархию (в настоящее время реализовано либо как метаданные в торрент-трекере, либо строго как пользовательский интерфейс и базовая категоризация). Одновременное обновление нескольких узлов (при условии, что требуются атомарные транзакции) представляет собой задержку во время обновлений и добавлений, обычно до такой степени, что это невозможно. Кроме того, файловая система grid (на основе сети) ломает традиционные парадигмы TCP / IP в том смысле, что файловая система (обычно низкоуровневая, тип операций с нулевым кольцом) требует сложных реализаций TCP / IP, вводя уровни абстракции и усложняя процесс создания. такая сеточная файловая система.

Примеры

Примеры данных с высокой доступностью включают:

Сеть балансировка нагрузки / CARP - разделение входящих запросов на несколько компьютеров, обычно настроены идентично или как единое целое.
Общее хранилище кластеризация / SAN - один диск (один или несколько физических дисков, действующих как один логический диск) предоставляется несколько компьютеров, которые разделяют входящие запросы. Обычно это используется, когда требуется больше вычислительной мощности, чем доступ к диску.
Данные репликация / зеркальное отображение - несколько компьютеров могут пытаться синхронизировать данные (обычно на определенный момент времени или на основе моментальных снимков). Чаще используется для создания отчетов (на основе последнего снимка) или резервного копирования.
Данные разделение - разделение данных между несколькими компьютерами. В базах данных данные часто разделяются на основе таблиц (определенные таблицы существуют на определенных компьютерах или таблица разделена между несколькими компьютерами в определенных «точках разрыва»)... общие файлы обычно разбиваются по категориям (папки на основе категорий), или местоположение (географически разделенное).