A очень большая база данных, (изначально написано очень большая база данных ) или VLDB - это база данных, которая содержит очень большой объем данных, настолько большой, что может потребоваться специализированная архитектура, методы управления, обработки и обслуживания.
Расплывчатые прилагательные очень и большой e допускают широкую и субъективную интерпретацию, но попытки определить метрику и порог предпринимались. Ранними показателями были размер базы данных в канонической форме через нормализация базы данных или время для полной операции с базой данных, такой как резервное копирование. Технологические усовершенствования постоянно меняют то, что считается очень большим.
Одно определение предполагает, что база данных стала VLDB, когда она «слишком велика, чтобы ее можно было поддерживать в пределах окна возможностей… время, когда база данных молчит. ".
Не существует абсолютного количества данных, на которые можно ссылаться. Например, один не может сказать, что любая база данных с более чем 1 ТБ данных считается VLDB. Этот абсолютный объем данных со временем менялся, поскольку методы компьютерной обработки, хранения и резервного копирования стали лучше подходить для обработки больших объемов данных. Тем не менее, проблемы с VLDB могут начать появляться при приближении к 1 ТБ и более чем вероятно появятся, когда будет превышено 30 ТБ или около того.
Ключевые области, где существует VLDB могут представлять проблемы, включая настройку, хранение, производительность, обслуживание, администрирование, доступность и ресурсы сервера.
Тщательная настройка баз данных, находящихся в области VLDB, необходима для устранения или уменьшения возникающих проблем базами данных VLDB.
Сложность управления VLDB может экспоненциально возрастать для администратора базы данных по мере увеличения размера базы данных.
При работе с VLDB-операциями, связанными с обслуживанием и восстановлением, такими как реорганизация базы данных и копирование файлов, которые были весьма практичны для не-VLDB, стали требовать очень много времени и ресурсов для базы данных VLDB. В частности, обычно невозможно достичь типичного целевого времени восстановления (RTO), максимального ожидаемого времени, в течение которого база данных будет недоступна из-за прерывания, методами, которые включают копирование файлов с диска или других архивов хранилища. Для решения этих проблем такие методы, как кластеризация, клонированные / реплицируемые / резервные базы данных, моментальные снимки файлов, моментальные снимки хранилища или диспетчер резервного копирования, могут помочь достичь RTO и доступности, хотя отдельные методы могут иметь ограничения, оговорки, требования к лицензии и инфраструктуре, в то время как некоторые может привести к потере данных и не достичь целевой точки восстановления (RPO). Для многих систем могут быть приемлемы только географически удаленные решения.
Лучшая практика состоит в том, чтобы архитектура резервного копирования и восстановления строилась с точки зрения общей доступности и решения для обеспечения непрерывности бизнеса.
При той же инфраструктуре обычно может происходить снижение производительности, то есть увеличение времени ответа по мере увеличения размера базы данных. Некоторые обращения просто будут иметь больше данных для обработки (сканирования), что займет пропорционально больше времени (линейное время ); в то время как индексы, используемые для доступа к данным, могут немного вырасти в высоту, что может потребовать дополнительного доступа к хранилищу для доступа к данным (сублинейное время ). Другие эффекты могут заключаться в том, что кеширование становится менее эффективным, поскольку может быть кэшировано пропорционально меньше данных, и в то время как некоторые индексы, такие как B +, автоматически поддерживают рост, другие, такие как хэш-таблицу, возможно, потребуется перестроить.
Если увеличение размера базы данных приводит к увеличению числа средств доступа к базе данных, может потребоваться больше серверных и сетевых ресурсов, и возрастет риск конкуренции. Некоторые решения для восстановления производительности включают секционирование, кластеризацию, возможно, с сегментированием или использование машины базы данных.
Разделение может помочь в выполнении массовых операций с VLDB, включая резервное копирование и восстановление., Массовые перемещения благодаря управлению жизненным циклом информации (ILM), уменьшая количество конфликтов, а также позволяя оптимизировать обработку некоторых запросов.
Чтобы удовлетворить потребности VLDB, база данных хранилище должно иметь низкую задержку доступа и конкуренцию, высокая пропускная способность и высокая доступность.
Увеличение размера VLDB может оказать давление на серверные и сетевые ресурсы, и может появиться узкое место, которое может потребовать инвестиций в инфраструктуру
VLDB не то же самое, что big data, однако аспект хранения больших данных может включать базу данных VLDB. При этом некоторые решения для хранения данных, поддерживающие большие данные, с самого начала были разработаны для поддержки больших объемов данных, поэтому администраторы баз данных могут не столкнуться с проблемами VLDB, с которыми могут столкнуться более старые версии традиционных СУБД.