Big Data и Hadoop — ключевые технологии для обработки больших объемов данных. Hadoop, стартовавший в 2005 году, стал основой экосистемы связанных проектов. Разработан на Java с использованием парадигмы MapReduce (от Google), которая разбивает задачи на элементарные подзадачи, выполняемые на узлах кластера с последующим объединением результатов. Используется для поисковых и контекстных механизмов высоконагруженных веб-сайтов. Основная цель — горизонтальная масштабируемость через добавление недорогих серверов.
Примеры
-
Поисковые системы (например, Yahoo)
-
Apache Spark
-
Apache Hive
-
Apache Pig
-
HDFS
Операции
-
Insert: Медленный, так как данные распределяются по узлам HDFS, требуя фрагментации и репликации для отказоустойчивости.
-
Select: Эффективен для аналитических запросов на больших объемах данных благодаря параллельной обработке MapReduce или Spark, но медленнее для точечных запросов.
-
Update: Практически невозможен или крайне медленный, так как HDFS оптимизирован для добавления данных, а обновление требует переписывания файлов.
-
Delete: Медленный, так как удаление данных требует изменения метаданных и реорганизации файлов в распределенной системе.
Преимущества
-
Высокая масштабируемость за счет добавления узлов.
-
Эффективная обработка больших объемов данных.
-
Отказоустойчивость благодаря репликации данных.
Недостатки
-
Медленные операции записи и обновления.
-
Высокая сложность настройки и управления кластером.
-
Не подходит для реального времени или транзакционных задач.