Bigdata

Big Data и Hadoop — ключевые технологии для обработки больших объемов данных. Hadoop, стартовавший в 2005 году, стал основой экосистемы связанных проектов. Разработан на Java с использованием парадигмы MapReduce (от Google), которая разбивает задачи на элементарные подзадачи, выполняемые на узлах кластера с последующим объединением результатов. Используется для поисковых и контекстных механизмов высоконагруженных веб-сайтов. Основная цель — горизонтальная масштабируемость через добавление недорогих серверов.

Примеры

Поисковые системы (например, Yahoo)
Apache Spark
Apache Hive
Apache Pig
HDFS

Операции

Insert: Медленный, так как данные распределяются по узлам HDFS, требуя фрагментации и репликации для отказоустойчивости.
Select: Эффективен для аналитических запросов на больших объемах данных благодаря параллельной обработке MapReduce или Spark, но медленнее для точечных запросов.
Update: Практически невозможен или крайне медленный, так как HDFS оптимизирован для добавления данных, а обновление требует переписывания файлов.
Delete: Медленный, так как удаление данных требует изменения метаданных и реорганизации файлов в распределенной системе.

Преимущества

Высокая масштабируемость за счет добавления узлов.
Эффективная обработка больших объемов данных.
Отказоустойчивость благодаря репликации данных.

Недостатки

Медленные операции записи и обновления.
Высокая сложность настройки и управления кластером.
Не подходит для реального времени или транзакционных задач.

Последнее обновление 9 месяцев назад