Apache Hadoop — это фреймворк для распределенной обработки больших объемов данных на кластерах компьютеров, использующих простые модели программирования. Он спроектирован для масштабирования от одиночных серверов до тысяч машин, каждая из которых предоставляет локальные вычисления и хранение данных. Hadoop является одним из основных технологических решений для Big Data.
Основные компоненты Apache Hadoop:
- Hadoop Common: Набор общих утилит и библиотек, которые поддерживают другие модули Hadoop.
- Hadoop Distributed File System (HDFS): Файловая система, предназначенная для хранения данных в виде блоков в распределенной системе.
- Hadoop YARN: Платформа для управления ресурсами кластера, которая определяет как, когда и где к запуску приложений в кластере.
- Hadoop MapReduce: Модель программирования для обработки больших данных, которая позволяет распределенно обрабатывать данные в режиме Map (отображение) и Reduce (сведение).
Hadoop был спроектирован для обработки объемных наборов данных в реальных условиях, где формы данных могут быть разнообразны и данные могут быть неполными или содержать ошибки. Hadoop обрабатывает эти данные в распределенной и отказоустойчивой манере: в случае выхода из строя одной из нод в кластере, система автоматически перенаправляет работу и продолжает обработку данных.
Основой популярности Hadoop является его способность масштабироваться и обрабатывать терабайты или петабайты данных, а также гибкая система по работе с разнообразными задачами в области хранения и обработки больших объемов данных.