Airflow это

Airflow это

Этот проект был изначально разработан в Airbnb в октябре 2014 г. в качестве решения для управления всё более сложными
процессами обработки данных.

 Создание Airflow позволило Airbnb программно создавать и планировать свои рабочие процессы и
отслеживать их через встроенный Airflow пользовательский интерфейс. С самого начала, проект был сделан с открытым исходным
кодом, став проектом Apache Incubator в марте 2016 года и проектом верхнего уровня Apache Software Foundation в январе
2019 года.

Airflow написан на Python, а рабочие процессы создаются с помощью скриптов Python. Airflow спроектирован по принципу
«конфигурация как код». В то время как существуют другие платформы рабочих процессов «конфигурация как код», использующие
языки разметки, такие как XML, использование Python позволяет разработчикам импортировать библиотеки и классы, чтобы
помочь им создавать свои рабочие процессы.

Airflow использует направленный ациклический граф (DAG) для управления оркестровкой рабочего процесса. Задачи и
зависимости определяются в скриптах на Python, а Airflow управляет планированием и выполнением кода в этих скриптах.
Сценарии обработки данных (DAGs) могут запускаться либо по определенному расписанию (например, ежечасно или ежедневно),
либо на основе триггеров внешних событий (например, появление файла в Hive. Предыдущие планировщики на основе DAG,
такие как Oozie и Azkaban, как правило, полагались на несколько файлов конфигурации и структуру файловой системы для
создания DAG, тогда как в Airflow DAG могут часто записывается в один файл Python.


Константин

25 Блог сообщения

Комментарии