Lernen Einführung in Apache Airflow

Swipe um das Menü anzuzeigen

Definition

Apache Airflow ist eine Plattform zur Orchestrierung komplexer Workflows — Automatisierung und Planung voneinander abhängiger Aufgaben in Daten- und Machine-Learning-Pipelines.

Airflow organisiert Workflows als gerichtete azyklische Graphen (DAGs), wobei jeder Knoten eine Aufgabe darstellt und die Kanten die Abhängigkeiten zwischen ihnen definieren. Dies stellt sicher, dass jede Aufgabe in der richtigen Reihenfolge ausgeführt wird — beispielsweise kann ein Modelltraining erst beginnen, nachdem die Datenvorverarbeitung abgeschlossen ist.

Der Scheduler von Airflow führt diese Aufgaben automatisch gemäß einem definierten Zeitplan aus und gewährleistet so Konsistenz und Reproduzierbarkeit. Ingenieure können fehlgeschlagene Aufgaben einfach erneut ausführen, den Fortschritt über die Airflow-Benutzeroberfläche überwachen und Workflows mit wachsendem Projektumfang skalieren.

Weiterführende Informationen

Airflow ermöglicht reproduzierbare, automatisierte Workflows für Daten- und ML-Aufgaben. Die offizielle Airflow-Dokumentation sowie Community-Beispiele bieten eine vertiefte Auseinandersetzung mit der Orchestrierung von Workflows in Produktionsumgebungen.

Grundlegendes DAG-Beispiel

from datetime import datetime, timedelta
from airflow import DAG
from airflow.operators.python import PythonOperator

def print_hello():
    print("Hello from Airflow DAG!")

default_args = {
    "owner": "mlops_engineer",
    "retries": 1,
    "retry_delay": timedelta(minutes=5),
}

dag = DAG(
    "hello_airflow_example",
    default_args=default_args,
    description="A simple DAG example",
    schedule_interval=timedelta(days=1),
    start_date=datetime(2024, 6, 1),
    catchup=False,
)

hello_task = PythonOperator(
    task_id="say_hello",
    python_callable=print_hello,
    dag=dag,
)

Hinweis

Airflow bildet das Rückgrat der Workflow-Orchestrierung im MLOps. Es ermöglicht die Automatisierung von Retraining, Datenaufnahme und Auswertung – alles als Python-Code definiert und in der festgelegten Reihenfolge ausgeführt.

Weiterführende Informationen

Siehe die offizielle Airflow-Dokumentation für Beispiele von produktiven DAGs und Hinweise zur Skalierung von Airflow-Deployments.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 11

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 11