Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Fortgeschrittene Gruppierung | Datenaggregation
Fortgeschrittene Techniken in Pandas

bookFortgeschrittene Gruppierung

Erweiterung des Wissens zur .groupby()-Methode. Wie bereits bekannt, kann die .agg()-Methode verwendet werden. Der Hauptvorteil dieser Funktion besteht darin, dass verschiedene Funktionen auf numerische Spalten mit einem Gruppierungsschlüssel angewendet werden können. Im folgenden Beispiel werden Flüge nach der Spalte 'Airline' gruppiert, anschließend die Werte in 'Delay' für jede 'Airline' gezählt sowie die Minimal- und Maximalwerte für die Spalte 'Length' berechnet. Sehr praktisch, oder?

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
copy

Erläuterung:

.agg({'Delay': 'count', 'Length': ['min', 'max']})
  • .agg() – Methode, die das Anwenden von Funktionen auf eine Serie oder auf jedes Element einzeln ermöglicht;
  • {} – geschweifte Klammern zur direkten Angabe der Spalte und der darauf anzuwendenden Funktionen;
  • 'Delay': 'count' – wendet die .count()-Funktion auf die Werte in der Spalte 'Delay' mit demselben Gruppierungsschlüssel an;
  • 'Length': ['min', 'max'] – wendet die Funktionen .min() und .max() auf die Werte in der Spalte 'Length' mit demselben Gruppierungsschlüssel an. Es genügt, nur den Spaltennamen ohne () oder .-Symbole in der Funktion anzugeben. Zu beachten ist: Wenn mehrere Funktionen auf dieselbe Spalte angewendet werden sollen, müssen diese in einer Liste angegeben werden.
Aufgabe

Swipe to start coding

Ihre Aufgabe ist es, tiefer einzutauchen und die durchschnittlichen sowie maximalen Verspätungszeiten in Abhängigkeit vom Startflughafen und anschließend vom Zielflughafen zu betrachten. Untersuchen Sie außerdem die mittlere Flugdauer. Befolgen Sie dazu den folgenden Algorithmus:

Daten gruppieren:

  • Wenden Sie die Methode .groupby() auf den Datensatz data an;
  • Geben Sie innerhalb der .groupby()-Methode die Spalten 'AirportFrom' und 'AirportTo' an; die Reihenfolge ist entscheidend;
  • Berechnen Sie mit der Methode .agg() die aggregierten Werte: den Durchschnitts- und Maximalwert in der Spalte 'Time' sowie den Medianwert der Spalte 'Length'.

Lösung

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 4
single

single

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

close

Awesome!

Completion rate improved to 3.03

bookFortgeschrittene Gruppierung

Swipe um das Menü anzuzeigen

Erweiterung des Wissens zur .groupby()-Methode. Wie bereits bekannt, kann die .agg()-Methode verwendet werden. Der Hauptvorteil dieser Funktion besteht darin, dass verschiedene Funktionen auf numerische Spalten mit einem Gruppierungsschlüssel angewendet werden können. Im folgenden Beispiel werden Flüge nach der Spalte 'Airline' gruppiert, anschließend die Werte in 'Delay' für jede 'Airline' gezählt sowie die Minimal- und Maximalwerte für die Spalte 'Length' berechnet. Sehr praktisch, oder?

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
copy

Erläuterung:

.agg({'Delay': 'count', 'Length': ['min', 'max']})
  • .agg() – Methode, die das Anwenden von Funktionen auf eine Serie oder auf jedes Element einzeln ermöglicht;
  • {} – geschweifte Klammern zur direkten Angabe der Spalte und der darauf anzuwendenden Funktionen;
  • 'Delay': 'count' – wendet die .count()-Funktion auf die Werte in der Spalte 'Delay' mit demselben Gruppierungsschlüssel an;
  • 'Length': ['min', 'max'] – wendet die Funktionen .min() und .max() auf die Werte in der Spalte 'Length' mit demselben Gruppierungsschlüssel an. Es genügt, nur den Spaltennamen ohne () oder .-Symbole in der Funktion anzugeben. Zu beachten ist: Wenn mehrere Funktionen auf dieselbe Spalte angewendet werden sollen, müssen diese in einer Liste angegeben werden.
Aufgabe

Swipe to start coding

Ihre Aufgabe ist es, tiefer einzutauchen und die durchschnittlichen sowie maximalen Verspätungszeiten in Abhängigkeit vom Startflughafen und anschließend vom Zielflughafen zu betrachten. Untersuchen Sie außerdem die mittlere Flugdauer. Befolgen Sie dazu den folgenden Algorithmus:

Daten gruppieren:

  • Wenden Sie die Methode .groupby() auf den Datensatz data an;
  • Geben Sie innerhalb der .groupby()-Methode die Spalten 'AirportFrom' und 'AirportTo' an; die Reihenfolge ist entscheidend;
  • Berechnen Sie mit der Methode .agg() die aggregierten Werte: den Durchschnitts- und Maximalwert in der Spalte 'Time' sowie den Medianwert der Spalte 'Length'.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 4
single

single

some-alt