Fortgeschrittene Gruppierung
Erweitern wir unser Wissen über die Methode .groupby()
. Wie Sie sich erinnern, können wir die Methode .agg()
verwenden. Der Hauptvorteil dieser Funktion besteht darin, dass wir mit einem Gruppierungsschlüssel verschiedene Funktionen auf numerische Spalten anwenden können. Sehen Sie sich das Beispiel an, in dem wir Flüge nach der Spalte 'Airline'
gruppiert, dann die Werte in 'Delay'
für jede 'Airline'
gezählt und die Minimal- sowie Maximalwerte für die Spalte 'Length'
berechnet haben. Sehr praktisch, nicht wahr?
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
Erläuterung:
.agg({'Delay': 'count', 'Length': ['min', 'max']})
.agg()
– Methode, mit der Funktionen auf eine Serie oder auf jedes Element einzeln angewendet werden können;{}
– Mit geschweiften Klammern geben wir die Spalte an und wenden direkt Funktionen darauf an;'Delay': 'count'
– wendet die Funktion.count()
auf die Werte in der Spalte'Delay'
innerhalb derselben Gruppierung an;'Length': ['min', 'max']
– wendet die Funktionen.min()
und.max()
auf die Werte in der Spalte'Length'
innerhalb derselben Gruppierung an. Es genügt, nur den Spaltennamen ohne()
oder.
-Symbole in der Funktion anzugeben. Beachten Sie: Wenn Sie mehrere Funktionen auf dieselbe Spalte anwenden möchten, müssen Sie diese in eine Liste setzen.
Swipe to start coding
Es lässt sich vermuten, dass eine Verspätung von der Fluggesellschaft oder dem Flughafen abhängt. Gehen wir jedoch einen Schritt weiter und betrachten die durchschnittlichen und maximalen Verspätungszeiten in Abhängigkeit vom Startflughafen sowie anschließend vom Zielflughafen. Betrachten Sie außerdem die mittlere Flugdauer. Befolgen Sie dazu den folgenden Algorithmus:
Daten gruppieren:
- Wenden Sie die Methode
.groupby()
auf den Datensatzdata
an; - Geben Sie innerhalb der
.groupby()
-Methode die Spalten'AirportFrom'
und'AirportTo'
an; die Reihenfolge ist entscheidend; - Berechnen Sie mit der Methode
.agg()
die aggregierten Werte: den Durchschnitts- und Maximalwert in der Spalte'Time'
sowie den Medianwert der Spalte'Length'
.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.03
Fortgeschrittene Gruppierung
Swipe um das Menü anzuzeigen
Erweitern wir unser Wissen über die Methode .groupby()
. Wie Sie sich erinnern, können wir die Methode .agg()
verwenden. Der Hauptvorteil dieser Funktion besteht darin, dass wir mit einem Gruppierungsschlüssel verschiedene Funktionen auf numerische Spalten anwenden können. Sehen Sie sich das Beispiel an, in dem wir Flüge nach der Spalte 'Airline'
gruppiert, dann die Werte in 'Delay'
für jede 'Airline'
gezählt und die Minimal- sowie Maximalwerte für die Spalte 'Length'
berechnet haben. Sehr praktisch, nicht wahr?
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
Erläuterung:
.agg({'Delay': 'count', 'Length': ['min', 'max']})
.agg()
– Methode, mit der Funktionen auf eine Serie oder auf jedes Element einzeln angewendet werden können;{}
– Mit geschweiften Klammern geben wir die Spalte an und wenden direkt Funktionen darauf an;'Delay': 'count'
– wendet die Funktion.count()
auf die Werte in der Spalte'Delay'
innerhalb derselben Gruppierung an;'Length': ['min', 'max']
– wendet die Funktionen.min()
und.max()
auf die Werte in der Spalte'Length'
innerhalb derselben Gruppierung an. Es genügt, nur den Spaltennamen ohne()
oder.
-Symbole in der Funktion anzugeben. Beachten Sie: Wenn Sie mehrere Funktionen auf dieselbe Spalte anwenden möchten, müssen Sie diese in eine Liste setzen.
Swipe to start coding
Es lässt sich vermuten, dass eine Verspätung von der Fluggesellschaft oder dem Flughafen abhängt. Gehen wir jedoch einen Schritt weiter und betrachten die durchschnittlichen und maximalen Verspätungszeiten in Abhängigkeit vom Startflughafen sowie anschließend vom Zielflughafen. Betrachten Sie außerdem die mittlere Flugdauer. Befolgen Sie dazu den folgenden Algorithmus:
Daten gruppieren:
- Wenden Sie die Methode
.groupby()
auf den Datensatzdata
an; - Geben Sie innerhalb der
.groupby()
-Methode die Spalten'AirportFrom'
und'AirportTo'
an; die Reihenfolge ist entscheidend; - Berechnen Sie mit der Methode
.agg()
die aggregierten Werte: den Durchschnitts- und Maximalwert in der Spalte'Time'
sowie den Medianwert der Spalte'Length'
.
Lösung
Danke für Ihr Feedback!
single