Einführung in die .groupby()-Methode
Ich freue mich, Sie in diesem Abschnitt begrüßen zu dürfen. Hier werden wir unsere Daten gruppieren, um Informationen über verschiedene Gruppen von Zeilen zu erhalten. Untersuchen Sie den Datensatz zu Verspätungen (Sie können diese Tabelle horizontal scrollen):
Das Gruppieren von Daten ist vorteilhaft, und nun werden wir tiefer darauf eingehen. Stellen Sie sich vor, Sie möchten die Anzahl der Verspätungen für jede Flugnummer berechnen. Sehen Sie sich das Codebeispiel an und anschließend die Erklärung:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Erläuterung:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]
– Dies sind die Spalten, mit denen gearbeitet wird, einschließlich der Spalten, nach denen gruppiert wird;groupby('Flight')
– Die Spalte'Flight'
ist das Argument für die.groupby()
-Funktion. Das bedeutet, dass Zeilen mit demselben Wert in der Spalte'Flight'
zusammengefasst werden;.sum()
– Diese Funktion wird auf die Zeilen innerhalb jeder durch.groupby()
erstellten Gruppe angewendet. In diesem Fall werden die Werte in der Spalte'Delay'
für Zeilen, die zur gleichen'Flight'
-Gruppe gehören, summiert.
Da die Spalte 'Delay'
nur 0
(keine Verspätung) oder 1
(eine Verspätung ist aufgetreten) als mögliche Werte enthält, stellt die Summe der Zeilen die Anzahl der Verspätungen für jeden Flug dar.
Tatsächlich ist .sum()
nur eine von vielen Aggregationsfunktionen, die verwendet werden können. Im weiteren Verlauf werden alle diese Funktionen vorgestellt.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain how to use other aggregation functions like mean or median?
What does the output look like when grouping by a different column?
Can you show an example of grouping by multiple columns?
Awesome!
Completion rate improved to 3.03
Einführung in die .groupby()-Methode
Swipe um das Menü anzuzeigen
Ich freue mich, Sie in diesem Abschnitt begrüßen zu dürfen. Hier werden wir unsere Daten gruppieren, um Informationen über verschiedene Gruppen von Zeilen zu erhalten. Untersuchen Sie den Datensatz zu Verspätungen (Sie können diese Tabelle horizontal scrollen):
Das Gruppieren von Daten ist vorteilhaft, und nun werden wir tiefer darauf eingehen. Stellen Sie sich vor, Sie möchten die Anzahl der Verspätungen für jede Flugnummer berechnen. Sehen Sie sich das Codebeispiel an und anschließend die Erklärung:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Erläuterung:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]
– Dies sind die Spalten, mit denen gearbeitet wird, einschließlich der Spalten, nach denen gruppiert wird;groupby('Flight')
– Die Spalte'Flight'
ist das Argument für die.groupby()
-Funktion. Das bedeutet, dass Zeilen mit demselben Wert in der Spalte'Flight'
zusammengefasst werden;.sum()
– Diese Funktion wird auf die Zeilen innerhalb jeder durch.groupby()
erstellten Gruppe angewendet. In diesem Fall werden die Werte in der Spalte'Delay'
für Zeilen, die zur gleichen'Flight'
-Gruppe gehören, summiert.
Da die Spalte 'Delay'
nur 0
(keine Verspätung) oder 1
(eine Verspätung ist aufgetreten) als mögliche Werte enthält, stellt die Summe der Zeilen die Anzahl der Verspätungen für jeden Flug dar.
Tatsächlich ist .sum()
nur eine von vielen Aggregationsfunktionen, die verwendet werden können. Im weiteren Verlauf werden alle diese Funktionen vorgestellt.
Danke für Ihr Feedback!