Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Einführung in die .groupby()-Methode | Datenaggregation
Fortgeschrittene Techniken in Pandas

bookEinführung in die .groupby()-Methode

Ich freue mich, Sie in diesem Abschnitt begrüßen zu dürfen. Hier werden wir unsere Daten gruppieren, um Informationen über verschiedene Gruppen von Zeilen zu erhalten. Untersuchen Sie den Datensatz zu Verspätungen (Sie können diese Tabelle horizontal scrollen):

Das Gruppieren von Daten ist vorteilhaft, und nun werden wir tiefer darauf eingehen. Stellen Sie sich vor, Sie möchten die Anzahl der Verspätungen für jede Flugnummer berechnen. Sehen Sie sich das Codebeispiel an und anschließend die Erklärung:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Erläuterung:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] – Dies sind die Spalten, mit denen gearbeitet wird, einschließlich der Spalten, nach denen gruppiert wird;
  • groupby('Flight') – Die Spalte 'Flight' ist das Argument für die .groupby()-Funktion. Das bedeutet, dass Zeilen mit demselben Wert in der Spalte 'Flight' zusammengefasst werden;
  • .sum() – Diese Funktion wird auf die Zeilen innerhalb jeder durch .groupby() erstellten Gruppe angewendet. In diesem Fall werden die Werte in der Spalte 'Delay' für Zeilen, die zur gleichen 'Flight'-Gruppe gehören, summiert.
Note
Hinweis

Da die Spalte 'Delay' nur 0 (keine Verspätung) oder 1 (eine Verspätung ist aufgetreten) als mögliche Werte enthält, stellt die Summe der Zeilen die Anzahl der Verspätungen für jeden Flug dar.

Tatsächlich ist .sum() nur eine von vielen Aggregationsfunktionen, die verwendet werden können. Im weiteren Verlauf werden alle diese Funktionen vorgestellt.

question-icon

Lücken ausfüllen, um den Mittelwert der Spalte 'Time' abhängig von der Spalte 'DayOfWeek' zu ermitteln.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how to use other aggregation functions like mean or median?

What does the output look like when grouping by a different column?

Can you show an example of grouping by multiple columns?

Awesome!

Completion rate improved to 3.03

bookEinführung in die .groupby()-Methode

Swipe um das Menü anzuzeigen

Ich freue mich, Sie in diesem Abschnitt begrüßen zu dürfen. Hier werden wir unsere Daten gruppieren, um Informationen über verschiedene Gruppen von Zeilen zu erhalten. Untersuchen Sie den Datensatz zu Verspätungen (Sie können diese Tabelle horizontal scrollen):

Das Gruppieren von Daten ist vorteilhaft, und nun werden wir tiefer darauf eingehen. Stellen Sie sich vor, Sie möchten die Anzahl der Verspätungen für jede Flugnummer berechnen. Sehen Sie sich das Codebeispiel an und anschließend die Erklärung:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Erläuterung:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] – Dies sind die Spalten, mit denen gearbeitet wird, einschließlich der Spalten, nach denen gruppiert wird;
  • groupby('Flight') – Die Spalte 'Flight' ist das Argument für die .groupby()-Funktion. Das bedeutet, dass Zeilen mit demselben Wert in der Spalte 'Flight' zusammengefasst werden;
  • .sum() – Diese Funktion wird auf die Zeilen innerhalb jeder durch .groupby() erstellten Gruppe angewendet. In diesem Fall werden die Werte in der Spalte 'Delay' für Zeilen, die zur gleichen 'Flight'-Gruppe gehören, summiert.
Note
Hinweis

Da die Spalte 'Delay' nur 0 (keine Verspätung) oder 1 (eine Verspätung ist aufgetreten) als mögliche Werte enthält, stellt die Summe der Zeilen die Anzahl der Verspätungen für jeden Flug dar.

Tatsächlich ist .sum() nur eine von vielen Aggregationsfunktionen, die verwendet werden können. Im weiteren Verlauf werden alle diese Funktionen vorgestellt.

question-icon

Lücken ausfüllen, um den Mittelwert der Spalte 'Time' abhängig von der Spalte 'DayOfWeek' zu ermitteln.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1
some-alt