Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Introduzione al Metodo .groupby() | Aggregazione Dei Dati
Data Wrangling con Pandas

bookIntroduzione al Metodo .groupby()

Sono lieto di vederti in questa sezione. Qui raggrupperemo i nostri dati per trovare informazioni su diversi gruppi di righe. Esamina il set di dati sui ritardi (puoi scorrere questa tabella orizzontalmente):

Raggruppare i dati è vantaggioso e ora lo approfondiremo. Immagina di voler calcolare il numero di ritardi per ogni numero di volo. Osserva l'esempio di codice e poi la spiegazione:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Spiegazione:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] - Queste sono le colonne su cui si lavora, incluse quelle su cui si effettua il raggruppamento;
  • groupby('Flight') - La colonna 'Flight' è l'argomento della funzione .groupby(). Questo significa che le righe con lo stesso valore nella colonna 'Flight' verranno raggruppate insieme;
  • .sum() - Questa funzione opera sulle righe all'interno di ciascun gruppo creato da .groupby(). In questo caso, somma i valori nella colonna 'Delay' per le righe che appartengono allo stesso gruppo 'Flight'.
Note
Nota

Poiché la colonna 'Delay' contiene solo 0 (nessun ritardo) o 1 (ritardo avvenuto) come possibili valori, la somma delle righe rappresenta il numero di ritardi per ciascun volo.

Infatti, .sum() è una delle molte funzioni di aggregazione che si possono utilizzare. Verranno approfondite tutte nel corso delle lezioni.

question-icon

Completare gli spazi vuoti per trovare il valore medio della colonna 'Time' in base alla colonna 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 1

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain how to use other aggregation functions like mean or median?

What does the output look like when grouping by a different column?

Can you show an example of grouping by multiple columns?

bookIntroduzione al Metodo .groupby()

Scorri per mostrare il menu

Sono lieto di vederti in questa sezione. Qui raggrupperemo i nostri dati per trovare informazioni su diversi gruppi di righe. Esamina il set di dati sui ritardi (puoi scorrere questa tabella orizzontalmente):

Raggruppare i dati è vantaggioso e ora lo approfondiremo. Immagina di voler calcolare il numero di ritardi per ogni numero di volo. Osserva l'esempio di codice e poi la spiegazione:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Spiegazione:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] - Queste sono le colonne su cui si lavora, incluse quelle su cui si effettua il raggruppamento;
  • groupby('Flight') - La colonna 'Flight' è l'argomento della funzione .groupby(). Questo significa che le righe con lo stesso valore nella colonna 'Flight' verranno raggruppate insieme;
  • .sum() - Questa funzione opera sulle righe all'interno di ciascun gruppo creato da .groupby(). In questo caso, somma i valori nella colonna 'Delay' per le righe che appartengono allo stesso gruppo 'Flight'.
Note
Nota

Poiché la colonna 'Delay' contiene solo 0 (nessun ritardo) o 1 (ritardo avvenuto) come possibili valori, la somma delle righe rappresenta il numero di ritardi per ciascun volo.

Infatti, .sum() è una delle molte funzioni di aggregazione che si possono utilizzare. Verranno approfondite tutte nel corso delle lezioni.

question-icon

Completare gli spazi vuoti per trovare il valore medio della colonna 'Time' in base alla colonna 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 1
some-alt