Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Introduzione al Metodo .groupby() | Aggregazione Dei Dati
Tecniche Avanzate in Pandas

bookIntroduzione al Metodo .groupby()

Sono lieto di vederti in questa sezione. Qui raggrupperemo i nostri dati per trovare informazioni su diversi gruppi di righe. Esamina il set di dati sui ritardi (puoi scorrere questa tabella orizzontalmente):

Raggruppare i dati è vantaggioso e ora lo approfondiremo ulteriormente. Immagina di voler calcolare il numero di ritardi per ogni numero di volo. Osserva l'esempio di codice e poi la spiegazione:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Spiegazione:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] - Queste sono le colonne su cui si lavora, incluse quelle su cui si effettua il raggruppamento;
  • groupby('Flight') - La colonna 'Flight' è l'argomento della funzione .groupby(). Questo significa che le righe con lo stesso valore nella colonna 'Flight' verranno raggruppate insieme;
  • .sum() - Questa funzione opera sulle righe all'interno di ciascun gruppo creato da .groupby(). In questo caso, somma i valori nella colonna 'Delay' per le righe che appartengono allo stesso gruppo 'Flight'.
Note
Nota

Poiché la colonna 'Delay' contiene solo 0 (nessun ritardo) o 1 (si è verificato un ritardo) come possibili valori, la somma delle righe rappresenta il numero di ritardi per ciascun volo.

In effetti, .sum() è una delle molte funzioni di aggregazione che si possono utilizzare. Verranno approfondite tutte nel corso della lezione.

question-icon

Completare gli spazi vuoti per trovare il valore medio della colonna 'Time' in base alla colonna 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 1

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain how to use other aggregation functions like mean or median?

What does the output look like when grouping by a different column?

Can you show an example of grouping by multiple columns?

Awesome!

Completion rate improved to 3.03

bookIntroduzione al Metodo .groupby()

Scorri per mostrare il menu

Sono lieto di vederti in questa sezione. Qui raggrupperemo i nostri dati per trovare informazioni su diversi gruppi di righe. Esamina il set di dati sui ritardi (puoi scorrere questa tabella orizzontalmente):

Raggruppare i dati è vantaggioso e ora lo approfondiremo ulteriormente. Immagina di voler calcolare il numero di ritardi per ogni numero di volo. Osserva l'esempio di codice e poi la spiegazione:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Spiegazione:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] - Queste sono le colonne su cui si lavora, incluse quelle su cui si effettua il raggruppamento;
  • groupby('Flight') - La colonna 'Flight' è l'argomento della funzione .groupby(). Questo significa che le righe con lo stesso valore nella colonna 'Flight' verranno raggruppate insieme;
  • .sum() - Questa funzione opera sulle righe all'interno di ciascun gruppo creato da .groupby(). In questo caso, somma i valori nella colonna 'Delay' per le righe che appartengono allo stesso gruppo 'Flight'.
Note
Nota

Poiché la colonna 'Delay' contiene solo 0 (nessun ritardo) o 1 (si è verificato un ritardo) come possibili valori, la somma delle righe rappresenta il numero di ritardi per ciascun volo.

In effetti, .sum() è una delle molte funzioni di aggregazione che si possono utilizzare. Verranno approfondite tutte nel corso della lezione.

question-icon

Completare gli spazi vuoti per trovare il valore medio della colonna 'Time' in base alla colonna 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 1
some-alt