Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Familiarización con el Método .groupby() | Agregación de Datos
Técnicas Avanzadas en Pandas

bookFamiliarización con el Método .groupby()

Me alegra verte en esta sección. Aquí, agruparemos nuestros datos para encontrar información sobre diferentes grupos de filas. Examina el conjunto de datos sobre retrasos (puedes desplazarte horizontalmente por esta tabla):

Agrupar datos es beneficioso, y ahora profundizaremos en ello. Imagina que deseas calcular el número de retrasos para cada número de vuelo. Observa el ejemplo de código y luego la explicación:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Explicación:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] - Estas son las columnas sobre las que se trabajará, incluyendo las columnas que se agruparán;
  • groupby('Flight') - La columna 'Flight' es el argumento para la función .groupby(). Esto significa que las filas con el mismo valor en la columna 'Flight' se agruparán juntas;
  • .sum() - Esta función opera sobre las filas dentro de cada grupo creado por .groupby(). En este caso, suma los valores en la columna 'Delay' para las filas que pertenecen al mismo grupo de 'Flight'.
Note
Nota

Dado que la columna 'Delay' contiene únicamente 0 (no ocurrió retraso) o 1 (ocurrió retraso) como valores posibles, la suma de las filas representa el número de retrasos para cada vuelo.

De hecho, .sum() es una de muchas funciones de agregación que se pueden utilizar. Se presentarán todas ellas a medida que avance.

question-icon

Completa los espacios para encontrar el valor medio de la columna 'Time' en función de la columna 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 3.03

bookFamiliarización con el Método .groupby()

Desliza para mostrar el menú

Me alegra verte en esta sección. Aquí, agruparemos nuestros datos para encontrar información sobre diferentes grupos de filas. Examina el conjunto de datos sobre retrasos (puedes desplazarte horizontalmente por esta tabla):

Agrupar datos es beneficioso, y ahora profundizaremos en ello. Imagina que deseas calcular el número de retrasos para cada número de vuelo. Observa el ejemplo de código y luego la explicación:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Explicación:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] - Estas son las columnas sobre las que se trabajará, incluyendo las columnas que se agruparán;
  • groupby('Flight') - La columna 'Flight' es el argumento para la función .groupby(). Esto significa que las filas con el mismo valor en la columna 'Flight' se agruparán juntas;
  • .sum() - Esta función opera sobre las filas dentro de cada grupo creado por .groupby(). En este caso, suma los valores en la columna 'Delay' para las filas que pertenecen al mismo grupo de 'Flight'.
Note
Nota

Dado que la columna 'Delay' contiene únicamente 0 (no ocurrió retraso) o 1 (ocurrió retraso) como valores posibles, la suma de las filas representa el número de retrasos para cada vuelo.

De hecho, .sum() es una de muchas funciones de agregación que se pueden utilizar. Se presentarán todas ellas a medida que avance.

question-icon

Completa los espacios para encontrar el valor medio de la columna 'Time' en función de la columna 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 1
some-alt