Contenido del Curso
Advanced Techniques in pandas
1. Familiarízate con la Indexación y Selección de Datos
2. Manejando Condiciones
5. Preprocesamiento de Datos
Advanced Techniques in pandas
Agrupación Complicada
A veces ocurre que no estamos satisfechos con las funciones pandas incorporadas, como .mean()
o .min()
al agrupar.
Fíjese en la columna 'Duración
; aquí tenemos la duración del vuelo en minutos. Imaginemos que queremos calcular el tiempo máximo en horas para los elementos que tienen el mismo valor en la columna "Vuelo" y en la columna "Aerolínea". Para ello, podemos calcular el valor máximo de la columna 'Longitud
para cada clave de grupo y luego dividirlo por 60
. Mira el ejemplo y la explicación a continuación.
Explicación:
Hicimos el ejemplo de los capítulos anteriores un poco complicado, por lo que con la agrupación de datos, todo es lo mismo, vamos a pasar a la función .apply()
.
``python .apply(lambda x: x['Longitud'].max()/60)
Tarea
Su tarea aquí es agrupar los datos por el aeropuerto desde el que partió el vuelo y luego por el día de la semana. Calcule el tiempo mínimo de la suma de las columnas 'Longitud'
y 'Tiempo'
de los grupos para averiguar cuánto puede durar el vuelo con retraso. Sigue el algoritmo para gestionar la tarea:
- Agrupa los datos:
- Extrae las columnas
'AeropuertoDesde'
,'Aerolínea'
,'Hora'
y'Duración'
dedatos
(en este orden). - El orden es crucial dentro de la función
.groupby()
; pon las columnas'AirportFrom'
y'Airline'
en este orden. - Aplique la función a los valores del conjunto de datos que tengan las mismas claves de grupo.
- Calcula la suma de dos columnas:
'Longitud'
y'Tiempo'
. Luego encuentra su mínimo.
¿Todo estuvo claro?
Contenido del Curso
Advanced Techniques in pandas
1. Familiarízate con la Indexación y Selección de Datos
2. Manejando Condiciones
5. Preprocesamiento de Datos
Advanced Techniques in pandas
Agrupación Complicada
A veces ocurre que no estamos satisfechos con las funciones pandas incorporadas, como .mean()
o .min()
al agrupar.
Fíjese en la columna 'Duración
; aquí tenemos la duración del vuelo en minutos. Imaginemos que queremos calcular el tiempo máximo en horas para los elementos que tienen el mismo valor en la columna "Vuelo" y en la columna "Aerolínea". Para ello, podemos calcular el valor máximo de la columna 'Longitud
para cada clave de grupo y luego dividirlo por 60
. Mira el ejemplo y la explicación a continuación.
Explicación:
Hicimos el ejemplo de los capítulos anteriores un poco complicado, por lo que con la agrupación de datos, todo es lo mismo, vamos a pasar a la función .apply()
.
``python .apply(lambda x: x['Longitud'].max()/60)
Tarea
Su tarea aquí es agrupar los datos por el aeropuerto desde el que partió el vuelo y luego por el día de la semana. Calcule el tiempo mínimo de la suma de las columnas 'Longitud'
y 'Tiempo'
de los grupos para averiguar cuánto puede durar el vuelo con retraso. Sigue el algoritmo para gestionar la tarea:
- Agrupa los datos:
- Extrae las columnas
'AeropuertoDesde'
,'Aerolínea'
,'Hora'
y'Duración'
dedatos
(en este orden). - El orden es crucial dentro de la función
.groupby()
; pon las columnas'AirportFrom'
y'Airline'
en este orden. - Aplique la función a los valores del conjunto de datos que tengan las mismas claves de grupo.
- Calcula la suma de dos columnas:
'Longitud'
y'Tiempo'
. Luego encuentra su mínimo.
¿Todo estuvo claro?