Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Diagrama de Caja | Más Gráficos Estadísticos
Visualización Definitiva con Python

bookDiagrama de Caja

Note
Definición

Diagrama de caja es otro gráfico sumamente común en estadística, utilizado para visualizar la tendencia central, la dispersión y los posibles valores atípicos dentro de los datos a través de sus cuartiles.

Cuartiles

cuartiles

Cuartiles dividen los datos ordenados en cuatro partes iguales:

  • Q1 — el punto medio entre el valor mínimo y la mediana (25% de los datos por debajo);
  • Q2 — la mediana (50% de los datos por debajo);
  • Q3 — el punto medio entre la mediana y el valor máximo (75% de los datos por debajo).

Elementos del diagrama de caja

box_plot_explained
  • El lado izquierdo de la caja muestra Q1, el lado derecho muestra Q3;
  • IQR = Q3 − Q1, mostrado como el ancho de la caja, con la mediana marcada por una línea amarilla;
  • Los bigotes se extienden hasta (Q1 - 1.5 \cdot IQR) y (Q3 + 1.5 \cdot IQR);
  • Los puntos fuera de los bigotes son valores atípicos.

Se puede generar un diagrama de caja utilizando matplotlib.

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Datos del diagrama de caja

Utilizar plt.boxplot(x), donde x puede ser un objeto tipo array 1D, un array 2D (una caja por columna), o una secuencia de arrays 1D.

Parámetros opcionales

tick_labels es útil para nombrar los diagramas de caja, especialmente al graficar múltiples arreglos.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Al pasar un DataFrame con dos columnas numéricas a boxplot(), se crean dos diagramas de caja separados con etiquetas asignadas automáticamente.

Note
Estudia más

También existen bastantes parámetros opcionales para personalizar el diagrama de caja, los cuales puedes explorar en la documentación de boxplot(), aunque en la práctica es posible que rara vez los utilices.

Tarea

Swipe to start coding

Crear dos diagramas de caja utilizando dos muestras de la distribución normal estándar:

  1. Utilizar la función adecuada para crear los diagramas de caja.
  2. Usar la lista de normal_sample_1 y normal_sample_2 (en este orden de izquierda a derecha) como los datos.
  3. Etiquetar el diagrama de caja izquierdo como First sample y el derecho como Second sample utilizando la list.

Solución

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 2
single

single

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

close

Awesome!

Completion rate improved to 3.85

bookDiagrama de Caja

Desliza para mostrar el menú

Note
Definición

Diagrama de caja es otro gráfico sumamente común en estadística, utilizado para visualizar la tendencia central, la dispersión y los posibles valores atípicos dentro de los datos a través de sus cuartiles.

Cuartiles

cuartiles

Cuartiles dividen los datos ordenados en cuatro partes iguales:

  • Q1 — el punto medio entre el valor mínimo y la mediana (25% de los datos por debajo);
  • Q2 — la mediana (50% de los datos por debajo);
  • Q3 — el punto medio entre la mediana y el valor máximo (75% de los datos por debajo).

Elementos del diagrama de caja

box_plot_explained
  • El lado izquierdo de la caja muestra Q1, el lado derecho muestra Q3;
  • IQR = Q3 − Q1, mostrado como el ancho de la caja, con la mediana marcada por una línea amarilla;
  • Los bigotes se extienden hasta (Q1 - 1.5 \cdot IQR) y (Q3 + 1.5 \cdot IQR);
  • Los puntos fuera de los bigotes son valores atípicos.

Se puede generar un diagrama de caja utilizando matplotlib.

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Datos del diagrama de caja

Utilizar plt.boxplot(x), donde x puede ser un objeto tipo array 1D, un array 2D (una caja por columna), o una secuencia de arrays 1D.

Parámetros opcionales

tick_labels es útil para nombrar los diagramas de caja, especialmente al graficar múltiples arreglos.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Al pasar un DataFrame con dos columnas numéricas a boxplot(), se crean dos diagramas de caja separados con etiquetas asignadas automáticamente.

Note
Estudia más

También existen bastantes parámetros opcionales para personalizar el diagrama de caja, los cuales puedes explorar en la documentación de boxplot(), aunque en la práctica es posible que rara vez los utilices.

Tarea

Swipe to start coding

Crear dos diagramas de caja utilizando dos muestras de la distribución normal estándar:

  1. Utilizar la función adecuada para crear los diagramas de caja.
  2. Usar la lista de normal_sample_1 y normal_sample_2 (en este orden de izquierda a derecha) como los datos.
  3. Etiquetar el diagrama de caja izquierdo como First sample y el derecho como Second sample utilizando la list.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 2
single

single

some-alt