Diagrama de Caja
Diagrama de caja es otro gráfico sumamente común en estadística, utilizado para visualizar la tendencia central, la dispersión y los posibles valores atípicos dentro de los datos a través de sus cuartiles.
Cuartiles
Cuartiles dividen los datos ordenados en cuatro partes iguales:
- Q1 — el punto medio entre el valor mínimo y la mediana (25% de los datos por debajo);
- Q2 — la mediana (50% de los datos por debajo);
- Q3 — el punto medio entre la mediana y el valor máximo (75% de los datos por debajo).
Elementos del diagrama de caja
- El lado izquierdo de la caja muestra Q1, el lado derecho muestra Q3;
- IQR = Q3 − Q1, mostrado como el ancho de la caja, con la mediana marcada por una línea amarilla;
- Los bigotes se extienden hasta (Q1 - 1.5 \cdot IQR) y (Q3 + 1.5 \cdot IQR);
- Los puntos fuera de los bigotes son valores atípicos.
Se puede generar un diagrama de caja utilizando matplotlib.
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Datos del diagrama de caja
Utilizar plt.boxplot(x), donde x puede ser un objeto tipo array 1D, un array 2D (una caja por columna), o una secuencia de arrays 1D.
Parámetros opcionales
tick_labels es útil para nombrar los diagramas de caja, especialmente al graficar múltiples arreglos.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Al pasar un DataFrame con dos columnas numéricas a boxplot(), se crean dos diagramas de caja separados con etiquetas asignadas automáticamente.
También existen bastantes parámetros opcionales para personalizar el diagrama de caja, los cuales puedes explorar en la documentación de boxplot(), aunque en la práctica es posible que rara vez los utilices.
Swipe to start coding
Crear dos diagramas de caja utilizando dos muestras de la distribución normal estándar:
- Utilizar la función adecuada para crear los diagramas de caja.
- Usar la lista de
normal_sample_1ynormal_sample_2(en este orden de izquierda a derecha) como los datos. - Etiquetar el diagrama de caja izquierdo como
First sampley el derecho comoSecond sampleutilizando lalist.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 3.85
Diagrama de Caja
Desliza para mostrar el menú
Diagrama de caja es otro gráfico sumamente común en estadística, utilizado para visualizar la tendencia central, la dispersión y los posibles valores atípicos dentro de los datos a través de sus cuartiles.
Cuartiles
Cuartiles dividen los datos ordenados en cuatro partes iguales:
- Q1 — el punto medio entre el valor mínimo y la mediana (25% de los datos por debajo);
- Q2 — la mediana (50% de los datos por debajo);
- Q3 — el punto medio entre la mediana y el valor máximo (75% de los datos por debajo).
Elementos del diagrama de caja
- El lado izquierdo de la caja muestra Q1, el lado derecho muestra Q3;
- IQR = Q3 − Q1, mostrado como el ancho de la caja, con la mediana marcada por una línea amarilla;
- Los bigotes se extienden hasta (Q1 - 1.5 \cdot IQR) y (Q3 + 1.5 \cdot IQR);
- Los puntos fuera de los bigotes son valores atípicos.
Se puede generar un diagrama de caja utilizando matplotlib.
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Datos del diagrama de caja
Utilizar plt.boxplot(x), donde x puede ser un objeto tipo array 1D, un array 2D (una caja por columna), o una secuencia de arrays 1D.
Parámetros opcionales
tick_labels es útil para nombrar los diagramas de caja, especialmente al graficar múltiples arreglos.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Al pasar un DataFrame con dos columnas numéricas a boxplot(), se crean dos diagramas de caja separados con etiquetas asignadas automáticamente.
También existen bastantes parámetros opcionales para personalizar el diagrama de caja, los cuales puedes explorar en la documentación de boxplot(), aunque en la práctica es posible que rara vez los utilices.
Swipe to start coding
Crear dos diagramas de caja utilizando dos muestras de la distribución normal estándar:
- Utilizar la función adecuada para crear los diagramas de caja.
- Usar la lista de
normal_sample_1ynormal_sample_2(en este orden de izquierda a derecha) como los datos. - Etiquetar el diagrama de caja izquierdo como
First sampley el derecho comoSecond sampleutilizando lalist.
Solución
¡Gracias por tus comentarios!
single