Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Histograma | Más Gráficos Estadísticos
Visualización Definitiva con Python

bookHistograma

Note
Definición

Los histogramas representan la frecuencia o distribución de probabilidad de una variable utilizando intervalos verticales de igual ancho, comúnmente denominados barras.

El módulo pyplot proporciona la función hist para crear histogramas. El parámetro requerido es el dato (x), que puede ser un arreglo o una secuencia de arreglos. Si se pasan varios arreglos, cada uno se muestra en un color diferente.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervalos y Altura

Se pasó una Series de temperaturas anuales de Seattle a hist(). Por defecto, los datos se dividen en 10 intervalos iguales entre el mínimo y el máximo. Solo aparecen 9 contenedores porque un intervalo no contiene valores.

La altura del contenedor muestra la frecuencia — cuántos datos caen en cada intervalo.

Número de Contenedores

El parámetro opcional bins puede ser un entero (número de contenedores), una secuencia de bordes o una cadena. Generalmente, especificar el número de contenedores es suficiente.

Una regla común para elegir el número de contenedores es la fórmula de Sturges, basada en el tamaño de la muestra:

bins = 1 + int(np.log2(n))

donde n es el tamaño del conjunto de datos.

Note
Estudiar más

Puede explorar métodos adicionales para el cálculo de contenedores aquí.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

El número de filas en el DataFrame es 26 (el tamaño de la Series), por lo que el número resultante de intervalos es 5.

Aproximación de la Densidad de Probabilidad

Para aproximar una densidad de probabilidad, establecer density=True en hist(). Entonces, la altura de cada intervalo es:

Altura=mnw\text{Altura} = \frac{m}{n \cdot w}

donde:

  • ( n ) — número total de valores,
  • ( m ) — conteo en el intervalo,
  • ( w ) — ancho del intervalo.

Esto hace que el área total del histograma sea igual a 1, coincidiendo con el comportamiento de una PDF.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Esto proporciona una aproximación de la función de densidad de probabilidad para los datos de temperatura.

Note
Estudiar más

Si desea explorar más sobre los parámetros de hist(), puede consultar la documentación de hist().

Tarea

Swipe to start coding

Crear una aproximación de una función de densidad de probabilidad utilizando una muestra de la distribución normal estándar:

  1. Utilizar la función adecuada para crear un histograma.
  2. Usar normal_sample como los datos para el histograma.
  3. Especificar el número de intervalos como segundo argumento utilizando la fórmula de Sturges.
  4. Hacer que el histograma sea una aproximación de una función de densidad de probabilidad especificando correctamente el argumento más a la derecha.

Solución

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 1
single

single

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

close

Awesome!

Completion rate improved to 3.85

bookHistograma

Desliza para mostrar el menú

Note
Definición

Los histogramas representan la frecuencia o distribución de probabilidad de una variable utilizando intervalos verticales de igual ancho, comúnmente denominados barras.

El módulo pyplot proporciona la función hist para crear histogramas. El parámetro requerido es el dato (x), que puede ser un arreglo o una secuencia de arreglos. Si se pasan varios arreglos, cada uno se muestra en un color diferente.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervalos y Altura

Se pasó una Series de temperaturas anuales de Seattle a hist(). Por defecto, los datos se dividen en 10 intervalos iguales entre el mínimo y el máximo. Solo aparecen 9 contenedores porque un intervalo no contiene valores.

La altura del contenedor muestra la frecuencia — cuántos datos caen en cada intervalo.

Número de Contenedores

El parámetro opcional bins puede ser un entero (número de contenedores), una secuencia de bordes o una cadena. Generalmente, especificar el número de contenedores es suficiente.

Una regla común para elegir el número de contenedores es la fórmula de Sturges, basada en el tamaño de la muestra:

bins = 1 + int(np.log2(n))

donde n es el tamaño del conjunto de datos.

Note
Estudiar más

Puede explorar métodos adicionales para el cálculo de contenedores aquí.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

El número de filas en el DataFrame es 26 (el tamaño de la Series), por lo que el número resultante de intervalos es 5.

Aproximación de la Densidad de Probabilidad

Para aproximar una densidad de probabilidad, establecer density=True en hist(). Entonces, la altura de cada intervalo es:

Altura=mnw\text{Altura} = \frac{m}{n \cdot w}

donde:

  • ( n ) — número total de valores,
  • ( m ) — conteo en el intervalo,
  • ( w ) — ancho del intervalo.

Esto hace que el área total del histograma sea igual a 1, coincidiendo con el comportamiento de una PDF.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Esto proporciona una aproximación de la función de densidad de probabilidad para los datos de temperatura.

Note
Estudiar más

Si desea explorar más sobre los parámetros de hist(), puede consultar la documentación de hist().

Tarea

Swipe to start coding

Crear una aproximación de una función de densidad de probabilidad utilizando una muestra de la distribución normal estándar:

  1. Utilizar la función adecuada para crear un histograma.
  2. Usar normal_sample como los datos para el histograma.
  3. Especificar el número de intervalos como segundo argumento utilizando la fórmula de Sturges.
  4. Hacer que el histograma sea una aproximación de una función de densidad de probabilidad especificando correctamente el argumento más a la derecha.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 1
single

single

some-alt