Histograma
Los histogramas representan la frecuencia o distribución de probabilidad de una variable utilizando intervalos verticales de igual ancho, comúnmente denominados barras.
El módulo pyplot proporciona la función hist para crear histogramas. El parámetro requerido es el dato (x), que puede ser un arreglo o una secuencia de arreglos. Si se pasan varios arreglos, cada uno se muestra en un color diferente.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalos y Altura
Se pasó una Series de temperaturas anuales de Seattle a hist(). Por defecto, los datos se dividen en 10 intervalos iguales entre el mínimo y el máximo. Solo aparecen 9 contenedores porque un intervalo no contiene valores.
La altura del contenedor muestra la frecuencia — cuántos datos caen en cada intervalo.
Número de Contenedores
El parámetro opcional bins puede ser un entero (número de contenedores), una secuencia de bordes o una cadena. Generalmente, especificar el número de contenedores es suficiente.
Una regla común para elegir el número de contenedores es la fórmula de Sturges, basada en el tamaño de la muestra:
bins = 1 + int(np.log2(n))
donde n es el tamaño del conjunto de datos.
Puede explorar métodos adicionales para el cálculo de contenedores aquí.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
El número de filas en el DataFrame es 26 (el tamaño de la Series), por lo que el número resultante de intervalos es 5.
Aproximación de la Densidad de Probabilidad
Para aproximar una densidad de probabilidad, establecer density=True en hist().
Entonces, la altura de cada intervalo es:
donde:
- ( n ) — número total de valores,
- ( m ) — conteo en el intervalo,
- ( w ) — ancho del intervalo.
Esto hace que el área total del histograma sea igual a 1, coincidiendo con el comportamiento de una PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Esto proporciona una aproximación de la función de densidad de probabilidad para los datos de temperatura.
Si desea explorar más sobre los parámetros de hist(), puede consultar la documentación de hist().
Swipe to start coding
Crear una aproximación de una función de densidad de probabilidad utilizando una muestra de la distribución normal estándar:
- Utilizar la función adecuada para crear un histograma.
- Usar
normal_samplecomo los datos para el histograma. - Especificar el número de intervalos como segundo argumento utilizando la fórmula de Sturges.
- Hacer que el histograma sea una aproximación de una función de densidad de probabilidad especificando correctamente el argumento más a la derecha.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 3.85
Histograma
Desliza para mostrar el menú
Los histogramas representan la frecuencia o distribución de probabilidad de una variable utilizando intervalos verticales de igual ancho, comúnmente denominados barras.
El módulo pyplot proporciona la función hist para crear histogramas. El parámetro requerido es el dato (x), que puede ser un arreglo o una secuencia de arreglos. Si se pasan varios arreglos, cada uno se muestra en un color diferente.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalos y Altura
Se pasó una Series de temperaturas anuales de Seattle a hist(). Por defecto, los datos se dividen en 10 intervalos iguales entre el mínimo y el máximo. Solo aparecen 9 contenedores porque un intervalo no contiene valores.
La altura del contenedor muestra la frecuencia — cuántos datos caen en cada intervalo.
Número de Contenedores
El parámetro opcional bins puede ser un entero (número de contenedores), una secuencia de bordes o una cadena. Generalmente, especificar el número de contenedores es suficiente.
Una regla común para elegir el número de contenedores es la fórmula de Sturges, basada en el tamaño de la muestra:
bins = 1 + int(np.log2(n))
donde n es el tamaño del conjunto de datos.
Puede explorar métodos adicionales para el cálculo de contenedores aquí.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
El número de filas en el DataFrame es 26 (el tamaño de la Series), por lo que el número resultante de intervalos es 5.
Aproximación de la Densidad de Probabilidad
Para aproximar una densidad de probabilidad, establecer density=True en hist().
Entonces, la altura de cada intervalo es:
donde:
- ( n ) — número total de valores,
- ( m ) — conteo en el intervalo,
- ( w ) — ancho del intervalo.
Esto hace que el área total del histograma sea igual a 1, coincidiendo con el comportamiento de una PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Esto proporciona una aproximación de la función de densidad de probabilidad para los datos de temperatura.
Si desea explorar más sobre los parámetros de hist(), puede consultar la documentación de hist().
Swipe to start coding
Crear una aproximación de una función de densidad de probabilidad utilizando una muestra de la distribución normal estándar:
- Utilizar la función adecuada para crear un histograma.
- Usar
normal_samplecomo los datos para el histograma. - Especificar el número de intervalos como segundo argumento utilizando la fórmula de Sturges.
- Hacer que el histograma sea una aproximación de una función de densidad de probabilidad especificando correctamente el argumento más a la derecha.
Solución
¡Gracias por tus comentarios!
single