Aprenda Histograma | Mais Gráficos Estatísticos

Seção 4. Capítulo 1

single

Deslize para mostrar o menu

Definição

Histogramas representam a frequência ou distribuição de probabilidade de uma variável utilizando intervalos verticais de largura igual, frequentemente chamados de barras.

O módulo pyplot fornece a função hist para criar histogramas. O parâmetro obrigatório é o dado (x), que pode ser um array ou uma sequência de arrays. Se múltiplos arrays forem passados, cada um será exibido em uma cor diferente.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Intervalos e Altura

Uma Series de temperaturas anuais de Seattle foi passada para hist(). Por padrão, os dados são divididos em 10 intervalos iguais entre o mínimo e o máximo. Apenas 9 bins aparecem porque um intervalo não contém valores.

A altura do bin mostra a frequência — quantos pontos de dados caem em cada intervalo.

Número de Bins

O parâmetro opcional bins pode ser um inteiro (número de bins), uma sequência de limites ou uma string. Normalmente, especificar o número de bins é suficiente.

Uma regra comum para escolher o número de bins é a fórmula de Sturges, baseada no tamanho da amostra:

bins = 1 + int(np.log2(n))

onde n é o tamanho do conjunto de dados.

Estude Mais

Você pode explorar métodos adicionais para cálculo de bins aqui.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

O número de linhas no DataFrame é 26 (o tamanho da Series), portanto o número resultante de bins é 5.

Aproximação da Densidade de Probabilidade

Para aproximar uma densidade de probabilidade, defina density=True em hist(). Assim, a altura de cada bin é:

\text{Altura} = \frac{m}{n \cdot w}

onde:

( n ) — número total de valores,
( m ) — contagem no bin,
( w ) — largura do bin.

Isso faz com que a área total do histograma seja igual a 1, correspondendo ao comportamento de uma PDF.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Isso fornece uma aproximação da função densidade de probabilidade para os dados de temperatura.

Estude Mais

Se desejar explorar mais sobre os parâmetros do hist(), consulte a documentação do hist().

Tarefa

Deslize para começar a programar

Crie uma aproximação de uma função densidade de probabilidade utilizando uma amostra da distribuição normal padrão:

Utilize a função correta para criar um histograma.
Utilize normal_sample como os dados para o histograma.
Especifique o número de bins como o segundo argumento utilizando a fórmula de Sturges.
Torne o histograma uma aproximação de uma função densidade de probabilidade especificando corretamente o argumento mais à direita.

Solução

Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1

single

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo