Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Histograma | Mais Gráficos Estatísticos
Visualização Definitiva com Python

bookHistograma

Note
Definição

Histogramas representam a frequência ou distribuição de probabilidade de uma variável utilizando intervalos verticais de largura igual, frequentemente chamados de barras.

O módulo pyplot fornece a função hist para criar histogramas. O parâmetro obrigatório é o dado (x), que pode ser um array ou uma sequência de arrays. Se múltiplos arrays forem passados, cada um será exibido em uma cor diferente.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervalos e Altura

Uma Series de temperaturas anuais de Seattle foi passada para hist(). Por padrão, os dados são divididos em 10 intervalos iguais entre o mínimo e o máximo. Apenas 9 bins aparecem porque um intervalo não contém valores.

A altura do bin mostra a frequência — quantos pontos de dados caem em cada intervalo.

Número de Bins

O parâmetro opcional bins pode ser um inteiro (número de bins), uma sequência de limites ou uma string. Normalmente, especificar o número de bins é suficiente.

Uma regra comum para escolher o número de bins é a fórmula de Sturges, baseada no tamanho da amostra:

bins = 1 + int(np.log2(n))

onde n é o tamanho do conjunto de dados.

Note
Estude Mais

Você pode explorar métodos adicionais para cálculo de bins aqui.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

O número de linhas no DataFrame é 26 (o tamanho da Series), portanto o número resultante de bins é 5.

Aproximação da Densidade de Probabilidade

Para aproximar uma densidade de probabilidade, defina density=True em hist(). Assim, a altura de cada bin é:

Altura=mnw\text{Altura} = \frac{m}{n \cdot w}

onde:

  • ( n ) — número total de valores,
  • ( m ) — contagem no bin,
  • ( w ) — largura do bin.

Isso faz com que a área total do histograma seja igual a 1, correspondendo ao comportamento de uma PDF.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Isso fornece uma aproximação da função densidade de probabilidade para os dados de temperatura.

Note
Estude Mais

Se desejar explorar mais sobre os parâmetros do hist(), consulte a documentação do hist().

Tarefa

Swipe to start coding

Crie uma aproximação de uma função densidade de probabilidade utilizando uma amostra da distribuição normal padrão:

  1. Utilize a função correta para criar um histograma.
  2. Utilize normal_sample como os dados para o histograma.
  3. Especifique o número de bins como o segundo argumento utilizando a fórmula de Sturges.
  4. Torne o histograma uma aproximação de uma função densidade de probabilidade especificando corretamente o argumento mais à direita.

Solução

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1
single

single

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how the `density=True` parameter changes the histogram?

What does the resulting histogram tell us about the Seattle temperature data?

How can I compare histograms for Boston and Seattle on the same plot?

close

bookHistograma

Deslize para mostrar o menu

Note
Definição

Histogramas representam a frequência ou distribuição de probabilidade de uma variável utilizando intervalos verticais de largura igual, frequentemente chamados de barras.

O módulo pyplot fornece a função hist para criar histogramas. O parâmetro obrigatório é o dado (x), que pode ser um array ou uma sequência de arrays. Se múltiplos arrays forem passados, cada um será exibido em uma cor diferente.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervalos e Altura

Uma Series de temperaturas anuais de Seattle foi passada para hist(). Por padrão, os dados são divididos em 10 intervalos iguais entre o mínimo e o máximo. Apenas 9 bins aparecem porque um intervalo não contém valores.

A altura do bin mostra a frequência — quantos pontos de dados caem em cada intervalo.

Número de Bins

O parâmetro opcional bins pode ser um inteiro (número de bins), uma sequência de limites ou uma string. Normalmente, especificar o número de bins é suficiente.

Uma regra comum para escolher o número de bins é a fórmula de Sturges, baseada no tamanho da amostra:

bins = 1 + int(np.log2(n))

onde n é o tamanho do conjunto de dados.

Note
Estude Mais

Você pode explorar métodos adicionais para cálculo de bins aqui.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

O número de linhas no DataFrame é 26 (o tamanho da Series), portanto o número resultante de bins é 5.

Aproximação da Densidade de Probabilidade

Para aproximar uma densidade de probabilidade, defina density=True em hist(). Assim, a altura de cada bin é:

Altura=mnw\text{Altura} = \frac{m}{n \cdot w}

onde:

  • ( n ) — número total de valores,
  • ( m ) — contagem no bin,
  • ( w ) — largura do bin.

Isso faz com que a área total do histograma seja igual a 1, correspondendo ao comportamento de uma PDF.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Isso fornece uma aproximação da função densidade de probabilidade para os dados de temperatura.

Note
Estude Mais

Se desejar explorar mais sobre os parâmetros do hist(), consulte a documentação do hist().

Tarefa

Swipe to start coding

Crie uma aproximação de uma função densidade de probabilidade utilizando uma amostra da distribuição normal padrão:

  1. Utilize a função correta para criar um histograma.
  2. Utilize normal_sample como os dados para o histograma.
  3. Especifique o número de bins como o segundo argumento utilizando a fórmula de Sturges.
  4. Torne o histograma uma aproximação de uma função densidade de probabilidade especificando corretamente o argumento mais à direita.

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1
single

single

some-alt