Histograma
Histogramas representam a frequência ou distribuição de probabilidade de uma variável utilizando intervalos verticais de largura igual, frequentemente chamados de barras.
O módulo pyplot fornece a função hist para criar histogramas. O parâmetro obrigatório é o dado (x), que pode ser um array ou uma sequência de arrays. Se múltiplos arrays forem passados, cada um será exibido em uma cor diferente.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalos e Altura
Uma Series de temperaturas anuais de Seattle foi passada para hist(). Por padrão, os dados são divididos em 10 intervalos iguais entre o mínimo e o máximo. Apenas 9 bins aparecem porque um intervalo não contém valores.
A altura do bin mostra a frequência — quantos pontos de dados caem em cada intervalo.
Número de Bins
O parâmetro opcional bins pode ser um inteiro (número de bins), uma sequência de limites ou uma string. Normalmente, especificar o número de bins é suficiente.
Uma regra comum para escolher o número de bins é a fórmula de Sturges, baseada no tamanho da amostra:
bins = 1 + int(np.log2(n))
onde n é o tamanho do conjunto de dados.
Você pode explorar métodos adicionais para cálculo de bins aqui.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
O número de linhas no DataFrame é 26 (o tamanho da Series), portanto o número resultante de bins é 5.
Aproximação da Densidade de Probabilidade
Para aproximar uma densidade de probabilidade, defina density=True em hist().
Assim, a altura de cada bin é:
onde:
- ( n ) — número total de valores,
- ( m ) — contagem no bin,
- ( w ) — largura do bin.
Isso faz com que a área total do histograma seja igual a 1, correspondendo ao comportamento de uma PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Isso fornece uma aproximação da função densidade de probabilidade para os dados de temperatura.
Se desejar explorar mais sobre os parâmetros do hist(), consulte a documentação do hist().
Swipe to start coding
Crie uma aproximação de uma função densidade de probabilidade utilizando uma amostra da distribuição normal padrão:
- Utilize a função correta para criar um histograma.
- Utilize
normal_samplecomo os dados para o histograma. - Especifique o número de bins como o segundo argumento utilizando a fórmula de Sturges.
- Torne o histograma uma aproximação de uma função densidade de probabilidade especificando corretamente o argumento mais à direita.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain how the `density=True` parameter changes the histogram?
What does the resulting histogram tell us about the Seattle temperature data?
How can I compare histograms for Boston and Seattle on the same plot?
Awesome!
Completion rate improved to 3.85
Histograma
Deslize para mostrar o menu
Histogramas representam a frequência ou distribuição de probabilidade de uma variável utilizando intervalos verticais de largura igual, frequentemente chamados de barras.
O módulo pyplot fornece a função hist para criar histogramas. O parâmetro obrigatório é o dado (x), que pode ser um array ou uma sequência de arrays. Se múltiplos arrays forem passados, cada um será exibido em uma cor diferente.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalos e Altura
Uma Series de temperaturas anuais de Seattle foi passada para hist(). Por padrão, os dados são divididos em 10 intervalos iguais entre o mínimo e o máximo. Apenas 9 bins aparecem porque um intervalo não contém valores.
A altura do bin mostra a frequência — quantos pontos de dados caem em cada intervalo.
Número de Bins
O parâmetro opcional bins pode ser um inteiro (número de bins), uma sequência de limites ou uma string. Normalmente, especificar o número de bins é suficiente.
Uma regra comum para escolher o número de bins é a fórmula de Sturges, baseada no tamanho da amostra:
bins = 1 + int(np.log2(n))
onde n é o tamanho do conjunto de dados.
Você pode explorar métodos adicionais para cálculo de bins aqui.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
O número de linhas no DataFrame é 26 (o tamanho da Series), portanto o número resultante de bins é 5.
Aproximação da Densidade de Probabilidade
Para aproximar uma densidade de probabilidade, defina density=True em hist().
Assim, a altura de cada bin é:
onde:
- ( n ) — número total de valores,
- ( m ) — contagem no bin,
- ( w ) — largura do bin.
Isso faz com que a área total do histograma seja igual a 1, correspondendo ao comportamento de uma PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Isso fornece uma aproximação da função densidade de probabilidade para os dados de temperatura.
Se desejar explorar mais sobre os parâmetros do hist(), consulte a documentação do hist().
Swipe to start coding
Crie uma aproximação de uma função densidade de probabilidade utilizando uma amostra da distribuição normal padrão:
- Utilize a função correta para criar um histograma.
- Utilize
normal_samplecomo os dados para o histograma. - Especifique o número de bins como o segundo argumento utilizando a fórmula de Sturges.
- Torne o histograma uma aproximação de uma função densidade de probabilidade especificando corretamente o argumento mais à direita.
Solução
Obrigado pelo seu feedback!
single