Boxplot
Box plot é outro gráfico extremamente comum em estatística, utilizado para visualizar a tendência central, dispersão e possíveis outliers nos dados por meio de seus quartis.
Quartis
Quartis dividem os pontos de dados (ordenados em ordem crescente) em quatro partes de tamanho igual. Existem três deles:
- O primeiro quartil (Q1) é o número intermediário entre o menor valor (número) da amostra e a mediana (25% dos dados estão nesse intervalo);
- O segundo quartil (Q2) é a própria mediana (50% dos dados estão abaixo da mediana);
- O terceiro quartil (Q3) é o número intermediário entre a mediana da amostra e os maiores valores da amostra (75% dos dados estão abaixo do Q3).
Elementos do Box Plot
- O lado direito do retângulo vermelho representa o terceiro quartil e o lado esquerdo representa o primeiro quartil;
- Q3 - Q1 é chamado de intervalo interquartil (IQR), que é representado pelo retângulo onde a linha amarela é a mediana;
- As linhas pretas fora do retângulo são chamadas de bigodes. O da esquerda representa Q1−1.5⋅IR, e o da direita representa Q3+1.5⋅IR;
- Os pontos de dados que estão fora dos bigodes são chamados de outliers.
O próximo passo é gerar um box plot usando a biblioteca matplotlib:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Dados do Box Plot
A função boxplot() do módulo pyplot é utilizada com o primeiro e único parâmetro obrigatório x representando os dados. Esses dados podem ser um objeto array-like (por exemplo, uma Series), um array 2D (um box plot é desenhado para cada coluna), ou uma sequência de arrays 1D (um box plot é desenhado para cada array).
Parâmetros Opcionais
O parâmetro tick_labels é uma exceção. Este, em particular, é útil não apenas para rotular um único box plot, mas também para rotular os box plots quando há mais de um array:
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Neste exemplo, o DataFrame inteiro com duas colunas foi passado para boxplot(), resultando em box plots separados para cada coluna com rótulos apropriados atribuídos automaticamente.
Existem também diversos parâmetros opcionais para personalizar o box plot, que podem ser explorados na documentação do boxplot(), porém, na prática, raramente são utilizados.
Swipe to start coding
Crie dois box plots usando duas amostras da distribuição normal padrão:
- Utilize a função correta para criar os box plots.
- Use a lista de
normal_sample_1enormal_sample_2(nesta ordem, da esquerda para a direita) como os dados. - Rotule o box plot da esquerda como
First samplee o da direita comoSecond sampleutilizando alist.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain what the interquartile range (IQR) is used for?
How do I interpret outliers in a box plot?
Can you show how to customize the appearance of a box plot?
Awesome!
Completion rate improved to 3.85
Boxplot
Deslize para mostrar o menu
Box plot é outro gráfico extremamente comum em estatística, utilizado para visualizar a tendência central, dispersão e possíveis outliers nos dados por meio de seus quartis.
Quartis
Quartis dividem os pontos de dados (ordenados em ordem crescente) em quatro partes de tamanho igual. Existem três deles:
- O primeiro quartil (Q1) é o número intermediário entre o menor valor (número) da amostra e a mediana (25% dos dados estão nesse intervalo);
- O segundo quartil (Q2) é a própria mediana (50% dos dados estão abaixo da mediana);
- O terceiro quartil (Q3) é o número intermediário entre a mediana da amostra e os maiores valores da amostra (75% dos dados estão abaixo do Q3).
Elementos do Box Plot
- O lado direito do retângulo vermelho representa o terceiro quartil e o lado esquerdo representa o primeiro quartil;
- Q3 - Q1 é chamado de intervalo interquartil (IQR), que é representado pelo retângulo onde a linha amarela é a mediana;
- As linhas pretas fora do retângulo são chamadas de bigodes. O da esquerda representa Q1−1.5⋅IR, e o da direita representa Q3+1.5⋅IR;
- Os pontos de dados que estão fora dos bigodes são chamados de outliers.
O próximo passo é gerar um box plot usando a biblioteca matplotlib:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Dados do Box Plot
A função boxplot() do módulo pyplot é utilizada com o primeiro e único parâmetro obrigatório x representando os dados. Esses dados podem ser um objeto array-like (por exemplo, uma Series), um array 2D (um box plot é desenhado para cada coluna), ou uma sequência de arrays 1D (um box plot é desenhado para cada array).
Parâmetros Opcionais
O parâmetro tick_labels é uma exceção. Este, em particular, é útil não apenas para rotular um único box plot, mas também para rotular os box plots quando há mais de um array:
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Neste exemplo, o DataFrame inteiro com duas colunas foi passado para boxplot(), resultando em box plots separados para cada coluna com rótulos apropriados atribuídos automaticamente.
Existem também diversos parâmetros opcionais para personalizar o box plot, que podem ser explorados na documentação do boxplot(), porém, na prática, raramente são utilizados.
Swipe to start coding
Crie dois box plots usando duas amostras da distribuição normal padrão:
- Utilize a função correta para criar os box plots.
- Use a lista de
normal_sample_1enormal_sample_2(nesta ordem, da esquerda para a direita) como os dados. - Rotule o box plot da esquerda como
First samplee o da direita comoSecond sampleutilizando alist.
Solução
Obrigado pelo seu feedback!
single