Analisando Dados com Box Plots
Box plot é outro gráfico extremamente comum em estatística, utilizado para visualizar a tendência central, dispersão e possíveis outliers nos dados por meio de seus quartis.
Quartis
Quartis dividem os dados ordenados em quatro partes iguais:
- Q1 — ponto médio entre o valor mínimo e a mediana (25% dos dados abaixo deste ponto);
- Q2 — a mediana (50% dos dados abaixo);
- Q3 — ponto médio entre a mediana e o valor máximo (75% dos dados abaixo).
Elementos do Box Plot
- O lado esquerdo da caixa representa Q1, o lado direito representa Q3;
- IQR = Q3 − Q1, mostrado como a largura da caixa, com a mediana marcada por uma linha amarela;
- Bigodes se estendem até (Q1 - 1,5 \cdot IQR) e (Q3 + 1,5 \cdot IQR);
- Pontos fora dos bigodes são outliers.
Um box plot pode ser gerado usando matplotlib.
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Dados do Box Plot
Utilize plt.boxplot(x), onde x pode ser um objeto array-like 1D, um array 2D (uma caixa por coluna) ou uma sequência de arrays 1D.
Parâmetros Opcionais
tick_labels é útil para nomear box plots — especialmente ao plotar múltiplos arrays.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Ao passar um DataFrame com duas colunas numéricas para boxplot(), são criados dois box plots separados com rótulos atribuídos automaticamente.
Há também diversos parâmetros opcionais para personalizar o box plot, que podem ser explorados na documentação do boxplot(), porém, na prática, raramente são utilizados.
Swipe to start coding
Crie dois box plots usando duas amostras da distribuição normal padrão:
- Utilize a função correta para criar os box plots.
- Use a lista de
normal_sample_1enormal_sample_2(nesta ordem, da esquerda para a direita) como os dados. - Rotule o box plot da esquerda como
First samplee o da direita comoSecond sampleutilizando alist.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Incrível!
Completion taxa melhorada para 6.25
Analisando Dados com Box Plots
Deslize para mostrar o menu
Box plot é outro gráfico extremamente comum em estatística, utilizado para visualizar a tendência central, dispersão e possíveis outliers nos dados por meio de seus quartis.
Quartis
Quartis dividem os dados ordenados em quatro partes iguais:
- Q1 — ponto médio entre o valor mínimo e a mediana (25% dos dados abaixo deste ponto);
- Q2 — a mediana (50% dos dados abaixo);
- Q3 — ponto médio entre a mediana e o valor máximo (75% dos dados abaixo).
Elementos do Box Plot
- O lado esquerdo da caixa representa Q1, o lado direito representa Q3;
- IQR = Q3 − Q1, mostrado como a largura da caixa, com a mediana marcada por uma linha amarela;
- Bigodes se estendem até (Q1 - 1,5 \cdot IQR) e (Q3 + 1,5 \cdot IQR);
- Pontos fora dos bigodes são outliers.
Um box plot pode ser gerado usando matplotlib.
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Dados do Box Plot
Utilize plt.boxplot(x), onde x pode ser um objeto array-like 1D, um array 2D (uma caixa por coluna) ou uma sequência de arrays 1D.
Parâmetros Opcionais
tick_labels é útil para nomear box plots — especialmente ao plotar múltiplos arrays.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Ao passar um DataFrame com duas colunas numéricas para boxplot(), são criados dois box plots separados com rótulos atribuídos automaticamente.
Há também diversos parâmetros opcionais para personalizar o box plot, que podem ser explorados na documentação do boxplot(), porém, na prática, raramente são utilizados.
Swipe to start coding
Crie dois box plots usando duas amostras da distribuição normal padrão:
- Utilize a função correta para criar os box plots.
- Use a lista de
normal_sample_1enormal_sample_2(nesta ordem, da esquerda para a direita) como os dados. - Rotule o box plot da esquerda como
First samplee o da direita comoSecond sampleutilizando alist.
Solução
Obrigado pelo seu feedback!
single