Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ящик з вусами | Додаткові Статистичні Графіки
Ультимативна Візуалізація з Python

Свайпніть щоб показати меню

book
Ящик з вусами

Note
Визначення

Box plot — ще один надзвичайно поширений графік у статистиці, який використовується для візуалізації центральної тенденції, розкиду та потенційних викидів у даних за допомогою квартилів.

Квартилі

Квартилі ділять дані (відсортовані у порядку зростання) на чотири рівні частини. Існує три квартилі:

  • Перший квартиль (Q1) — це середнє число між найменшим значенням вибірки та медіаною (25% даних знаходиться у цьому діапазоні);

  • Другий квартиль (Q2) — це сама медіана (50% даних знаходиться нижче за медіану);

  • Третій квартиль (Q3) — це середнє число між медіаною вибірки та найбільшим значенням вибірки (75% даних знаходиться нижче за Q3).

Елементи box plot

  • Права сторона червоного прямокутника позначає третій квартиль, а ліва сторонаперший квартиль;

  • Q3 - Q1 називається міжквартильним розмахом (IQR), який зображено прямокутником, де жовта лінія — це медіана;

  • Чорні лінії за межами прямокутника називаються вусами. Ліва позначає Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, а права — Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Точки даних, що знаходяться за межами вусів, називаються викидами.

Наступний крок — побудова box plot за допомогою бібліотеки matplotlib:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Дані для box plot

Функція boxplot() з модуля pyplot використовується з першим і єдиним обов'язковим параметром x, який представляє дані. Ці дані можуть бути об'єктом, подібним до масиву (наприклад, Series), двовимірним масивом (box plot будується для кожного стовпця) або послідовністю одномірних масивів (box plot будується для кожного масиву).

Необов'язкові параметри

Параметр tick_labels є винятком. Зокрема, він корисний не лише для підпису одного box plot, а й для підпису box plot, коли є декілька масивів:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

У цьому прикладі до функції DataFrame було передано весь boxplot() з двома стовпцями, у результаті чого для кожного стовпця побудовано окремий box plot з автоматично призначеними відповідними підписами.

Note
Додаткове вивчення

Існує також чимало додаткових параметрів для налаштування box plot, з якими можна ознайомитися у документації boxplot(), хоча на практиці ви, ймовірно, рідко будете їх використовувати.

Завдання

Swipe to start coding

Створення двох box plot-графіків, використовуючи дві вибірки зі стандартного нормального розподілу:

  1. Використати відповідну функцію для побудови box plot-графіків.
  2. Використати список normal_sample_1 та normal_sample_2 (у такому порядку зліва направо) як дані.
  3. Позначити лівий box plot як First sample, а правий — як Second sample, використовуючи list.

Рішення

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 2

Запитати АІ

expand
ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

book
Ящик з вусами

Note
Визначення

Box plot — ще один надзвичайно поширений графік у статистиці, який використовується для візуалізації центральної тенденції, розкиду та потенційних викидів у даних за допомогою квартилів.

Квартилі

Квартилі ділять дані (відсортовані у порядку зростання) на чотири рівні частини. Існує три квартилі:

  • Перший квартиль (Q1) — це середнє число між найменшим значенням вибірки та медіаною (25% даних знаходиться у цьому діапазоні);

  • Другий квартиль (Q2) — це сама медіана (50% даних знаходиться нижче за медіану);

  • Третій квартиль (Q3) — це середнє число між медіаною вибірки та найбільшим значенням вибірки (75% даних знаходиться нижче за Q3).

Елементи box plot

  • Права сторона червоного прямокутника позначає третій квартиль, а ліва сторонаперший квартиль;

  • Q3 - Q1 називається міжквартильним розмахом (IQR), який зображено прямокутником, де жовта лінія — це медіана;

  • Чорні лінії за межами прямокутника називаються вусами. Ліва позначає Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, а права — Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Точки даних, що знаходяться за межами вусів, називаються викидами.

Наступний крок — побудова box plot за допомогою бібліотеки matplotlib:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Дані для box plot

Функція boxplot() з модуля pyplot використовується з першим і єдиним обов'язковим параметром x, який представляє дані. Ці дані можуть бути об'єктом, подібним до масиву (наприклад, Series), двовимірним масивом (box plot будується для кожного стовпця) або послідовністю одномірних масивів (box plot будується для кожного масиву).

Необов'язкові параметри

Параметр tick_labels є винятком. Зокрема, він корисний не лише для підпису одного box plot, а й для підпису box plot, коли є декілька масивів:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

У цьому прикладі до функції DataFrame було передано весь boxplot() з двома стовпцями, у результаті чого для кожного стовпця побудовано окремий box plot з автоматично призначеними відповідними підписами.

Note
Додаткове вивчення

Існує також чимало додаткових параметрів для налаштування box plot, з якими можна ознайомитися у документації boxplot(), хоча на практиці ви, ймовірно, рідко будете їх використовувати.

Завдання

Swipe to start coding

Створення двох box plot-графіків, використовуючи дві вибірки зі стандартного нормального розподілу:

  1. Використати відповідну функцію для побудови box plot-графіків.
  2. Використати список normal_sample_1 та normal_sample_2 (у такому порядку зліва направо) як дані.
  3. Позначити лівий box plot як First sample, а правий — як Second sample, використовуючи list.

Рішення

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 2
Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Ми дуже хвилюємося, що щось пішло не так. Що трапилося?
some-alt