Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Гістограма | Додаткові Статистичні Графіки
Універсальна Візуалізація з Python

bookГістограма

Note
Визначення

Гістограми відображають частоту або ймовірнісний розподіл змінної за допомогою вертикальних бінів однакової ширини, які часто називають стовпчиками.

Модуль pyplot надає функцію hist для створення гістограм. Обов'язковим параметром є дані (x), які можуть бути масивом або послідовністю масивів. Якщо передано кілька масивів, кожен з них відображається різним кольором.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Інтервали та Висота

Об'єкт Series, що містить середньорічні температури в Сіетлі, був переданий у функцію hist(). За замовчуванням дані поділяються на 10 рівних інтервалів від мінімального до максимального значення. Однак видно лише 9 стовпчиків, оскільки другий інтервал не містить жодного значення.

Висота кожного стовпчика за замовчуванням дорівнює частоті значень у цьому інтервалі (кількість разів, коли вони зустрічаються).

Кількість Стовпчиків

Ще один важливий, але необов'язковий параметр — це bins, який приймає або кількість стовпчиків (ціле число), або послідовність чисел, що визначають межі стовпчиків, або рядок. У більшості випадків достатньо передати кількість стовпчиків.

Існує кілька методів визначення ширини стовпчиків гістограми. У цьому прикладі використовується формула Стерджеса, яка обчислює оптимальну кількість стовпчиків на основі розміру вибірки:

Тут n — це розмір масиву даних.

Note
Вивчайте більше

Можна дослідити додаткові методи для обчислення кількості бінів тут.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

The number of rows in the DataFrame is 26 (the size of the Series), so the resulting number of bins is 5.

Наближення ймовірнісної щільності

Щоб переглянути наближення ймовірнісної щільності, встановіть параметр density у значення True у функції hist.

Тепер висота кожного стовпчика обчислюється за формулою:

Height=mn×w\text{Height} = \frac{m}{n \times w}

де:

  • nn — загальна кількість значень у наборі даних;
  • mm — кількість значень у стовпчику;
  • ww — ширина стовпчика.

Це гарантує, що загальна площа під гістограмою дорівнює 1, що відповідає основній властивості функції ймовірнісної щільності (PDF).

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Це забезпечує наближення функції ймовірнісної щільності для температурних даних.

Note
Вивчайте більше

Якщо бажаєте детальніше ознайомитися з параметрами функції hist(), зверніться до hist() документації.

Завдання

Swipe to start coding

Створення апроксимації функції щільності ймовірності за допомогою вибірки зі стандартного нормального розподілу:

  1. Використання відповідної функції для побудови гістограми.
  2. Використання normal_sample як даних для гістограми.
  3. Вказання кількості інтервалів (бінів) як другого аргументу за формулою Стерджеса.
  4. Перетворення гістограми на апроксимацію функції щільності ймовірності шляхом правильного зазначення крайнього правого аргументу.

Рішення

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 1
single

single

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain how Sturges' formula works in more detail?

What does setting density=True change in the histogram?

How do I interpret the probability density values on the y-axis?

close

Awesome!

Completion rate improved to 3.85

bookГістограма

Свайпніть щоб показати меню

Note
Визначення

Гістограми відображають частоту або ймовірнісний розподіл змінної за допомогою вертикальних бінів однакової ширини, які часто називають стовпчиками.

Модуль pyplot надає функцію hist для створення гістограм. Обов'язковим параметром є дані (x), які можуть бути масивом або послідовністю масивів. Якщо передано кілька масивів, кожен з них відображається різним кольором.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Інтервали та Висота

Об'єкт Series, що містить середньорічні температури в Сіетлі, був переданий у функцію hist(). За замовчуванням дані поділяються на 10 рівних інтервалів від мінімального до максимального значення. Однак видно лише 9 стовпчиків, оскільки другий інтервал не містить жодного значення.

Висота кожного стовпчика за замовчуванням дорівнює частоті значень у цьому інтервалі (кількість разів, коли вони зустрічаються).

Кількість Стовпчиків

Ще один важливий, але необов'язковий параметр — це bins, який приймає або кількість стовпчиків (ціле число), або послідовність чисел, що визначають межі стовпчиків, або рядок. У більшості випадків достатньо передати кількість стовпчиків.

Існує кілька методів визначення ширини стовпчиків гістограми. У цьому прикладі використовується формула Стерджеса, яка обчислює оптимальну кількість стовпчиків на основі розміру вибірки:

Тут n — це розмір масиву даних.

Note
Вивчайте більше

Можна дослідити додаткові методи для обчислення кількості бінів тут.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

The number of rows in the DataFrame is 26 (the size of the Series), so the resulting number of bins is 5.

Наближення ймовірнісної щільності

Щоб переглянути наближення ймовірнісної щільності, встановіть параметр density у значення True у функції hist.

Тепер висота кожного стовпчика обчислюється за формулою:

Height=mn×w\text{Height} = \frac{m}{n \times w}

де:

  • nn — загальна кількість значень у наборі даних;
  • mm — кількість значень у стовпчику;
  • ww — ширина стовпчика.

Це гарантує, що загальна площа під гістограмою дорівнює 1, що відповідає основній властивості функції ймовірнісної щільності (PDF).

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Це забезпечує наближення функції ймовірнісної щільності для температурних даних.

Note
Вивчайте більше

Якщо бажаєте детальніше ознайомитися з параметрами функції hist(), зверніться до hist() документації.

Завдання

Swipe to start coding

Створення апроксимації функції щільності ймовірності за допомогою вибірки зі стандартного нормального розподілу:

  1. Використання відповідної функції для побудови гістограми.
  2. Використання normal_sample як даних для гістограми.
  3. Вказання кількості інтервалів (бінів) як другого аргументу за формулою Стерджеса.
  4. Перетворення гістограми на апроксимацію функції щільності ймовірності шляхом правильного зазначення крайнього правого аргументу.

Рішення

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 1
single

single

some-alt