Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Статистичні Операції | Математика з NumPy
Ultimate NumPy

bookСтатистичні Операції

Виконання різних статистичних операцій над масивами є важливим для аналізу даних та машинного навчання. NumPy надає функції та методи для їх ефективного виконання.

Міри центральної тенденції

Міри центральної тенденції відображають центральне або репрезентативне значення у розподілі ймовірностей. Найчастіше ці міри обчислюють для певної вибірки.

Ось дві основні міри:

  • Середнє арифметичне: сума всіх значень, поділена на їхню кількість;
  • Медіана: середнє значення у відсортованій вибірці.

NumPy надає функції mean() та median() для обчислення середнього та медіани відповідно:

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Ми також відобразили відсортовану вибірку, щоб ви чітко бачили медіану. Наша вибірка має непарну кількість елементів (7), тому медіана — це просто елемент з індексом (n + 1) / 2 у відсортованій вибірці, де n — розмір вибірки.

Note
Примітка

Коли вибірка має парну кількість елементів, медіана — це середнє арифметичне елементів з індексами n / 2 та n / 2 - 1 у відсортованій вибірці.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Наш вибір вже відсортований і містить 8 елементів, тому n / 2 - 1 = 3, а sample[3] дорівнює 10. n / 2 = 4, а sample[4] дорівнює 15. Отже, наша медіана — це (10 + 15) / 2 = 12.5.

Міри розсіювання

Дві міри розсіювання — це дисперсія та стандартне відхилення. Дисперсія показує, наскільки розкидані дані. Вона дорівнює середньому значенню квадратів відхилень кожного значення від середнього.

Стандартне відхилення — це квадратний корінь із дисперсії. Воно показує, наскільки розкидані дані, у тих самих одиницях, що й самі дані.

NumPy має функцію var() для обчислення дисперсії вибірки та функцію std() для обчислення стандартного відхилення вибірки:

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Обчислення у багатовимірних масивах

Усі ці функції мають другий параметр axis. Його значення за замовчуваннямNone, що означає, що обчислення виконуватиметься по сплющеному масиву (навіть якщо початковий масив є двовимірним або має ще більшу розмірність).

Також можна вказати конкретну вісь, вздовж якої виконувати обчислення:

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

На зображенні нижче показано структуру масиву exam_scores, який використовується у завданні:

Завдання

Swipe to start coding

Ви аналізуєте масив exam_scores, двовимірний масив змодельованих результатів тестів для 2 студентів (2 рядки) по 5 різних іспитах (5 стовпців).

  1. Обчисліть середній бал для кожного студента, вказавши другий ключовий аргумент.
  2. Обчисліть медіану всіх балів.
  3. Обчисліть дисперсію всіх балів.
  4. Обчисліть стандартне відхилення всіх балів.

Рішення

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 3
single

single

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain how to interpret the results of the mean and median calculations?

What is the difference between variance and standard deviation in practical terms?

How does the axis parameter affect calculations on higher dimensional arrays?

close

Awesome!

Completion rate improved to 3.7

bookСтатистичні Операції

Свайпніть щоб показати меню

Виконання різних статистичних операцій над масивами є важливим для аналізу даних та машинного навчання. NumPy надає функції та методи для їх ефективного виконання.

Міри центральної тенденції

Міри центральної тенденції відображають центральне або репрезентативне значення у розподілі ймовірностей. Найчастіше ці міри обчислюють для певної вибірки.

Ось дві основні міри:

  • Середнє арифметичне: сума всіх значень, поділена на їхню кількість;
  • Медіана: середнє значення у відсортованій вибірці.

NumPy надає функції mean() та median() для обчислення середнього та медіани відповідно:

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Ми також відобразили відсортовану вибірку, щоб ви чітко бачили медіану. Наша вибірка має непарну кількість елементів (7), тому медіана — це просто елемент з індексом (n + 1) / 2 у відсортованій вибірці, де n — розмір вибірки.

Note
Примітка

Коли вибірка має парну кількість елементів, медіана — це середнє арифметичне елементів з індексами n / 2 та n / 2 - 1 у відсортованій вибірці.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Наш вибір вже відсортований і містить 8 елементів, тому n / 2 - 1 = 3, а sample[3] дорівнює 10. n / 2 = 4, а sample[4] дорівнює 15. Отже, наша медіана — це (10 + 15) / 2 = 12.5.

Міри розсіювання

Дві міри розсіювання — це дисперсія та стандартне відхилення. Дисперсія показує, наскільки розкидані дані. Вона дорівнює середньому значенню квадратів відхилень кожного значення від середнього.

Стандартне відхилення — це квадратний корінь із дисперсії. Воно показує, наскільки розкидані дані, у тих самих одиницях, що й самі дані.

NumPy має функцію var() для обчислення дисперсії вибірки та функцію std() для обчислення стандартного відхилення вибірки:

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Обчислення у багатовимірних масивах

Усі ці функції мають другий параметр axis. Його значення за замовчуваннямNone, що означає, що обчислення виконуватиметься по сплющеному масиву (навіть якщо початковий масив є двовимірним або має ще більшу розмірність).

Також можна вказати конкретну вісь, вздовж якої виконувати обчислення:

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

На зображенні нижче показано структуру масиву exam_scores, який використовується у завданні:

Завдання

Swipe to start coding

Ви аналізуєте масив exam_scores, двовимірний масив змодельованих результатів тестів для 2 студентів (2 рядки) по 5 різних іспитах (5 стовпців).

  1. Обчисліть середній бал для кожного студента, вказавши другий ключовий аргумент.
  2. Обчисліть медіану всіх балів.
  3. Обчисліть дисперсію всіх балів.
  4. Обчисліть стандартне відхилення всіх балів.

Рішення

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 3
single

single

some-alt