Вивчайте Статистичні Операції

Виконання різних статистичних операцій над масивами є важливим для аналізу даних та машинного навчання. NumPy надає функції та методи для їх ефективного виконання.

Міри центральної тенденції

Міри центральної тенденції відображають центральне або репрезентативне значення у розподілі ймовірностей. Найчастіше ці міри обчислюють для певної вибірки.

Ось дві основні міри:

Середнє арифметичне: сума всіх значень, поділена на їхню кількість;
Медіана: середнє значення у відсортованій вибірці.

NumPy надає функції mean() та median() для обчислення середнього та медіани відповідно:


              12345678
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the mean
sample_mean = np.mean(sample)
print(f'Sorted sample: {np.sort(sample)}')
# Calculating the median
sample_median = np.median(sample)
print(f'Mean: {sample_mean}, median: {sample_median}')

Ми також відобразили відсортовану вибірку, щоб ви чітко бачили медіану. Наша вибірка має непарну кількість елементів (7), тому медіана — це просто елемент з індексом (n + 1) / 2 у відсортованій вибірці, де n — розмір вибірки.

Примітка

Коли вибірка має парну кількість елементів, медіана — це середнє арифметичне елементів з індексами n / 2 та n / 2 - 1 у відсортованій вибірці.


              1234
            
import numpy as np
sample = np.array([1, 2, 8, 10, 15, 20, 25, 30])
sample_median = np.median(sample)
print(f'Median: {sample_median}')

Наш вибір вже відсортований і містить 8 елементів, тому n / 2 - 1 = 3, а sample[3] дорівнює 10. n / 2 = 4, а sample[4] дорівнює 15. Отже, наша медіана — це (10 + 15) / 2 = 12.5.

Міри розсіювання

Дві міри розсіювання — це дисперсія та стандартне відхилення. Дисперсія показує, наскільки розкидані дані. Вона дорівнює середньому значенню квадратів відхилень кожного значення від середнього.

Стандартне відхилення — це квадратний корінь із дисперсії. Воно показує, наскільки розкидані дані, у тих самих одиницях, що й самі дані.

NumPy має функцію var() для обчислення дисперсії вибірки та функцію std() для обчислення стандартного відхилення вибірки:


              1234567
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the variance
sample_variance = np.var(sample)
# Calculating the standard deviation
sample_std = np.std(sample)
print(f'Variance: {sample_variance}, standard deviation: {sample_std}')

Обчислення у багатовимірних масивах

Усі ці функції мають другий параметр axis. Його значення за замовчуванням — None, що означає, що обчислення виконуватиметься по сплющеному масиву (навіть якщо початковий масив є двовимірним або має ще більшу розмірність).

Також можна вказати конкретну вісь, вздовж якої виконувати обчислення:


              12345678
            
import numpy as np
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
# Calculating the mean in a flattened array
print(np.mean(array_2d))
# Calculating the mean along axis 0
print(np.mean(array_2d, axis=0))
# Calculating the mean along axis 1
print(np.mean(array_2d, axis=1))

На зображенні нижче показано структуру масиву exam_scores, який використовується у завданні:

Завдання

Swipe to start coding

Ви аналізуєте масив exam_scores, двовимірний масив змодельованих результатів тестів для 2 студентів (2 рядки) по 5 різних іспитах (5 стовпців).

Обчисліть середній бал для кожного студента, вказавши другий ключовий аргумент.
Обчисліть медіану всіх балів.
Обчисліть дисперсію всіх балів.
Обчисліть стандартне відхилення всіх балів.

Рішення

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 4. Розділ 3

single

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Свайпніть щоб показати меню