Статистичні Операції
Виконання різних статистичних операцій над масивами є важливим для аналізу даних та машинного навчання. NumPy надає функції та методи для їх ефективного виконання.
Міри центральної тенденції
Міри центральної тенденції відображають центральне або репрезентативне значення у розподілі ймовірностей. Найчастіше ці міри обчислюють для певної вибірки.
Ось дві основні міри:
- Середнє арифметичне: сума всіх значень, поділена на їхню кількість;
- Медіана: середнє значення у відсортованій вибірці.
NumPy надає функції mean() та median() для обчислення середнього та медіани відповідно:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Ми також відобразили відсортовану вибірку, щоб ви чітко бачили медіану. Наша вибірка має непарну кількість елементів (7), тому медіана — це просто елемент з індексом (n + 1) / 2 у відсортованій вибірці, де n — розмір вибірки.
Коли вибірка має парну кількість елементів, медіана — це середнє арифметичне елементів з індексами n / 2 та n / 2 - 1 у відсортованій вибірці.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Наш вибір вже відсортований і містить 8 елементів, тому n / 2 - 1 = 3, а sample[3] дорівнює 10. n / 2 = 4, а sample[4] дорівнює 15. Отже, наша медіана — це (10 + 15) / 2 = 12.5.
Міри розсіювання
Дві міри розсіювання — це дисперсія та стандартне відхилення. Дисперсія показує, наскільки розкидані дані. Вона дорівнює середньому значенню квадратів відхилень кожного значення від середнього.
Стандартне відхилення — це квадратний корінь із дисперсії. Воно показує, наскільки розкидані дані, у тих самих одиницях, що й самі дані.
NumPy має функцію var() для обчислення дисперсії вибірки та функцію std() для обчислення стандартного відхилення вибірки:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Обчислення у багатовимірних масивах
Усі ці функції мають другий параметр axis. Його значення за замовчуванням — None, що означає, що обчислення виконуватиметься по сплющеному масиву (навіть якщо початковий масив є двовимірним або має ще більшу розмірність).
Також можна вказати конкретну вісь, вздовж якої виконувати обчислення:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
На зображенні нижче показано структуру масиву exam_scores, який використовується у завданні:
Swipe to start coding
Ви аналізуєте масив exam_scores, двовимірний масив змодельованих результатів тестів для 2 студентів (2 рядки) по 5 різних іспитах (5 стовпців).
- Обчисліть середній бал для кожного студента, вказавши другий ключовий аргумент.
- Обчисліть медіану всіх балів.
- Обчисліть дисперсію всіх балів.
- Обчисліть стандартне відхилення всіх балів.
Рішення
Дякуємо за ваш відгук!
single
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain how to interpret the results of the mean and median calculations?
What is the difference between variance and standard deviation in practical terms?
How does the axis parameter affect calculations on higher dimensional arrays?
Awesome!
Completion rate improved to 3.7
Статистичні Операції
Свайпніть щоб показати меню
Виконання різних статистичних операцій над масивами є важливим для аналізу даних та машинного навчання. NumPy надає функції та методи для їх ефективного виконання.
Міри центральної тенденції
Міри центральної тенденції відображають центральне або репрезентативне значення у розподілі ймовірностей. Найчастіше ці міри обчислюють для певної вибірки.
Ось дві основні міри:
- Середнє арифметичне: сума всіх значень, поділена на їхню кількість;
- Медіана: середнє значення у відсортованій вибірці.
NumPy надає функції mean() та median() для обчислення середнього та медіани відповідно:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Ми також відобразили відсортовану вибірку, щоб ви чітко бачили медіану. Наша вибірка має непарну кількість елементів (7), тому медіана — це просто елемент з індексом (n + 1) / 2 у відсортованій вибірці, де n — розмір вибірки.
Коли вибірка має парну кількість елементів, медіана — це середнє арифметичне елементів з індексами n / 2 та n / 2 - 1 у відсортованій вибірці.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Наш вибір вже відсортований і містить 8 елементів, тому n / 2 - 1 = 3, а sample[3] дорівнює 10. n / 2 = 4, а sample[4] дорівнює 15. Отже, наша медіана — це (10 + 15) / 2 = 12.5.
Міри розсіювання
Дві міри розсіювання — це дисперсія та стандартне відхилення. Дисперсія показує, наскільки розкидані дані. Вона дорівнює середньому значенню квадратів відхилень кожного значення від середнього.
Стандартне відхилення — це квадратний корінь із дисперсії. Воно показує, наскільки розкидані дані, у тих самих одиницях, що й самі дані.
NumPy має функцію var() для обчислення дисперсії вибірки та функцію std() для обчислення стандартного відхилення вибірки:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Обчислення у багатовимірних масивах
Усі ці функції мають другий параметр axis. Його значення за замовчуванням — None, що означає, що обчислення виконуватиметься по сплющеному масиву (навіть якщо початковий масив є двовимірним або має ще більшу розмірність).
Також можна вказати конкретну вісь, вздовж якої виконувати обчислення:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
На зображенні нижче показано структуру масиву exam_scores, який використовується у завданні:
Swipe to start coding
Ви аналізуєте масив exam_scores, двовимірний масив змодельованих результатів тестів для 2 студентів (2 рядки) по 5 різних іспитах (5 стовпців).
- Обчисліть середній бал для кожного студента, вказавши другий ключовий аргумент.
- Обчисліть медіану всіх балів.
- Обчисліть дисперсію всіх балів.
- Обчисліть стандартне відхилення всіх балів.
Рішення
Дякуємо за ваш відгук!
single