Apprendre Opérations Statistiques | Mathématiques avec NumPy

Effectuer diverses opérations statistiques sur des tableaux est essentiel pour l'analyse de données et l'apprentissage automatique. NumPy propose des fonctions et des méthodes permettant de les réaliser efficacement.

Mesures de tendance centrale

Les mesures de tendance centrale représentent une valeur centrale ou représentative au sein d'une distribution de probabilité. La plupart du temps, cependant, ces mesures sont calculées pour un certain échantillon.

Voici les deux principales mesures :

Moyenne : la somme de toutes les valeurs divisée par le nombre total de valeurs ;
Médiane : la valeur centrale dans un échantillon trié.

NumPy fournit les fonctions mean() et median() pour calculer respectivement la moyenne et la médiane :


              12345678
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the mean
sample_mean = np.mean(sample)
print(f'Sorted sample: {np.sort(sample)}')
# Calculating the median
sample_median = np.median(sample)
print(f'Mean: {sample_mean}, median: {sample_median}')

Nous avons également affiché l'échantillon trié afin que vous puissiez clairement voir la médiane. Notre échantillon contient un nombre impair d'éléments (7), donc la médiane est simplement l'élément à l'indice (n + 1) / 2 dans l'échantillon trié, où n est la taille de l'échantillon.

Remarque

Lorsque l'échantillon contient un nombre pair d'éléments, la médiane est la moyenne des éléments aux indices n / 2 et n / 2 - 1 dans l'échantillon trié.


              1234
            
import numpy as np
sample = np.array([1, 2, 8, 10, 15, 20, 25, 30])
sample_median = np.median(sample)
print(f'Median: {sample_median}')

Notre échantillon est déjà trié et comporte 8 éléments, donc n / 2 - 1 = 3 et sample[3] est 10. n / 2 = 4 et sample[4] est 15. Par conséquent, la médiane est (10 + 15) / 2 = 12.5.

Mesures de dispersion

Deux mesures de dispersion sont la variance et l'écart type. La variance mesure à quel point les données sont dispersées. Elle correspond à la moyenne des carrés des écarts de chaque valeur par rapport à la moyenne.

L’écart type est la racine carrée de la variance. Il fournit une mesure de la dispersion des données dans les mêmes unités que les données.

NumPy propose la fonction var() pour calculer la variance de l’échantillon et la fonction std() pour calculer l’écart type de l’échantillon :


              1234567
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the variance
sample_variance = np.var(sample)
# Calculating the standard deviation
sample_std = np.std(sample)
print(f'Variance: {sample_variance}, standard deviation: {sample_std}')

Calculs dans les tableaux de dimensions supérieures

Toutes ces fonctions possèdent un second paramètre axis. Sa valeur par défaut est None, ce qui signifie que la mesure sera calculée sur un tableau aplatit (même si le tableau d'origine est en 2D ou de dimension supérieure).

Il est également possible de spécifier l’axe exact le long duquel effectuer le calcul de la mesure :


              12345678
            
import numpy as np
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
# Calculating the mean in a flattened array
print(np.mean(array_2d))
# Calculating the mean along axis 0
print(np.mean(array_2d, axis=0))
# Calculating the mean along axis 1
print(np.mean(array_2d, axis=1))

L’illustration ci-dessous montre la structure du tableau exam_scores utilisé dans l’exercice :

Tâche

Swipe to start coding

Vous analysez le tableau exam_scores, un tableau 2D de scores d'examen simulés pour 2 étudiants (2 lignes) sur 5 examens différents (5 colonnes).

Calculer la moyenne des scores pour chaque étudiant en spécifiant le deuxième argument mot-clé.
Calculer la médiane de tous les scores.
Calculer la variance de tous les scores.
Calculer l'écart type de tous les scores.

Solution

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 3

single

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu