Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Opérations Statistiques | Mathématiques avec NumPy
Numpy Ultime

bookOpérations Statistiques

Effectuer diverses opérations statistiques sur des tableaux est essentiel pour l'analyse de données et l'apprentissage automatique. NumPy propose des fonctions et des méthodes permettant de les réaliser efficacement.

Mesures de tendance centrale

Les mesures de tendance centrale représentent une valeur centrale ou représentative au sein d'une distribution de probabilité. La plupart du temps, cependant, ces mesures sont calculées pour un certain échantillon.

Voici les deux principales mesures :

  • Moyenne : la somme de toutes les valeurs divisée par le nombre total de valeurs ;
  • Médiane : la valeur centrale dans un échantillon trié.

NumPy fournit les fonctions mean() et median() pour calculer respectivement la moyenne et la médiane :

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Nous avons également affiché l'échantillon trié afin que vous puissiez clairement voir la médiane. Notre échantillon contient un nombre impair d'éléments (7), donc la médiane est simplement l'élément à l'indice (n + 1) / 2 dans l'échantillon trié, où n est la taille de l'échantillon.

Note
Remarque

Lorsque l'échantillon contient un nombre pair d'éléments, la médiane est la moyenne des éléments aux indices n / 2 et n / 2 - 1 dans l'échantillon trié.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Notre échantillon est déjà trié et comporte 8 éléments, donc n / 2 - 1 = 3 et sample[3] est 10. n / 2 = 4 et sample[4] est 15. Par conséquent, la médiane est (10 + 15) / 2 = 12.5.

Mesures de dispersion

Deux mesures de dispersion sont la variance et l'écart type. La variance mesure à quel point les données sont dispersées. Elle correspond à la moyenne des carrés des écarts de chaque valeur par rapport à la moyenne.

L’écart type est la racine carrée de la variance. Il fournit une mesure de la dispersion des données dans les mêmes unités que les données.

NumPy propose la fonction var() pour calculer la variance de l’échantillon et la fonction std() pour calculer l’écart type de l’échantillon :

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Calculs dans les tableaux de dimensions supérieures

Toutes ces fonctions possèdent un second paramètre axis. Sa valeur par défaut est None, ce qui signifie que la mesure sera calculée sur un tableau aplatit (même si le tableau d'origine est en 2D ou de dimension supérieure).

Il est également possible de spécifier l’axe exact le long duquel effectuer le calcul de la mesure :

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

L’illustration ci-dessous montre la structure du tableau exam_scores utilisé dans l’exercice :

Tâche

Swipe to start coding

Vous analysez le tableau exam_scores, un tableau 2D de scores d'examen simulés pour 2 étudiants (2 lignes) sur 5 examens différents (5 colonnes).

  1. Calculer la moyenne des scores pour chaque étudiant en spécifiant le deuxième argument mot-clé.
  2. Calculer la médiane de tous les scores.
  3. Calculer la variance de tous les scores.
  4. Calculer l'écart type de tous les scores.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 3
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

close

Awesome!

Completion rate improved to 3.7

bookOpérations Statistiques

Glissez pour afficher le menu

Effectuer diverses opérations statistiques sur des tableaux est essentiel pour l'analyse de données et l'apprentissage automatique. NumPy propose des fonctions et des méthodes permettant de les réaliser efficacement.

Mesures de tendance centrale

Les mesures de tendance centrale représentent une valeur centrale ou représentative au sein d'une distribution de probabilité. La plupart du temps, cependant, ces mesures sont calculées pour un certain échantillon.

Voici les deux principales mesures :

  • Moyenne : la somme de toutes les valeurs divisée par le nombre total de valeurs ;
  • Médiane : la valeur centrale dans un échantillon trié.

NumPy fournit les fonctions mean() et median() pour calculer respectivement la moyenne et la médiane :

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Nous avons également affiché l'échantillon trié afin que vous puissiez clairement voir la médiane. Notre échantillon contient un nombre impair d'éléments (7), donc la médiane est simplement l'élément à l'indice (n + 1) / 2 dans l'échantillon trié, où n est la taille de l'échantillon.

Note
Remarque

Lorsque l'échantillon contient un nombre pair d'éléments, la médiane est la moyenne des éléments aux indices n / 2 et n / 2 - 1 dans l'échantillon trié.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Notre échantillon est déjà trié et comporte 8 éléments, donc n / 2 - 1 = 3 et sample[3] est 10. n / 2 = 4 et sample[4] est 15. Par conséquent, la médiane est (10 + 15) / 2 = 12.5.

Mesures de dispersion

Deux mesures de dispersion sont la variance et l'écart type. La variance mesure à quel point les données sont dispersées. Elle correspond à la moyenne des carrés des écarts de chaque valeur par rapport à la moyenne.

L’écart type est la racine carrée de la variance. Il fournit une mesure de la dispersion des données dans les mêmes unités que les données.

NumPy propose la fonction var() pour calculer la variance de l’échantillon et la fonction std() pour calculer l’écart type de l’échantillon :

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Calculs dans les tableaux de dimensions supérieures

Toutes ces fonctions possèdent un second paramètre axis. Sa valeur par défaut est None, ce qui signifie que la mesure sera calculée sur un tableau aplatit (même si le tableau d'origine est en 2D ou de dimension supérieure).

Il est également possible de spécifier l’axe exact le long duquel effectuer le calcul de la mesure :

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

L’illustration ci-dessous montre la structure du tableau exam_scores utilisé dans l’exercice :

Tâche

Swipe to start coding

Vous analysez le tableau exam_scores, un tableau 2D de scores d'examen simulés pour 2 étudiants (2 lignes) sur 5 examens différents (5 colonnes).

  1. Calculer la moyenne des scores pour chaque étudiant en spécifiant le deuxième argument mot-clé.
  2. Calculer la médiane de tous les scores.
  3. Calculer la variance de tous les scores.
  4. Calculer l'écart type de tous les scores.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 3
single

single

some-alt