Contenu du cours
Numpy Ultime
Numpy Ultime
Opérations Statistiques
Effectuer diverses opérations statistiques sur des tableaux est essentiel pour l'analyse de données et l'apprentissage automatique. NumPy fournit des fonctions et des méthodes pour les effectuer efficacement.
Mesures de Tendance Centrale
Les mesures de tendance centrale représentent une valeur centrale ou représentative au sein d'une distribution de probabilité. La plupart du temps, cependant, vous calculerez ces mesures pour un certain échantillon.
Voici les deux principales mesures :
- Moyenne : la somme de toutes les valeurs divisée par le nombre total de valeurs ;
- Médiane : La valeur centrale dans un échantillon trié.
NumPy fournit les fonctions mean()
et median()
pour calculer respectivement la moyenne et la médiane :
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Nous avons également affiché l'échantillon trié afin que vous puissiez clairement voir la médiane. Notre échantillon a un nombre impair d'éléments (7), donc la médiane est simplement l'élément à l'index (n + 1) / 2
dans l'échantillon trié, où n
est la taille de l'échantillon.
Remarque
Lorsque l'échantillon a un nombre pair d'éléments, la médiane est la moyenne des éléments aux indices
n / 2
etn / 2 - 1
dans l'échantillon trié.
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Notre échantillon est déjà trié et contient 8 éléments, donc n / 2 - 1 = 3
et sample[3]
est 10. n / 2 = 4
et sample[4]
est 15. Par conséquent, notre médiane est (10 + 15) / 2 = 12.5
.
Mesures de Dispersion
Deux mesures de dispersion sont la variance et l'écart type. La variance mesure à quel point les données sont dispersées. Elle est égale à la moyenne des carrés des différences de chaque valeur par rapport à la moyenne.
L'écart type est la racine carrée de la variance. Il fournit une mesure de la dispersion des données dans les mêmes unités que les données.
NumPy dispose de la fonction var()
pour calculer la variance de l'échantillon et de la fonction std()
pour calculer l'écart type de l'échantillon :
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Calculs dans des Tableaux de Dimensions Supérieures
Toutes ces fonctions ont un second paramètre axis
. Sa valeur par défaut est None
, ce qui signifie que la mesure sera calculée le long d'un tableau aplati (même si le tableau original est 2D ou de dimensions supérieures).
Vous pouvez également spécifier l'axe exact le long duquel calculer la mesure :
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
L'image ci-dessous montre la structure du tableau exam_scores
utilisé dans la tâche :
Swipe to start coding
Vous analysez le tableau exam_scores
, un tableau 2D de scores de test simulés pour 5 étudiants (5 colonnes) sur 2 examens différents (2 lignes).
-
Calculez la moyenne des scores pour chaque examen en spécifiant le deuxième argument clé.
-
Calculez la médiane de tous les scores.
-
Calculez la variance de tous les scores.
-
Calculez l'écart type de tous les scores.
Solution
Merci pour vos commentaires !
Opérations Statistiques
Effectuer diverses opérations statistiques sur des tableaux est essentiel pour l'analyse de données et l'apprentissage automatique. NumPy fournit des fonctions et des méthodes pour les effectuer efficacement.
Mesures de Tendance Centrale
Les mesures de tendance centrale représentent une valeur centrale ou représentative au sein d'une distribution de probabilité. La plupart du temps, cependant, vous calculerez ces mesures pour un certain échantillon.
Voici les deux principales mesures :
- Moyenne : la somme de toutes les valeurs divisée par le nombre total de valeurs ;
- Médiane : La valeur centrale dans un échantillon trié.
NumPy fournit les fonctions mean()
et median()
pour calculer respectivement la moyenne et la médiane :
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Nous avons également affiché l'échantillon trié afin que vous puissiez clairement voir la médiane. Notre échantillon a un nombre impair d'éléments (7), donc la médiane est simplement l'élément à l'index (n + 1) / 2
dans l'échantillon trié, où n
est la taille de l'échantillon.
Remarque
Lorsque l'échantillon a un nombre pair d'éléments, la médiane est la moyenne des éléments aux indices
n / 2
etn / 2 - 1
dans l'échantillon trié.
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Notre échantillon est déjà trié et contient 8 éléments, donc n / 2 - 1 = 3
et sample[3]
est 10. n / 2 = 4
et sample[4]
est 15. Par conséquent, notre médiane est (10 + 15) / 2 = 12.5
.
Mesures de Dispersion
Deux mesures de dispersion sont la variance et l'écart type. La variance mesure à quel point les données sont dispersées. Elle est égale à la moyenne des carrés des différences de chaque valeur par rapport à la moyenne.
L'écart type est la racine carrée de la variance. Il fournit une mesure de la dispersion des données dans les mêmes unités que les données.
NumPy dispose de la fonction var()
pour calculer la variance de l'échantillon et de la fonction std()
pour calculer l'écart type de l'échantillon :
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Calculs dans des Tableaux de Dimensions Supérieures
Toutes ces fonctions ont un second paramètre axis
. Sa valeur par défaut est None
, ce qui signifie que la mesure sera calculée le long d'un tableau aplati (même si le tableau original est 2D ou de dimensions supérieures).
Vous pouvez également spécifier l'axe exact le long duquel calculer la mesure :
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
L'image ci-dessous montre la structure du tableau exam_scores
utilisé dans la tâche :
Swipe to start coding
Vous analysez le tableau exam_scores
, un tableau 2D de scores de test simulés pour 5 étudiants (5 colonnes) sur 2 examens différents (2 lignes).
-
Calculez la moyenne des scores pour chaque examen en spécifiant le deuxième argument clé.
-
Calculez la médiane de tous les scores.
-
Calculez la variance de tous les scores.
-
Calculez l'écart type de tous les scores.
Solution
Merci pour vos commentaires !