Contenu du cours
Théorie Avancée des Probabilités
Théorie Avancée des Probabilités
Loi des Grands Nombres
La Loi des Grands Nombres est un concept fondamental en théorie des probabilités et en statistiques qui stipule qu'à mesure que la taille de l'échantillon augmente, la moyenne des valeurs observées convergera vers la valeur attendue ou la moyenne de la distribution sous-jacente.
Définition mathématique de la loi
Fournissons quelques explications sur cette loi :
-
La première condition est que nous avons une séquence de variables aléatoires qui sont indépendantes et identiquement distribuées (i.i.d.). Cela signifie que les variables sont du même type et ont le même schéma de distribution. Par exemple, N(1, 2) et N(1, 3) ne sont pas identiquement distribuées car bien qu'elles soient toutes deux gaussiennes, elles ont des variances différentes ;
-
La deuxième condition est que ces valeurs doivent avoir une espérance finie. Cela signifie que la série ou l'intégrale doit converger vers un nombre spécifique, comme discuté au Chapitre 2 de la première section ;
-
La loi des grands nombres stipule que si les deux premières conditions sont remplies, alors à mesure que nous prenons plus de variables, la moyenne de ces variables se rapproche de l'espérance réelle.
Remarque
Dans l'énoncé de la loi, vous pourriez voir la lettre 'p' au-dessus de la flèche. Cela signifie convergence en termes de probabilité, qui est la façon dont les variables aléatoires se rejoignent. Mais pour comprendre la loi des grands nombres de manière pratique, vous n'avez pas besoin de vous soucier de ce type de convergence. Donc, nous n'aborderons pas cela dans ce cours.
La visualisation de la loi
Pour vérifier si la loi des grands nombres est vraie, exécutez les exemples de code plusieurs fois et observez si la convergence reste cohérente lors de la sommation des variables dans différentes séquences. Si la loi est respectée, la moyenne tendra constamment vers l'espérance réelle, peu importe l'ordre dans lequel les variables sont sommées.
import pandas as pd import matplotlib.pyplot as plt import numpy as np # Importing the dataset samples = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/Advanced+Probability+course+media/gaussian_samples.csv', names=['Value']) # Shuffle the samples samples = samples.sample(frac=1) # Function that will calculate mean value of subsamples def mean_value(data, subsample_size): return data[:subsample_size].mean()['Value'] # Visualizing the results x = np.arange(5000) y = np.zeros(5000) # Loop through different subsample sizes and calculate mean for i in range(1, 5000): y[i] = mean_value(samples, x[i]) # Plotting the results plt.plot(x, y, label='Estimated mean') plt.xlabel('Number of elements to calculate mean value') plt.ylabel('Mean value') plt.axhline(y=0, color='k', label='Real mean') plt.legend() plt.show()
Nous pouvons voir sur le graphique ci-dessus plus nous prenons de termes, plus la valeur estimée se rapproche de la valeur réelle : la variance de la valeur estimée diminue.
Regardons maintenant les données obtenues à partir de la distribution de Cauchy et voyons si la loi des grands nombres fonctionnera pour cette distribution (n'oubliez pas d'exécuter le code plusieurs fois et de regarder les résultats) :
from scipy.stats import cauchy import matplotlib.pyplot as plt from scipy.stats import cauchy import numpy as np # Set the location parameter to 0 and generate 5000 samples loc = 0 samples = cauchy.rvs(loc=loc, size=5000) # Function that will calculate mean value of subsamples def mean_value(data, subsample_size): return data[:subsample_size].mean() # Visualizing the results x = np.arange(5000) y = np.zeros(5000) for i in range(1, 5000): y[i] = mean_value(samples, x[i]) plt.plot(x, y, label='Estimated mean') plt.xlabel('Number of elements to calculate mean value') plt.ylabel('Mean value') plt.legend() plt.show()
Dans le premier cas, le graphique converge toujours vers zéro, quel que soit l'ordre de la sommation. Les fluctuations autour de zéro diminuent à mesure que plus de termes sont ajoutés.
Cependant, dans le second cas, le graphique ne converge pas et se comporte de manière imprévisible. Cela est dû au fait que la distribution de Cauchy n'a pas d'espérance mathématique finie, violant la deuxième condition de la loi des grands nombres.
Merci pour vos commentaires !