Contenu du cours
Théorie Avancée des Probabilités
Théorie Avancée des Probabilités
Théorème Central Limite
Le théorème central limite est un théorème statistique fondamental qui stipule que la somme d'un grand nombre de variables aléatoires indépendantes et identiquement distribuées sera approximativement distribuée normalement, quelle que soit la distribution sous-jacente des variables aléatoires individuelles.
Formulation du théorème
La description formelle du théorème peut être présentée comme suit :
Tout comme dans la loi des grands nombres, nous voyons que dans la définition du Théorème Central Limite, il y a une lettre 'd' au-dessus de la flèche. Cette lettre signifie la convergence en distribution. En termes simples, cela peut être interprété comme suit : plus nous avons de termes, plus la PDF de la somme de ces termes sera similaire à la PDF de la distribution Gaussienne. Au lieu de la dernière ligne dans la formulation ci-dessus, une autre est souvent utilisée :
Dans cette formulation, nous ne parlons plus de convergence. Au lieu de cela, nous affirmons que la somme suit directement une loi de distribution Gaussienne avec certains paramètres. Cependant, il est important de noter que cette approximation ne tient que pour de grandes valeurs de n.
Pour chaque distribution spécifique, la valeur requise de n diffère, mais généralement, si n n'est pas inférieur à 35
, cette approximation fonctionne avec une précision raisonnablement élevée.
Illustration du théorème
Regardez l'illustration ci-dessous : nous allons calculer la PDF de la somme de variables uniformément distribuées. Comme montré dans l'illustration, la PDF résultante devient plus similaire à une PDF Gaussienne à mesure que nous utilisons de plus en plus de termes pour calculer la somme.
Voyons maintenant la PMF de la somme de variables Binomiales :
Implémentation du TCL
Nous allons créer 500
échantillons, chacun contenant des centaines de variables aléatoires d'une distribution exponentielle.
Pour chacun de ces 500
échantillons, nous calculerons la somme de ses variables aléatoires et créerons un histogramme à partir des 500
valeurs résultantes. Ensuite, nous comparerons cet histogramme avec un graphique PDF d'une variable aléatoire gaussienne.
import numpy as np import matplotlib.pyplot as plt # List to store the sum of samples from each iteration hist_samples = [] # Generate 500 samples and calculate the sum of random variables in each sample for i in range(500): generated_samples = np.random.poisson(4, 100) # Generate 100 random variables from a Poisson distribution with mean 4 hist_samples.append(generated_samples.sum()) # Calculate the sum and append it to hist_samples # Plot a histogram of the samples and pdf of Gaussian distribution fig, axes = plt.subplots(1,2) # Create subplots fig.set_size_inches(10, 5) # Set the size of the figure # Plot histogram on the first subplot axes[0].hist(hist_samples, bins=10, alpha=0.5, edgecolor='black', density=True) axes[0].set_title('Histogram of Sum of Poisson Values') # Set title for the first subplot # Parameters for Gaussian distribution mean = 400 # Mean of one Poisson variable is 4, mean of sum is 400 std = 20 # Variance of one Poisson variable is 4, variance of sum 400, std 20 # Define the range of x values for the plot x = np.linspace(mean - 3 * std, mean + 3 * std, 500) # Calculate the pdf of the Gaussian distribution pdf = (1 / (std * np.sqrt(2 * np.pi))) * np.exp(-((x - mean)**2) / (2 * std**2)) # Plot the pdf on the second subplot axes[1].plot(x, pdf) axes[1].set_title('Gaussian Distribution with Mean = {} and Variance = {}'.format(mean, std**2)) # Set title for the second subplot plt.show() # Display the plot
Nous pouvons observer que l'histogramme résultant correspond étroitement au PDF de la distribution gaussienne. Cela confirme la validité du théorème, démontrant son applicabilité dans des scénarios réels !
Merci pour vos commentaires !