Kursinhalt
Fortgeschrittene Wahrscheinlichkeitstheorie
Fortgeschrittene Wahrscheinlichkeitstheorie
Gesetz der Großen Zahlen
Das Gesetz der großen Zahlen ist ein grundlegendes Konzept in der Wahrscheinlichkeitstheorie und Statistik, das besagt, dass mit zunehmender Stichprobengröße der Durchschnitt der beobachteten Werte gegen den Erwartungswert oder Mittelwert der zugrunde liegenden Verteilung konvergiert.
Mathematische Definition des Gesetzes
Lassen Sie uns einige Erklärungen zu diesem Gesetz geben:
-
Die erste Bedingung ist, dass wir eine Folge von Zufallsvariablen haben, die unabhängig und identisch verteilt (i.i.d.) sind. Das bedeutet, dass die Variablen vom gleichen Typ sind und das gleiche Verteilungsmuster haben. Zum Beispiel sind N(1, 2) und N(1, 3) nicht identisch verteilt, da sie zwar beide Gaußsche Verteilungen sind, aber unterschiedliche Varianzen haben;
-
Die zweite Bedingung ist, dass diese Werte einen endlichen Erwartungswert haben müssen. Das bedeutet, dass die Reihe oder das Integral zu einer bestimmten Zahl konvergieren muss, wie in Kapitel 2 des ersten Abschnitts besprochen;
-
Das Gesetz der großen Zahlen besagt, dass, wenn die ersten beiden Bedingungen erfüllt sind, dann, wenn wir mehr Variablen nehmen, der Durchschnitt dieser Variablen näher an den tatsächlichen Erwartungswert heranrückt.
Hinweis
In der Aussage des Gesetzes sehen Sie möglicherweise den Buchstaben 'p' über dem Pfeil. Dies bedeutet Konvergenz im Sinne der Wahrscheinlichkeit, was beschreibt, wie Zufallsvariablen zusammenkommen. Aber um das Gesetz der großen Zahlen praktisch zu verstehen, müssen Sie sich um diese Art der Konvergenz keine Sorgen machen. Daher werden wir in diesem Kurs nicht darauf eingehen.
Die Visualisierung des Gesetzes
Um zu überprüfen, ob das Gesetz der großen Zahlen zutrifft, führen Sie die Codebeispiele mehrfach aus und beobachten Sie, ob die Konvergenz konsistent bleibt, wenn Variablen in unterschiedlichen Reihenfolgen summiert werden. Wenn das Gesetz eingehalten wird, wird der Durchschnitt konsequent zum tatsächlichen Erwartungswert tendieren, unabhängig von der Reihenfolge, in der die Variablen summiert werden.
import pandas as pd import matplotlib.pyplot as plt import numpy as np # Importing the dataset samples = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/Advanced+Probability+course+media/gaussian_samples.csv', names=['Value']) # Shuffle the samples samples = samples.sample(frac=1) # Function that will calculate mean value of subsamples def mean_value(data, subsample_size): return data[:subsample_size].mean()['Value'] # Visualizing the results x = np.arange(5000) y = np.zeros(5000) # Loop through different subsample sizes and calculate mean for i in range(1, 5000): y[i] = mean_value(samples, x[i]) # Plotting the results plt.plot(x, y, label='Estimated mean') plt.xlabel('Number of elements to calculate mean value') plt.ylabel('Mean value') plt.axhline(y=0, color='k', label='Real mean') plt.legend() plt.show()
Wir können im obigen Diagramm sehen, je mehr Terme wir nehmen, desto näher ist der geschätzte Wert am tatsächlichen Wert: Die Varianz des geschätzten Wertes nimmt ab.
Schauen wir uns nun die Daten an, die aus der Cauchy-Verteilung gewonnen wurden, und sehen wir, ob das Gesetz der großen Zahlen für diese Verteilung funktioniert (vergessen Sie nicht, den Code mehrmals auszuführen und die Ergebnisse zu betrachten):
from scipy.stats import cauchy import matplotlib.pyplot as plt from scipy.stats import cauchy import numpy as np # Set the location parameter to 0 and generate 5000 samples loc = 0 samples = cauchy.rvs(loc=loc, size=5000) # Function that will calculate mean value of subsamples def mean_value(data, subsample_size): return data[:subsample_size].mean() # Visualizing the results x = np.arange(5000) y = np.zeros(5000) for i in range(1, 5000): y[i] = mean_value(samples, x[i]) plt.plot(x, y, label='Estimated mean') plt.xlabel('Number of elements to calculate mean value') plt.ylabel('Mean value') plt.legend() plt.show()
Im ersten Fall konvergiert das Diagramm immer zu Null, unabhängig von der Reihenfolge der Summation. Die Schwankungen um Null nehmen ab, wenn mehr Terme hinzugefügt werden.
Im zweiten Fall jedoch konvergiert das Diagramm nicht und verhält sich unvorhersehbar. Dies liegt daran, dass die Cauchy-Verteilung keine endliche mathematische Erwartung hat und die zweite Bedingung des Gesetzes der großen Zahlen verletzt.
Danke für Ihr Feedback!