Kursinhalt
Fortgeschrittene Wahrscheinlichkeitstheorie
Fortgeschrittene Wahrscheinlichkeitstheorie
Allgemeine Bevölkerung. Stichproben. Populationsparameter.
Die allgemeine Bevölkerung repräsentiert, wie Dinge im wirklichen Leben normalerweise verteilt sind. Zum Beispiel sind die Größen erwachsener Männer in den Vereinigten Staaten im Allgemeinen etwa 70
Zoll groß, mit einer Variation von etwa 3
Zoll. Wenn wir also eine Gruppe von Männern in den USA nehmen würden, würden ihre Größen diesem Muster folgen.
Eine Stichprobe ist eine kleine Gruppe, die wir verwenden, um das größere Bild der allgemeinen Bevölkerung zu verstehen. Wenn wir zum Beispiel die Größen von Männern in den USA wissen wollen, könnten wir die Größen einiger Männer aus verschiedenen Orten messen. Diese gemessenen Größen sind unsere Stichproben.
import numpy as np # Specify parameters of general population mean = 70 std = 3 # Specify number of sumples to generate size = 10 # Generate samples samples = np.random.normal(mean, std, size) print('Samples are: ', samples)
Somit ist jede Stichprobe im Wesentlichen eine Zufallsvariable mit einer Verteilung, die durch die allgemeine Population gegeben ist.
Im obigen Beispiel haben wir zunächst den Typ und die Parameter der allgemeinen Population festgelegt und dann die entsprechenden Stichproben generiert. Bei realen Aufgaben der Analytik und Datenwissenschaft müssen wir normalerweise das inverse Problem lösen: Wir haben Stichproben, die aus einer allgemeinen Population generiert wurden, und wir müssen bestimmen, aus welcher bestimmten Population diese Stichproben generiert wurden.
Dazu müssen wir die folgenden Schritte befolgen:
Schritt 1. Zuerst ist es notwendig festzustellen, ob wir es mit einer diskreten oder kontinuierlichen allgemeinen Population zu tun haben;
Schritt 2. Es ist notwendig zu schätzen, welchem Verteilungstyp unsere Daten angehören. Dies kann durch Visualisierung erfolgen: Für diskrete Daten erstellen wir ein Häufigkeitspolygon, und für kontinuierliche Daten ein Histogramm. Weiterhin können wir annehmen, dass unsere Daten eine Verteilung mit PMF/PDF haben, die unserem Häufigkeitspolygon/Histogramm am ähnlichsten ist;
import numpy as np import matplotlib.pyplot as plt # Generating 1000 samples from a continuous normal distribution with mean 70 and standard deviation 3 samples_cont = np.random.normal(70, 3, 1000) # Generate 500 samples from a discrete distribution samples_disc = np.random.choice(['Red', 'Blue', 'Green', 'Black', 'White'], size=500, p=[0.3, 0.2, 0.15, 0.15, 0.2]) # Creating the figure and subplots fig, axes = plt.subplots(1, 2, figsize=(10, 4)) # Plotting the histogram on the first subplot axes[0].hist(samples_cont, bins=20, alpha=0.5, color='blue', density=True) axes[0].set_xlabel('Values') axes[0].set_ylabel('Frequency') axes[0].set_title('Histogram of Continuous Variable') # Plotting the frequency polygon on the second subplot # Calculate the empirical probabilities counts = np.unique(samples_disc, return_counts=True)[1] probs = counts / len(samples_disc) # Plot the frequency polygon axes[1].plot(['Red', 'Blue', 'Green', 'Black', 'White'], probs, marker='o', linestyle='--') axes[1].set_title('Frequency Polygon') axes[1].set_xlabel('Color') axes[1].set_ylabel('Estimated Probability') # Adjusting the layout and displaying the plot plt.tight_layout() plt.show()
Schritt 3. Wie wir in den vorherigen Kapiteln erwähnt haben, reicht die Visualisierung nicht aus, um den Verteilungstyp genau zu bestimmen. Daher werden nach der Visualisierung in der Regel verschiedene statistische Kriterien angewendet, um formeller zu zeigen, dass unsere Daten zu einer oder einer anderen allgemeinen Population gehören;
Schritt 4. Nachdem Sie den Verteilungstyp bestimmt haben, müssen Sie die Parameter dieser Verteilung schätzen. Wenn Sie beispielsweise aus dem Histogramm annehmen, dass die Daten normal verteilt sind, müssen Sie den Mittelwert und die Varianz schätzen; wenn Sie annehmen, dass die Daten exponentiell verteilt sind, müssen Sie den Lambda-Parameter bestimmen, und so weiter. Neben der Punktschätzung von Parametern werden auch Konfidenzintervalle für die entsprechenden Parameter konstruiert.
In diesem Abschnitt werden wir uns ausführlicher mit dem vierten Schritt befassen und betrachten, wie man die Parameter der allgemeinen Population schätzt und wie man bestimmt, wie gut die Schätzungen sind.
Danke für Ihr Feedback!