Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Allgemeine Bevölkerung. Stichproben. Populationsparameter. | Schätzung von Populationsparametern
Fortgeschrittene Wahrscheinlichkeitstheorie
course content

Kursinhalt

Fortgeschrittene Wahrscheinlichkeitstheorie

Fortgeschrittene Wahrscheinlichkeitstheorie

1. Zusätzliche Aussagen Aus Der Wahrscheinlichkeitstheorie
2. Die Grenzwertsätze der Wahrscheinlichkeitstheorie
3. Schätzung von Populationsparametern
4. Testing of Statistical Hypotheses

book
Allgemeine Bevölkerung. Stichproben. Populationsparameter.

Die allgemeine Bevölkerung repräsentiert, wie Dinge im wirklichen Leben normalerweise verteilt sind. Zum Beispiel sind die Größen erwachsener Männer in den Vereinigten Staaten im Allgemeinen etwa 70 Zoll groß, mit einer Variation von etwa 3 Zoll. Wenn wir also eine Gruppe von Männern in den USA nehmen würden, würden ihre Größen diesem Muster folgen.

Eine Stichprobe ist eine kleine Gruppe, die wir verwenden, um das größere Bild der allgemeinen Bevölkerung zu verstehen. Wenn wir zum Beispiel die Größen von Männern in den USA wissen wollen, könnten wir die Größen einiger Männer aus verschiedenen Orten messen. Diese gemessenen Größen sind unsere Stichproben.

123456789
import numpy as np # Specify parameters of general population mean = 70 std = 3 # Specify number of sumples to generate size = 10 # Generate samples samples = np.random.normal(mean, std, size) print('Samples are: ', samples)
copy

Somit ist jede Stichprobe im Wesentlichen eine Zufallsvariable mit einer Verteilung, die durch die allgemeine Population gegeben ist.
Im obigen Beispiel haben wir zunächst den Typ und die Parameter der allgemeinen Population festgelegt und dann die entsprechenden Stichproben generiert. Bei realen Aufgaben der Analytik und Datenwissenschaft müssen wir normalerweise das inverse Problem lösen: Wir haben Stichproben, die aus einer allgemeinen Population generiert wurden, und wir müssen bestimmen, aus welcher bestimmten Population diese Stichproben generiert wurden.

Dazu müssen wir die folgenden Schritte befolgen:

Schritt 1. Zuerst ist es notwendig festzustellen, ob wir es mit einer diskreten oder kontinuierlichen allgemeinen Population zu tun haben;

Schritt 2. Es ist notwendig zu schätzen, welchem Verteilungstyp unsere Daten angehören. Dies kann durch Visualisierung erfolgen: Für diskrete Daten erstellen wir ein Häufigkeitspolygon, und für kontinuierliche Daten ein Histogramm. Weiterhin können wir annehmen, dass unsere Daten eine Verteilung mit PMF/PDF haben, die unserem Häufigkeitspolygon/Histogramm am ähnlichsten ist;

1234567891011121314151617181920212223242526272829303132
import numpy as np import matplotlib.pyplot as plt # Generating 1000 samples from a continuous normal distribution with mean 70 and standard deviation 3 samples_cont = np.random.normal(70, 3, 1000) # Generate 500 samples from a discrete distribution samples_disc = np.random.choice(['Red', 'Blue', 'Green', 'Black', 'White'], size=500, p=[0.3, 0.2, 0.15, 0.15, 0.2]) # Creating the figure and subplots fig, axes = plt.subplots(1, 2, figsize=(10, 4)) # Plotting the histogram on the first subplot axes[0].hist(samples_cont, bins=20, alpha=0.5, color='blue', density=True) axes[0].set_xlabel('Values') axes[0].set_ylabel('Frequency') axes[0].set_title('Histogram of Continuous Variable') # Plotting the frequency polygon on the second subplot # Calculate the empirical probabilities counts = np.unique(samples_disc, return_counts=True)[1] probs = counts / len(samples_disc) # Plot the frequency polygon axes[1].plot(['Red', 'Blue', 'Green', 'Black', 'White'], probs, marker='o', linestyle='--') axes[1].set_title('Frequency Polygon') axes[1].set_xlabel('Color') axes[1].set_ylabel('Estimated Probability') # Adjusting the layout and displaying the plot plt.tight_layout() plt.show()
copy

Schritt 3. Wie wir in den vorherigen Kapiteln erwähnt haben, reicht die Visualisierung nicht aus, um den Verteilungstyp genau zu bestimmen. Daher werden nach der Visualisierung in der Regel verschiedene statistische Kriterien angewendet, um formeller zu zeigen, dass unsere Daten zu einer oder einer anderen allgemeinen Population gehören;

Schritt 4. Nachdem Sie den Verteilungstyp bestimmt haben, müssen Sie die Parameter dieser Verteilung schätzen. Wenn Sie beispielsweise aus dem Histogramm annehmen, dass die Daten normal verteilt sind, müssen Sie den Mittelwert und die Varianz schätzen; wenn Sie annehmen, dass die Daten exponentiell verteilt sind, müssen Sie den Lambda-Parameter bestimmen, und so weiter. Neben der Punktschätzung von Parametern werden auch Konfidenzintervalle für die entsprechenden Parameter konstruiert.

In diesem Abschnitt werden wir uns ausführlicher mit dem vierten Schritt befassen und betrachten, wie man die Parameter der allgemeinen Population schätzt und wie man bestimmt, wie gut die Schätzungen sind.

Warum müssen wir ein Histogramm/Frequenzpolygon unserer Stichproben erstellen?

Warum müssen wir ein Histogramm/Frequenzpolygon unserer Stichproben erstellen?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1
We're sorry to hear that something went wrong. What happened?
some-alt