Lernen Allgemeine Bevölkerung. Stichproben. Populationsparameter.

Swipe um das Menü anzuzeigen

Die allgemeine Bevölkerung repräsentiert, wie Dinge im wirklichen Leben normalerweise verteilt sind. Zum Beispiel sind die Größen erwachsener Männer in den Vereinigten Staaten im Allgemeinen etwa 70 Zoll groß, mit einer Variation von etwa 3 Zoll. Wenn wir also eine Gruppe von Männern in den USA nehmen würden, würden ihre Größen diesem Muster folgen.

Eine Stichprobe ist eine kleine Gruppe, die wir verwenden, um das größere Bild der allgemeinen Bevölkerung zu verstehen. Wenn wir zum Beispiel die Größen von Männern in den USA wissen wollen, könnten wir die Größen einiger Männer aus verschiedenen Orten messen. Diese gemessenen Größen sind unsere Stichproben.


              123456789
            
import numpy as np
# Specify parameters of general population
mean = 70
std = 3
# Specify number of sumples to generate
size = 10
# Generate samples
samples = np.random.normal(mean, std, size)
print('Samples are: ', samples)

Somit ist jede Stichprobe im Wesentlichen eine Zufallsvariable mit einer Verteilung, die durch die allgemeine Population gegeben ist.
Im obigen Beispiel haben wir zunächst den Typ und die Parameter der allgemeinen Population festgelegt und dann die entsprechenden Stichproben generiert. Bei realen Aufgaben der Analytik und Datenwissenschaft müssen wir normalerweise das inverse Problem lösen: Wir haben Stichproben, die aus einer allgemeinen Population generiert wurden, und wir müssen bestimmen, aus welcher bestimmten Population diese Stichproben generiert wurden.

Dazu müssen wir die folgenden Schritte befolgen:

Schritt 1. Zuerst ist es notwendig festzustellen, ob wir es mit einer diskreten oder kontinuierlichen allgemeinen Population zu tun haben;

Schritt 2. Es ist notwendig zu schätzen, welchem Verteilungstyp unsere Daten angehören. Dies kann durch Visualisierung erfolgen: Für diskrete Daten erstellen wir ein Häufigkeitspolygon, und für kontinuierliche Daten ein Histogramm. Weiterhin können wir annehmen, dass unsere Daten eine Verteilung mit PMF/PDF haben, die unserem Häufigkeitspolygon/Histogramm am ähnlichsten ist;


              1234567891011121314151617181920212223242526272829303132
            
import numpy as np
import matplotlib.pyplot as plt

# Generating 1000 samples from a continuous normal distribution with mean 70 and standard deviation 3
samples_cont = np.random.normal(70, 3, 1000)
# Generate 500 samples from a discrete distribution
samples_disc = np.random.choice(['Red', 'Blue', 'Green', 'Black', 'White'], size=500, p=[0.3, 0.2, 0.15, 0.15, 0.2]) 

# Creating the figure and subplots
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# Plotting the histogram on the first subplot
axes[0].hist(samples_cont, bins=20, alpha=0.5, color='blue', density=True)
axes[0].set_xlabel('Values')
axes[0].set_ylabel('Frequency')
axes[0].set_title('Histogram of Continuous Variable')

# Plotting the frequency polygon on the second subplot

# Calculate the empirical probabilities
counts = np.unique(samples_disc, return_counts=True)[1]
probs = counts / len(samples_disc)

# Plot the frequency polygon
axes[1].plot(['Red', 'Blue', 'Green', 'Black', 'White'], probs, marker='o', linestyle='--')
axes[1].set_title('Frequency Polygon')
axes[1].set_xlabel('Color')
axes[1].set_ylabel('Estimated Probability')

# Adjusting the layout and displaying the plot
plt.tight_layout()
plt.show()

Schritt 3. Wie wir in den vorherigen Kapiteln erwähnt haben, reicht die Visualisierung nicht aus, um den Verteilungstyp genau zu bestimmen. Daher werden nach der Visualisierung in der Regel verschiedene statistische Kriterien angewendet, um formeller zu zeigen, dass unsere Daten zu einer oder einer anderen allgemeinen Population gehören;

Schritt 4. Nachdem Sie den Verteilungstyp bestimmt haben, müssen Sie die Parameter dieser Verteilung schätzen. Wenn Sie beispielsweise aus dem Histogramm annehmen, dass die Daten normal verteilt sind, müssen Sie den Mittelwert und die Varianz schätzen; wenn Sie annehmen, dass die Daten exponentiell verteilt sind, müssen Sie den Lambda-Parameter bestimmen, und so weiter. Neben der Punktschätzung von Parametern werden auch Konfidenzintervalle für die entsprechenden Parameter konstruiert.

In diesem Abschnitt werden wir uns ausführlicher mit dem vierten Schritt befassen und betrachten, wie man die Parameter der allgemeinen Population schätzt und wie man bestimmt, wie gut die Schätzungen sind.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 1