Kursinhalt
Fortgeschrittene Wahrscheinlichkeitstheorie
Fortgeschrittene Wahrscheinlichkeitstheorie
Herausforderung: Resampling-Ansatz zum Vergleich der Mittelwerte der Datensätze
Wir können auch den Resampling-Ansatz verwenden, um die Hypothese mit nicht-Gauss'schen Datensätzen zu testen. Resampling ist eine Technik, um aus einem verfügbaren Datensatz zusätzliche Stichproben zu generieren, von denen jede als repräsentativ für die zugrunde liegende Population angesehen wird.
Ansatzbeschreibung
Lassen Sie uns die einfachste Resampling-Methode beschreiben, um die Haupthypothese zu überprüfen, dass zwei Datensätze X und Y gleiche Mittelwerte haben:
-
Konkatenieren Sie beide Arrays (
X
undY
) zu einem großen Array; -
Mischen Sie dieses gesamte Array, sodass Beobachtungen aus jeder Gruppe zufällig in diesem Array verteilt sind, anstatt an der Trennstelle getrennt zu sein;
-
Teilen Sie das Array willkürlich an der Trennstelle (
X_length
), weisen Sie Beobachtungen unterhalb des Indexlen(X_length)
Gruppe A zu und den Rest Gruppe B; -
Subtrahieren Sie den Mittelwert dieser neuen Gruppe A vom Mittelwert der neuen Gruppe B. Dies würde uns eine Permutationsteststatistik geben;
-
Wiederholen Sie diese Schritte
N
Mal, um die Verteilung der Haupthypothese zu simulieren; -
Berechnen Sie Teststatistiken auf den ursprünglichen Sets
X
undY
; -
Bestimmen Sie kritische Werte der Haupthypothesenverteilung;
-
Überprüfen Sie, ob die auf den ursprünglichen Sets berechnete Teststatistik in einen kritischen Bereich der Haupthypothesenverteilung fällt. Wenn dies der Fall ist, lehnen Sie die Haupthypothese ab.
Lassen Sie uns diesen Ansatz im Code anwenden:
Swipe to start coding
Ihre Aufgabe ist es, den oben beschriebenen Resampling-Algorithmus zu implementieren und die entsprechende Hypothese auf zwei Datensätzen zu überprüfen:
- Verwenden Sie die Methode
np.concatenate()
, um die ArraysX
undY
zu verbinden. - Verwenden Sie die Methode
.shuffle()
des Modulsnp.random
, um die Daten im zusammengeführten Array zu mischen. - Verwenden Sie die Methode
np.quantile()
, um den linken kritischen Wert zu berechnen. - Verwenden Sie die erstellte Funktion
resampling_test()
, um die Hypothese auf generierten Daten zu überprüfen.
Lösung
Danke für Ihr Feedback!
Herausforderung: Resampling-Ansatz zum Vergleich der Mittelwerte der Datensätze
Wir können auch den Resampling-Ansatz verwenden, um die Hypothese mit nicht-Gauss'schen Datensätzen zu testen. Resampling ist eine Technik, um aus einem verfügbaren Datensatz zusätzliche Stichproben zu generieren, von denen jede als repräsentativ für die zugrunde liegende Population angesehen wird.
Ansatzbeschreibung
Lassen Sie uns die einfachste Resampling-Methode beschreiben, um die Haupthypothese zu überprüfen, dass zwei Datensätze X und Y gleiche Mittelwerte haben:
-
Konkatenieren Sie beide Arrays (
X
undY
) zu einem großen Array; -
Mischen Sie dieses gesamte Array, sodass Beobachtungen aus jeder Gruppe zufällig in diesem Array verteilt sind, anstatt an der Trennstelle getrennt zu sein;
-
Teilen Sie das Array willkürlich an der Trennstelle (
X_length
), weisen Sie Beobachtungen unterhalb des Indexlen(X_length)
Gruppe A zu und den Rest Gruppe B; -
Subtrahieren Sie den Mittelwert dieser neuen Gruppe A vom Mittelwert der neuen Gruppe B. Dies würde uns eine Permutationsteststatistik geben;
-
Wiederholen Sie diese Schritte
N
Mal, um die Verteilung der Haupthypothese zu simulieren; -
Berechnen Sie Teststatistiken auf den ursprünglichen Sets
X
undY
; -
Bestimmen Sie kritische Werte der Haupthypothesenverteilung;
-
Überprüfen Sie, ob die auf den ursprünglichen Sets berechnete Teststatistik in einen kritischen Bereich der Haupthypothesenverteilung fällt. Wenn dies der Fall ist, lehnen Sie die Haupthypothese ab.
Lassen Sie uns diesen Ansatz im Code anwenden:
Swipe to start coding
Ihre Aufgabe ist es, den oben beschriebenen Resampling-Algorithmus zu implementieren und die entsprechende Hypothese auf zwei Datensätzen zu überprüfen:
- Verwenden Sie die Methode
np.concatenate()
, um die ArraysX
undY
zu verbinden. - Verwenden Sie die Methode
.shuffle()
des Modulsnp.random
, um die Daten im zusammengeführten Array zu mischen. - Verwenden Sie die Methode
np.quantile()
, um den linken kritischen Wert zu berechnen. - Verwenden Sie die erstellte Funktion
resampling_test()
, um die Hypothese auf generierten Daten zu überprüfen.
Lösung
Danke für Ihr Feedback!