Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Défi : Approche de Rééchantillonnage pour Comparer les Valeurs Moyennes des Ensembles de Données | Test des Hypothèses Statistiques
Théorie Avancée des Probabilités
course content

Contenu du cours

Théorie Avancée des Probabilités

Théorie Avancée des Probabilités

1. Déclarations Supplémentaires de la Théorie des Probabilités
2. Les Théorèmes Limites de la Théorie des Probabilités
3. Estimation des Paramètres de Population
4. Test des Hypothèses Statistiques

book
Défi : Approche de Rééchantillonnage pour Comparer les Valeurs Moyennes des Ensembles de Données

Nous pouvons également utiliser l'approche de rééchantillonnage pour tester l'hypothèse avec des ensembles de données non gaussiens. Le rééchantillonnage est une technique d'échantillonnage à partir d'un ensemble de données disponible pour générer des échantillons supplémentaires, chacun étant considéré comme représentatif de la population sous-jacente.

Description de l'approche

Décrivons la méthode de rééchantillonnage la plus simple pour vérifier l'hypothèse principale selon laquelle deux ensembles de données X et Y ont des valeurs moyennes égales :

  • Concaténer les deux tableaux (X et Y) en un seul grand tableau ;

  • Mélanger ce tableau entier afin que les observations de chaque groupe soient réparties aléatoirement dans ce tableau au lieu d'être séparées au point de rupture ;

  • Diviser arbitrairement le tableau au point de rupture (X_length), attribuer les observations en dessous de l'index len(X_length) au Groupe A et le reste au Groupe B ;

  • Soustraire la moyenne de ce nouveau Groupe A de la moyenne du nouveau Groupe B. Cela nous donnerait une statistique de test de permutation ;

  • Répéter ces étapes N fois pour simuler la distribution de l'hypothèse principale ;

  • Calculer les statistiques de test sur les ensembles initiaux X et Y ;

  • Déterminer les valeurs critiques de la distribution de l'hypothèse principale ;

  • Vérifier si la statistique de test calculée sur les ensembles initiaux tombe dans une zone critique de la distribution de l'hypothèse principale. Si c'est le cas, rejeter l'hypothèse principale.

Appliquons cette approche en code :

Tâche

Swipe to start coding

Votre tâche consiste à implémenter l'algorithme de rééchantillonnage décrit ci-dessus et à vérifier l'hypothèse correspondante sur deux ensembles de données :

  1. Utilisez la méthode np.concatenate() pour fusionner les tableaux X et Y.
  2. Utilisez la méthode .shuffle() du module np.random pour mélanger les données dans le tableau fusionné.
  3. Utilisez la méthode np.quantile() pour calculer la valeur critique gauche.
  4. Utilisez la fonction créée resampling_test() pour vérifier l'hypothèse sur les données générées.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 5
toggle bottom row

book
Défi : Approche de Rééchantillonnage pour Comparer les Valeurs Moyennes des Ensembles de Données

Nous pouvons également utiliser l'approche de rééchantillonnage pour tester l'hypothèse avec des ensembles de données non gaussiens. Le rééchantillonnage est une technique d'échantillonnage à partir d'un ensemble de données disponible pour générer des échantillons supplémentaires, chacun étant considéré comme représentatif de la population sous-jacente.

Description de l'approche

Décrivons la méthode de rééchantillonnage la plus simple pour vérifier l'hypothèse principale selon laquelle deux ensembles de données X et Y ont des valeurs moyennes égales :

  • Concaténer les deux tableaux (X et Y) en un seul grand tableau ;

  • Mélanger ce tableau entier afin que les observations de chaque groupe soient réparties aléatoirement dans ce tableau au lieu d'être séparées au point de rupture ;

  • Diviser arbitrairement le tableau au point de rupture (X_length), attribuer les observations en dessous de l'index len(X_length) au Groupe A et le reste au Groupe B ;

  • Soustraire la moyenne de ce nouveau Groupe A de la moyenne du nouveau Groupe B. Cela nous donnerait une statistique de test de permutation ;

  • Répéter ces étapes N fois pour simuler la distribution de l'hypothèse principale ;

  • Calculer les statistiques de test sur les ensembles initiaux X et Y ;

  • Déterminer les valeurs critiques de la distribution de l'hypothèse principale ;

  • Vérifier si la statistique de test calculée sur les ensembles initiaux tombe dans une zone critique de la distribution de l'hypothèse principale. Si c'est le cas, rejeter l'hypothèse principale.

Appliquons cette approche en code :

Tâche

Swipe to start coding

Votre tâche consiste à implémenter l'algorithme de rééchantillonnage décrit ci-dessus et à vérifier l'hypothèse correspondante sur deux ensembles de données :

  1. Utilisez la méthode np.concatenate() pour fusionner les tableaux X et Y.
  2. Utilisez la méthode .shuffle() du module np.random pour mélanger les données dans le tableau fusionné.
  3. Utilisez la méthode np.quantile() pour calculer la valeur critique gauche.
  4. Utilisez la fonction créée resampling_test() pour vérifier l'hypothèse sur les données générées.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 5
Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
We're sorry to hear that something went wrong. What happened?
some-alt