Contenu du cours
Théorie Avancée des Probabilités
Théorie Avancée des Probabilités
Qu'est-ce Qu'une Hypothèse Statistique ? Erreurs de Type 1 et de Type 2
Hypothèse statistique H est une supposition concernant le type de distribution de la population générale, qui est testée sur les échantillons disponibles. Si la distribution de la population générale est connue et qu'il est nécessaire de vérifier l'hypothèse concernant les valeurs des paramètres de distribution à l'aide des échantillons, alors ces hypothèses sont appelées paramétriques.
L'hypothèse que nous voulons directement confirmer ou infirmer est appelée hypothèse principale (également appelée hypothèse nulle), les autres hypothèses sont alternatives. Regardons un exemple pour une meilleure compréhension.
Exemple 1
Supposons qu'il y a des échantillons, et nous voulons vérifier s'ils sont distribués selon la loi de Gauss. Dans ce cas, les hypothèses principale et alternative peuvent ressembler à ceci :
Hypothèse principale : les échantillons ont une distribution gaussienne.
Hypothèse alternative : les échantillons ont une autre distribution.
Exemple 2
Supposons que nous savons que les données sont gaussiennes. Nous avons estimé la valeur moyenne, et l'estimation est égale à 3.98
. Nous voulons vérifier si la moyenne réelle est 3.98
ou supérieure. Dans ce cas, les hypothèses sont :
Hypothèse principale : la moyenne réelle de la population est égale à 3.98
.
Hypothèse alternative : la moyenne réelle de la population est supérieure à 3.98
.
Qu'est-ce qu'un critère statistique
Critère est une règle utilisée pour accepter ou rejeter des hypothèses, généralement c'est une fonction qui a les échantillons comme arguments. Par la valeur de cette fonction, nous déterminons si l'hypothèse principale est vraie ou non.
Si la valeur de la fonction tombe dans une certaine zone S, alors nous rejetons l'hypothèse principale, une telle zone S est appelée critique.
Erreurs de Type 1 et 2
Nous définirons la zone critique en utilisant les propriétés statistiques de notre critère. Pour cela, nous devons introduire les deux concepts suivants :
- Erreur de Type 1 (erreur α) est une erreur de faux positif qui se produit lorsque nous rejetons l'hypothèse nulle même lorsqu'elle est vraie. Elle représente la probabilité de rejeter une hypothèse nulle vraie. Le niveau de signification (α) est la probabilité de commettre une erreur de Type 1 ;
- Erreur de Type 2 (erreur β) est une erreur de faux négatif qui se produit lorsque nous acceptons l'hypothèse nulle même lorsqu'elle est fausse. Elle représente la probabilité de ne pas rejeter une hypothèse nulle fausse. La puissance du test (1-β) est la probabilité de rejeter correctement une hypothèse nulle fausse.
En pratique, nous choisissons souvent manuellement un niveau de signification qui détermine la région critique de notre test. La valeur critique sépare la région de rejet (les queues de la distribution) de la région de non-rejet en fonction du niveau de signification choisi.
Exemple
Par exemple, disons que nous testons une hypothèse avec des valeurs de critère distribuées selon une loi gaussienne. Si nous fixons le niveau de signification à 0.05
, la région critique sera déterminée en conséquence.
Ainsi, si la valeur du critère tombe dans la région de rejet, nous considérons que l'hypothèse nulle est rejetée. Dans ce cas, nous testons l'hypothèse à droite ; respectivement, la région critique est à droite. Si l'hypothèse alternative était formulée comme suit : la moyenne réelle des populations est inférieure à 3,98 nous aurions une autre hypothèse à gauche et une autre région critique :
Il existe également des régions critiques bilatérales dans lesquelles les zones de rejet de l'hypothèse principale sont à la fois à droite et à gauche.
Merci pour vos commentaires !