Summary  
This chapter covers how to perform an independent two-sample t-test, including checking variance equality, specifying a one-sided alternative hypothesis, and using the `ttest_ind` function to compare means.  

General domain of usage  
Employee productivity comparison

Une entreprise souhaite déterminer s'il existe une différence significative dans les niveaux de productivité des développeurs travaillant à domicile par rapport à ceux travaillant au bureau. Heureusement, vous savez déjà qu'un test t peut aider à répondre à cette question.

L'entreprise dispose de deux équipes de développeurs indépendantes : l'une travaille à distance, l'autre au bureau. Deux fichiers vous ont été fournis, `'work_from_home.csv'` et `'work_from_office.csv'`, contenant le nombre mensuel de tâches accomplies par chaque développeur.

La tâche consiste à réaliser un test t. L'entreprise souhaite savoir si les développeurs travaillant au bureau sont plus productifs que ceux travaillant à domicile. Si c'est le cas, elle obligera également la seconde équipe à travailler au bureau. Si les travailleurs à domicile sont plus productifs, aucun changement ne sera effectué. L'hypothèse alternative souhaitée est donc : « La productivité moyenne des travailleurs au bureau est supérieure à celle des travailleurs à domicile ».

Vérification de l'égalité des variances :


import pandas as pd

home_workers = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/work_from_home.csv').squeeze()
office_workers = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/work_from_office.csv').squeeze()
# Printing sample standard deviations
print('Home workers std:', home_workers.std())
print('Office workers std:', office_workers.std())

L'écart type du second groupe est deux fois supérieur à celui du premier, donc les variances diffèrent.
Rappel de la fonction `ttest_ind` pour effectuer un test t.
```python
st.ttest_ind(a, b, equal_var=True, alternative='two-sided')
```

import unittest
import pandas as pd
import scipy.stats as st

def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestImport(unittest.TestCase):
    def test_import_alias(self):
        import user_code
        condition = hasattr(user_code, 'st') and user_code.st is st
        _dynamic_test(
            self,
            condition,
            "The scipy.stats library is correctly imported with the alias 'st'.",
            "The scipy.stats library is not imported correctly with the alias 'st'."
        )


class TestTTest(unittest.TestCase):
    def test_ttest_parameters(self):
        import user_code

        home_workers = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/work_from_home.csv'
        ).squeeze()

        office_workers = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/work_from_office.csv'
        ).squeeze()

        expected_tstat, expected_pvalue = st.ttest_ind(
            office_workers,
            home_workers,
            equal_var=False,
            alternative='greater'
        )

        condition = (
            abs(user_code.tstat - expected_tstat) < 1e-6
            and abs(user_code.pvalue - expected_pvalue) < 1e-6
        )

        _dynamic_test(
            self,
            condition,
            "The t-test is applied correctly with the given parameters.",
            "The t-test is not applied correctly. Check your function arguments."
        )


class TestTTestResult(unittest.TestCase):
    def test_hypothesis_decision(self):
        import user_code

        # ÐÑÑÐºÑÐ²Ð°Ð½Ðµ Ð¿Ð¾Ð²ÑÐ´Ð¾Ð¼Ð»ÐµÐ½Ð½Ñ Ð·Ð°Ð»ÐµÐ¶Ð½Ð¾ Ð²ÑÐ´ pvalue
        if user_code.pvalue > 0.05:
            expected_message = "We support the null hypothesis, the mean values are equal"
        else:
            expected_message = "We reject the null hypothesis, the mean values are different"

        # Ð¢ÐµÑÑ Ð¿ÑÐ¾ÑÑÐ¾ Ð¿ÐµÑÐµÐ²ÑÑÑÑ Ð»Ð¾Ð³ÑÐºÑ ÑÐ¼Ð¾Ð²Ð½Ð¾Ð³Ð¾ Ð±Ð»Ð¾ÐºÑ
        condition = expected_message is not None

        _dynamic_test(
            self,
            condition,
            "The hypothesis decision logic is implemented correctly.",
            "The hypothesis decision logic is incorrect."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Acquérir une base solide en statistiques avec Python. Découvrir les concepts statistiques essentiels et les appliquer à l’aide de NumPy et pandas. Passer des mesures de base telles que la moyenne et la variance aux tests d’hypothèses, intervalles de confiance et analyses de données concrètes grâce à une pratique approfondie.

Découvrez les principes statistiques fondamentaux, y compris les types de données, les mesures de tendance centrale et les principales différences entre échantillons et populations.

Apprendre à calculer et interpréter la moyenne, la médiane et le mode avec Python. S'exercer à ces opérations avec pandas pour analyser des ensembles de données réels.

Comprendre comment la variance et l'écart type mesurent la dispersion des données. Apprendre à calculer ces mesures manuellement et à l'aide d'outils Python.

Découvrez comment la covariance et la corrélation décrivent les relations entre les variables. Exercices de calcul et de comparaison de ces deux mesures en Python.

Maîtrise des intervalles de confiance pour estimer les paramètres d'une population. Utilisation de NumPy, pandas et des bibliothèques de visualisation pour calculer et interpréter les intervalles avec des données réelles.

Apprenez les principes fondamentaux des tests d'hypothèse et du test t. Comprenez comment concevoir, réaliser et interpréter des tests à l'aide de Python pour soutenir les décisions basées sur les données.

Réaliser un Test T

Solution