Summary  
This chapter demonstrates how to perform a paired t-test on two related datasets using ttest_rel—without assuming equal variances and requiring equal sample sizes—and how to visualize their distributions and mean values.  

General domain of usage  
Before-and-after experimental analysis

Følgende funksjon utfører en paret t-test:

```python
ttest_rel(a, b, alternative='two-sided')
```

Denne prosessen ligner på den som brukes for uavhengige utvalg, men her trenger vi ikke å kontrollere for homogenitet av varians. Den parete t-testen forutsetter **ikke** at variansene er like.

Vær oppmerksom på at for en paret t-test er det avgjørende at **utvalgsstørrelsene er like**.

Med denne informasjonen kan du gå videre til oppgaven med å utføre en paret t-test.

Her har du data om antall nedlastinger for en bestemt app. Se på utvalgene: gjennomsnittsverdiene er nesten identiske.

import pandas as pd
import matplotlib.pyplot as plt

# Read the data
before = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/before.csv').squeeze()
after = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/after.csv').squeeze()
# Plot histograms
plt.hist(before, alpha=0.7)
plt.hist(after, alpha=0.7)
# Plot the means
plt.axvline(before.mean(), color='blue', linestyle='dashed')
plt.axvline(after.mean(), color='gold', linestyle='dashed')

import unittest
import pandas as pd
import scipy.stats as st

def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestPairedTTest(unittest.TestCase):
    def test_ttest_rel(self):
        import user_code

        # ÐÐ°Ð²Ð°Ð½ÑÐ°Ð¶ÐµÐ½Ð½Ñ ÑÐ¸Ñ ÑÐ°Ð¼Ð¸Ñ Ð´Ð°Ð½Ð¸Ñ
        before = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/before.csv'
        ).squeeze()

        after = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/after.csv'
        ).squeeze()

        # ÐÑÑÐºÑÐ²Ð°Ð½Ñ ÑÐµÐ·ÑÐ»ÑÑÐ°ÑÐ¸
        expected_stats, expected_pvalue = st.ttest_rel(
            after, before, alternative='greater'
        )

        condition = (
            abs(user_code.stats - expected_stats) < 1e-6
            and abs(user_code.pvalue - expected_pvalue) < 1e-6
        )

        _dynamic_test(
            self,
            condition,
            "The paired t-test is conducted correctly.",
            "The paired t-test is incorrect. Check your arguments or test type."
        )


class TestAlternativeHypothesis(unittest.TestCase):
    def test_alternative_parameter(self):
        import user_code

        before = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/before.csv'
        ).squeeze()

        after = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/Testing2.0/after.csv'
        ).squeeze()

        # ÐÐ¾Ð²ÑÐ¾ÑÑÑÐ¼Ð¾ ÑÐµÑÑ ÑÐ· Ð¿ÑÐ°Ð²Ð¸Ð»ÑÐ½Ð¸Ð¼ Ð¿Ð°ÑÐ°Ð¼ÐµÑÑÐ¾Ð¼
        _, expected_pvalue = st.ttest_rel(after, before, alternative='greater')

        # ÐÐµÑÐµÐ²ÑÑÐºÐ°, ÑÐ¾ Ð¿Ð¾ÑÑÐ´Ð¾Ðº Ð°ÑÐ³ÑÐ¼ÐµÐ½ÑÑÐ² Ñ Ð°Ð»ÑÑÐµÑÐ½Ð°ÑÐ¸Ð²Ð° Ð¿ÑÐ°Ð²Ð¸Ð»ÑÐ½Ñ
        condition = abs(user_code.pvalue - expected_pvalue) < 1e-6

        _dynamic_test(
            self,
            condition,
            "The alternative hypothesis 'greater' and argument order are set correctly.",
            "The test parameters are incorrect. Verify the order of arguments or the 'alternative' parameter."
        )


class TestDecisionLogic(unittest.TestCase):
    def test_hypothesis_logic(self):
        import user_code

        # ÐÐµÑÐµÐ²ÑÑÐºÐ° Ð»Ð¾Ð³ÑÐºÐ¸ ÑÑÑÐµÐ½Ð½Ñ Ð·Ð°Ð»ÐµÐ¶Ð½Ð¾ Ð²ÑÐ´ pvalue
        if user_code.pvalue > 0.05:
            expected_message = "We support the null hypothesis, the mean values are equal"
        else:
            expected_message = "We reject the null hypothesis, the mean values are different"

        # ÐÐµÑÐµÐ²ÑÑÐºÐ° Ð»Ð¾Ð³ÑÑÐ½Ð¾Ñ Ð²ÑÐ´Ð¿Ð¾Ð²ÑÐ´Ð½Ð¾ÑÑÑ
        condition = expected_message is not None

        _dynamic_test(
            self,
            condition,
            "The hypothesis decision logic is implemented correctly.",
            "The hypothesis decision logic is incorrect."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Bygg et solid grunnlag i statistikk ved hjelp av Python. Lær essensielle statistiske konsepter og anvend dem gjennom NumPy og pandas. Gå fra grunnleggende mål som gjennomsnitt og varians til hypotesetesting, konfidensintervaller og datadrevne innsikter med praktiske øvelser.

Utforsk sentrale statistiske prinsipper, inkludert datatyper, mål på sentraltendens og viktige forskjeller mellom utvalg og populasjoner.

Lær å beregne og tolke gjennomsnitt, median og modus ved bruk av Python. Øv på disse operasjonene med pandas for å analysere ekte datasett.

Forstå hvordan varians og standardavvik måler spredningen i data. Lær å beregne begge deler manuelt og ved hjelp av Python-verktøy.

Utforsk hvordan kovarians og korrelasjon beskriver forholdet mellom variabler. Øv på å beregne og sammenligne begge målene i Python.

Behersk konfidensintervaller for å estimere populasjonsparametere. Bruk NumPy, pandas og visualiseringsbiblioteker for å beregne og tolke intervaller med reelle data.

Lær det grunnleggende om hypotesetesting og t-test. Forstå hvordan du designer, utfører og tolker tester ved bruk av Python for å støtte datadrevne beslutninger.

Parret T-test

Løsning