Summary  
This chapter covers how to explore numerical data distributions by creating histograms and overlaying kernel density estimate curves using Seaborn’s `histplot` function in Python.

General domain of usage  
Data science exploratory analysis

Før du kan drage meningsfulde konklusioner fra et datasæt, skal du forstå dets struktur og nøglekarakteristika. Denne proces kaldes **dataudforskning**. Den indebærer at betragte dine data fra forskellige vinkler, opsummere de vigtigste egenskaber og visualisere væsentlige mønstre. Dataudforskning hjælper med at identificere tendenser, afvigere og potentielle problemer, inden du udfører dybere statistisk analyse.

Et af de mest nyttige værktøjer til at udforske numeriske data er **histogrammet**. Et histogram er en type søjlediagram, der viser, hvor ofte forskellige intervaller af værdier forekommer i dit datasæt. Hver søjle repræsenterer et interval af værdier (kaldet en "bin"), og højden af søjlen viser, hvor mange datapunkter der falder inden for dette interval. Histogrammer gør det nemt at se fordelingen, centrum og spredning af dine data med et enkelt blik.

I Python kan du hurtigt oprette histogrammer ved hjælp af funktionen `histplot` fra **seaborn**-biblioteket. Funktionen `histplot` tager dine data og viser deres fordeling som et histogram. Du kan også tilføje en **kernel density estimate** (KDE)-kurve til diagrammet, som giver en glat tilnærmelse af dataenes fordeling. Dette hjælper dig med bedre at forstå de underliggende mønstre i dine data.

Du vil bruge funktionen `histplot` til at visualisere fordelingen af pingviners kropsmasse i de kommende opgaver. Dette vil hjælpe dig med at udforske datasættet og forberede dig på yderligere statistisk analyse.

import unittest
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDataReading(unittest.TestCase):
    def test_data_loaded(self):
        import user_code

        expected_data = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/section_1/confidence.csv',
            index_col=0
        )

        condition = (
            isinstance(user_code.data, pd.DataFrame)
            and user_code.data.shape == expected_data.shape
        )

        _dynamic_test(
            self,
            condition,
            "The CSV file is correctly read into the 'data' variable.",
            "The CSV file is not read correctly into the 'data' variable."
        )


class TestPlot(unittest.TestCase):
    def test_histplot(self):
        import user_code

        # ÐÐµÑÐµÐ²ÑÑÑÑÐ¼Ð¾, ÑÐ¸ ÑÑÐ²Ð¾ÑÐµÐ½Ð¾ Ð³ÑÐ°ÑÑÐº Ð· seaborn.histplot
        plot_obj = user_code.plot

        condition = (
            hasattr(plot_obj, "get_xlabel")
            and plot_obj.get_xlabel() == "The Mass"
            and plot_obj.get_ylabel() == "The Quantity"
        )

        _dynamic_test(
            self,
            condition,
            "The histplot is created with correct parameters.",
            "The histplot parameters are incorrect."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Opbyg et solidt fundament i statistik ved hjælp af Python. Lær essentielle statistiske begreber og anvend dem gennem NumPy og pandas. Gå fra grundlæggende mål som gennemsnit og varians til hypotesetest, konfidensintervaller og datadrevne indsigter med praktiske øvelser.

Opdag grundlæggende statistiske principper, herunder datatyper, mål for central tendens og væsentlige forskelle mellem stikprøver og populationer.

Lær at beregne og fortolke gennemsnit, median og typetal ved hjælp af Python. Øv disse operationer med pandas for at analysere virkelige datasæt.

Forstå hvordan varians og standardafvigelse måler dataspredning. Lær at beregne begge dele manuelt og ved hjælp af Python-værktøjer.

Undersøg, hvordan kovarians og korrelation beskriver relationer mellem variable. Øv dig i at beregne og sammenligne begge metrikker i Python.

Behersk konfidensintervaller til at estimere populationsparametre. Brug NumPy, pandas og visualiseringsbiblioteker til at beregne og fortolke intervaller med virkelige data.

Lær det grundlæggende i hypoteseafprøvning og t-testen. Forstå, hvordan man designer, udfører og fortolker tests ved hjælp af Python til at understøtte datadrevne beslutninger.

Undersøg Datasættet

Løsning