Boksplot
Box plot er en anden yderst almindelig graf i statistik, der bruges til at visualisere den centrale tendens, spredning og potentielle outliers i dataene via deres kvartiler.
Kvartiler
Kvartiler opdeler sorteret data i fire lige store dele:
- Q1 — midtpunktet mellem minimum og medianen (25% af data under denne værdi);
- Q2 — medianen (50% af data under denne værdi);
- Q3 — midtpunktet mellem medianen og maksimum (75% af data under denne værdi).
Elementer i boksplot
- Venstre side af boksen viser Q1, højre side viser Q3;
- IQR = Q3 − Q1, vist som boksens bredde, med medianen markeret med en gul linje;
- Whiskers strækker sig til (Q1 - 1.5 \cdot IQR) og (Q3 + 1.5 \cdot IQR);
- Punkter uden for whiskers er outliers.
Et box plot kan genereres ved hjælp af matplotlib.
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Box Plot Data
Brug plt.boxplot(x), hvor x kan være et 1D array-lignende objekt, et 2D array (én boks pr. kolonne) eller en sekvens af 1D arrays.
Valgfrie parametre
tick_labels er nyttig til at navngive box plots — især når der plottes flere arrays.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Hvis der gives en DataFrame med to numeriske kolonner til boxplot(), oprettes der to separate box plots med automatisk tildelte etiketter.
Der findes også en del valgfrie parametre til at tilpasse boxplot, som du kan udforske i boxplot() dokumentationen, men i praksis vil du sjældent anvende dem.
Swipe to start coding
Opret to boksplot ved hjælp af to stikprøver fra standard normalfordelingen:
- Brug den korrekte funktion til at oprette boksplottene.
- Brug listen
normal_sample_1ognormal_sample_2(i denne rækkefølge fra venstre mod højre) som data. - Mærk det venstre boksplot som
First sampleog det højre somSecond sampleved hjælp aflist.
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain how to interpret a box plot?
What does the IQR tell us about the data?
How do I identify outliers using a box plot?
Awesome!
Completion rate improved to 3.85
Boksplot
Stryg for at vise menuen
Box plot er en anden yderst almindelig graf i statistik, der bruges til at visualisere den centrale tendens, spredning og potentielle outliers i dataene via deres kvartiler.
Kvartiler
Kvartiler opdeler sorteret data i fire lige store dele:
- Q1 — midtpunktet mellem minimum og medianen (25% af data under denne værdi);
- Q2 — medianen (50% af data under denne værdi);
- Q3 — midtpunktet mellem medianen og maksimum (75% af data under denne værdi).
Elementer i boksplot
- Venstre side af boksen viser Q1, højre side viser Q3;
- IQR = Q3 − Q1, vist som boksens bredde, med medianen markeret med en gul linje;
- Whiskers strækker sig til (Q1 - 1.5 \cdot IQR) og (Q3 + 1.5 \cdot IQR);
- Punkter uden for whiskers er outliers.
Et box plot kan genereres ved hjælp af matplotlib.
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Box Plot Data
Brug plt.boxplot(x), hvor x kan være et 1D array-lignende objekt, et 2D array (én boks pr. kolonne) eller en sekvens af 1D arrays.
Valgfrie parametre
tick_labels er nyttig til at navngive box plots — især når der plottes flere arrays.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Hvis der gives en DataFrame med to numeriske kolonner til boxplot(), oprettes der to separate box plots med automatisk tildelte etiketter.
Der findes også en del valgfrie parametre til at tilpasse boxplot, som du kan udforske i boxplot() dokumentationen, men i praksis vil du sjældent anvende dem.
Swipe to start coding
Opret to boksplot ved hjælp af to stikprøver fra standard normalfordelingen:
- Brug den korrekte funktion til at oprette boksplottene.
- Brug listen
normal_sample_1ognormal_sample_2(i denne rækkefølge fra venstre mod højre) som data. - Mærk det venstre boksplot som
First sampleog det højre somSecond sampleved hjælp aflist.
Løsning
Tak for dine kommentarer!
single