Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Boksplott | Flere Statistiske Diagrammer
Ultimate Visualisering med Python

Sveip for å vise menyen

book
Boksplott

Note
Definisjon

Boksplott er et annet svært vanlig diagram i statistikk som brukes til å visualisere sentraltendens, spredning og potensielle uteliggere i dataene via kvartiler.

Kvartiler

Kvartiler deler datapunktene (sortert i stigende rekkefølge) inn i fire like store deler. Det finnes tre av dem:

  • Første kvartil (Q1) er tallet i midten mellom den minste verdien i utvalget og medianen (25 % av dataene ligger i dette området);

  • Andre kvartil (Q2) er selve medianen (50 % av dataene ligger under medianen);

  • Tredje kvartil (Q3) er tallet i midten mellom medianen i utvalget og de høyeste verdiene i utvalget (75 % av dataene ligger under Q3).

Elementer i boksplott

  • Høyre side av den røde rektangelet representerer tredje kvartil, og venstre side representerer første kvartil;

  • Q3 - Q1 kalles interkvartilavstand (IQR), som vises ved rektangelet der den gule linjen er medianen;

  • De svarte linjene utenfor rektangelet kalles whiskers. Den venstre representerer Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, og den høyre representerer Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Datapunktene som ligger utenfor whiskers kalles uteliggere.

Neste steg er å generere et boksplott ved bruk av matplotlib-biblioteket:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Boxplot-data

Funksjonen boxplot() fra pyplot-modulen brukes med den første og eneste obligatoriske parameteren x som representerer dataene. Disse dataene kan være et array-lignende objekt (f.eks. en Series), et 2D-array (en boxplot tegnes for hver kolonne), eller en sekvens av 1D-arrays (en boxplot tegnes for hvert array).

Valgfrie parametere

Parameteren tick_labels er et unntak. Denne er spesielt nyttig ikke bare for å merke en enkel boxplot, men også for å merke boxplots når det er flere enn én array:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

I dette eksemplet ble hele DataFrame-objektet med to kolonner sendt til boxplot(), noe som resulterte i separate boksdiagrammer for hver kolonne med passende etiketter automatisk tildelt.

Note
Les mer

Det finnes også en rekke valgfrie parametere for å tilpasse boksdiagrammet, som du kan utforske i boxplot() dokumentasjonen, men i praksis vil du sjelden bruke dem.

Oppgave

Swipe to start coding

Lag to boksdiagrammer ved å bruke to utvalg fra standard normalfordeling:

  1. Bruk riktig funksjon for å lage boksdiagrammene.
  2. Bruk listen normal_sample_1 og normal_sample_2 (i denne rekkefølgen fra venstre til høyre) som data.
  3. Merk det venstre boksdiagrammet som First sample og det høyre som Second sample ved å bruke list.

Løsning

Switch to desktopBytt til skrivebordet for virkelighetspraksisFortsett der du er med et av alternativene nedenfor
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 2

Spør AI

expand
ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

book
Boksplott

Note
Definisjon

Boksplott er et annet svært vanlig diagram i statistikk som brukes til å visualisere sentraltendens, spredning og potensielle uteliggere i dataene via kvartiler.

Kvartiler

Kvartiler deler datapunktene (sortert i stigende rekkefølge) inn i fire like store deler. Det finnes tre av dem:

  • Første kvartil (Q1) er tallet i midten mellom den minste verdien i utvalget og medianen (25 % av dataene ligger i dette området);

  • Andre kvartil (Q2) er selve medianen (50 % av dataene ligger under medianen);

  • Tredje kvartil (Q3) er tallet i midten mellom medianen i utvalget og de høyeste verdiene i utvalget (75 % av dataene ligger under Q3).

Elementer i boksplott

  • Høyre side av den røde rektangelet representerer tredje kvartil, og venstre side representerer første kvartil;

  • Q3 - Q1 kalles interkvartilavstand (IQR), som vises ved rektangelet der den gule linjen er medianen;

  • De svarte linjene utenfor rektangelet kalles whiskers. Den venstre representerer Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, og den høyre representerer Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};

  • Datapunktene som ligger utenfor whiskers kalles uteliggere.

Neste steg er å generere et boksplott ved bruk av matplotlib-biblioteket:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Boxplot-data

Funksjonen boxplot() fra pyplot-modulen brukes med den første og eneste obligatoriske parameteren x som representerer dataene. Disse dataene kan være et array-lignende objekt (f.eks. en Series), et 2D-array (en boxplot tegnes for hver kolonne), eller en sekvens av 1D-arrays (en boxplot tegnes for hvert array).

Valgfrie parametere

Parameteren tick_labels er et unntak. Denne er spesielt nyttig ikke bare for å merke en enkel boxplot, men også for å merke boxplots når det er flere enn én array:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

I dette eksemplet ble hele DataFrame-objektet med to kolonner sendt til boxplot(), noe som resulterte i separate boksdiagrammer for hver kolonne med passende etiketter automatisk tildelt.

Note
Les mer

Det finnes også en rekke valgfrie parametere for å tilpasse boksdiagrammet, som du kan utforske i boxplot() dokumentasjonen, men i praksis vil du sjelden bruke dem.

Oppgave

Swipe to start coding

Lag to boksdiagrammer ved å bruke to utvalg fra standard normalfordeling:

  1. Bruk riktig funksjon for å lage boksdiagrammene.
  2. Bruk listen normal_sample_1 og normal_sample_2 (i denne rekkefølgen fra venstre til høyre) som data.
  3. Merk det venstre boksdiagrammet som First sample og det høyre som Second sample ved å bruke list.

Løsning

Switch to desktopBytt til skrivebordet for virkelighetspraksisFortsett der du er med et av alternativene nedenfor
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 2
Switch to desktopBytt til skrivebordet for virkelighetspraksisFortsett der du er med et av alternativene nedenfor
Vi beklager at noe gikk galt. Hva skjedde?
some-alt