Boksplott
Boksplott er et annet svært vanlig diagram i statistikk som brukes til å visualisere sentraltendens, spredning og potensielle uteliggere i dataene via kvartiler.
Kvartiler
Kvartiler deler datapunktene (sortert i stigende rekkefølge) inn i fire like store deler. Det finnes tre av dem:
Første kvartil (Q1) er tallet i midten mellom den minste verdien i utvalget og medianen (25 % av dataene ligger i dette området);
Andre kvartil (Q2) er selve medianen (50 % av dataene ligger under medianen);
Tredje kvartil (Q3) er tallet i midten mellom medianen i utvalget og de høyeste verdiene i utvalget (75 % av dataene ligger under Q3).
Elementer i boksplott
Høyre side av den røde rektangelet representerer tredje kvartil, og venstre side representerer første kvartil;
Q3 - Q1 kalles interkvartilavstand (IQR), som vises ved rektangelet der den gule linjen er medianen;
De svarte linjene utenfor rektangelet kalles whiskers. Den venstre representerer , og den høyre representerer ;
Datapunktene som ligger utenfor whiskers kalles uteliggere.
Neste steg er å generere et boksplott ved bruk av matplotlib
-biblioteket:
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Boxplot-data
Funksjonen boxplot()
fra pyplot
-modulen brukes med den første og eneste obligatoriske parameteren x
som representerer dataene. Disse dataene kan være et array-lignende objekt (f.eks. en Series
), et 2D-array (en boxplot tegnes for hver kolonne), eller en sekvens av 1D-arrays (en boxplot tegnes for hvert array).
Valgfrie parametere
Parameteren tick_labels
er et unntak. Denne er spesielt nyttig ikke bare for å merke en enkel boxplot, men også for å merke boxplots når det er flere enn én array:
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
I dette eksemplet ble hele DataFrame
-objektet med to kolonner sendt til boxplot()
, noe som resulterte i separate boksdiagrammer for hver kolonne med passende etiketter automatisk tildelt.
Det finnes også en rekke valgfrie parametere for å tilpasse boksdiagrammet, som du kan utforske i boxplot()
dokumentasjonen, men i praksis vil du sjelden bruke dem.
Swipe to start coding
Lag to boksdiagrammer ved å bruke to utvalg fra standard normalfordeling:
- Bruk riktig funksjon for å lage boksdiagrammene.
- Bruk listen
normal_sample_1
ognormal_sample_2
(i denne rekkefølgen fra venstre til høyre) som data. - Merk det venstre boksdiagrammet som
First sample
og det høyre somSecond sample
ved å brukelist
.
Løsning
Takk for tilbakemeldingene dine!