Boksplott
Boksplott er en annen svært vanlig graf i statistikk som brukes til å visualisere sentraltendens, spredning og potensielle uteliggere i dataene via kvartiler.
Kvartiler
Kvartiler deler datapunktene (sortert i stigende rekkefølge) i fire like store deler. Det finnes tre av dem:
- Første kvartil (Q1) er tallet i midten mellom den minste verdien (tallet) i utvalget og medianen (25 % av dataene ligger i dette området);
- Andre kvartil (Q2) er selve medianen (50 % av dataene ligger under medianen);
- Tredje kvartil (Q3) er tallet i midten mellom medianen i utvalget og de høyeste verdiene i utvalget (75 % av dataene ligger under Q3).
Elementer i boksplott
- Høyre side av den røde rektangelet representerer tredje kvartil, og venstre side representerer første kvartil;
- Q3 - Q1 kalles interkvartilavstand (IQR), som vises ved rektangelet der den gule linjen er medianen;
- De svarte linjene utenfor rektangelet kalles whiskers. Den venstre representerer Q1−1.5⋅IR, og den høyre representerer Q3+1.5⋅IR;
- Datapunktene som ligger utenfor whiskers kalles uteliggere.
Neste steg er å generere et boxplot ved bruk av matplotlib-biblioteket:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Boxplot-data
Funksjonen boxplot() fra pyplot-modulen brukes med den første og eneste obligatoriske parameteren x, som representerer dataene. Disse dataene kan være et array-lignende objekt (f.eks. en Series), et 2D-array (et boxplot tegnes for hver kolonne), eller en sekvens av 1D-arrays (et boxplot tegnes for hvert array).
Valgfrie parametere
Parameteren tick_labels er et unntak. Denne er spesielt nyttig ikke bare for å merke en enkel boksplott, men også for å merke boksplottene når det er flere enn én matrise:
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
I dette eksempelet ble hele DataFrame med to kolonner sendt til boxplot(), noe som resulterte i separate boksplotter for hver kolonne med passende etiketter automatisk tildelt.
Det finnes også en rekke valgfrie parametere for å tilpasse boksplottet, som du kan utforske i boxplot() dokumentasjonen, men i praksis vil du sjelden bruke dem.
Swipe to start coding
Lag to boksdiagrammer ved å bruke to utvalg fra standard normalfordeling:
- Bruk riktig funksjon for å lage boksdiagrammene.
- Bruk listen
normal_sample_1ognormal_sample_2(i denne rekkefølgen fra venstre til høyre) som data. - Merk det venstre boksdiagrammet som
First sampleog det høyre somSecond sampleved å brukelist.
Løsning
Takk for tilbakemeldingene dine!
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain what the interquartile range (IQR) is used for?
How do I interpret outliers in a box plot?
Can you show how to customize the appearance of a box plot?
Awesome!
Completion rate improved to 3.85
Boksplott
Sveip for å vise menyen
Boksplott er en annen svært vanlig graf i statistikk som brukes til å visualisere sentraltendens, spredning og potensielle uteliggere i dataene via kvartiler.
Kvartiler
Kvartiler deler datapunktene (sortert i stigende rekkefølge) i fire like store deler. Det finnes tre av dem:
- Første kvartil (Q1) er tallet i midten mellom den minste verdien (tallet) i utvalget og medianen (25 % av dataene ligger i dette området);
- Andre kvartil (Q2) er selve medianen (50 % av dataene ligger under medianen);
- Tredje kvartil (Q3) er tallet i midten mellom medianen i utvalget og de høyeste verdiene i utvalget (75 % av dataene ligger under Q3).
Elementer i boksplott
- Høyre side av den røde rektangelet representerer tredje kvartil, og venstre side representerer første kvartil;
- Q3 - Q1 kalles interkvartilavstand (IQR), som vises ved rektangelet der den gule linjen er medianen;
- De svarte linjene utenfor rektangelet kalles whiskers. Den venstre representerer Q1−1.5⋅IR, og den høyre representerer Q3+1.5⋅IR;
- Datapunktene som ligger utenfor whiskers kalles uteliggere.
Neste steg er å generere et boxplot ved bruk av matplotlib-biblioteket:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Boxplot-data
Funksjonen boxplot() fra pyplot-modulen brukes med den første og eneste obligatoriske parameteren x, som representerer dataene. Disse dataene kan være et array-lignende objekt (f.eks. en Series), et 2D-array (et boxplot tegnes for hver kolonne), eller en sekvens av 1D-arrays (et boxplot tegnes for hvert array).
Valgfrie parametere
Parameteren tick_labels er et unntak. Denne er spesielt nyttig ikke bare for å merke en enkel boksplott, men også for å merke boksplottene når det er flere enn én matrise:
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
I dette eksempelet ble hele DataFrame med to kolonner sendt til boxplot(), noe som resulterte i separate boksplotter for hver kolonne med passende etiketter automatisk tildelt.
Det finnes også en rekke valgfrie parametere for å tilpasse boksplottet, som du kan utforske i boxplot() dokumentasjonen, men i praksis vil du sjelden bruke dem.
Swipe to start coding
Lag to boksdiagrammer ved å bruke to utvalg fra standard normalfordeling:
- Bruk riktig funksjon for å lage boksdiagrammene.
- Bruk listen
normal_sample_1ognormal_sample_2(i denne rekkefølgen fra venstre til høyre) som data. - Merk det venstre boksdiagrammet som
First sampleog det høyre somSecond sampleved å brukelist.
Løsning
Takk for tilbakemeldingene dine!
single