Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Laatikkojanakaavio | Lisää Tilastollisia Kuvioita
Ultimate Visualization with Python

bookLaatikkojanakaavio

Note
Määritelmä

Box plot on toinen erittäin yleinen tilastollinen kuvaaja, jota käytetään havainnollistamaan aineiston keskilukua, hajontaa ja mahdollisia poikkeavia arvoja kvartiilien avulla.

Kvartiilit

kvartiilit

Kvartiilit jakavat havaintoaineiston (nousevaan järjestykseen lajiteltuna) neljään yhtä suureen osaan. Niitä on kolme:

  • Ensimmäinen kvartiili (Q1) on pienimmän arvon ja mediaanin välinen keskimmäinen luku (25 % havainnoista on tässä osassa);
  • Toinen kvartiili (Q2) on itse mediaani (50 % havainnoista on mediaanin alapuolella);
  • Kolmas kvartiili (Q3) on mediaanin ja suurimman arvon välinen keskimmäinen luku (75 % havainnoista on Q3:n alapuolella).

Boxplotin osat

box_plot_explained
  • Punaisen suorakulmion oikea puoli edustaa kolmatta kvartiilia ja vasen puoli edustaa ensimmäistä kvartiilia;
  • Q3 - Q1 tunnetaan nimellä kvartiiliväli (IQR), joka esitetään suorakulmiona, jossa keltainen viiva on mediaani;
  • Suorakulmion ulkopuolella olevat mustat viivat ovat viikset. Vasen viiksi edustaa Q11.5IR\text{Q1} - 1.5 \cdot \text{IR} ja oikea viiksi edustaa Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};
  • Viiksien ulkopuolella olevia havaintoja kutsutaan poikkeaviksi arvoiksi.

Seuraavaksi luodaan laatikkokaavio käyttämällä matplotlib-kirjastoa:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Laatikko­kaavion tiedot

boxplot()-moduulin pyplot-funktiota käytetään, ja sen ensimmäinen ja ainoa pakollinen parametri x edustaa dataa. Tämä data voi olla taulukkomuotoinen objekti (esim. Series), kaksiulotteinen taulukko (jokaiselle sarakkeelle piirretään laatikkokaavio) tai 1D-taulukoiden jono (jokaiselle taulukolle piirretään laatikkokaavio).

Valinnaiset parametrit

tick_labels-parametri on poikkeus. Tämä parametri on erityisen hyödyllinen, ei ainoastaan yksittäisen boxplotin nimeämiseen, vaan myös silloin, kun boxplotteja on useampi kuin yksi taulukko:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Tässä esimerkissä koko DataFrame, jossa on kaksi saraketta, välitettiin boxplot()-funktiolle, jolloin jokaiselle sarakkeelle luotiin oma boxplot ja niille asetettiin automaattisesti sopivat nimet.

Note
Lisätietoa

Laatikkokaavion mukauttamiseen on myös melko paljon valinnaisia parametreja, joihin voit tutustua boxplot()-dokumentaatiosta, mutta käytännössä käytät niitä harvoin.

Tehtävä

Swipe to start coding

Luo kaksi laatikkokuviota käyttäen kahta otosta standardin normaalijakauman mukaan:

  1. Käytä oikeaa funktiota laatikkokuvioiden luomiseen.
  2. Käytä listoja normal_sample_1 ja normal_sample_2 (tässä järjestyksessä vasemmalta oikealle) datana.
  3. Nimeä vasemmanpuoleinen laatikkokuvio First sample ja oikeanpuoleinen Second sample käyttäen list-parametria.

Ratkaisu

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2
single

single

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

close

Awesome!

Completion rate improved to 3.85

bookLaatikkojanakaavio

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Box plot on toinen erittäin yleinen tilastollinen kuvaaja, jota käytetään havainnollistamaan aineiston keskilukua, hajontaa ja mahdollisia poikkeavia arvoja kvartiilien avulla.

Kvartiilit

kvartiilit

Kvartiilit jakavat havaintoaineiston (nousevaan järjestykseen lajiteltuna) neljään yhtä suureen osaan. Niitä on kolme:

  • Ensimmäinen kvartiili (Q1) on pienimmän arvon ja mediaanin välinen keskimmäinen luku (25 % havainnoista on tässä osassa);
  • Toinen kvartiili (Q2) on itse mediaani (50 % havainnoista on mediaanin alapuolella);
  • Kolmas kvartiili (Q3) on mediaanin ja suurimman arvon välinen keskimmäinen luku (75 % havainnoista on Q3:n alapuolella).

Boxplotin osat

box_plot_explained
  • Punaisen suorakulmion oikea puoli edustaa kolmatta kvartiilia ja vasen puoli edustaa ensimmäistä kvartiilia;
  • Q3 - Q1 tunnetaan nimellä kvartiiliväli (IQR), joka esitetään suorakulmiona, jossa keltainen viiva on mediaani;
  • Suorakulmion ulkopuolella olevat mustat viivat ovat viikset. Vasen viiksi edustaa Q11.5IR\text{Q1} - 1.5 \cdot \text{IR} ja oikea viiksi edustaa Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR};
  • Viiksien ulkopuolella olevia havaintoja kutsutaan poikkeaviksi arvoiksi.

Seuraavaksi luodaan laatikkokaavio käyttämällä matplotlib-kirjastoa:

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Laatikko­kaavion tiedot

boxplot()-moduulin pyplot-funktiota käytetään, ja sen ensimmäinen ja ainoa pakollinen parametri x edustaa dataa. Tämä data voi olla taulukkomuotoinen objekti (esim. Series), kaksiulotteinen taulukko (jokaiselle sarakkeelle piirretään laatikkokaavio) tai 1D-taulukoiden jono (jokaiselle taulukolle piirretään laatikkokaavio).

Valinnaiset parametrit

tick_labels-parametri on poikkeus. Tämä parametri on erityisen hyödyllinen, ei ainoastaan yksittäisen boxplotin nimeämiseen, vaan myös silloin, kun boxplotteja on useampi kuin yksi taulukko:

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Tässä esimerkissä koko DataFrame, jossa on kaksi saraketta, välitettiin boxplot()-funktiolle, jolloin jokaiselle sarakkeelle luotiin oma boxplot ja niille asetettiin automaattisesti sopivat nimet.

Note
Lisätietoa

Laatikkokaavion mukauttamiseen on myös melko paljon valinnaisia parametreja, joihin voit tutustua boxplot()-dokumentaatiosta, mutta käytännössä käytät niitä harvoin.

Tehtävä

Swipe to start coding

Luo kaksi laatikkokuviota käyttäen kahta otosta standardin normaalijakauman mukaan:

  1. Käytä oikeaa funktiota laatikkokuvioiden luomiseen.
  2. Käytä listoja normal_sample_1 ja normal_sample_2 (tässä järjestyksessä vasemmalta oikealle) datana.
  3. Nimeä vasemmanpuoleinen laatikkokuvio First sample ja oikeanpuoleinen Second sample käyttäen list-parametria.

Ratkaisu

Switch to desktopVaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2
single

single

some-alt