Laatikkojanakaavio
Box plot on toinen erittäin yleinen tilastollinen kuvaaja, jota käytetään havainnollistamaan aineiston keskilukua, hajontaa ja mahdollisia poikkeavia arvoja kvartiilien avulla.
Kvartiilit
Kvartiilit jakavat havaintoaineiston (nousevaan järjestykseen lajiteltuna) neljään yhtä suureen osaan. Niitä on kolme:
- Ensimmäinen kvartiili (Q1) on pienimmän arvon ja mediaanin välinen keskimmäinen luku (25 % havainnoista on tässä osassa);
- Toinen kvartiili (Q2) on itse mediaani (50 % havainnoista on mediaanin alapuolella);
- Kolmas kvartiili (Q3) on mediaanin ja suurimman arvon välinen keskimmäinen luku (75 % havainnoista on Q3:n alapuolella).
Boxplotin osat
- Punaisen suorakulmion oikea puoli edustaa kolmatta kvartiilia ja vasen puoli edustaa ensimmäistä kvartiilia;
- Q3 - Q1 tunnetaan nimellä kvartiiliväli (IQR), joka esitetään suorakulmiona, jossa keltainen viiva on mediaani;
- Suorakulmion ulkopuolella olevat mustat viivat ovat viikset. Vasen viiksi edustaa Q1−1.5⋅IR ja oikea viiksi edustaa Q3+1.5⋅IR;
- Viiksien ulkopuolella olevia havaintoja kutsutaan poikkeaviksi arvoiksi.
Seuraavaksi luodaan laatikkokaavio käyttämällä matplotlib-kirjastoa:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Laatikkokaavion tiedot
boxplot()-moduulin pyplot-funktiota käytetään, ja sen ensimmäinen ja ainoa pakollinen parametri x edustaa dataa. Tämä data voi olla taulukkomuotoinen objekti (esim. Series), kaksiulotteinen taulukko (jokaiselle sarakkeelle piirretään laatikkokaavio) tai 1D-taulukoiden jono (jokaiselle taulukolle piirretään laatikkokaavio).
Valinnaiset parametrit
tick_labels-parametri on poikkeus. Tämä parametri on erityisen hyödyllinen, ei ainoastaan yksittäisen boxplotin nimeämiseen, vaan myös silloin, kun boxplotteja on useampi kuin yksi taulukko:
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Tässä esimerkissä koko DataFrame, jossa on kaksi saraketta, välitettiin boxplot()-funktiolle, jolloin jokaiselle sarakkeelle luotiin oma boxplot ja niille asetettiin automaattisesti sopivat nimet.
Laatikkokaavion mukauttamiseen on myös melko paljon valinnaisia parametreja, joihin voit tutustua boxplot()-dokumentaatiosta, mutta käytännössä käytät niitä harvoin.
Swipe to start coding
Luo kaksi laatikkokuviota käyttäen kahta otosta standardin normaalijakauman mukaan:
- Käytä oikeaa funktiota laatikkokuvioiden luomiseen.
- Käytä listoja
normal_sample_1janormal_sample_2(tässä järjestyksessä vasemmalta oikealle) datana. - Nimeä vasemmanpuoleinen laatikkokuvio
First sampleja oikeanpuoleinenSecond samplekäyttäenlist-parametria.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.85
Laatikkojanakaavio
Pyyhkäise näyttääksesi valikon
Box plot on toinen erittäin yleinen tilastollinen kuvaaja, jota käytetään havainnollistamaan aineiston keskilukua, hajontaa ja mahdollisia poikkeavia arvoja kvartiilien avulla.
Kvartiilit
Kvartiilit jakavat havaintoaineiston (nousevaan järjestykseen lajiteltuna) neljään yhtä suureen osaan. Niitä on kolme:
- Ensimmäinen kvartiili (Q1) on pienimmän arvon ja mediaanin välinen keskimmäinen luku (25 % havainnoista on tässä osassa);
- Toinen kvartiili (Q2) on itse mediaani (50 % havainnoista on mediaanin alapuolella);
- Kolmas kvartiili (Q3) on mediaanin ja suurimman arvon välinen keskimmäinen luku (75 % havainnoista on Q3:n alapuolella).
Boxplotin osat
- Punaisen suorakulmion oikea puoli edustaa kolmatta kvartiilia ja vasen puoli edustaa ensimmäistä kvartiilia;
- Q3 - Q1 tunnetaan nimellä kvartiiliväli (IQR), joka esitetään suorakulmiona, jossa keltainen viiva on mediaani;
- Suorakulmion ulkopuolella olevat mustat viivat ovat viikset. Vasen viiksi edustaa Q1−1.5⋅IR ja oikea viiksi edustaa Q3+1.5⋅IR;
- Viiksien ulkopuolella olevia havaintoja kutsutaan poikkeaviksi arvoiksi.
Seuraavaksi luodaan laatikkokaavio käyttämällä matplotlib-kirjastoa:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Laatikkokaavion tiedot
boxplot()-moduulin pyplot-funktiota käytetään, ja sen ensimmäinen ja ainoa pakollinen parametri x edustaa dataa. Tämä data voi olla taulukkomuotoinen objekti (esim. Series), kaksiulotteinen taulukko (jokaiselle sarakkeelle piirretään laatikkokaavio) tai 1D-taulukoiden jono (jokaiselle taulukolle piirretään laatikkokaavio).
Valinnaiset parametrit
tick_labels-parametri on poikkeus. Tämä parametri on erityisen hyödyllinen, ei ainoastaan yksittäisen boxplotin nimeämiseen, vaan myös silloin, kun boxplotteja on useampi kuin yksi taulukko:
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Tässä esimerkissä koko DataFrame, jossa on kaksi saraketta, välitettiin boxplot()-funktiolle, jolloin jokaiselle sarakkeelle luotiin oma boxplot ja niille asetettiin automaattisesti sopivat nimet.
Laatikkokaavion mukauttamiseen on myös melko paljon valinnaisia parametreja, joihin voit tutustua boxplot()-dokumentaatiosta, mutta käytännössä käytät niitä harvoin.
Swipe to start coding
Luo kaksi laatikkokuviota käyttäen kahta otosta standardin normaalijakauman mukaan:
- Käytä oikeaa funktiota laatikkokuvioiden luomiseen.
- Käytä listoja
normal_sample_1janormal_sample_2(tässä järjestyksessä vasemmalta oikealle) datana. - Nimeä vasemmanpuoleinen laatikkokuvio
First sampleja oikeanpuoleinenSecond samplekäyttäenlist-parametria.
Ratkaisu
Kiitos palautteestasi!
single