Boxplot
Boxplot is een ander uiterst gebruikelijk diagram in de statistiek dat wordt gebruikt om de centrale tendens, spreiding en mogelijke uitschieters binnen de gegevens te visualiseren via hun kwartielen.
Kwartielen
Kwartielen verdelen gesorteerde gegevens in vier gelijke delen:
- Q1 — het midden tussen het minimum en de mediaan (25% van de gegevens ligt eronder);
- Q2 — de mediaan (50% van de gegevens ligt eronder);
- Q3 — het midden tussen de mediaan en het maximum (75% van de gegevens ligt eronder).
Elementen van een boxplot
- De linkerkant van de box toont Q1, de rechterkant toont Q3;
- IQR = Q3 − Q1, weergegeven als de breedte van de box, met de mediaan gemarkeerd door een gele lijn;
- Snorharen strekken zich uit tot (Q1 - 1.5 \cdot IQR) en (Q3 + 1.5 \cdot IQR);
- Punten buiten de snorharen zijn uitbijters.
Een boxplot kan worden gegenereerd met matplotlib.
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Boxplotgegevens
Gebruik plt.boxplot(x), waarbij x een 1D array-achtig object kan zijn, een 2D-array (één box per kolom), of een reeks van 1D-arrays.
Optionele parameters
tick_labels is handig voor het benoemen van boxplots — vooral bij het plotten van meerdere arrays.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Het doorgeven van een DataFrame met twee numerieke kolommen aan boxplot() maakt twee afzonderlijke boxplots met automatisch toegewezen labels.
Er zijn ook behoorlijk wat optionele parameters voor het aanpassen van de boxplot, die je kunt verkennen in de boxplot() documentatie, maar in de praktijk zul je deze zelden gebruiken.
Swipe to start coding
Twee boxplots maken met behulp van twee steekproeven uit de standaard normale verdeling:
- Gebruik de juiste functie om de boxplots te maken.
- Gebruik de lijsten
normal_sample_1ennormal_sample_2(in deze volgorde van links naar rechts) als data. - Label de linker boxplot als
First sampleen de rechter alsSecond samplemet behulp van delist.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain how to interpret a box plot?
What does the IQR tell us about the data?
How do I identify outliers using a box plot?
Awesome!
Completion rate improved to 3.85
Boxplot
Veeg om het menu te tonen
Boxplot is een ander uiterst gebruikelijk diagram in de statistiek dat wordt gebruikt om de centrale tendens, spreiding en mogelijke uitschieters binnen de gegevens te visualiseren via hun kwartielen.
Kwartielen
Kwartielen verdelen gesorteerde gegevens in vier gelijke delen:
- Q1 — het midden tussen het minimum en de mediaan (25% van de gegevens ligt eronder);
- Q2 — de mediaan (50% van de gegevens ligt eronder);
- Q3 — het midden tussen de mediaan en het maximum (75% van de gegevens ligt eronder).
Elementen van een boxplot
- De linkerkant van de box toont Q1, de rechterkant toont Q3;
- IQR = Q3 − Q1, weergegeven als de breedte van de box, met de mediaan gemarkeerd door een gele lijn;
- Snorharen strekken zich uit tot (Q1 - 1.5 \cdot IQR) en (Q3 + 1.5 \cdot IQR);
- Punten buiten de snorharen zijn uitbijters.
Een boxplot kan worden gegenereerd met matplotlib.
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Boxplotgegevens
Gebruik plt.boxplot(x), waarbij x een 1D array-achtig object kan zijn, een 2D-array (één box per kolom), of een reeks van 1D-arrays.
Optionele parameters
tick_labels is handig voor het benoemen van boxplots — vooral bij het plotten van meerdere arrays.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Het doorgeven van een DataFrame met twee numerieke kolommen aan boxplot() maakt twee afzonderlijke boxplots met automatisch toegewezen labels.
Er zijn ook behoorlijk wat optionele parameters voor het aanpassen van de boxplot, die je kunt verkennen in de boxplot() documentatie, maar in de praktijk zul je deze zelden gebruiken.
Swipe to start coding
Twee boxplots maken met behulp van twee steekproeven uit de standaard normale verdeling:
- Gebruik de juiste functie om de boxplots te maken.
- Gebruik de lijsten
normal_sample_1ennormal_sample_2(in deze volgorde van links naar rechts) als data. - Label de linker boxplot als
First sampleen de rechter alsSecond samplemet behulp van delist.
Oplossing
Bedankt voor je feedback!
single