KDE-Plot
Et Kernel Density Estimation (KDE) plot er en type plot, der visualiserer den estimerede sandsynlighedstæthedsfunktion for en kontinuerlig variabel. I modsætning til et histogram, som viser data ved hjælp af diskrete søjler grupperet i intervaller, repræsenterer et KDE-plot fordelingen som en glat, kontinuerlig kurve baseret på alle datapunkter.
Dette eksempel viser et histogram kombineret med et KDE-plot (orange kurve), hvilket giver en tydeligere tilnærmelse af sandsynlighedstæthedsfunktionen end histogrammet alene.
I seaborn
gør funktionen kdeplot()
det nemt at oprette KDE-plots. Dens vigtigste parametre—data
, x
og y
—fungerer på samme måde som i countplot()
.
Første mulighed
Kun én af parametrene kan indstilles ved at angive en sekvens af værdier, hvilket muliggør individuel tilpasning på tværs af elementer.
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a KDE plot setting only the data parameter sns.kdeplot(data=weather_df['Seattle'], fill=True) plt.show()
Parameteren data
angives ved at videregive et Series-objekt, og parameteren fill
bruges til at udfylde området under kurven, som som standard ikke er udfyldt.
Anden mulighed
Det er også muligt at angive et 2D-objekt som en DataFrame for data
og et kolonnenavn eller en nøgle, hvis data
er en ordbog, for x
(vertikal orientering) eller y
(horisontal orientering):
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a KDE plot setting both the data and x parameters sns.kdeplot(data=weather_df, x='Seattle', fill=True) plt.show()
De samme resultater blev opnået ved at videregive hele DataFrame
som data
-parameteren og angive kolonnenavnet for x
-parameteren.
Det oprettede KDE-plot udviser en karakteristisk klokkeformet kurve, der tæt ligner en normalfordeling med et gennemsnit omkring 52°F.
Hvis du ønsker at udforske mere om KDE plot-funktionen, kan du finde yderligere information i kdeplot()
dokumentationen.
Swipe to start coding
- Brug den korrekte funktion til at oprette et KDE-plot.
- Brug
countries_df
som data til plottet (det første argument). - Angiv
'GDP per capita'
som kolonnen, der skal bruges, og orienteringen til vandret via det andet argument. - Udfyld området under kurven via det tredje (yderste højre) argument.
Løsning
Tak for dine kommentarer!