Parplott
Pair plot brukes til å visualisere parvise relasjoner mellom numeriske variabler i et datasett. Det ligner på et joint plot, men er ikke begrenset til kun to variabler. En pair plot lager faktisk et NxN
-rutenett av Axes
-objekter (flere delplott), hvor N
er antall numeriske variabler (numeriske kolonner i en DataFrame
).
Beskrivelse av Pair Plot
I en pair plot deler hver kolonne den samme x-aksen variabelen, og hver rad deler den samme y-aksen variabelen. Diagonalen viser histogrammer av individuelle variabler, mens de andre plottene viser spredningsdiagrammer.
Opprettelse av Pair Plot
Å opprette en pair plot med seaborn
innebærer å kalle funksjonen pairplot()
. Den viktigste og eneste påkrevde parameteren er data
, som skal være et DataFrame
-objekt.
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Creating a pair plot sns.pairplot(iris_df, height=2, aspect=0.8) plt.show()
DataFrame-en iris_df
sendes til funksjonen pairplot()
. Parameterne height
og aspect
definerer høyden og bredden (beregnet som høyde multiplisert med aspekt) til hver fasett i tommer.
Hue
En annen parameter som er verdt å nevne er hue
, som angir variabelen (kolonnenavn) i data
for å tilordne plottaspekter til forskjellige farger eller til og med opprette separate plott (på én Axes
) for hver av dens verdier.
import seaborn as sns import matplotlib.pyplot as plt # Ignoring warnings import warnings warnings.filterwarnings('ignore') # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the hue parameter to 'species' sns.pairplot(iris_df, hue='species', height=2, aspect=0.8) plt.show()
Forskjellen er tydelig her. Datapunktene i hvert spredningsdiagram er farget basert på arten de tilhører, ved å bruke verdiene fra species-kolonnen. De diagonale plottene er nå KDE-plott for hver art i stedet for histogrammer.
Ved klassifiseringsproblemer er det ofte hensiktsmessig å lage et pair plot med hue
-parameteren satt til målvariabelen, som er den kategoriske variabelen vi ønsker å predikere.
Forskjellen er klar. Datapunktene i hvert spredningsdiagram er farget etter arten, basert på verdiene i species-kolonnen. De diagonale plottene er erstattet med KDE-plott for hver art i stedet for histogrammer.
Ved klassifiseringsoppgaver er det ofte nyttig å lage et pair plot med hue
-parameteren satt til målvariabelen — den kategoriske variabelen som skal predikeres.
Endre plottyper
Du kan endre typen plott som brukes i stedet for standard spredningsdiagrammer, samt plottene som vises på diagonalen. kind
-parameteren styrer hovedplottene og er som standard satt til spredningsdiagrammer, mens diag_kind
-parameteren styrer de diagonale plottene og velges automatisk avhengig av om hue
-parameteren er satt.
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the kind parameter and diag_kind parameters sns.pairplot(iris_df, hue='species', kind='reg', diag_kind=None, height=2, aspect=0.8) plt.show()
'scatter'
, 'kde'
, 'hist'
, 'reg'
er mulige verdier for parameteren kind
.
diag_kind
kan settes til en av følgende verdier:
'auto'
;'hist'
;'kde'
;None
.
Alt fungerer på samme måte som i funksjonen jointplot()
på dette området.
Utforsk mer i pairplot()
dokumentasjonen.
Swipe to start coding
- Bruk riktig funksjon for å lage et pair plot.
- Angi dataen for plottet til å være
penguins_df
via det første argumentet. - Angi
'sex'
som kolonnen som skal tilordne ulike farger til plottets aspekter ved å spesifisere det andre argumentet. - Angi at ikke-diagonale plott skal ha en regresjonslinje (
'reg'
) ved å spesifisere det tredje argumentet. - Sett
height
til2
. - Sett
aspect
til0.8
.
Løsning
Takk for tilbakemeldingene dine!