Парний Графік
Pair plot використовується для побудови парних взаємозв'язків між числовими змінними в наборі даних. Він дуже схожий на joint plot, однак не обмежується лише двома змінними. Насправді, pair plot створює NxN
сітку об'єктів Axes
(декілька підграфіків), де N
— це кількість числових змінних (числових стовпців у DataFrame
).
Опис Pair Plot
У pair plot кожен стовпець має спільну змінну x-осі, а кожен рядок — спільну змінну y-осі. Діагональ відображає гістограми окремих змінних, тоді як інші графіки показують точкові діаграми.
Створення Pair Plot
Створення pair plot за допомогою seaborn
зводиться до виклику функції pairplot()
. Її найважливіший і єдиний обов'язковий параметр — це data
, який повинен бути об'єктом DataFrame
.
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Creating a pair plot sns.pairplot(iris_df, height=2, aspect=0.8) plt.show()
DataFrame iris_df
передається у функцію pairplot()
. Параметри height
та aspect
визначають висоту та ширину (обчислюється як висота, помножена на aspect) кожної області графіка у дюймах.
Hue
Ще одним важливим параметром є hue
, який визначає змінну (назву стовпця) у data
для відображення аспектів графіка різними кольорами або навіть створення окремих графіків (на одній Axes
) для кожного зі значень цієї змінної.
import seaborn as sns import matplotlib.pyplot as plt # Ignoring warnings import warnings warnings.filterwarnings('ignore') # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the hue parameter to 'species' sns.pairplot(iris_df, hue='species', height=2, aspect=0.8) plt.show()
Тут чітко видно різницю. Точки даних на кожному діаграмі розсіювання забарвлені відповідно до виду, до якого вони належать, використовуючи значення зі стовпця species. Діагональні графіки тепер є KDE-графіками для кожного виду замість гістограм.
У задачах класифікації часто доцільно створювати pair plot з параметром hue
, встановленим на цільову змінну, тобто категоріальну змінну, яку потрібно передбачити.
Різниця очевидна. Точки даних на кожному діаграмі розсіювання забарвлені відповідно до їхнього виду, на основі значень у стовпці species. Діагональні графіки замінено на KDE-графіки для кожного виду замість гістограм.
У задачах класифікації створення pair plot з параметром hue
, встановленим на цільову змінну — категоріальну змінну, яку потрібно передбачити — часто є корисним.
Зміна типів графіків
Можна змінити тип графіків, які використовуються замість стандартних діаграм розсіювання, а також графіків, що відображаються на діагоналі. Параметр kind
керує основними графіками та за замовчуванням встановлений на діаграми розсіювання, тоді як параметр diag_kind
керує діагональними графіками та автоматично вибирається залежно від того, чи встановлено параметр hue
.
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the kind parameter and diag_kind parameters sns.pairplot(iris_df, hue='species', kind='reg', diag_kind=None, height=2, aspect=0.8) plt.show()
'scatter'
, 'kde'
, 'hist'
, 'reg'
— можливі значення для параметра kind
.
diag_kind
може приймати одне з наступних значень:
'auto'
;'hist'
;'kde'
;None
.
У цьому аспекті все подібно до функції jointplot()
.
Детальніше дивіться у pairplot()
документації.
Swipe to start coding
- Використання відповідної функції для створення pair plot.
- Встановлення даних для графіка як
penguins_df
через перший аргумент. - Встановлення стовпця
'sex'
для відображення різних аспектів графіка різними кольорами шляхом зазначення другого аргументу. - Встановлення типу графіків поза діагоналлю як регресійна лінія (
'reg'
) через зазначення третього аргументу. - Встановлення параметра
height
рівним2
. - Встановлення параметра
aspect
рівним0.8
.
Рішення
Дякуємо за ваш відгук!