Ознайомлення з методом .groupby()
Свайпніть щоб показати меню
Радий бачити вас у цьому розділі. Тут ми будемо групувати наші дані, щоб знаходити інформацію про різні групи рядків. Ознайомтеся з набором даних про затримки (цю таблицю можна прокручувати горизонтально):
Групування даних є корисним, і зараз ми розглянемо це детальніше. Уявіть, що потрібно підрахувати кількість затримок для кожного номера рейсу. Подивіться на приклад коду, а потім на пояснення:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Пояснення:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]— це стовпці, з якими ви працюєте, включаючи ті, за якими буде виконуватись групування;groupby('Flight')— стовпець'Flight'є аргументом для функції.groupby(). Це означає, що рядки з однаковим значенням у стовпці'Flight'будуть згруповані разом;.sum()— ця функція виконується над рядками всередині кожної групи, створеної методом.groupby(). У цьому випадку вона підсумовує значення у стовпці'Delay'для рядків, що належать до однієї групи'Flight'.
Оскільки стовпець 'Delay' містить лише 0 (затримка не відбулася) або 1 (затримка відбулася) як можливі значення, сума рядків відображає кількість затримок для кожного рейсу.
Насправді, .sum() — це лише одна з багатьох агрегуючих функцій, які можна використовувати. З усіма ними ви ознайомитеся далі.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат