Ознайомлення з методом .groupby()
Свайпніть щоб показати меню
Радий вітати вас у цьому розділі. Тут ми будемо групувати наші дані, щоб знаходити інформацію про різні групи рядків. Ознайомтеся з набором даних про затримки (ви можете прокручувати цю таблицю горизонтально):
Групування даних є корисним, і зараз ми розглянемо це детальніше. Уявіть, що потрібно підрахувати кількість затримок для кожного номера рейсу. Перегляньте приклад коду, а потім пояснення:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Пояснення:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]– Це стовпці, з якими ви працюєте, включаючи ті, за якими буде виконуватись групування;groupby('Flight')– Стовпець'Flight'є аргументом для функції.groupby(). Це означає, що рядки з однаковим значенням у стовпці'Flight'будуть згруповані разом;.sum()– Ця функція виконується над рядками всередині кожної групи, створеної методом.groupby(). У цьому випадку вона підсумовує значення у стовпці'Delay'для рядків, що належать до однієї групи'Flight'.
Оскільки стовпець 'Delay' містить лише значення 0 (затримка не відбулася) або 1 (затримка відбулася), сума рядків відображає кількість затримок для кожного рейсу.
Насправді, .sum() — це лише одна з багатьох агрегуючих функцій, які можна використовувати. Ви ознайомитеся з усіма ними у подальших розділах.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат