Чому масштабувати дані?
Свайпніть щоб показати меню
Після обробки пропущених значень і кодування категоріальних ознак набір даних не містить проблем, які могли б спричинити помилки в моделі. Однак залишається ще одна задача: різні масштаби ознак.
Ця проблема не спричинить помилок, якщо передати дані в поточному стані до моделі, але вона може суттєво погіршити деякі моделі машинного навчання.
Розгляньте приклад, де одна ознака — це 'age', діапазон значень від 18 до 50, а друга ознака — 'income', діапазон значень від $25,000 до $500,000. Очевидно, що різниця у десять років віку є значно суттєвішою, ніж різниця у десять доларів доходу.
Однак деякі моделі, такі як k-NN (яку ми будемо використовувати в цьому курсі), можуть розглядати ці відмінності як однаково важливі. У результаті стовпець 'income' матиме набагато більший вплив на модель. Тому важливо, щоб ознаки мали приблизно однаковий діапазон значень, щоб k-NN працював ефективно.
Хоча інші моделі можуть бути менш чутливими до різних масштабів, масштабування даних може суттєво підвищити швидкість обробки. Тому масштабування даних зазвичай включають як фінальний етап попередньої обробки.
Як зазначено вище, масштабування даних зазвичай є останнім кроком етапу попередньої обробки. Це пов’язано з тим, що зміни ознак після масштабування можуть зробити дані знову немасштабованими.
У наступному розділі буде розглянуто три найпоширеніші трансформери для масштабування даних: StandardScaler, MinMaxScaler та MaxAbsScaler.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат