Робочий процес машинного навчання
Свайпніть щоб показати меню
Розглянемо робочий процес, який використовується для створення успішного проєкту машинного навчання.
Крок 1. Отримання даних
Визначення задачі, вибір метрики ефективності та встановлення критеріїв хорошого результату. Збір необхідних даних із доступних джерел і приведення їх до формату, готового для використання в Python. Якщо дані вже збережені у CSV-файлі, можна одразу переходити до попередньої обробки.
Приклад
Лікарня збирає записи пацієнтів і демографічні дані у CSV-файл. Мета — прогнозування повторних госпіталізацій з цільовою точністю понад 80%.
Крок 2. Попередня обробка даних
Цей етап включає:
- Очищення даних: обробка пропущених значень і нечислових даних;
- EDA: аналіз і візуалізація даних для виявлення взаємозв'язків і проблем;
- Інженерія ознак: вибір або створення ознак, що покращують ефективність моделі.
Приклад
Пропущені значення (наприклад, артеріальний тиск) заповнюються, а категоріальні ознаки (наприклад, раса) перетворюються у числовий формат.
Крок 3. Моделювання
Цей етап включає:
- Вибір моделі залежно від типу задачі та експериментів;
- Налаштування гіперпараметрів для підвищення ефективності;
- Оцінювання моделі на невідомих даних.
Гіперпараметри — це налаштовувані параметри, які визначають процес навчання моделі, наприклад, тривалість навчання або складність моделі.
Приклад
Для прогнозування повторної госпіталізації (так/ні) обирається модель класифікації. Після налаштування її оцінюють на валідаційному/тестовому наборі для перевірки здатності до узагальнення.
Крок 4. Розгортання
Після досягнення гарних результатів модель розгортається у реальних системах. Необхідно здійснювати моніторинг моделі, оновлювати її новими даними та вдосконалювати з часом, часто починаючи цикл з Кроку 1.
Приклад
Модель інтегрується в систему лікарні для позначення пацієнтів з високим ризиком при надходженні, допомагаючи персоналу діяти завчасно.
Деякі з термінів, згаданих тут, можуть здатися незнайомими, але ми розглянемо їх детальніше пізніше у цьому курсі.
Попередня обробка даних і моделювання можуть виконуватися за допомогою scikit-learn. У наступних розділах розглядаються робочі процеси попередньої обробки та конвеєри, а також моделювання із використанням методу k-найближчих сусідів (KNeighborsClassifier), включаючи навчання, налаштування та оцінювання.
1. Яка основна мета етапу "Отримати дані" у проєкті машинного навчання?
2. Яке з наведеного найкраще описує важливість етапу "Попередня обробка даних" у робочому процесі проєкту машинного навчання?
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат