Apprendre Flux de Travail en Apprentissage Automatique | Concepts de l'Apprentissage Automatique

Glissez pour afficher le menu

Examen du flux de travail à suivre pour construire un projet d'apprentissage automatique réussi.

Étape 1. Collecte des données

Définition du problème, choix d'une métrique de performance et détermination des critères d'un bon résultat. Collecte des données nécessaires à partir des sources disponibles et mise en forme adaptée à Python. Si les données existent déjà dans un fichier CSV, le prétraitement peut commencer immédiatement.

Exemple

Un hôpital compile les dossiers patients et les données démographiques dans un fichier CSV. L'objectif est de prédire les réadmissions, avec un objectif de plus de 80 % de précision.

Étape 2. Prétraitement des données

Cette étape comprend :

Nettoyage des données : gestion des valeurs manquantes et des entrées non numériques ;
EDA : analyse et visualisation des données pour comprendre les relations et détecter les problèmes ;
Ingénierie des caractéristiques : sélection ou création de variables améliorant la performance du modèle.

Exemple

Remplissage des valeurs manquantes (par exemple, pression artérielle) et conversion des variables catégorielles (par exemple, race) en format numérique.

Étape 3. Modélisation

Cette étape comprend :

Choix d’un modèle en fonction du type de problème et des expérimentations ;
Ajustement des hyperparamètres pour améliorer les performances ;
Évaluation du modèle sur des données non vues.

Pour aller plus loin

Les hyperparamètres sont comme des réglages ajustables qui définissent la façon dont le modèle s’entraîne—tels que la durée d’entraînement ou la complexité du modèle.

Exemple

Un modèle de classification est sélectionné pour prédire la réadmission (oui/non). Après l’ajustement, il est évalué sur un ensemble de validation/test afin d’évaluer la généralisation.

Étape 4. Déploiement

Une fois qu’un modèle offre de bonnes performances, il est déployé dans des systèmes réels. Le modèle doit être surveillé, mis à jour avec de nouvelles données et amélioré au fil du temps, relançant souvent le cycle à partir de l’étape 1.

Exemple

Le modèle est intégré au système hospitalier pour signaler les patients à haut risque lors de l’admission, aidant ainsi le personnel à intervenir rapidement.

Remarque

Certains des termes mentionnés ici peuvent sembler inconnus, mais nous les aborderons plus en détail plus loin dans ce cours.

Le prétraitement des données et la modélisation peuvent être réalisés avec scikit-learn. Les prochains chapitres présentent les workflows de prétraitement et les pipelines, suivis de la modélisation à l'aide de k-plus proches voisins (KNeighborsClassifier), incluant l'entraînement, l'ajustement et l'évaluation.

1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le workflow d'un projet d'apprentissage automatique ?

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 5

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 1. Chapitre 5