Flux de Travail en Apprentissage Automatique
Glissez pour afficher le menu
Examen du flux de travail à suivre pour construire un projet d'apprentissage automatique réussi.
Étape 1. Collecte des données
Définition du problème, choix d'une métrique de performance et détermination des critères d'un bon résultat. Collecte des données nécessaires à partir des sources disponibles et mise en forme adaptée à Python. Si les données existent déjà dans un fichier CSV, le prétraitement peut commencer immédiatement.
Exemple
Un hôpital compile les dossiers patients et les données démographiques dans un fichier CSV. L'objectif est de prédire les réadmissions, avec un objectif de plus de 80 % de précision.
Étape 2. Prétraitement des données
Cette étape comprend :
- Nettoyage des données : gestion des valeurs manquantes et des entrées non numériques ;
- EDA : analyse et visualisation des données pour comprendre les relations et détecter les problèmes ;
- Ingénierie des caractéristiques : sélection ou création de variables améliorant la performance du modèle.
Exemple
Remplissage des valeurs manquantes (par exemple, pression artérielle) et conversion des variables catégorielles (par exemple, race) en format numérique.
Étape 3. Modélisation
Cette étape comprend :
- Choix d’un modèle en fonction du type de problème et des expérimentations ;
- Ajustement des hyperparamètres pour améliorer les performances ;
- Évaluation du modèle sur des données non vues.
Les hyperparamètres sont comme des réglages ajustables qui définissent la façon dont le modèle s’entraîne—tels que la durée d’entraînement ou la complexité du modèle.
Exemple
Un modèle de classification est sélectionné pour prédire la réadmission (oui/non). Après l’ajustement, il est évalué sur un ensemble de validation/test afin d’évaluer la généralisation.
Étape 4. Déploiement
Une fois qu’un modèle offre de bonnes performances, il est déployé dans des systèmes réels. Le modèle doit être surveillé, mis à jour avec de nouvelles données et amélioré au fil du temps, relançant souvent le cycle à partir de l’étape 1.
Exemple
Le modèle est intégré au système hospitalier pour signaler les patients à haut risque lors de l’admission, aidant ainsi le personnel à intervenir rapidement.
Certains des termes mentionnés ici peuvent sembler inconnus, mais nous les aborderons plus en détail plus loin dans ce cours.
Le prétraitement des données et la modélisation peuvent être réalisés avec scikit-learn. Les prochains chapitres présentent les workflows de prétraitement et les pipelines, suivis de la modélisation à l'aide de k-plus proches voisins (KNeighborsClassifier), incluant l'entraînement, l'ajustement et l'évaluation.
1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?
2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le workflow d'un projet d'apprentissage automatique ?
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion