Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Flux de Travail en Apprentissage Automatique | Section
Fondements de l'Apprentissage Automatique

bookFlux de Travail en Apprentissage Automatique

Examinons le flux de travail à suivre pour mener à bien un projet d'apprentissage automatique.

Étape 1. Obtenir les données

Définir le problème, choisir une métrique de performance et déterminer ce qui constitue un bon résultat. Ensuite, collecter les données nécessaires à partir des sources disponibles et les mettre dans un format prêt pour Python. Si les données existent déjà dans un fichier CSV, le prétraitement peut commencer immédiatement.

Exemple

Un hôpital compile les dossiers des patients et les données démographiques dans un fichier CSV. L'objectif est de prédire les réadmissions, en visant une précision supérieure à 80%.

Étape 2. Prétraiter les données

Cette étape comprend :

  • Nettoyage des données : gestion des valeurs manquantes et des entrées non numériques ;
  • EDA : analyse et visualisation des données pour comprendre les relations et détecter les problèmes ;
  • Ingénierie des caractéristiques : sélection ou création de variables qui améliorent la performance du modèle.

Exemple

Les valeurs manquantes (par exemple, la pression artérielle) sont complétées et les variables catégorielles (par exemple, la race) sont converties en format numérique.

Étape 3. Modélisation

Cette étape comprend :

  • Choix d’un modèle en fonction du type de problème et des expérimentations ;
  • Ajustement des hyperparamètres pour améliorer la performance ;
  • Évaluation du modèle sur des données non vues.
Note
Approfondir

Les hyperparamètres sont des contrôles ajustables qui définissent la manière dont le modèle s’entraîne—tels que la durée d’entraînement ou la complexité du modèle.

Exemple

Un modèle de classification est sélectionné pour prédire la réadmission (oui/non). Après ajustement, il est évalué sur un ensemble de validation/test afin d’évaluer la généralisation.

Étape 4. Déploiement

Une fois qu’un modèle donne de bons résultats, il est déployé dans des systèmes réels. Le modèle doit être surveillé, mis à jour avec de nouvelles données et amélioré au fil du temps, ce qui implique souvent de recommencer le cycle à partir de l’étape 1.

Exemple

Le modèle est intégré au système hospitalier pour signaler les patients à haut risque lors de l’admission, aidant ainsi le personnel à intervenir rapidement.

Note
Remarque

Certains des termes mentionnés ici peuvent sembler inconnus, mais ils seront abordés plus en détail plus loin dans ce cours.

Le prétraitement des données et la modélisation peuvent être réalisés avec scikit-learn. Les prochains chapitres présentent les workflows de prétraitement et les pipelines, suivis de la modélisation avec k-nearest neighbors (KNeighborsClassifier), incluant l’entraînement, l’ajustement et l’évaluation.

1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

question mark

Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

Select the correct answer

question mark

Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 5

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

bookFlux de Travail en Apprentissage Automatique

Glissez pour afficher le menu

Examinons le flux de travail à suivre pour mener à bien un projet d'apprentissage automatique.

Étape 1. Obtenir les données

Définir le problème, choisir une métrique de performance et déterminer ce qui constitue un bon résultat. Ensuite, collecter les données nécessaires à partir des sources disponibles et les mettre dans un format prêt pour Python. Si les données existent déjà dans un fichier CSV, le prétraitement peut commencer immédiatement.

Exemple

Un hôpital compile les dossiers des patients et les données démographiques dans un fichier CSV. L'objectif est de prédire les réadmissions, en visant une précision supérieure à 80%.

Étape 2. Prétraiter les données

Cette étape comprend :

  • Nettoyage des données : gestion des valeurs manquantes et des entrées non numériques ;
  • EDA : analyse et visualisation des données pour comprendre les relations et détecter les problèmes ;
  • Ingénierie des caractéristiques : sélection ou création de variables qui améliorent la performance du modèle.

Exemple

Les valeurs manquantes (par exemple, la pression artérielle) sont complétées et les variables catégorielles (par exemple, la race) sont converties en format numérique.

Étape 3. Modélisation

Cette étape comprend :

  • Choix d’un modèle en fonction du type de problème et des expérimentations ;
  • Ajustement des hyperparamètres pour améliorer la performance ;
  • Évaluation du modèle sur des données non vues.
Note
Approfondir

Les hyperparamètres sont des contrôles ajustables qui définissent la manière dont le modèle s’entraîne—tels que la durée d’entraînement ou la complexité du modèle.

Exemple

Un modèle de classification est sélectionné pour prédire la réadmission (oui/non). Après ajustement, il est évalué sur un ensemble de validation/test afin d’évaluer la généralisation.

Étape 4. Déploiement

Une fois qu’un modèle donne de bons résultats, il est déployé dans des systèmes réels. Le modèle doit être surveillé, mis à jour avec de nouvelles données et amélioré au fil du temps, ce qui implique souvent de recommencer le cycle à partir de l’étape 1.

Exemple

Le modèle est intégré au système hospitalier pour signaler les patients à haut risque lors de l’admission, aidant ainsi le personnel à intervenir rapidement.

Note
Remarque

Certains des termes mentionnés ici peuvent sembler inconnus, mais ils seront abordés plus en détail plus loin dans ce cours.

Le prétraitement des données et la modélisation peuvent être réalisés avec scikit-learn. Les prochains chapitres présentent les workflows de prétraitement et les pipelines, suivis de la modélisation avec k-nearest neighbors (KNeighborsClassifier), incluant l’entraînement, l’ajustement et l’évaluation.

1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

question mark

Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

Select the correct answer

question mark

Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 5
some-alt