Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Flux de Travail en Apprentissage Automatique | Concepts de l'Apprentissage Automatique
Introduction au ML Avec Scikit-Learn

bookFlux de Travail en Apprentissage Automatique

Examinons le flux de travail à suivre pour mener à bien un projet d'apprentissage automatique.

Étape 1. Collecte des données

Pour cette étape, il est nécessaire de définir le problème ainsi que les données requises. Ensuite, il convient de choisir une métrique et de déterminer quel résultat serait satisfaisant.

Ensuite, il faut rassembler ces données, généralement issues de plusieurs sources (bases de données), dans un format adapté à un traitement ultérieur en Python.

Parfois, les données sont déjà au format .csv et prêtes à être prétraitées, ce qui permet de passer cette étape.

Exemple

Un hôpital vous fournit des dossiers patients historiques issus de sa base de données ainsi que des informations démographiques supplémentaires provenant d'une base de données nationale de santé, le tout compilé dans un fichier CSV. La tâche consiste à prédire les réadmissions de patients, en utilisant l'exactitude (le pourcentage de prédictions correctes sur le total) supérieure à 80 % comme métrique pour un résultat satisfaisant.

Étape 2. Prétraitement des données

Cette étape comprend :

  • Nettoyage des données : gestion des valeurs manquantes, des données non numériques, etc. ;
  • Analyse exploratoire des données (EDA) : analyse et visualisation du jeu de données pour identifier des tendances et des relations entre les variables, et, de manière générale, obtenir des informations sur la façon d'améliorer l'ensemble d'entraînement ;
  • Ingénierie des caractéristiques : sélection, transformation ou création de nouvelles variables à partir des résultats de l'EDA afin d'améliorer les performances du modèle.

Exemple

Pour les données hospitalières, il est possible de compléter les valeurs manquantes pour des mesures essentielles comme la pression artérielle et de convertir les variables catégorielles telles que la race en codes numériques pour l'analyse.

Étape 3. Modélisation

Cette étape comprend :

  • Choix du modèle : à ce stade, sélection d’un ou plusieurs modèles offrant les meilleures performances pour votre problème. Cela combine la compréhension de l’algorithme et des expérimentations avec différents modèles afin d’identifier ceux adaptés à votre cas ;
  • Ajustement des hyperparamètres : processus de recherche des hyperparamètres permettant d’obtenir les meilleures performances ;
  • Évaluation du modèle – mesure des performances du modèle sur des données non vues.

Exemple

Sélection d’un modèle de classification spécifique pour prédire les réadmissions de patients, idéal pour des résultats binaires (réadmis ou non). Ensuite, ajustement de ses hyperparamètres afin d’optimiser la configuration du modèle. Enfin, évaluation des performances du modèle à l’aide d’un ensemble de validation/test distinct pour garantir une bonne généralisation au-delà des données d’entraînement.

Étape 4. Déploiement

Une fois que vous disposez d’un modèle finement ajusté et performant, il est possible de le déployer. Cependant, ce n’est pas la fin du processus. La plupart du temps, il est également nécessaire de surveiller les performances du modèle déployé, d’identifier des axes d’amélioration et d’intégrer de nouvelles données au fur et à mesure de leur collecte. Cela ramène à l’étape 1.

Exemple

Une fois que le modèle prédit précisément les réadmissions, il est intégré dans le système de base de données de l'hôpital afin d'alerter le personnel sur les patients à haut risque lors de l'admission, améliorant ainsi la prise en charge des patients.

Les étapes de prétraitement des données et de modélisation peuvent être réalisées à l'aide de la bibliothèque scikit-learn (importée sous le nom sklearn). C'est ce que couvre le reste du cours.

Nous aborderons quelques étapes de prétraitement de base et apprendrons à construire des pipelines. Ensuite, nous discuterons de la phase de modélisation en utilisant l'algorithme k-plus proches voisins (implémenté sous le nom KNearestClassifier dans sklearn) comme exemple de modèle. Cela inclut la construction d'un modèle, l'ajustement des hyperparamètres et l'évaluation du modèle.

1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

question mark

Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

Select the correct answer

question mark

Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 5

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 3.13

bookFlux de Travail en Apprentissage Automatique

Glissez pour afficher le menu

Examinons le flux de travail à suivre pour mener à bien un projet d'apprentissage automatique.

Étape 1. Collecte des données

Pour cette étape, il est nécessaire de définir le problème ainsi que les données requises. Ensuite, il convient de choisir une métrique et de déterminer quel résultat serait satisfaisant.

Ensuite, il faut rassembler ces données, généralement issues de plusieurs sources (bases de données), dans un format adapté à un traitement ultérieur en Python.

Parfois, les données sont déjà au format .csv et prêtes à être prétraitées, ce qui permet de passer cette étape.

Exemple

Un hôpital vous fournit des dossiers patients historiques issus de sa base de données ainsi que des informations démographiques supplémentaires provenant d'une base de données nationale de santé, le tout compilé dans un fichier CSV. La tâche consiste à prédire les réadmissions de patients, en utilisant l'exactitude (le pourcentage de prédictions correctes sur le total) supérieure à 80 % comme métrique pour un résultat satisfaisant.

Étape 2. Prétraitement des données

Cette étape comprend :

  • Nettoyage des données : gestion des valeurs manquantes, des données non numériques, etc. ;
  • Analyse exploratoire des données (EDA) : analyse et visualisation du jeu de données pour identifier des tendances et des relations entre les variables, et, de manière générale, obtenir des informations sur la façon d'améliorer l'ensemble d'entraînement ;
  • Ingénierie des caractéristiques : sélection, transformation ou création de nouvelles variables à partir des résultats de l'EDA afin d'améliorer les performances du modèle.

Exemple

Pour les données hospitalières, il est possible de compléter les valeurs manquantes pour des mesures essentielles comme la pression artérielle et de convertir les variables catégorielles telles que la race en codes numériques pour l'analyse.

Étape 3. Modélisation

Cette étape comprend :

  • Choix du modèle : à ce stade, sélection d’un ou plusieurs modèles offrant les meilleures performances pour votre problème. Cela combine la compréhension de l’algorithme et des expérimentations avec différents modèles afin d’identifier ceux adaptés à votre cas ;
  • Ajustement des hyperparamètres : processus de recherche des hyperparamètres permettant d’obtenir les meilleures performances ;
  • Évaluation du modèle – mesure des performances du modèle sur des données non vues.

Exemple

Sélection d’un modèle de classification spécifique pour prédire les réadmissions de patients, idéal pour des résultats binaires (réadmis ou non). Ensuite, ajustement de ses hyperparamètres afin d’optimiser la configuration du modèle. Enfin, évaluation des performances du modèle à l’aide d’un ensemble de validation/test distinct pour garantir une bonne généralisation au-delà des données d’entraînement.

Étape 4. Déploiement

Une fois que vous disposez d’un modèle finement ajusté et performant, il est possible de le déployer. Cependant, ce n’est pas la fin du processus. La plupart du temps, il est également nécessaire de surveiller les performances du modèle déployé, d’identifier des axes d’amélioration et d’intégrer de nouvelles données au fur et à mesure de leur collecte. Cela ramène à l’étape 1.

Exemple

Une fois que le modèle prédit précisément les réadmissions, il est intégré dans le système de base de données de l'hôpital afin d'alerter le personnel sur les patients à haut risque lors de l'admission, améliorant ainsi la prise en charge des patients.

Les étapes de prétraitement des données et de modélisation peuvent être réalisées à l'aide de la bibliothèque scikit-learn (importée sous le nom sklearn). C'est ce que couvre le reste du cours.

Nous aborderons quelques étapes de prétraitement de base et apprendrons à construire des pipelines. Ensuite, nous discuterons de la phase de modélisation en utilisant l'algorithme k-plus proches voisins (implémenté sous le nom KNearestClassifier dans sklearn) comme exemple de modèle. Cela inclut la construction d'un modèle, l'ajustement des hyperparamètres et l'évaluation du modèle.

1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

question mark

Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

Select the correct answer

question mark

Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 5
some-alt