Qu'est-Ce Qui Est Unique Dans Le Clustering ?

Le clustering est un type d'apprentissage automatique dans lequel le modèle est entraîné sur des données non étiquetées sans aucune variable cible prédéfinie ou sortie correcte (on l'appelle apprentissage non supervisé). L'objectif est d'identifier des motifs ou structures cachés dans les données sans aucune connaissance préalable de la sortie.
Par conséquent, l'approche de l'apprentissage change également : dans l'apprentissage supervisé, nous devons minimiser la différence entre la valeur prédite et la valeur réelle (étiquette), tandis que dans l'apprentissage non supervisé, nous devons déterminer quelle fonction nous allons minimiser pour résoudre un problème spécifique (cela peut être l'entropie croisée lors du travail avec des images, différents types de normes mathématiques pour travailler avec des données numériques, la densité lors de l'utilisation de méthodes statistiques, etc.).
Simplement, nous devons choisir selon quels critères nous considérerons les objets proches les uns des autres pour le clustering. Dans la plupart des algorithmes, la distance euclidienne habituelle est utilisée pour cela :

De plus, on utilise souvent les distances intra-cluster (la distance entre un élément de données et le centroïde du cluster à l'intérieur d'un cluster) et inter-cluster (la distance entre les éléments de données dans des clusters distincts) : plus la distance intra-cluster est petite et plus la distance inter-cluster est grande, mieux notre algorithme a réussi la tâche de clustering.

Maintenant, discutons des avantages et des inconvénients du clustering.

Avantages :

le clustering aide à résoudre les problèmes d'apprentissage automatique sans nécessiter de labelliser les données, ce qui peut être chronophage ;
les algorithmes de clustering peuvent nous aider à améliorer la qualité des données en détectant les valeurs aberrantes, en réduisant les dimensions des données et en ingénierie des caractéristiques ;
le clustering peut nous aider à identifier des motifs et des insights précieux dans nos données ;
les algorithmes de clustering peuvent fonctionner avec des données qui ne suivent pas un schéma cohérent au fil du temps.

Inconvénients :

le clustering peut être coûteux car il peut nécessiter des experts humains pour interpréter les motifs et les relier aux connaissances du domaine ;
il n'y a aucune garantie que le clustering fournira des résultats utiles puisque nous n'avons pas de données labellisées pour valider les résultats ;
la précision des résultats du clustering peut varier en fonction de la méthode utilisée.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 2

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Contenu du cours

Analyse de Cluster

1. Qu'est-ce Que le Clustering?

Formulation du Problème Qu'est-Ce Qui Est Unique Dans Le Clustering ?Types de Regroupement

2. Algorithmes de Regroupement de Base

3. Comment Choisir le Meilleur Modèle ?

Évaluation Interne Évaluation Externe Évaluation de la Qualité