Summary  
The k-means algorithm iteratively partitions a set of points by randomly initializing K centroids, assigning each point to its nearest centroid based on distance, updating each centroid to the mean of its assigned points, and repeating these steps until the centroid movements become negligible or a maximum iteration count is reached.

General domain of usage  
Unsupervised machine learning (data clustering)

### Initialisation

L'algorithme commence par sélectionner **aléatoirement** **K** centres de clusters initiaux, également appelés **centroïdes**. Ces centroïdes servent de points de départ pour chaque cluster. Une méthode courante consiste à choisir aléatoirement K points de données du jeu de données pour être les **centroïdes initiaux**.

### Étape d'affectation

À cette étape, chaque point de données est affecté au **centroïde le plus proche**. La distance est généralement mesurée à l'aide de la **distance euclidienne**, mais d'autres mesures de distance peuvent également être utilisées. Chaque point de données est placé dans le cluster représenté par le centroïde le plus proche.

### Étape de mise à jour

Une fois que tous les points de données sont affectés à des clusters, les centroïdes sont **recalculés**. Pour chaque cluster, le nouveau centroïde est calculé comme la **moyenne de tous les points de données appartenant à ce cluster**. Essentiellement, le centroïde est déplacé vers le centre de son cluster.

### Itération

Les étapes 2 et 3 sont répétées de manière itérative. À chaque itération, les points de données sont **réaffectés aux clusters** en fonction des centroïdes mis à jour, puis les **centroïdes sont recalculés** en fonction des nouvelles affectations de clusters. Ce processus itératif se poursuit jusqu'à ce qu'un critère d'arrêt soit atteint.

### Convergence

L'algorithme s'arrête lorsque l'une des conditions suivantes est remplie :

- **Les centroïdes ne changent pas de manière significative :** les positions des centroïdes se stabilisent, ce qui signifie que lors des itérations suivantes, il y a peu de changement dans leurs emplacements ;

- **Les affectations des points de données ne changent pas :** les points de données restent dans les mêmes clusters, indiquant que la structure des clusters est devenue stable ;

- **Le nombre maximal d'itérations est atteint :** un nombre maximal d'itérations prédéfini est atteint. Cela empêche l'algorithme de s'exécuter indéfiniment.

Après convergence, l'algorithme K-means a partitionné les données en **K clusters**, chaque cluster étant représenté par son centroïde. Les clusters résultants visent à être **cohésifs en interne** et **séparés en externe** selon la métrique de distance choisie et le processus d'affinement itératif.

Lors de l'étape de mise à jour dans l'algorithme K-means, quelle est l'action principale effectuée ?

Acquérez une compréhension approfondie de l'analyse de clusters, une technique clé d'apprentissage non supervisé pour révéler des motifs dans des données non étiquetées. Explorez les principes fondamentaux de K-Means, du clustering hiérarchique, de DBSCAN et des GMM, et mettez en pratique vos connaissances sur des jeux de données réels afin de renforcer votre confiance dans l'application du clustering à des problématiques concrètes.

Approfondissement des fondamentaux du clustering et distinction par rapport à la classification. Exploration des algorithmes, outils et bibliothèques essentiels qui alimentent cette technique d'apprentissage non supervisé pour révéler des structures cachées dans les données.

Acquérir une compréhension approfondie des principales techniques de prétraitement garantissant un regroupement efficace. Comprendre la gestion des valeurs manquantes, l'encodage des variables catégorielles, la normalisation des données, ainsi que le choix des mesures de distance et des méthodes de liaison appropriées pour améliorer la précision du regroupement.

Maîtrise des compétences nécessaires pour appliquer efficacement le clustering K-Means. Compréhension du fonctionnement de l'algorithme, détermination du nombre optimal de clusters et expérience pratique de l'implémentation de K-Means sur des jeux de données synthétiques et réels.

Découvrez les principes fondamentaux du regroupement hiérarchique et la manière de regrouper des données en ensembles significatifs à l'aide de dendrogrammes. Acquérez une maîtrise dans l'identification du nombre optimal de groupes et dans l'application de cette technique sur des jeux de données synthétiques et réels.

Découvrez comment DBSCAN excelle dans la détection de groupes de formes variées et la gestion du bruit dans les données. Comprenez le fonctionnement de cet algorithme basé sur la densité, la méthode d’attribution des points aux groupes, et son application sur des ensembles de données synthétiques et réels en toute confiance.

Compréhension approfondie des modèles de mélange gaussien et de l'utilisation de la probabilité pour modéliser des formes de clusters complexes.
Principes de la distribution gaussienne.
Exploration du fonctionnement des GMM.
Application des GMM à des données factices et réelles pour renforcer la compréhension.

Comment Fonctionne l'Algorithme K-Means ?

Initialisation

Étape d'affectation

Étape de mise à jour

Itération

Convergence