Summary  
This chapter demonstrates how to preprocess numeric features, apply the DBSCAN density-based clustering algorithm with hyperparameter tuning (eps and min_samples), and visualize resulting clusters and outliers on a real dataset.  

General domain of usage  
Customer segmentation in retail marketing

Se utilizará el conjunto de datos de **clientes de centro comercial**, que contiene las siguientes columnas:

También se deben seguir estos pasos antes de realizar el agrupamiento:
     
1.  **Cargar los datos:** se utilizará `pandas` para cargar el archivo CSV;
2.  **Seleccionar características relevantes:** se enfocará en las columnas `'Annual Income (k$)'` y `'Spending Score (1-100)'`;
3.  **Escalado de datos (importante para DBSCAN):** dado que DBSCAN utiliza cálculos de distancia, es fundamental escalar las características para que tengan rangos similares. Se puede utilizar `StandardScaler` para este propósito.

## Interpretación 

El código crea **5 clústeres** en este caso. Es importante analizar los clústeres resultantes para obtener información sobre la **segmentación de clientes**. Por ejemplo, se pueden identificar clústeres que representan: 

- Clientes con altos ingresos y alto gasto;     
- Clientes con altos ingresos y bajo gasto;    
- Clientes con bajos ingresos y alto gasto;     
- Clientes con bajos ingresos y bajo gasto; 
- Clientes con ingresos y gasto intermedios.

¿Qué afirmación describe mejor una ventaja clave de usar DBSCAN para agrupar el conjunto de datos de clientes del centro comercial?

Explora el poder de los patrones ocultos con el aprendizaje no supervisado. Domina los algoritmos de agrupamiento más influyentes, incluidos K-Means, Clustering Jerárquico, DBSCAN y Modelos de Mezcla Gaussiana. Aprende a evaluar la calidad de los clústeres utilizando WSS y puntuaciones de Silhouette, manejar diversas medidas de distancia e implementar soluciones robustas en conjuntos de datos del mundo real. Desarrolla habilidades para segmentar clientes y descubrir estructuras en datos no etiquetados utilizando Scikit-learn.

Implementación en un Conjunto de Datos Real

Interpretación

Observaciones finales