Aprende Normalización de Datos | Conceptos Fundamentales

La normalización de datos es un paso de preprocesamiento fundamental para muchos algoritmos de agrupamiento, incluido K-means. Las características en conjuntos de datos reales suelen tener diferentes escalas y unidades. Los algoritmos que dependen de cálculos de distancia, como K-means, pueden verse fuertemente influenciados por características con escalas mayores. La normalización busca llevar todas las características a una escala similar, evitando que las características con valores más grandes dominen el proceso de agrupamiento.

StandardScaler

StandardScaler estandariza las características eliminando la media y escalando a varianza unitaria. Transforma los datos para que tengan una media de 0 y una desviación estándar de 1. Esto se logra restando la media y dividiendo por la desviación estándar para cada característica.

StandardScaler es efectivo cuando los datos son aproximadamente distribuidos normalmente. Es ampliamente utilizado y suele ser un buen método de normalización predeterminado para muchos algoritmos.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

MinMaxScaler escala las características a un rango específico, normalmente entre 0 y 1. Transforma los datos escalando y desplazando cada característica individualmente para que esté dentro del rango dado.

MinMaxScaler es útil cuando se necesitan valores dentro de un rango específico, o cuando los datos no están distribuidos normalmente. Conserva la forma de la distribución original, solo escalada al nuevo rango.

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

La elección entre StandardScaler y MinMaxScaler depende de los datos y del algoritmo específico. StandardScaler suele preferirse para algoritmos como K-means cuando las características están aproximadamente distribuidas normalmente. MinMaxScaler puede ser útil cuando se necesitan valores acotados o cuando los datos no están distribuidos normalmente.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 3

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 2.94

Desliza para mostrar el menú

StandardScaler

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 3