Desliza para mostrar el menú

Después de tratar los valores faltantes y codificar las características categóricas, el conjunto de datos está libre de problemas que puedan causar errores en el modelo. Sin embargo, queda otro desafío: diferentes escalas de características.

Este problema no causará errores si se introduce el conjunto de datos en su estado actual al modelo, pero puede empeorar sustancialmente algunos modelos de aprendizaje automático.

Considera un ejemplo donde una característica es 'age', que varía de 18 a 50, y la segunda característica es 'income', que varía de $25,000 a $500,000. Es evidente que una diferencia de diez años en la edad es más significativa que una diferencia de diez dólares en los ingresos.

Sin embargo, algunos modelos, como k-NN (que utilizaremos en este curso), pueden tratar estas diferencias como igualmente importantes. En consecuencia, la columna 'income' tendrá un impacto mucho mayor en el modelo. Por lo tanto, es fundamental que las características tengan aproximadamente el mismo rango para que k-NN funcione de manera efectiva.

Aunque otros modelos pueden verse menos afectados por diferentes escalas, escalar los datos puede mejorar significativamente la velocidad de procesamiento. Por ello, el escalado de datos suele incluirse como un paso final en el preprocesamiento.

Nota

Como se mencionó anteriormente, el escalado de datos suele ser el último paso de la etapa de preprocesamiento. Esto se debe a que los cambios en las características realizados después del escalado pueden hacer que los datos dejen de estar escalados.

El próximo capítulo cubrirá los tres transformadores más utilizados para el escalado de datos. Estos son StandardScaler, MinMaxScaler y MaxAbsScaler.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 9

Pregunte a AI