¿Por Qué Escalar los Datos?
Después de tratar los valores faltantes y codificar las características categóricas, el conjunto de datos está libre de problemas que puedan causar errores en el modelo. Sin embargo, aún queda otro desafío: diferentes escalas de características.
Este problema no generará errores si se utiliza el estado actual de los datos en el modelo, pero puede empeorar sustancialmente algunos modelos de ML.
Considere un ejemplo donde una característica es 'age'
, con un rango de 18 a 50, y la segunda característica es 'income'
, con un rango de $25,000 a $500,000. Es evidente que una diferencia de diez años en la edad es más significativa que una diferencia de diez dólares en el ingreso.
Sin embargo, algunos modelos, como k-NN (que utilizaremos en este curso), pueden tratar estas diferencias como igualmente importantes. En consecuencia, la columna 'income'
tendrá un impacto mucho mayor en el modelo. Por lo tanto, es fundamental que las características tengan aproximadamente el mismo rango para que k-NN funcione de manera efectiva.
Aunque otros modelos pueden verse menos afectados por las diferentes escalas, escalar los datos puede mejorar significativamente la velocidad de procesamiento. Por ello, el escalado de datos suele incluirse como un paso final en el preprocesamiento.
Como se mencionó anteriormente, el escalado de datos suele ser el último paso de la etapa de preprocesamiento. Esto se debe a que los cambios en las características realizados después del escalado pueden hacer que los datos dejen de estar escalados.
El próximo capítulo cubrirá los tres transformadores más utilizados para el escalado de datos. Estos son StandardScaler
, MinMaxScaler
y MaxAbsScaler
.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 3.13
¿Por Qué Escalar los Datos?
Desliza para mostrar el menú
Después de tratar los valores faltantes y codificar las características categóricas, el conjunto de datos está libre de problemas que puedan causar errores en el modelo. Sin embargo, aún queda otro desafío: diferentes escalas de características.
Este problema no generará errores si se utiliza el estado actual de los datos en el modelo, pero puede empeorar sustancialmente algunos modelos de ML.
Considere un ejemplo donde una característica es 'age'
, con un rango de 18 a 50, y la segunda característica es 'income'
, con un rango de $25,000 a $500,000. Es evidente que una diferencia de diez años en la edad es más significativa que una diferencia de diez dólares en el ingreso.
Sin embargo, algunos modelos, como k-NN (que utilizaremos en este curso), pueden tratar estas diferencias como igualmente importantes. En consecuencia, la columna 'income'
tendrá un impacto mucho mayor en el modelo. Por lo tanto, es fundamental que las características tengan aproximadamente el mismo rango para que k-NN funcione de manera efectiva.
Aunque otros modelos pueden verse menos afectados por las diferentes escalas, escalar los datos puede mejorar significativamente la velocidad de procesamiento. Por ello, el escalado de datos suele incluirse como un paso final en el preprocesamiento.
Como se mencionó anteriormente, el escalado de datos suele ser el último paso de la etapa de preprocesamiento. Esto se debe a que los cambios en las características realizados después del escalado pueden hacer que los datos dejen de estar escalados.
El próximo capítulo cubrirá los tres transformadores más utilizados para el escalado de datos. Estos son StandardScaler
, MinMaxScaler
y MaxAbsScaler
.
¡Gracias por tus comentarios!