Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende ¿Por Qué Escalar los Datos? | Preprocesamiento de Datos con Scikit-learn
Introducción al ML con Scikit-learn

book¿Por Qué Escalar los Datos?

Después de tratar los valores faltantes y codificar las características categóricas, el conjunto de datos está libre de problemas que puedan causar errores en el modelo. Sin embargo, aún queda otro desafío: diferentes escalas de características.

Este problema no generará errores si se utiliza el estado actual de los datos en el modelo, pero puede empeorar sustancialmente algunos modelos de ML.

Considere un ejemplo donde una característica es 'age', con un rango de 18 a 50, y la segunda característica es 'income', con un rango de $25,000 a $500,000. Es evidente que una diferencia de diez años en la edad es más significativa que una diferencia de diez dólares en el ingreso.

Sin embargo, algunos modelos, como k-NN (que utilizaremos en este curso), pueden tratar estas diferencias como igualmente importantes. En consecuencia, la columna 'income' tendrá un impacto mucho mayor en el modelo. Por lo tanto, es fundamental que las características tengan aproximadamente el mismo rango para que k-NN funcione de manera efectiva.

Aunque otros modelos pueden verse menos afectados por las diferentes escalas, escalar los datos puede mejorar significativamente la velocidad de procesamiento. Por ello, el escalado de datos suele incluirse como un paso final en el preprocesamiento.

Note
Nota

Como se mencionó anteriormente, el escalado de datos suele ser el último paso de la etapa de preprocesamiento. Esto se debe a que los cambios en las características realizados después del escalado pueden hacer que los datos dejen de estar escalados.

El próximo capítulo cubrirá los tres transformadores más utilizados para el escalado de datos. Estos son StandardScaler, MinMaxScaler y MaxAbsScaler.

question mark

¿Por qué es importante escalar las características en modelos de aprendizaje automático como k-nearest neighbors (KNN)?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 9

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 3.13

book¿Por Qué Escalar los Datos?

Desliza para mostrar el menú

Después de tratar los valores faltantes y codificar las características categóricas, el conjunto de datos está libre de problemas que puedan causar errores en el modelo. Sin embargo, aún queda otro desafío: diferentes escalas de características.

Este problema no generará errores si se utiliza el estado actual de los datos en el modelo, pero puede empeorar sustancialmente algunos modelos de ML.

Considere un ejemplo donde una característica es 'age', con un rango de 18 a 50, y la segunda característica es 'income', con un rango de $25,000 a $500,000. Es evidente que una diferencia de diez años en la edad es más significativa que una diferencia de diez dólares en el ingreso.

Sin embargo, algunos modelos, como k-NN (que utilizaremos en este curso), pueden tratar estas diferencias como igualmente importantes. En consecuencia, la columna 'income' tendrá un impacto mucho mayor en el modelo. Por lo tanto, es fundamental que las características tengan aproximadamente el mismo rango para que k-NN funcione de manera efectiva.

Aunque otros modelos pueden verse menos afectados por las diferentes escalas, escalar los datos puede mejorar significativamente la velocidad de procesamiento. Por ello, el escalado de datos suele incluirse como un paso final en el preprocesamiento.

Note
Nota

Como se mencionó anteriormente, el escalado de datos suele ser el último paso de la etapa de preprocesamiento. Esto se debe a que los cambios en las características realizados después del escalado pueden hacer que los datos dejen de estar escalados.

El próximo capítulo cubrirá los tres transformadores más utilizados para el escalado de datos. Estos son StandardScaler, MinMaxScaler y MaxAbsScaler.

question mark

¿Por qué es importante escalar las características en modelos de aprendizaje automático como k-nearest neighbors (KNN)?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 9
some-alt