Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende K-NN con Múltiples Características | Sección
Fundamentos del Aprendizaje Supervisado

bookK-NN con Múltiples Características

Ahora comprende cómo funciona k-NN con una sola característica. Pasemos a un ejemplo ligeramente más complejo que utiliza dos características: weight y width.

En este caso, es necesario encontrar vecinos basándose en ambos, width y weight. Sin embargo, existe un pequeño inconveniente. Vamos a graficar los dulces y observar qué sucede:

Se puede observar que el weight varía entre 12 y 64, mientras que el width solo está entre 5 y 12. Dado que el rango de width es mucho menor, los dulces parecen estar casi alineados verticalmente. Si calculamos las distancias ahora, reflejarán principalmente diferencias en weight, como si nunca se hubiera considerado width.

Sin embargo, existe una solución: escalar los datos.

Ahora, tanto weight como width están en la misma escala y centrados alrededor de cero. Esto se puede lograr mediante la clase StandardScaler de sklearn. StandardScaler simplemente resta la media de la muestra y luego divide el resultado por la desviación estándar de la muestra:

Xscaled=XxˉsX_{scaled} = \frac{X - \bar x}{s}

StandardScaler centra los datos alrededor de cero. Aunque centrar los datos no es obligatorio para k-NN y podría generar confusión, como "¿cómo puede el peso ser negativo?", es simplemente una forma de presentar los datos a una computadora. Algunos modelos requieren centrado, por lo que es recomendable utilizar StandardScaler para escalar por defecto.

De hecho, se debe siempre escalar los datos antes de utilizar k-Nearest Neighbors. Con los datos escalados, ahora podemos encontrar los vecinos:

En el caso de dos características, k-NN define un vecindario circular que contiene el número deseado de vecinos. Con tres características, esto se convierte en una esfera. En dimensiones superiores, el vecindario asume una forma más compleja que no puede visualizarse, aunque los cálculos subyacentes permanecen sin cambios.

question mark

Elija la afirmación correcta.

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 16

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

bookK-NN con Múltiples Características

Desliza para mostrar el menú

Ahora comprende cómo funciona k-NN con una sola característica. Pasemos a un ejemplo ligeramente más complejo que utiliza dos características: weight y width.

En este caso, es necesario encontrar vecinos basándose en ambos, width y weight. Sin embargo, existe un pequeño inconveniente. Vamos a graficar los dulces y observar qué sucede:

Se puede observar que el weight varía entre 12 y 64, mientras que el width solo está entre 5 y 12. Dado que el rango de width es mucho menor, los dulces parecen estar casi alineados verticalmente. Si calculamos las distancias ahora, reflejarán principalmente diferencias en weight, como si nunca se hubiera considerado width.

Sin embargo, existe una solución: escalar los datos.

Ahora, tanto weight como width están en la misma escala y centrados alrededor de cero. Esto se puede lograr mediante la clase StandardScaler de sklearn. StandardScaler simplemente resta la media de la muestra y luego divide el resultado por la desviación estándar de la muestra:

Xscaled=XxˉsX_{scaled} = \frac{X - \bar x}{s}

StandardScaler centra los datos alrededor de cero. Aunque centrar los datos no es obligatorio para k-NN y podría generar confusión, como "¿cómo puede el peso ser negativo?", es simplemente una forma de presentar los datos a una computadora. Algunos modelos requieren centrado, por lo que es recomendable utilizar StandardScaler para escalar por defecto.

De hecho, se debe siempre escalar los datos antes de utilizar k-Nearest Neighbors. Con los datos escalados, ahora podemos encontrar los vecinos:

En el caso de dos características, k-NN define un vecindario circular que contiene el número deseado de vecinos. Con tres características, esto se convierte en una esfera. En dimensiones superiores, el vecindario asume una forma más compleja que no puede visualizarse, aunque los cálculos subyacentes permanecen sin cambios.

question mark

Elija la afirmación correcta.

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 16
some-alt