K-NN con Múltiples Características
Ahora comprende cómo funciona k-NN con una sola característica. Pasemos a un ejemplo ligeramente más complejo que utiliza dos características: weight y width.
En este caso, es necesario encontrar vecinos basándose en ambos, width y weight. Sin embargo, existe un pequeño inconveniente. Vamos a graficar los dulces y observar qué sucede:
Se puede observar que el weight varía entre 12 y 64, mientras que el width solo está entre 5 y 12. Dado que el rango de width es mucho menor, los dulces parecen estar casi alineados verticalmente. Si calculamos las distancias ahora, reflejarán principalmente diferencias en weight, como si nunca se hubiera considerado width.
Sin embargo, existe una solución: escalar los datos.
Ahora, tanto weight como width están en la misma escala y centrados alrededor de cero. Esto se puede lograr mediante la clase StandardScaler de sklearn. StandardScaler simplemente resta la media de la muestra y luego divide el resultado por la desviación estándar de la muestra:
StandardScaler centra los datos alrededor de cero. Aunque centrar los datos no es obligatorio para k-NN y podría generar confusión, como "¿cómo puede el peso ser negativo?", es simplemente una forma de presentar los datos a una computadora. Algunos modelos requieren centrado, por lo que es recomendable utilizar StandardScaler para escalar por defecto.
De hecho, se debe siempre escalar los datos antes de utilizar k-Nearest Neighbors. Con los datos escalados, ahora podemos encontrar los vecinos:
En el caso de dos características, k-NN define un vecindario circular que contiene el número deseado de vecinos. Con tres características, esto se convierte en una esfera. En dimensiones superiores, el vecindario asume una forma más compleja que no puede visualizarse, aunque los cálculos subyacentes permanecen sin cambios.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Genial!
Completion tasa mejorada a 3.33
K-NN con Múltiples Características
Desliza para mostrar el menú
Ahora comprende cómo funciona k-NN con una sola característica. Pasemos a un ejemplo ligeramente más complejo que utiliza dos características: weight y width.
En este caso, es necesario encontrar vecinos basándose en ambos, width y weight. Sin embargo, existe un pequeño inconveniente. Vamos a graficar los dulces y observar qué sucede:
Se puede observar que el weight varía entre 12 y 64, mientras que el width solo está entre 5 y 12. Dado que el rango de width es mucho menor, los dulces parecen estar casi alineados verticalmente. Si calculamos las distancias ahora, reflejarán principalmente diferencias en weight, como si nunca se hubiera considerado width.
Sin embargo, existe una solución: escalar los datos.
Ahora, tanto weight como width están en la misma escala y centrados alrededor de cero. Esto se puede lograr mediante la clase StandardScaler de sklearn. StandardScaler simplemente resta la media de la muestra y luego divide el resultado por la desviación estándar de la muestra:
StandardScaler centra los datos alrededor de cero. Aunque centrar los datos no es obligatorio para k-NN y podría generar confusión, como "¿cómo puede el peso ser negativo?", es simplemente una forma de presentar los datos a una computadora. Algunos modelos requieren centrado, por lo que es recomendable utilizar StandardScaler para escalar por defecto.
De hecho, se debe siempre escalar los datos antes de utilizar k-Nearest Neighbors. Con los datos escalados, ahora podemos encontrar los vecinos:
En el caso de dos características, k-NN define un vecindario circular que contiene el número deseado de vecinos. Con tres características, esto se convierte en una esfera. En dimensiones superiores, el vecindario asume una forma más compleja que no puede visualizarse, aunque los cálculos subyacentes permanecen sin cambios.
¡Gracias por tus comentarios!