Qué es la Clasificación
Clasificación es una tarea de aprendizaje supervisado. Su objetivo es predecir la clase a la que pertenece una instancia basándose en un conjunto de parámetros (características). Es necesario proporcionar muchos ejemplos de datos etiquetados (llamados conjunto de entrenamiento) para que el ordenador pueda aprender antes de predecir la clase de una nueva instancia.
La diferencia entre clasificación y regresión es que la regresión predice un valor numérico continuo, por ejemplo, un precio. Puede ser cualquier número real (solo positivo en el caso de un precio).
En cambio, la clasificación predice un valor categórico, por ejemplo, el tipo de un dulce. Existe un conjunto finito de valores, y el modelo intenta clasificar cada instancia en una de estas categorías.
Según la formulación de un problema, existen varios tipos de clasificación:
-
Clasificación binaria: en la clasificación binaria, el objetivo es uno de dos posibles resultados. Por ejemplo, correo electrónico: spam/no spam, dulce: galleta/no galleta;
-
Clasificación multiclase: en la clasificación multiclase, existen tres o más posibles resultados para un objetivo. Por ejemplo, correo electrónico: spam/importante/publicidad/otro, dulce: galleta/malvavisco/caramelo;
-
Clasificación multilabel: en la clasificación multilabel, cada instancia puede pertenecer a múltiples clases al mismo tiempo. Por ejemplo, una película puede clasificarse como acción y comedia, o un correo electrónico puede marcarse como importante y relacionado con el trabajo.
Para la mayoría de los modelos de ML, es necesario codificar el objetivo como un número. Para la clasificación binaria, los resultados suelen codificarse como 0/1 (por ejemplo, 1 - galleta, 0 - no galleta). Para la clasificación multiclase, los resultados suelen codificarse como 0, 1, 2, ... (por ejemplo, 0 - caramelo, 1 - galleta, 2 - malvavisco).
Muchos modelos diferentes pueden realizar clasificación. Algunos ejemplos incluyen:
- k-Nearest Neighbors;
- Regresión logística;
- Árbol de decisión;
- Bosque aleatorio.
Afortunadamente, todos están implementados en la biblioteca scikit-learn y son fáciles de usar.
Ningún modelo de aprendizaje automático es superior a otro. El modelo que tendrá el mejor desempeño depende de la tarea específica.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 4.17
Qué es la Clasificación
Desliza para mostrar el menú
Clasificación es una tarea de aprendizaje supervisado. Su objetivo es predecir la clase a la que pertenece una instancia basándose en un conjunto de parámetros (características). Es necesario proporcionar muchos ejemplos de datos etiquetados (llamados conjunto de entrenamiento) para que el ordenador pueda aprender antes de predecir la clase de una nueva instancia.
La diferencia entre clasificación y regresión es que la regresión predice un valor numérico continuo, por ejemplo, un precio. Puede ser cualquier número real (solo positivo en el caso de un precio).
En cambio, la clasificación predice un valor categórico, por ejemplo, el tipo de un dulce. Existe un conjunto finito de valores, y el modelo intenta clasificar cada instancia en una de estas categorías.
Según la formulación de un problema, existen varios tipos de clasificación:
-
Clasificación binaria: en la clasificación binaria, el objetivo es uno de dos posibles resultados. Por ejemplo, correo electrónico: spam/no spam, dulce: galleta/no galleta;
-
Clasificación multiclase: en la clasificación multiclase, existen tres o más posibles resultados para un objetivo. Por ejemplo, correo electrónico: spam/importante/publicidad/otro, dulce: galleta/malvavisco/caramelo;
-
Clasificación multilabel: en la clasificación multilabel, cada instancia puede pertenecer a múltiples clases al mismo tiempo. Por ejemplo, una película puede clasificarse como acción y comedia, o un correo electrónico puede marcarse como importante y relacionado con el trabajo.
Para la mayoría de los modelos de ML, es necesario codificar el objetivo como un número. Para la clasificación binaria, los resultados suelen codificarse como 0/1 (por ejemplo, 1 - galleta, 0 - no galleta). Para la clasificación multiclase, los resultados suelen codificarse como 0, 1, 2, ... (por ejemplo, 0 - caramelo, 1 - galleta, 2 - malvavisco).
Muchos modelos diferentes pueden realizar clasificación. Algunos ejemplos incluyen:
- k-Nearest Neighbors;
- Regresión logística;
- Árbol de decisión;
- Bosque aleatorio.
Afortunadamente, todos están implementados en la biblioteca scikit-learn y son fáciles de usar.
Ningún modelo de aprendizaje automático es superior a otro. El modelo que tendrá el mejor desempeño depende de la tarea específica.
¡Gracias por tus comentarios!