Flujo de Trabajo de Aprendizaje Automático
Analicemos el flujo de trabajo que se seguiría para construir un proyecto exitoso de aprendizaje automático.
Paso 1. Obtener los datos
Definir el problema, elegir una métrica de rendimiento y decidir qué califica como un buen resultado. Luego recopilar los datos necesarios de las fuentes disponibles y llevarlos a un formato listo para Python. Si los datos ya existen en un archivo CSV, el preprocesamiento puede comenzar de inmediato.
Ejemplo
Un hospital recopila registros de pacientes y datos demográficos en un archivo CSV. El objetivo es predecir readmisiones, buscando más del 80% de precisión.
Paso 2. Preprocesar los datos
Este paso incluye:
- Limpieza de datos: manejo de valores faltantes y entradas no numéricas;
- EDA: análisis y visualización de datos para comprender relaciones y detectar problemas;
- Ingeniería de características: selección o creación de características que mejoren el rendimiento del modelo.
Ejemplo
Se completan los valores faltantes (por ejemplo, presión arterial) y las características categóricas (por ejemplo, raza) se convierten a formato numérico.
Paso 3. Modelado
Esta etapa incluye:
- Selección de un modelo según el tipo de problema y experimentos;
- Ajuste de hiperparámetros para mejorar el rendimiento;
- Evaluación del modelo en datos no vistos.
Los hiperparámetros son como controles ajustables que definen cómo se entrena el modelo—como la duración del entrenamiento o la complejidad del modelo.
Ejemplo
Se selecciona un modelo de clasificación para predecir la readmisión (sí/no). Tras el ajuste, se evalúa en un conjunto de validación/prueba para medir la capacidad de generalización.
Paso 4. Despliegue
Una vez que un modelo tiene un buen desempeño, se despliega en sistemas reales. El modelo debe ser monitoreado, actualizado con nuevos datos y mejorado con el tiempo, reiniciando a menudo el ciclo desde el Paso 1.
Ejemplo
El modelo se integra en el sistema hospitalario para identificar pacientes de alto riesgo al momento del ingreso, ayudando al personal a actuar de manera temprana.
Algunos de los términos mencionados aquí pueden parecer desconocidos, pero los discutiremos con más detalle más adelante en este curso.
El preprocesamiento de datos y la modelización pueden realizarse con scikit-learn. Los próximos capítulos presentan flujos de trabajo y pipelines de preprocesamiento, seguidos de la modelización utilizando k-nearest neighbors (KNeighborsClassifier), incluyendo entrenamiento, ajuste y evaluación.
1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?
2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Genial!
Completion tasa mejorada a 4.55
Flujo de Trabajo de Aprendizaje Automático
Desliza para mostrar el menú
Analicemos el flujo de trabajo que se seguiría para construir un proyecto exitoso de aprendizaje automático.
Paso 1. Obtener los datos
Definir el problema, elegir una métrica de rendimiento y decidir qué califica como un buen resultado. Luego recopilar los datos necesarios de las fuentes disponibles y llevarlos a un formato listo para Python. Si los datos ya existen en un archivo CSV, el preprocesamiento puede comenzar de inmediato.
Ejemplo
Un hospital recopila registros de pacientes y datos demográficos en un archivo CSV. El objetivo es predecir readmisiones, buscando más del 80% de precisión.
Paso 2. Preprocesar los datos
Este paso incluye:
- Limpieza de datos: manejo de valores faltantes y entradas no numéricas;
- EDA: análisis y visualización de datos para comprender relaciones y detectar problemas;
- Ingeniería de características: selección o creación de características que mejoren el rendimiento del modelo.
Ejemplo
Se completan los valores faltantes (por ejemplo, presión arterial) y las características categóricas (por ejemplo, raza) se convierten a formato numérico.
Paso 3. Modelado
Esta etapa incluye:
- Selección de un modelo según el tipo de problema y experimentos;
- Ajuste de hiperparámetros para mejorar el rendimiento;
- Evaluación del modelo en datos no vistos.
Los hiperparámetros son como controles ajustables que definen cómo se entrena el modelo—como la duración del entrenamiento o la complejidad del modelo.
Ejemplo
Se selecciona un modelo de clasificación para predecir la readmisión (sí/no). Tras el ajuste, se evalúa en un conjunto de validación/prueba para medir la capacidad de generalización.
Paso 4. Despliegue
Una vez que un modelo tiene un buen desempeño, se despliega en sistemas reales. El modelo debe ser monitoreado, actualizado con nuevos datos y mejorado con el tiempo, reiniciando a menudo el ciclo desde el Paso 1.
Ejemplo
El modelo se integra en el sistema hospitalario para identificar pacientes de alto riesgo al momento del ingreso, ayudando al personal a actuar de manera temprana.
Algunos de los términos mencionados aquí pueden parecer desconocidos, pero los discutiremos con más detalle más adelante en este curso.
El preprocesamiento de datos y la modelización pueden realizarse con scikit-learn. Los próximos capítulos presentan flujos de trabajo y pipelines de preprocesamiento, seguidos de la modelización utilizando k-nearest neighbors (KNeighborsClassifier), incluyendo entrenamiento, ajuste y evaluación.
1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?
2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?
¡Gracias por tus comentarios!