Flujo de Trabajo de Aprendizaje Automático
Analicemos el flujo de trabajo que se sigue para construir un proyecto exitoso de aprendizaje automático.
Paso 1. Obtener los datos
En este paso, es necesario definir el problema y qué datos se requieren. Luego, seleccionar una métrica y definir qué resultado sería satisfactorio.
A continuación, se debe recopilar estos datos, generalmente de varias fuentes (bases de datos) en un formato adecuado para su posterior procesamiento en Python.
A veces, los datos ya están en formato .csv
y listos para ser preprocesados, por lo que este paso puede omitirse.
Ejemplo
Un hospital le proporciona registros históricos de pacientes de su base de datos y datos demográficos adicionales de una base de datos nacional de salud, todo compilado en un archivo CSV. La tarea es predecir las readmisiones de pacientes, utilizando la precisión (el porcentaje de predicciones totales que son correctas) superior al 80% como métrica para resultados satisfactorios.
Paso 2. Preprocesar los datos
Este paso consiste en:
- Limpieza de datos: tratar valores faltantes, datos no numéricos, etc.;
- Análisis exploratorio de datos (EDA): analizar y visualizar el conjunto de datos para encontrar patrones y relaciones entre características y, en general, obtener información sobre cómo se puede mejorar el conjunto de entrenamiento;
- Ingeniería de características: seleccionar, transformar o crear nuevas características basadas en los hallazgos del EDA para mejorar el rendimiento del modelo.
Ejemplo
Para los datos del hospital, se pueden rellenar los valores faltantes de métricas esenciales como la presión arterial y convertir variables categóricas como la raza en códigos numéricos para su análisis.
Paso 3. Modelado
Este paso implica:
- Selección del modelo: en esta etapa, se elige uno o varios modelos que ofrezcan el mejor desempeño para el problema. Combina la comprensión del algoritmo y la experimentación con modelos para encontrar los más adecuados;
- Ajuste de hiperparámetros: proceso de encontrar los hiperparámetros que resultan en el mejor rendimiento;
- Evaluación del modelo: medición del rendimiento del modelo sobre datos no vistos.
Ejemplo
Se selecciona un modelo de clasificación específico para predecir readmisiones de pacientes, ideal para resultados binarios (readmitido o no). Luego, se ajustan sus hiperparámetros para optimizar la configuración del modelo. Finalmente, el rendimiento del modelo se evalúa utilizando un conjunto de validación/prueba separado para asegurar que generalice de manera efectiva más allá de los datos de entrenamiento.
Paso 4. Despliegue
Una vez que se dispone de un modelo ajustado que muestra buen rendimiento, se puede desplegar. Sin embargo, el trabajo no termina ahí. La mayoría de las veces, también se desea monitorear el rendimiento del modelo desplegado, buscar formas de mejorarlo y alimentar nuevos datos a medida que se recopilan. Esto lleva de nuevo al paso 1.
Ejemplo
Una vez que el modelo predice las readmisiones con precisión, se integra en el sistema de base de datos del hospital para alertar al personal sobre pacientes de alto riesgo al momento de la admisión, mejorando la atención al paciente.
Los pasos de preprocesamiento de datos y modelado pueden completarse utilizando la biblioteca scikit-learn
(importada como sklearn
). De esto trata el resto del curso.
Aprenderemos algunos pasos básicos de preprocesamiento y cómo construir pipelines. Después, discutiremos la etapa de modelado utilizando el algoritmo de k vecinos más cercanos (implementado como KNearestClassifier
en sklearn
) como ejemplo de modelo. Esto incluye construir un modelo, ajustar hiperparámetros y evaluar el modelo.
1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?
2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso de "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 3.13
Flujo de Trabajo de Aprendizaje Automático
Desliza para mostrar el menú
Analicemos el flujo de trabajo que se sigue para construir un proyecto exitoso de aprendizaje automático.
Paso 1. Obtener los datos
En este paso, es necesario definir el problema y qué datos se requieren. Luego, seleccionar una métrica y definir qué resultado sería satisfactorio.
A continuación, se debe recopilar estos datos, generalmente de varias fuentes (bases de datos) en un formato adecuado para su posterior procesamiento en Python.
A veces, los datos ya están en formato .csv
y listos para ser preprocesados, por lo que este paso puede omitirse.
Ejemplo
Un hospital le proporciona registros históricos de pacientes de su base de datos y datos demográficos adicionales de una base de datos nacional de salud, todo compilado en un archivo CSV. La tarea es predecir las readmisiones de pacientes, utilizando la precisión (el porcentaje de predicciones totales que son correctas) superior al 80% como métrica para resultados satisfactorios.
Paso 2. Preprocesar los datos
Este paso consiste en:
- Limpieza de datos: tratar valores faltantes, datos no numéricos, etc.;
- Análisis exploratorio de datos (EDA): analizar y visualizar el conjunto de datos para encontrar patrones y relaciones entre características y, en general, obtener información sobre cómo se puede mejorar el conjunto de entrenamiento;
- Ingeniería de características: seleccionar, transformar o crear nuevas características basadas en los hallazgos del EDA para mejorar el rendimiento del modelo.
Ejemplo
Para los datos del hospital, se pueden rellenar los valores faltantes de métricas esenciales como la presión arterial y convertir variables categóricas como la raza en códigos numéricos para su análisis.
Paso 3. Modelado
Este paso implica:
- Selección del modelo: en esta etapa, se elige uno o varios modelos que ofrezcan el mejor desempeño para el problema. Combina la comprensión del algoritmo y la experimentación con modelos para encontrar los más adecuados;
- Ajuste de hiperparámetros: proceso de encontrar los hiperparámetros que resultan en el mejor rendimiento;
- Evaluación del modelo: medición del rendimiento del modelo sobre datos no vistos.
Ejemplo
Se selecciona un modelo de clasificación específico para predecir readmisiones de pacientes, ideal para resultados binarios (readmitido o no). Luego, se ajustan sus hiperparámetros para optimizar la configuración del modelo. Finalmente, el rendimiento del modelo se evalúa utilizando un conjunto de validación/prueba separado para asegurar que generalice de manera efectiva más allá de los datos de entrenamiento.
Paso 4. Despliegue
Una vez que se dispone de un modelo ajustado que muestra buen rendimiento, se puede desplegar. Sin embargo, el trabajo no termina ahí. La mayoría de las veces, también se desea monitorear el rendimiento del modelo desplegado, buscar formas de mejorarlo y alimentar nuevos datos a medida que se recopilan. Esto lleva de nuevo al paso 1.
Ejemplo
Una vez que el modelo predice las readmisiones con precisión, se integra en el sistema de base de datos del hospital para alertar al personal sobre pacientes de alto riesgo al momento de la admisión, mejorando la atención al paciente.
Los pasos de preprocesamiento de datos y modelado pueden completarse utilizando la biblioteca scikit-learn
(importada como sklearn
). De esto trata el resto del curso.
Aprenderemos algunos pasos básicos de preprocesamiento y cómo construir pipelines. Después, discutiremos la etapa de modelado utilizando el algoritmo de k vecinos más cercanos (implementado como KNearestClassifier
en sklearn
) como ejemplo de modelo. Esto incluye construir un modelo, ajustar hiperparámetros y evaluar el modelo.
1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?
2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso de "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?
¡Gracias por tus comentarios!