Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Flujo de Trabajo de Aprendizaje Automático | Conceptos de Machine Learning
Introducción al ML con Scikit-Learn

bookFlujo de Trabajo de Aprendizaje Automático

Analicemos el flujo de trabajo que se sigue para construir un proyecto exitoso de aprendizaje automático.

Paso 1. Obtener los datos

En este paso, es necesario definir el problema y qué datos se requieren. Luego, seleccionar una métrica y definir qué resultado sería satisfactorio.

A continuación, se debe recopilar estos datos, generalmente de varias fuentes (bases de datos) en un formato adecuado para su posterior procesamiento en Python.

A veces, los datos ya están en formato .csv y listos para ser preprocesados, por lo que este paso puede omitirse.

Ejemplo

Un hospital le proporciona registros históricos de pacientes de su base de datos y datos demográficos adicionales de una base de datos nacional de salud, todo compilado en un archivo CSV. La tarea es predecir las readmisiones de pacientes, utilizando la precisión (el porcentaje de predicciones totales que son correctas) superior al 80% como métrica para resultados satisfactorios.

Paso 2. Preprocesar los datos

Este paso consiste en:

  • Limpieza de datos: tratar valores faltantes, datos no numéricos, etc.;
  • Análisis exploratorio de datos (EDA): analizar y visualizar el conjunto de datos para encontrar patrones y relaciones entre características y, en general, obtener información sobre cómo se puede mejorar el conjunto de entrenamiento;
  • Ingeniería de características: seleccionar, transformar o crear nuevas características basadas en los hallazgos del EDA para mejorar el rendimiento del modelo.

Ejemplo

Para los datos del hospital, se pueden rellenar los valores faltantes de métricas esenciales como la presión arterial y convertir variables categóricas como la raza en códigos numéricos para su análisis.

Paso 3. Modelado

Este paso implica:

  • Selección del modelo: en esta etapa, se elige uno o varios modelos que ofrezcan el mejor desempeño para el problema. Combina la comprensión del algoritmo y la experimentación con modelos para encontrar los más adecuados;
  • Ajuste de hiperparámetros: proceso de encontrar los hiperparámetros que resultan en el mejor rendimiento;
  • Evaluación del modelo: medición del rendimiento del modelo sobre datos no vistos.

Ejemplo

Se selecciona un modelo de clasificación específico para predecir readmisiones de pacientes, ideal para resultados binarios (readmitido o no). Luego, se ajustan sus hiperparámetros para optimizar la configuración del modelo. Finalmente, el rendimiento del modelo se evalúa utilizando un conjunto de validación/prueba separado para asegurar que generalice de manera efectiva más allá de los datos de entrenamiento.

Paso 4. Despliegue

Una vez que se dispone de un modelo ajustado que muestra buen rendimiento, se puede desplegar. Sin embargo, el trabajo no termina ahí. La mayoría de las veces, también se desea monitorear el rendimiento del modelo desplegado, buscar formas de mejorarlo y alimentar nuevos datos a medida que se recopilan. Esto lleva de nuevo al paso 1.

Ejemplo

Una vez que el modelo predice las readmisiones con precisión, se integra en el sistema de base de datos del hospital para alertar al personal sobre pacientes de alto riesgo al momento de la admisión, mejorando la atención al paciente.

Los pasos de preprocesamiento de datos y modelado pueden completarse utilizando la biblioteca scikit-learn (importada como sklearn). De esto trata el resto del curso.

Aprenderemos algunos pasos básicos de preprocesamiento y cómo construir pipelines. Después, discutiremos la etapa de modelado utilizando el algoritmo de k vecinos más cercanos (implementado como KNearestClassifier en sklearn) como ejemplo de modelo. Esto incluye construir un modelo, ajustar hiperparámetros y evaluar el modelo.

1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso de "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

question mark

¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

Select the correct answer

question mark

¿Cuál de las siguientes opciones describe mejor la importancia del paso de "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 3.13

bookFlujo de Trabajo de Aprendizaje Automático

Desliza para mostrar el menú

Analicemos el flujo de trabajo que se sigue para construir un proyecto exitoso de aprendizaje automático.

Paso 1. Obtener los datos

En este paso, es necesario definir el problema y qué datos se requieren. Luego, seleccionar una métrica y definir qué resultado sería satisfactorio.

A continuación, se debe recopilar estos datos, generalmente de varias fuentes (bases de datos) en un formato adecuado para su posterior procesamiento en Python.

A veces, los datos ya están en formato .csv y listos para ser preprocesados, por lo que este paso puede omitirse.

Ejemplo

Un hospital le proporciona registros históricos de pacientes de su base de datos y datos demográficos adicionales de una base de datos nacional de salud, todo compilado en un archivo CSV. La tarea es predecir las readmisiones de pacientes, utilizando la precisión (el porcentaje de predicciones totales que son correctas) superior al 80% como métrica para resultados satisfactorios.

Paso 2. Preprocesar los datos

Este paso consiste en:

  • Limpieza de datos: tratar valores faltantes, datos no numéricos, etc.;
  • Análisis exploratorio de datos (EDA): analizar y visualizar el conjunto de datos para encontrar patrones y relaciones entre características y, en general, obtener información sobre cómo se puede mejorar el conjunto de entrenamiento;
  • Ingeniería de características: seleccionar, transformar o crear nuevas características basadas en los hallazgos del EDA para mejorar el rendimiento del modelo.

Ejemplo

Para los datos del hospital, se pueden rellenar los valores faltantes de métricas esenciales como la presión arterial y convertir variables categóricas como la raza en códigos numéricos para su análisis.

Paso 3. Modelado

Este paso implica:

  • Selección del modelo: en esta etapa, se elige uno o varios modelos que ofrezcan el mejor desempeño para el problema. Combina la comprensión del algoritmo y la experimentación con modelos para encontrar los más adecuados;
  • Ajuste de hiperparámetros: proceso de encontrar los hiperparámetros que resultan en el mejor rendimiento;
  • Evaluación del modelo: medición del rendimiento del modelo sobre datos no vistos.

Ejemplo

Se selecciona un modelo de clasificación específico para predecir readmisiones de pacientes, ideal para resultados binarios (readmitido o no). Luego, se ajustan sus hiperparámetros para optimizar la configuración del modelo. Finalmente, el rendimiento del modelo se evalúa utilizando un conjunto de validación/prueba separado para asegurar que generalice de manera efectiva más allá de los datos de entrenamiento.

Paso 4. Despliegue

Una vez que se dispone de un modelo ajustado que muestra buen rendimiento, se puede desplegar. Sin embargo, el trabajo no termina ahí. La mayoría de las veces, también se desea monitorear el rendimiento del modelo desplegado, buscar formas de mejorarlo y alimentar nuevos datos a medida que se recopilan. Esto lleva de nuevo al paso 1.

Ejemplo

Una vez que el modelo predice las readmisiones con precisión, se integra en el sistema de base de datos del hospital para alertar al personal sobre pacientes de alto riesgo al momento de la admisión, mejorando la atención al paciente.

Los pasos de preprocesamiento de datos y modelado pueden completarse utilizando la biblioteca scikit-learn (importada como sklearn). De esto trata el resto del curso.

Aprenderemos algunos pasos básicos de preprocesamiento y cómo construir pipelines. Después, discutiremos la etapa de modelado utilizando el algoritmo de k vecinos más cercanos (implementado como KNearestClassifier en sklearn) como ejemplo de modelo. Esto incluye construir un modelo, ajustar hiperparámetros y evaluar el modelo.

1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso de "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

question mark

¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

Select the correct answer

question mark

¿Cuál de las siguientes opciones describe mejor la importancia del paso de "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5
some-alt