Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Flujo de Trabajo de Aprendizaje Automático | Conceptos de Machine Learning
Introducción al Aprendizaje Automático con Python

bookFlujo de Trabajo de Aprendizaje Automático

Analicemos el flujo de trabajo que se sigue para desarrollar un proyecto exitoso de aprendizaje automático.

Paso 1. Obtener los datos

Definir el problema, seleccionar una métrica de rendimiento y determinar qué se considera un buen resultado. Luego, recopilar los datos necesarios de las fuentes disponibles y prepararlos en un formato compatible con Python. Si los datos ya existen en un archivo CSV, se puede iniciar el preprocesamiento de inmediato.

Ejemplo

Un hospital recopila registros de pacientes y datos demográficos en un archivo CSV. El objetivo es predecir readmisiones, buscando una precisión superior al 80%.

Paso 2. Preprocesar los datos

Este paso incluye:

  • Limpieza de datos: tratamiento de valores faltantes y entradas no numéricas;
  • EDA: análisis y visualización de datos para comprender relaciones y detectar problemas;
  • Ingeniería de características: selección o creación de variables que mejoren el rendimiento del modelo.

Ejemplo

Se completan los valores faltantes (por ejemplo, presión arterial) y las variables categóricas (por ejemplo, raza) se convierten a formato numérico.

Paso 3. Modelado

Esta etapa incluye:

  • Selección de un modelo según el tipo de problema y experimentos;
  • Ajuste de hiperparámetros para mejorar el rendimiento;
  • Evaluación del modelo con datos no vistos.
Note
Estudiar más

Los hiperparámetros son como controles ajustables que definen cómo se entrena el modelo—por ejemplo, la duración del entrenamiento o la complejidad del modelo.

Ejemplo

Se selecciona un modelo de clasificación para predecir la readmisión (sí/no). Tras el ajuste, se evalúa en un conjunto de validación/prueba para medir la capacidad de generalización.

Paso 4. Despliegue

Una vez que un modelo tiene un buen desempeño, se despliega en sistemas reales. El modelo debe ser monitoreado, actualizado con nuevos datos y mejorado con el tiempo, reiniciando a menudo el ciclo desde el Paso 1.

Ejemplo

El modelo se integra en el sistema hospitalario para identificar pacientes de alto riesgo al momento del ingreso, ayudando al personal a actuar de manera temprana.

Note
Nota

Algunos de los términos mencionados aquí pueden parecer desconocidos, pero los abordaremos con más detalle más adelante en este curso.

El preprocesamiento de datos y la modelización pueden realizarse con scikit-learn. Los próximos capítulos presentan flujos de trabajo de preprocesamiento y pipelines, seguidos por la modelización utilizando k-nearest neighbors (KNeighborsClassifier), incluyendo entrenamiento, ajuste y evaluación.

1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

question mark

¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

Select the correct answer

question mark

¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 3.13

bookFlujo de Trabajo de Aprendizaje Automático

Desliza para mostrar el menú

Analicemos el flujo de trabajo que se sigue para desarrollar un proyecto exitoso de aprendizaje automático.

Paso 1. Obtener los datos

Definir el problema, seleccionar una métrica de rendimiento y determinar qué se considera un buen resultado. Luego, recopilar los datos necesarios de las fuentes disponibles y prepararlos en un formato compatible con Python. Si los datos ya existen en un archivo CSV, se puede iniciar el preprocesamiento de inmediato.

Ejemplo

Un hospital recopila registros de pacientes y datos demográficos en un archivo CSV. El objetivo es predecir readmisiones, buscando una precisión superior al 80%.

Paso 2. Preprocesar los datos

Este paso incluye:

  • Limpieza de datos: tratamiento de valores faltantes y entradas no numéricas;
  • EDA: análisis y visualización de datos para comprender relaciones y detectar problemas;
  • Ingeniería de características: selección o creación de variables que mejoren el rendimiento del modelo.

Ejemplo

Se completan los valores faltantes (por ejemplo, presión arterial) y las variables categóricas (por ejemplo, raza) se convierten a formato numérico.

Paso 3. Modelado

Esta etapa incluye:

  • Selección de un modelo según el tipo de problema y experimentos;
  • Ajuste de hiperparámetros para mejorar el rendimiento;
  • Evaluación del modelo con datos no vistos.
Note
Estudiar más

Los hiperparámetros son como controles ajustables que definen cómo se entrena el modelo—por ejemplo, la duración del entrenamiento o la complejidad del modelo.

Ejemplo

Se selecciona un modelo de clasificación para predecir la readmisión (sí/no). Tras el ajuste, se evalúa en un conjunto de validación/prueba para medir la capacidad de generalización.

Paso 4. Despliegue

Una vez que un modelo tiene un buen desempeño, se despliega en sistemas reales. El modelo debe ser monitoreado, actualizado con nuevos datos y mejorado con el tiempo, reiniciando a menudo el ciclo desde el Paso 1.

Ejemplo

El modelo se integra en el sistema hospitalario para identificar pacientes de alto riesgo al momento del ingreso, ayudando al personal a actuar de manera temprana.

Note
Nota

Algunos de los términos mencionados aquí pueden parecer desconocidos, pero los abordaremos con más detalle más adelante en este curso.

El preprocesamiento de datos y la modelización pueden realizarse con scikit-learn. Los próximos capítulos presentan flujos de trabajo de preprocesamiento y pipelines, seguidos por la modelización utilizando k-nearest neighbors (KNeighborsClassifier), incluyendo entrenamiento, ajuste y evaluación.

1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

question mark

¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

Select the correct answer

question mark

¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5
some-alt