**Aumento de datos** - es un paso importante en el entrenamiento de modelos de aprendizaje automático. Este método se entiende como un aumento de la muestra de datos para el entrenamiento mediante la modificación de los datos existentes. La generación de datos "sintéticos" puede ser útil en diversas situaciones en las que los datos del mundo real pueden ser difíciles de obtener, insuficientes o delicados.

Este método se utiliza cuando no hay datos suficientes para entrenar un modelo de aprendizaje automático. En virtud de la falta de datos, podemos entender que el conjunto de datos puede no ser representativo de la población subyacente o del fenómeno estudiado. El tamaño de la muestra debe ser lo suficientemente grande como para proporcionar una potencia estadística suficiente para detectar relaciones o diferencias significativas. El tamaño de muestra necesario depende de factores como la complejidad del análisis, la variabilidad de los datos y el nivel de precisión deseado. La generación de datos sintéticos puede ayudar a complementar los datos del mundo real y proporcionar ejemplos de entrenamiento adicionales.

La biblioteca `pandas` puede utilizarse para crear datos sintéticos con una estructura o formato específicos. A continuación se muestra un ejemplo de cómo utilizar `pandas` para crear un conjunto de datos sintéticos:


import pandas as pd
import numpy as np

# Create a sample dataset
dataset = pd.DataFrame({'A': np.random.rand(10),
                   'B': np.random.choice(['male', 'female'], 10),
                   'C': np.random.randint(1, 100, 10)})

# Generate synthetic data using Pandas
synthetic_data = pd.concat([dataset, dataset.sample(frac=0.5)])
print(synthetic_data)

Utilizamos el método `pd.concat()` para concatenar el marco de datos original con un subconjunto del marco de datos muestreado aleatoriamente. Ajustando el parámetro `frac` a 0,5, muestreamos el 50% de las filas del marco de datos original y las añadimos al final del marco de datos, duplicando así el tamaño del marco de datos y generando datos sintéticos.

Crear un modelo de aprendizaje automático parece ser la tarea más difícil y esencial. Pero primero, ¡hay que trabajar con datos! Aprenda a procesar conjuntos de datos y a prepararlos completamente para su uso. En nuestro curso le esperan datos numéricos, categóricos y temporales.

¿Diferentes tipos de datos? ¿Cómo trabajar con ellos? Si tienes los ojos bien abiertos, no te preocupes, vamos a empezar con una breve descripción de la librería pandas y aprender cómo trabajar con ella en el futuro.

Este capítulo trata en detalle cómo trabajar con datos cuantitativos, con qué métodos se procesan, en qué se diferencian el escalado y la normalización de los datos, y mucho más.

¿Son los datos categóricos tan sencillos como cree? Averigüe cuál es la complejidad de procesarlos y trabajar con ellos.


El tratamiento de datos de series temporales es el proceso de manipulación, análisis y preparación de datos que se presentan como una secuencia de valores ordenados temporalmente. Descubra qué pasos incluye en esta sección.

¿Sabía que puede extraer aún más valores de sus datos y crear características más informativas? En esta sección, aprenderá a trabajar con la ingeniería de características.

Ha llegado al final de este curso. Pongamos a prueba tus conocimientos. Tienes 3 tareas para resolver.

Aumento de Datos: Datos Sintéticos

Solución