Summary  
This chapter explains how to preprocess time series data by applying feature scaling, performing a chronological train-test split, and creating fixed-length input/output sequences for modeling.  

General domain of usage  
Time series forecasting

Se abordan los pasos cruciales del **preprocesamiento de datos de series temporales** para un proyecto de pronóstico. El preprocesamiento garantiza que los datos estén limpios, bien estructurados y listos para el entrenamiento del modelo. Los temas incluyen **escalado de características**, **división de entrenamiento y prueba** y **creación de secuencias**, todos esenciales para una preparación de datos efectiva.


- **Escalado de características**: el escalado de características es importante para asegurar que todas las variables de entrada estén en una escala similar. Esto ayuda a que modelos como LSTM y ARIMA converjan más rápido y mejoren su rendimiento. Las técnicas comunes para el escalado de características incluyen **escalado min-max** y **estandarización** (normalización z-score). El escalado ayuda al modelo a centrarse en las relaciones dentro de los datos en lugar de verse influenciado por características con rangos mayores;
```python
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)
```

- **División de entrenamiento y prueba**: dividir el conjunto de datos en subconjuntos de entrenamiento y prueba es esencial para evaluar el rendimiento del modelo. Normalmente, un conjunto de datos de series temporales se divide de forma cronológica, utilizando la parte inicial de los datos para el entrenamiento y la parte final para la prueba. Esto asegura que el modelo se evalúe con datos que no ha visto antes y simula escenarios reales de pronóstico. Una proporción común es 80% para entrenamiento y 20% para prueba, aunque esto puede variar según el tamaño y las características de los datos;
```python
train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]
```

- **Creación de secuencias**: en el pronóstico de series temporales, especialmente al utilizar modelos como LSTM, los datos deben transformarse en formato de secuencia. El paso de creación de secuencias implica estructurar los datos en pares de entrada-salida donde cada entrada corresponde a una secuencia de observaciones pasadas y la salida es el valor predicho para el siguiente paso temporal. Esto es fundamental para que los modelos aprendan de los pasos anteriores y realicen predicciones precisas para pasos futuros.
```python
def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)
```

En resumen, el preprocesamiento es un paso fundamental en el pronóstico de series temporales. Al escalar las características, dividir los datos para entrenamiento y prueba, y crear secuencias para la entrada del modelo, aseguramos que los datos estén bien preparados para un pronóstico preciso y eficiente.


Descargar el código de este capítulo

¿Cuál es el propósito de la normalización de características en el preprocesamiento de series temporales?

Domina las redes neuronales recurrentes y sus variantes avanzadas como LSTM y GRU utilizando PyTorch. Adquiere experiencia práctica en el procesamiento de datos secuenciales para aplicaciones reales. Aplica estos modelos potentes para abordar desafíos del mundo real en la predicción de series temporales y diversas tareas de procesamiento de lenguaje natural.

Aborda las limitaciones de las redes neuronales tradicionales para datos secuenciales e introduce los fundamentos de las Redes Neuronales Recurrentes. Explica la arquitectura de las RNN, sus tipos y la implementación paso a paso mediante ejemplos básicos y un desafío de codificación.

Explora desafíos comunes de entrenamiento como los gradientes desvanecientes y explosivos. Presenta variantes avanzadas de RNN, incluyendo LSTM y GRU, destacando sus mecanismos internos y casos de uso, con ejemplos prácticos de implementación para cada una.

Se centra en el procesamiento y la predicción de datos de series temporales utilizando modelos basados en RNN. Incluye carga de datos, técnicas de preprocesamiento, entrenamiento de modelos y evaluación del rendimiento, con énfasis en la comparación de las arquitecturas LSTM y GRU.

Demuestra la aplicación de RNN a tareas de clasificación de texto. Cubre conceptos fundamentales de PLN, métodos de codificación de texto, pasos de preparación de datos y construcción de un modelo basado en LSTM para la predicción de sentimientos.

Preprocesamiento de Datos de Series Temporales