Aprenda Pré-Processamento de Dados de Séries Temporais

Os passos cruciais da pré-processamento de dados de séries temporais para um projeto de previsão são abordados. O pré-processamento garante que os dados estejam limpos, bem estruturados e prontos para o treinamento do modelo. Os tópicos incluem normalização de características, divisão em treino e teste e criação de sequências, todos essenciais para uma preparação eficaz dos dados.

Normalização de características: a normalização de características é importante para garantir que todas as variáveis de entrada estejam em uma escala semelhante. Isso auxilia modelos como LSTM e ARIMA a convergirem mais rapidamente e melhorarem seu desempenho. Técnicas comuns de normalização incluem min-max scaling e padronização (normalização z-score). A normalização ajuda o modelo a focar nos relacionamentos dentro dos dados, em vez de ser influenciado por variáveis com maiores amplitudes;

scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)

Divisão em treino e teste: dividir o conjunto de dados em subconjuntos de treinamento e teste é essencial para avaliar o desempenho do modelo. Normalmente, um conjunto de dados de séries temporais é dividido de forma cronológica, com a parte inicial dos dados sendo usada para treinamento e a parte final para teste. Isso garante que o modelo seja avaliado em dados que ainda não viu, simulando cenários reais de previsão. Uma proporção comum é 80% para treinamento e 20% para teste, mas isso pode variar conforme o tamanho e as características dos dados;

train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]

Criação de sequências: em previsão de séries temporais, especialmente ao utilizar modelos como LSTM, os dados precisam ser transformados em formato sequencial. A etapa de criação de sequências envolve estruturar os dados em pares de entrada e saída, onde cada entrada corresponde a uma sequência de observações passadas e a saída é o valor previsto para o próximo passo temporal. Isso é fundamental para que os modelos aprendam com os passos anteriores e façam previsões precisas para os próximos passos.

def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)

Em resumo, o pré-processamento é uma etapa vital na previsão de séries temporais. Ao normalizar as características, dividir os dados para treino e teste e criar sequências para entrada do modelo, garantimos que os dados estejam bem preparados para previsões precisas e eficientes.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 3

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain more about how to choose the best sequence length for time series forecasting?

What are some common pitfalls to avoid during time series data preprocessing?

Can you provide tips for handling missing values in time series data?

Deslize para mostrar o menu

Normalização de características: a normalização de características é importante para garantir que todas as variáveis de entrada estejam em uma escala semelhante. Isso auxilia modelos como LSTM e ARIMA a convergirem mais rapidamente e melhorarem seu desempenho. Técnicas comuns de normalização incluem min-max scaling e padronização (normalização z-score). A normalização ajuda o modelo a focar nos relacionamentos dentro dos dados, em vez de ser influenciado por variáveis com maiores amplitudes;

scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)

Divisão em treino e teste: dividir o conjunto de dados em subconjuntos de treinamento e teste é essencial para avaliar o desempenho do modelo. Normalmente, um conjunto de dados de séries temporais é dividido de forma cronológica, com a parte inicial dos dados sendo usada para treinamento e a parte final para teste. Isso garante que o modelo seja avaliado em dados que ainda não viu, simulando cenários reais de previsão. Uma proporção comum é 80% para treinamento e 20% para teste, mas isso pode variar conforme o tamanho e as características dos dados;

train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]

Criação de sequências: em previsão de séries temporais, especialmente ao utilizar modelos como LSTM, os dados precisam ser transformados em formato sequencial. A etapa de criação de sequências envolve estruturar os dados em pares de entrada e saída, onde cada entrada corresponde a uma sequência de observações passadas e a saída é o valor previsto para o próximo passo temporal. Isso é fundamental para que os modelos aprendam com os passos anteriores e façam previsões precisas para os próximos passos.

def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 3