Aprenda Limpeza de Dados | Processamento de Dados de Séries Temporais

Seção 4. Capítulo 2

single

Deslize para mostrar o menu

Limpeza de dados no processamento de séries temporais remove anomalias, erros e dados incompletos ou irrelevantes. É uma etapa importante de pré-processamento para garantir a qualidade da análise e a precisão das previsões.

Os principais métodos de limpeza de dados são:

Imputação

Imputação - preenchimento de valores faltantes usando a média, mediana, interpolação ou métodos de séries temporais (por exemplo, extrapolação).

O tamanho da janela (o intervalo sobre o qual a média ou mediana é calculada) é frequentemente definido na faixa de 2 a 10-15. Em geral, a escolha é baseada na avaliação visual da recuperação do conjunto de dados. A imputação pela média geralmente não é recomendada para dados de séries temporais por poder introduzir viés e distorcer os padrões subjacentes nos dados. Portanto, outros métodos de imputação, como interpolação, regressão ou métodos mais sofisticados específicos para séries temporais, são frequentemente preferidos para lidar com valores ausentes em dados de séries temporais.

Em termos de imputação, a interpolação pode ser apropriada se os valores faltantes ocorrerem no final de uma série temporal e o padrão ou tendência da série temporal for relativamente estável. Resumindo, a interpolação pode ser útil quando a série temporal exibe uma tendência ou padrão claro que pode ser continuado além dos valores observados.

Remoção de outliers

Remoção de outliers - identificação e remoção de valores anômalos que podem distorcer a análise, usando métodos estatísticos (por exemplo, IQR, escore-z).

Para dados não estacionários, podemos usar o seguinte procedimento:

Se você está trabalhando com dados homocedásticos, você precisa definir manualmente um limite L pelo qual todos os valores x_val serão filtrados: ||x_val - x_mean||>L, onde x_mean é a média calculada sobre a janela móvel;
Se você está trabalhando com dados heterocedásticos, então você precisa transformar os dados usando funções matemáticas como a transformação de Box-Cox, que pode ajudar a reduzir a variabilidade dos dados e torná-los mais homocedásticos. Agora você pode prosseguir para o primeiro ponto.

Um conjunto de dados de séries temporais é considerado homocedástico quando a distribuição dos erros ou resíduos é simétrica e não muda em relação ao tempo. Uma maneira de verificar a homocedasticidade é realizar um teste estatístico, como os testes de Breusch-Pagan ou White.

Se estamos falando de heterocedasticidade, ela se refere a uma situação onde a variância dos termos de erro ou a dispersão dos dados não é constante ao longo do tempo. Em outras palavras, a variabilidade dos pontos de dados é inconsistente em toda a extensão da série temporal.

Suavização - redução de ruído nos dados utilizando filtros de média móvel, suavização exponencial ou outros métodos que melhoram a clareza de séries temporais;
Ajuste de sazonalidade - extração e consideração dos componentes sazonais de uma série temporal para obter dados mais limpos e melhorar a previsão (por exemplo, utilizando o método de Holt-Winters ou decomposição de séries temporais);

Aqui consideraremos um método para recuperar dados ausentes usando interpolação, uma vez que as seções anteriores já cobriram o uso da média ou mediana:


              1234567891011
            
import pandas as pd

# Create a time-series dataset with missing values
dataset = pd.DataFrame({'value': [1, 2, 3, None, 5, 6, None, 8, 9]}, 
                        index=['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', 
                               '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09'])

# Interpolate missing values using linear method
dataset['value_interpolated'] = dataset['value'].interpolate(method='linear')

print(dataset)

O método .interpolate() é utilizado para implementar a interpolação, que contém os métodos 'linear', 'time', 'index', 'pad', 'polynomial', entre outros, com os quais você pode experimentar dependendo dos dados.

Tarefa

Deslize para começar a programar

Leia o dataset 'clients.csv' e recupere os valores ausentes utilizando o método de interpolação linear.

Solução

Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 2

single

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo