Lära Förbehandling av Tidsseriedata

De avgörande stegen för förbehandling av tidsseriedata inför ett prognosprojekt behandlas. Förbehandling säkerställer att data är ren, välstrukturerad och redo för modellträning. Ämnen som tas upp inkluderar featureskalning, uppdelning i träning och test, samt sekvensskapande, vilka alla är nödvändiga för effektiv datapreparation.

Featureskalning: featureskalning är viktig för att säkerställa att alla indatafunktioner ligger på en liknande skala. Detta hjälper modeller som LSTM och ARIMA att konvergera snabbare och förbättra deras prestanda. Vanliga tekniker för featureskalning inkluderar min-max-skalning och standardisering (z-score-normalisering). Skalning hjälper modellen att fokusera på relationerna inom datan istället för att påverkas av funktioner med större intervall;

scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)

Uppdelning i träning och test: att dela upp datasetet i tränings- och testdelar är avgörande för att utvärdera modellens prestanda. Vanligtvis delas ett tidsseriedataset kronologiskt, där den tidigare delen av datan används för träning och den senare delen för testning. Detta säkerställer att modellen utvärderas på data den inte har sett tidigare och efterliknar verkliga prognosscenarier. Ett vanligt förhållande är 80 % för träning och 20 % för test, men detta kan variera beroende på datans storlek och egenskaper;

train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]

Sekvensskapande: vid tidsserieprognoser, särskilt när man använder modeller som LSTM, behöver datan omvandlas till ett sekvensformat. Steget sekvensskapande innebär att forma datan till in- och utpar där varje indata motsvarar en sekvens av tidigare observationer och utdata är det förutsagda värdet för nästa tidssteg. Detta är avgörande för att modeller ska kunna lära sig av tidigare tidssteg och göra korrekta förutsägelser för framtida steg.

def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)

Sammanfattningsvis är förbehandling ett avgörande steg vid tidsserieprognoser. Genom att skala funktionerna, dela upp datan för träning och test samt skapa sekvenser för modellindata säkerställs att datan är väl förberedd för noggrann och effektiv prognostisering.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 3

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain more about how to choose the best sequence length for time series forecasting?

What are some common pitfalls to avoid during time series data preprocessing?

Can you provide tips for handling missing values in time series data?

Awesome!

Completion rate improved to 4.55

Svep för att visa menyn

Featureskalning: featureskalning är viktig för att säkerställa att alla indatafunktioner ligger på en liknande skala. Detta hjälper modeller som LSTM och ARIMA att konvergera snabbare och förbättra deras prestanda. Vanliga tekniker för featureskalning inkluderar min-max-skalning och standardisering (z-score-normalisering). Skalning hjälper modellen att fokusera på relationerna inom datan istället för att påverkas av funktioner med större intervall;

scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)

Uppdelning i träning och test: att dela upp datasetet i tränings- och testdelar är avgörande för att utvärdera modellens prestanda. Vanligtvis delas ett tidsseriedataset kronologiskt, där den tidigare delen av datan används för träning och den senare delen för testning. Detta säkerställer att modellen utvärderas på data den inte har sett tidigare och efterliknar verkliga prognosscenarier. Ett vanligt förhållande är 80 % för träning och 20 % för test, men detta kan variera beroende på datans storlek och egenskaper;

train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]

Sekvensskapande: vid tidsserieprognoser, särskilt när man använder modeller som LSTM, behöver datan omvandlas till ett sekvensformat. Steget sekvensskapande innebär att forma datan till in- och utpar där varje indata motsvarar en sekvens av tidigare observationer och utdata är det förutsagda värdet för nästa tidssteg. Detta är avgörande för att modeller ska kunna lära sig av tidigare tidssteg och göra korrekta förutsägelser för framtida steg.

def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 3