Leer Voorbewerking van Tijdreeksgegevens

De cruciale stappen van preprocessing van tijdreeksgegevens voor een voorspellingsproject worden behandeld. Preprocessing zorgt ervoor dat de data schoon, goed gestructureerd en klaar voor modeltraining is. Onderwerpen zijn onder andere feature scaling, train-test split en sequentiecreatie, allemaal essentieel voor een effectieve gegevensvoorbereiding.

Feature scaling: feature scaling is belangrijk om ervoor te zorgen dat alle invoervariabelen zich op een vergelijkbare schaal bevinden. Dit helpt modellen zoals LSTM en ARIMA sneller te convergeren en hun prestaties te verbeteren. Veelgebruikte technieken voor feature scaling zijn min-max scaling en standaardisatie (z-score normalisatie). Schalen helpt het model zich te richten op de relaties binnen de data in plaats van te worden beïnvloed door variabelen met grotere bereiken;

scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)

Train-test split: het splitsen van de dataset in trainings- en testsubsets is essentieel voor het evalueren van de modelprestaties. Gewoonlijk wordt een tijdreeksdataset chronologisch gesplitst, waarbij het eerste deel van de data wordt gebruikt voor training en het latere deel voor testen. Dit zorgt ervoor dat het model wordt geëvalueerd op data die het nog niet eerder heeft gezien en bootst realistische voorspellingsscenario's na. Een gebruikelijke verhouding is 80% voor training en 20% voor testen, maar dit kan variëren afhankelijk van de grootte en kenmerken van de data;

train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]

Sequentiecreatie: bij tijdreeksvoorspellingen, vooral bij het gebruik van modellen zoals LSTM, moet de data worden omgezet naar een sequentieformaat. De stap sequentiecreatie houdt in dat de data wordt gevormd tot input-outputparen waarbij elke input overeenkomt met een reeks van eerdere waarnemingen en de output de voorspelde waarde is voor de volgende tijdstap. Dit is cruciaal zodat modellen kunnen leren van eerdere tijdstappen en nauwkeurige voorspellingen kunnen doen voor toekomstige stappen.

def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)

Samengevat is preprocessing een essentiële stap bij tijdreeksvoorspellingen. Door het schalen van de variabelen, het splitsen van de data voor training en testen, en het creëren van sequenties voor modelinput, zorgen we ervoor dat de data goed is voorbereid voor nauwkeurige en efficiënte voorspellingen.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 3

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 4.55

Veeg om het menu te tonen

Feature scaling: feature scaling is belangrijk om ervoor te zorgen dat alle invoervariabelen zich op een vergelijkbare schaal bevinden. Dit helpt modellen zoals LSTM en ARIMA sneller te convergeren en hun prestaties te verbeteren. Veelgebruikte technieken voor feature scaling zijn min-max scaling en standaardisatie (z-score normalisatie). Schalen helpt het model zich te richten op de relaties binnen de data in plaats van te worden beïnvloed door variabelen met grotere bereiken;

scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)

Train-test split: het splitsen van de dataset in trainings- en testsubsets is essentieel voor het evalueren van de modelprestaties. Gewoonlijk wordt een tijdreeksdataset chronologisch gesplitst, waarbij het eerste deel van de data wordt gebruikt voor training en het latere deel voor testen. Dit zorgt ervoor dat het model wordt geëvalueerd op data die het nog niet eerder heeft gezien en bootst realistische voorspellingsscenario's na. Een gebruikelijke verhouding is 80% voor training en 20% voor testen, maar dit kan variëren afhankelijk van de grootte en kenmerken van de data;

train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]

Sequentiecreatie: bij tijdreeksvoorspellingen, vooral bij het gebruik van modellen zoals LSTM, moet de data worden omgezet naar een sequentieformaat. De stap sequentiecreatie houdt in dat de data wordt gevormd tot input-outputparen waarbij elke input overeenkomt met een reeks van eerdere waarnemingen en de output de voorspelde waarde is voor de volgende tijdstap. Dit is cruciaal zodat modellen kunnen leren van eerdere tijdstappen en nauwkeurige voorspellingen kunnen doen voor toekomstige stappen.

def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 3