Summary  
This chapter explains how to preprocess time series data by applying feature scaling, performing a chronological train-test split, and creating fixed-length input/output sequences for modeling.  

General domain of usage  
Time series forecasting

Aikajonodatan **esikäsittelyn** keskeiset vaiheet ennustusprojektia varten käsitellään tässä. Esikäsittely varmistaa, että data on puhdasta, hyvin jäsenneltyä ja valmis mallin koulutukseen. Käsiteltäviä aiheita ovat **piirteiden skaalaus**, **opetus- ja testijoukon jako** sekä **sekvenssien luonti**, jotka kaikki ovat olennaisia tehokkaassa datan valmistelussa.

- **Piirteiden skaalaus**: piirteiden skaalaus on tärkeää, jotta kaikki syötepiirteet ovat samalla mittakaavalla. Tämä auttaa malleja kuten LSTM ja ARIMA konvergoitumaan nopeammin ja parantaa niiden suorituskykyä. Yleisiä piirteiden skaalaustekniikoita ovat **min-max-skaalaus** ja **standardointi** (z-score-normalisointi). Skaalaus auttaa mallia keskittymään datan sisäisiin suhteisiin sen sijaan, että se painottuisi suurempien arvojen piirteisiin;
```python
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)
```

- **Opetus- ja testijoukon jako**: datan jakaminen opetus- ja testijoukkoihin on olennaista mallin suorituskyvyn arvioimiseksi. Tyypillisesti aikajonodata jaetaan kronologisesti siten, että datan aikaisempi osa käytetään opetukseen ja myöhempi osa testaukseen. Tämä varmistaa, että mallia arvioidaan datalla, jota se ei ole nähnyt aiemmin, ja jäljittelee todellisia ennustustilanteita. Yleinen suhde on 80 % opetukseen ja 20 % testaukseen, mutta tämä voi vaihdella datan koon ja ominaisuuksien mukaan;
```python
train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]
```

- **Sekvenssien luonti**: aikajonoennustuksessa, erityisesti LSTM-malleilla, data täytyy muuntaa sekvenssimuotoon. Sekvenssien luontivaiheessa data muotoillaan syöte-tulos -pareiksi, joissa kukin syöte vastaa aiempien havaintojen sekvenssiä ja tulos on seuraavan ajanhetken ennustettu arvo. Tämä on ratkaisevaa, jotta mallit voivat oppia aiemmista ajanhetkistä ja tehdä tarkkoja ennusteita tulevaisuuteen.
```python
def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)
```

Yhteenvetona esikäsittely on olennainen vaihe aikajonoennustuksessa. Skaalaamalla piirteet, jakamalla data opetukseen ja testaukseen sekä luomalla sekvenssejä mallin syötteeksi varmistetaan, että data on hyvin valmisteltu tarkkaa ja tehokasta ennustamista varten.

Lataa tämän luvun koodi

Mikä on ominaisuuksien skaalaamisen tarkoitus aikasarjojen esikäsittelyssä?

Hallitse rekursiiviset neuroverkot ja niiden kehittyneet variantit, kuten LSTM:t ja GRU:t, hyödyntäen PyTorchia. Kartoita käytännön kokemusta jaksollisen datan käsittelystä sovelluksissa. Sovella näitä tehokkaita malleja ratkaisemaan tosielämän haasteita aikasarjojen ennustamisessa ja erilaisissa luonnollisen kielen käsittelyn tehtävissä.

Kattaa perinteisten neuroverkkojen rajoitukset jaksollisen datan käsittelyssä ja esittelee toistoverkkojen perusteet. Selittää RNN-arkkitehtuurin, tyypit sekä vaiheittaisen toteutuksen perusesimerkkien ja koodaushaasteen avulla.

Käsittelee yleisiä koulutushaasteita, kuten katoavia ja räjähtäviä gradientteja. Esittelee edistyneet RNN-muunnelmat, mukaan lukien LSTM ja GRU, korostaen niiden sisäisiä mekanismeja ja käyttötapauksia sekä tarjoaa käytännön toteutusesimerkkejä kustakin.

Keskittyy aikasarjadatan käsittelyyn ja ennustamiseen RNN-pohjaisilla malleilla. Sisältää datan latauksen, esikäsittelytekniikat, mallin koulutuksen ja suorituskyvyn arvioinnin, painottaen LSTM- ja GRU-arkkitehtuurien vertailua.

Esittelee RNN-mallien soveltamisen tekstiluokittelutehtäviin. Kattaa keskeiset NLP-käsitteet, tekstin koodausmenetelmät, aineiston esikäsittelyvaiheet sekä LSTM-pohjaisen mallin rakentamisen tunnelman ennustamiseen.

Aikasarjadatan Esikäsittely