Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Prétraitement des Données de Séries Temporelles | Analyse des Séries Temporelles
Introduction aux RNN

bookPrétraitement des Données de Séries Temporelles

Les étapes cruciales de la prétraitement des données de séries temporelles pour un projet de prévision sont abordées. Le prétraitement garantit que les données sont propres, bien structurées et prêtes pour l'entraînement du modèle. Les sujets incluent la mise à l'échelle des caractéristiques, la séparation train-test et la création de séquences, tous essentiels pour une préparation efficace des données.

  • Mise à l'échelle des caractéristiques : la mise à l'échelle des caractéristiques est importante pour garantir que toutes les variables d'entrée sont sur une échelle similaire. Cela aide les modèles comme LSTM et ARIMA à converger plus rapidement et à améliorer leurs performances. Les techniques courantes de mise à l'échelle incluent la mise à l'échelle min-max et la standardisation (normalisation z-score). La mise à l'échelle permet au modèle de se concentrer sur les relations au sein des données plutôt que d'être biaisé par des caractéristiques ayant des plages plus larges ;
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)
  • Séparation train-test : diviser l'ensemble de données en sous-ensembles d'entraînement et de test est essentiel pour évaluer les performances du modèle. Typiquement, un ensemble de données de séries temporelles est divisé chronologiquement, la première partie des données étant utilisée pour l'entraînement et la partie ultérieure pour le test. Cela garantit que le modèle est évalué sur des données qu'il n'a pas vues auparavant et simule des scénarios de prévision réels. Un ratio courant est de 80 % pour l'entraînement et 20 % pour le test, mais cela peut varier en fonction de la taille et des caractéristiques des données ;
train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]
  • Création de séquences : en prévision de séries temporelles, en particulier lors de l'utilisation de modèles comme LSTM, les données doivent être transformées en format séquentiel. L'étape de création de séquences consiste à façonner les données en paires entrée-sortie où chaque entrée correspond à une séquence d'observations passées, et la sortie est la valeur prédite pour l'instant suivant. Ceci est crucial pour que les modèles apprennent à partir des étapes précédentes et effectuent des prédictions précises pour les étapes futures.
def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)

En résumé, le prétraitement est une étape essentielle dans la prévision de séries temporelles. En mettant à l'échelle les caractéristiques, en séparant les données pour l'entraînement et le test, et en créant des séquences pour l'entrée du modèle, nous nous assurons que les données sont bien préparées pour une prévision précise et efficace.

question mark

Quel est le but de la mise à l'échelle des caractéristiques dans le prétraitement des séries temporelles ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 3

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 4.55

bookPrétraitement des Données de Séries Temporelles

Glissez pour afficher le menu

Les étapes cruciales de la prétraitement des données de séries temporelles pour un projet de prévision sont abordées. Le prétraitement garantit que les données sont propres, bien structurées et prêtes pour l'entraînement du modèle. Les sujets incluent la mise à l'échelle des caractéristiques, la séparation train-test et la création de séquences, tous essentiels pour une préparation efficace des données.

  • Mise à l'échelle des caractéristiques : la mise à l'échelle des caractéristiques est importante pour garantir que toutes les variables d'entrée sont sur une échelle similaire. Cela aide les modèles comme LSTM et ARIMA à converger plus rapidement et à améliorer leurs performances. Les techniques courantes de mise à l'échelle incluent la mise à l'échelle min-max et la standardisation (normalisation z-score). La mise à l'échelle permet au modèle de se concentrer sur les relations au sein des données plutôt que d'être biaisé par des caractéristiques ayant des plages plus larges ;
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)
  • Séparation train-test : diviser l'ensemble de données en sous-ensembles d'entraînement et de test est essentiel pour évaluer les performances du modèle. Typiquement, un ensemble de données de séries temporelles est divisé chronologiquement, la première partie des données étant utilisée pour l'entraînement et la partie ultérieure pour le test. Cela garantit que le modèle est évalué sur des données qu'il n'a pas vues auparavant et simule des scénarios de prévision réels. Un ratio courant est de 80 % pour l'entraînement et 20 % pour le test, mais cela peut varier en fonction de la taille et des caractéristiques des données ;
train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]
  • Création de séquences : en prévision de séries temporelles, en particulier lors de l'utilisation de modèles comme LSTM, les données doivent être transformées en format séquentiel. L'étape de création de séquences consiste à façonner les données en paires entrée-sortie où chaque entrée correspond à une séquence d'observations passées, et la sortie est la valeur prédite pour l'instant suivant. Ceci est crucial pour que les modèles apprennent à partir des étapes précédentes et effectuent des prédictions précises pour les étapes futures.
def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)

En résumé, le prétraitement est une étape essentielle dans la prévision de séries temporelles. En mettant à l'échelle les caractéristiques, en séparant les données pour l'entraînement et le test, et en créant des séquences pour l'entrée du modèle, nous nous assurons que les données sont bien préparées pour une prévision précise et efficace.

question mark

Quel est le but de la mise à l'échelle des caractéristiques dans le prétraitement des séries temporelles ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 3
some-alt