Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Transformation des Données | Manipulation et Nettoyage des Données
Analyse de Données avec R

Transformation des Données

Glissez pour afficher le menu

Transformation des données comme étape essentielle dans la préparation des données brutes pour l'analyse. Modification, ajout ou recodage de variables afin de rendre les données plus pertinentes et prêtes pour l'analyse.

Création de nouvelles colonnes

Transformation courante consistant à calculer de nouveaux indicateurs à partir de colonnes existantes. Par exemple, calcul du prix par kilomètre pour évaluer la rentabilité d'un véhicule.

Base R

Création d'une nouvelle colonne à l'aide de l'opérateur $ pour définir son nom et lui attribuer des valeurs.

df$price_per_km <- df$selling_price / df$km_driven
head(df)

dplyr

De nouvelles colonnes peuvent être ajoutées à l'aide de la fonction mutate(). À l'intérieur de mutate(), il faut spécifier le nom de la nouvelle colonne et définir son mode de calcul.

df <- df %>%
  mutate(price_per_km = selling_price / km_driven)

Conversion et transformation de données numériques au format texte

Dans les jeux de données réels, les informations numériques sont souvent stockées sous forme de texte combiné à des caractères non numériques. Par exemple, les valeurs de puissance moteur peuvent apparaître sous la forme "68 bhp", qui doivent être nettoyées et converties avant l'analyse.

Base R

La fonction gsub() permet de supprimer le texte indésirable, puis as.numeric() convertit le résultat en valeurs numériques. Après la conversion, d'autres transformations peuvent être effectuées, comme la conversion de brake horsepower (bhp) en kilowatts.

df$max_power <- as.numeric(gsub(" bhp", "", df$max_power))
df$max_power_kw <- df$max_power * 0.7457  # convert to kilowatts

dplyr

Le même processus peut être simplifié à l'intérieur d'un appel à mutate(). Il est possible de combiner le remplacement de texte, la conversion de type et la création de nouvelles colonnes en une seule étape, ce qui rend le code plus lisible et plus facile à maintenir.

df <- df %>%
  mutate(
    max_power = as.numeric(gsub(" bhp", "", max_power)),
    max_power_kw = max_power * 0.7457
  )

Catégorisation des données

Création de nouvelles variables catégorielles en regroupant des valeurs continues en catégories significatives. Par exemple, classification des voitures en faible, moyen ou élevé selon leur gamme de prix de vente.

Base R

Cette opération peut être réalisée avec des instructions ifelse() imbriquées. Chaque condition est vérifiée dans l'ordre et la valeur est attribuée en conséquence.

df$price_category <- ifelse(df$selling_price < 300000, "Low",
                            ifelse(df$selling_price < 700000, "Medium", "High"))

dplyr

Vous pouvez utiliser la fonction case_when() comme alternative aux instructions if-else imbriquées. Cela permet d'écrire plusieurs conditions dans un format clair et lisible.

df <- df %>%
  mutate(price_category = case_when(
    selling_price < 300000 ~ "Low",
    selling_price < 700000 ~ "Medium",
    TRUE ~ "High"
  ))
question mark

Que fait mutate() dans dplyr ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 9

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 1. Chapitre 9
some-alt