Summary  
This chapter demonstrates how to convert nominal categorical features into binary indicator variables by creating a column for each category and assigning 1 or 0 based on each row’s value using a OneHotEncoder transformer. It shows how to fit and transform selected columns and retrieve the encoded data as an array.

General domain of usage  
Machine learning preprocessing

Bij **nominale** waarden is de verwerking iets complexer.

Voor **ordinale** data, zoals gebruikersbeoordelingen van 'Terrible' tot 'Great', is codering als getallen van 0 tot 4 geschikt omdat het model de inherente volgorde kan vastleggen.

Voor een kenmerk zoals `'city'` met vijf verschillende categorieën zou codering als getallen van 0 tot 4 echter onterecht een volgorde suggereren. In dit geval is **one-hot encoding** een betere keuze, omdat het categorieën weergeeft zonder een hiërarchie te impliceren.


Voor het coderen van **nominale data** wordt de `OneHotEncoder`-transformer gebruikt. Deze maakt een kolom voor elke unieke waarde. Vervolgens wordt voor elke rij een 1 gezet in de kolom van de waarde van die rij en een 0 in de andere kolommen.


Wat oorspronkelijk `'NewYork'` was, heeft nu **1** in de kolom `'City_NewYork'` en **0** in de andere `City_` kolommen.

Pas `OneHotEncoder` toe op de **penguins** dataset. De nominale kenmerken zijn `'island'` en `'sex'`. De kolom `'species'` is het doel en wordt apart behandeld bij het bespreken van **target encoding** in het volgende hoofdstuk.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print('island: ', df['island'].unique())
print('sex: ', df['sex'].unique())

Om `OneHotEncoder` toe te passen, het encoder-object initialiseren en de geselecteerde kolommen doorgeven aan `.fit_transform()`, op dezelfde wijze als bij andere transformators.

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')
# Assign X, y variables
y = df['species']
X = df.drop('species', axis=1)
# Initialize an OneHotEncoder object
one_hot = OneHotEncoder()
# Print transformed 'sex', 'island' columns
print(one_hot.fit_transform(X[['sex', 'island']]).toarray())

De methode `.toarray()` zet de **spaarzame matrix** die door de `OneHotEncoder` wordt geproduceerd om in een dichte NumPy-array. **Dichte arrays** tonen alle waarden expliciet, waardoor visualisatie en bewerking van de gecodeerde gegevens binnen een DataFrame eenvoudiger wordt. Spaarzame matrices slaan alleen **niet-nul elementen** op, wat het geheugengebruik optimaliseert. Deze methode kan worden weggelaten om het verschil in uitvoer te zien.

Opmerking

`OneHotEncoder` maakt nieuwe kolommen aan. Is dit correct?

Beheers de basisprincipes van Machine Learning en de Scikit-learn-bibliotheek. Verken de volledige ML-werkstroom, van het omgaan met ontbrekende waarden en het coderen van categorische gegevens tot het schalen van kenmerken. Bouw efficiënte, lekvrije gegevensvoorverwerkingspijplijnen met behulp van ColumnTransformer. Zet ruwe datasets om in modelklare structuren en implementeer robuuste voorspellende pijplijnen.

One-Hot Encoder