Oppiskele One-Hot-Koodaus

Pyyhkäise näyttääksesi valikon

Nominaalisten arvojen käsittely on hieman monimutkaisempaa.

Ordinaalisille tiedoille, kuten käyttäjäarvioille välillä 'Terrible'–'Great', koodaus numeroiksi 0–4 on sopivaa, koska malli voi huomioida järjestyksen.

Sen sijaan ominaisuudelle kuten 'city', jossa on viisi erillistä kategoriaa, koodaus numeroiksi 0–4 antaisi virheellisesti vaikutelman järjestyksestä. Tässä tapauksessa one-hot encoding on parempi vaihtoehto, sillä se esittää kategoriat ilman hierarkiaa.

Nominaalidatan koodaamiseen käytetään OneHotEncoder-muunninta. Se luo sarakkeen jokaiselle yksilölliselle arvolle. Jokaisella rivillä asetetaan 1 sen sarakkeen kohdalle, joka vastaa rivin arvoa, ja 0 muihin sarakkeisiin.

Alkuperäinen 'NewYork' on nyt 1 sarakkeessa 'City_NewYork' ja 0 muissa City_-sarakkeissa.

Sovella OneHotEncoder-kooderia penguins-aineistoon. Nominaaliset ominaisuudet ovat 'island' ja 'sex'. Sarake 'species' on kohde ja käsitellään erikseen, kun kohdekoodauksesta keskustellaan seuraavassa luvussa.


              123456
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print('island: ', df['island'].unique())
print('sex: ', df['sex'].unique())

OneHotEncoder-muuntimen käyttämiseksi alustetaan enkooderiobjekti ja valitut sarakkeet välitetään metodille .fit_transform(), samalla tavalla kuin muidenkin muuntimien kanssa.


              1234567891011
            
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')
# Assign X, y variables
y = df['species']
X = df.drop('species', axis=1)
# Initialize an OneHotEncoder object
one_hot = OneHotEncoder()
# Print transformed 'sex', 'island' columns
print(one_hot.fit_transform(X[['sex', 'island']]).toarray())

Huomio

Metodi .toarray() muuntaa OneHotEncoder-muuntimen tuottaman harvan matriisin tiheäksi NumPy-taulukoksi. Tiheät taulukot näyttävät kaikki arvot suoraan, mikä helpottaa koodatun datan visualisointia ja käsittelyä DataFrame-rakenteessa. Harvat matriisit tallentavat vain nollasta poikkeavat alkiot, mikä tehostaa muistin käyttöä. Voit jättää tämän metodin pois nähdäksesi eron tulosteessa.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 11

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 11