Utfordring: Lage en Pipeline
I denne utfordringen skal du kombinere alle forhåndsbehandlingsstegene i en enkel pipeline ved å bruke det originale penguins.csv-datasettet.
- Fjern de to radene med utilstrekkelige data.
- Bygg en pipeline som inkluderer koding, imputering og skalering.
Du trenger kun å kode to kolonner, 'sex' og 'island'. Siden du ikke ønsker å kode hele X, må du bruke en ColumnTransformer. Deretter skal du bruke SimpleImputer og StandardScaler på hele X.
Her er en påminnelse om funksjonene make_column_transformer() og make_pipeline() som du skal bruke.
Swipe to start coding
Du har fått en DataFrame kalt df som inneholder pingvindata.
Målet ditt er å bygge en forhåndsprosesseringspipeline som håndterer manglende verdier, koder kategoriske kolonner og skalerer numeriske funksjoner.
- Importer funksjonen
make_pipelinefrasklearn.pipeline. - Opprett en
ColumnTransformerkaltctsom bruker enOneHotEncoderpå kolonnene'sex'og'island', mens alle andre kolonner beholdes uendret (remainder='passthrough'). - Lag en pipeline som inkluderer følgende steg i rekkefølge:
ColumnTransformer-en du definerte (ct);
- En
SimpleImputermed strategi satt til'most_frequent'; - En
StandardScalerfor skalering av funksjoner.
- Bruk pipelinen på funksjonsmatrisen
Xog lagre de transformerede dataene i en variabel kaltX_transformed.
Løsning
Takk for tilbakemeldingene dine!
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 3.13
Utfordring: Lage en Pipeline
Sveip for å vise menyen
I denne utfordringen skal du kombinere alle forhåndsbehandlingsstegene i en enkel pipeline ved å bruke det originale penguins.csv-datasettet.
- Fjern de to radene med utilstrekkelige data.
- Bygg en pipeline som inkluderer koding, imputering og skalering.
Du trenger kun å kode to kolonner, 'sex' og 'island'. Siden du ikke ønsker å kode hele X, må du bruke en ColumnTransformer. Deretter skal du bruke SimpleImputer og StandardScaler på hele X.
Her er en påminnelse om funksjonene make_column_transformer() og make_pipeline() som du skal bruke.
Swipe to start coding
Du har fått en DataFrame kalt df som inneholder pingvindata.
Målet ditt er å bygge en forhåndsprosesseringspipeline som håndterer manglende verdier, koder kategoriske kolonner og skalerer numeriske funksjoner.
- Importer funksjonen
make_pipelinefrasklearn.pipeline. - Opprett en
ColumnTransformerkaltctsom bruker enOneHotEncoderpå kolonnene'sex'og'island', mens alle andre kolonner beholdes uendret (remainder='passthrough'). - Lag en pipeline som inkluderer følgende steg i rekkefølge:
ColumnTransformer-en du definerte (ct);
- En
SimpleImputermed strategi satt til'most_frequent'; - En
StandardScalerfor skalering av funksjoner.
- Bruk pipelinen på funksjonsmatrisen
Xog lagre de transformerede dataene i en variabel kaltX_transformed.
Løsning
Takk for tilbakemeldingene dine!
single