Utmaning: Skapa en Pipeline
I denna utmaning ska alla förbehandlingssteg kombineras i en enda pipeline med den ursprungliga penguins.csv-datamängden.
- Ta bort de två raderna med otillräckliga data.
- Skapa en pipeline som inkluderar kodning, imputering och skalning.
Endast två kolumner, 'sex' och 'island', behöver kodas. Eftersom hela X inte ska kodas måste en ColumnTransformer användas. Därefter appliceras SimpleImputer och StandardScaler på hela X.
Här följer en påminnelse om funktionerna make_column_transformer() och make_pipeline() som kommer att användas.
Swipe to start coding
Du har fått en DataFrame vid namn df som innehåller pingvindata.
Ditt mål är att bygga en förbehandlingspipeline som hanterar saknade värden, kodar kategoriska kolumner och skalar numeriska funktioner.
- Importera funktionen
make_pipelinefrånsklearn.pipeline. - Skapa en
ColumnTransformervid namnctsom applicerar enOneHotEncoderpå kolumnerna'sex'och'island'medan alla andra kolumner lämnas oförändrade (remainder='passthrough'). - Skapa en pipeline som inkluderar följande steg i ordning:
- Den
ColumnTransformerdu definierade (ct); - En
SimpleImputermed strategin satt till'most_frequent'; - En
StandardScalerför funktionsskalning.
- Applicera pipelinen på funktionsmatrisen
Xoch spara den transformerade datan i en variabel vid namnX_transformed.
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you show me how to build the pipeline step by step?
What should I use for encoding the 'sex' and 'island' columns?
How do I remove the two rows with insufficient data?
Awesome!
Completion rate improved to 3.13
Utmaning: Skapa en Pipeline
Svep för att visa menyn
I denna utmaning ska alla förbehandlingssteg kombineras i en enda pipeline med den ursprungliga penguins.csv-datamängden.
- Ta bort de två raderna med otillräckliga data.
- Skapa en pipeline som inkluderar kodning, imputering och skalning.
Endast två kolumner, 'sex' och 'island', behöver kodas. Eftersom hela X inte ska kodas måste en ColumnTransformer användas. Därefter appliceras SimpleImputer och StandardScaler på hela X.
Här följer en påminnelse om funktionerna make_column_transformer() och make_pipeline() som kommer att användas.
Swipe to start coding
Du har fått en DataFrame vid namn df som innehåller pingvindata.
Ditt mål är att bygga en förbehandlingspipeline som hanterar saknade värden, kodar kategoriska kolumner och skalar numeriska funktioner.
- Importera funktionen
make_pipelinefrånsklearn.pipeline. - Skapa en
ColumnTransformervid namnctsom applicerar enOneHotEncoderpå kolumnerna'sex'och'island'medan alla andra kolumner lämnas oförändrade (remainder='passthrough'). - Skapa en pipeline som inkluderar följande steg i ordning:
- Den
ColumnTransformerdu definierade (ct); - En
SimpleImputermed strategin satt till'most_frequent'; - En
StandardScalerför funktionsskalning.
- Applicera pipelinen på funktionsmatrisen
Xoch spara den transformerade datan i en variabel vid namnX_transformed.
Lösning
Tack för dina kommentarer!
single