Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Utmaning: Skapa en Pipeline | Pipelines
Introduktion till ML med Scikit-learn

bookUtmaning: Skapa en Pipeline

I denna utmaning ska alla förbehandlingssteg kombineras i en enda pipeline med den ursprungliga penguins.csv-datamängden.

  1. Ta bort de två raderna med otillräckliga data.
  2. Skapa en pipeline som inkluderar kodning, imputering och skalning.

Endast två kolumner, 'sex' och 'island', behöver kodas. Eftersom hela X inte ska kodas måste en ColumnTransformer användas. Därefter appliceras SimpleImputer och StandardScaler på hela X.

Här följer en påminnelse om funktionerna make_column_transformer() och make_pipeline() som kommer att användas.

Uppgift

Swipe to start coding

Du har fått en DataFrame vid namn df som innehåller pingvindata. Ditt mål är att bygga en förbehandlingspipeline som hanterar saknade värden, kodar kategoriska kolumner och skalar numeriska funktioner.

  1. Importera funktionen make_pipeline från sklearn.pipeline.
  2. Skapa en ColumnTransformer vid namn ct som applicerar en OneHotEncoder på kolumnerna 'sex' och 'island' medan alla andra kolumner lämnas oförändrade (remainder='passthrough').
  3. Skapa en pipeline som inkluderar följande steg i ordning:
  • Den ColumnTransformer du definierade (ct);
  • En SimpleImputer med strategin satt till 'most_frequent';
  • En StandardScaler för funktionsskalning.
  1. Applicera pipelinen på funktionsmatrisen X och spara den transformerade datan i en variabel vid namn X_transformed.

Lösning

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 4
single

single

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you show me how to build the pipeline step by step?

What should I use for encoding the 'sex' and 'island' columns?

How do I remove the two rows with insufficient data?

close

Awesome!

Completion rate improved to 3.13

bookUtmaning: Skapa en Pipeline

Svep för att visa menyn

I denna utmaning ska alla förbehandlingssteg kombineras i en enda pipeline med den ursprungliga penguins.csv-datamängden.

  1. Ta bort de två raderna med otillräckliga data.
  2. Skapa en pipeline som inkluderar kodning, imputering och skalning.

Endast två kolumner, 'sex' och 'island', behöver kodas. Eftersom hela X inte ska kodas måste en ColumnTransformer användas. Därefter appliceras SimpleImputer och StandardScaler på hela X.

Här följer en påminnelse om funktionerna make_column_transformer() och make_pipeline() som kommer att användas.

Uppgift

Swipe to start coding

Du har fått en DataFrame vid namn df som innehåller pingvindata. Ditt mål är att bygga en förbehandlingspipeline som hanterar saknade värden, kodar kategoriska kolumner och skalar numeriska funktioner.

  1. Importera funktionen make_pipeline från sklearn.pipeline.
  2. Skapa en ColumnTransformer vid namn ct som applicerar en OneHotEncoder på kolumnerna 'sex' och 'island' medan alla andra kolumner lämnas oförändrade (remainder='passthrough').
  3. Skapa en pipeline som inkluderar följande steg i ordning:
  • Den ColumnTransformer du definierade (ct);
  • En SimpleImputer med strategin satt till 'most_frequent';
  • En StandardScaler för funktionsskalning.
  1. Applicera pipelinen på funktionsmatrisen X och spara den transformerade datan i en variabel vid namn X_transformed.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 4
single

single

some-alt