Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Udfordring: Oprettelse af en Pipeline | Pipelines
ML Introduktion med Scikit-learn

bookUdfordring: Oprettelse af en Pipeline

I denne udfordring skal alle forbehandlingsskridt kombineres i en enkelt pipeline ved brug af det oprindelige penguins.csv datasæt.

  1. Fjern de to rækker med utilstrækkelige data.
  2. Opbyg en pipeline, der inkluderer kodning, imputering og skalering.

Du skal kun kode to kolonner, 'sex' og 'island'. Da du ikke ønsker at kode hele X, skal du anvende en ColumnTransformer. Herefter anvendes SimpleImputer og StandardScaler på hele X.

Her er en påmindelse om funktionerne make_column_transformer() og make_pipeline(), som du skal bruge.

Opgave

Swipe to start coding

Du har fået en DataFrame ved navn df, som indeholder pingvindata. Dit mål er at opbygge en præprocesseringspipeline, der håndterer manglende værdier, koder kategoriske kolonner og skalerer numeriske funktioner.

  1. Importér funktionen make_pipeline fra sklearn.pipeline.
  2. Opret en ColumnTransformer ved navn ct, der anvender en OneHotEncoder på kolonnerne 'sex' og 'island', mens alle andre kolonner bevares uændret (remainder='passthrough').
  3. Opret en pipeline, der inkluderer følgende trin i rækkefølge:
  • Den ColumnTransformer, du har defineret (ct);
  • En SimpleImputer med strategien sat til 'most_frequent';
  • En StandardScaler til skalering af funktioner.
  1. Anvend pipelinen på feature-matricen X og gem de transformerede data i en variabel ved navn X_transformed.

Løsning

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 4
single

single

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you show me how to build the pipeline step by step?

What should I use for encoding the 'sex' and 'island' columns?

How do I remove the two rows with insufficient data?

close

Awesome!

Completion rate improved to 3.13

bookUdfordring: Oprettelse af en Pipeline

Stryg for at vise menuen

I denne udfordring skal alle forbehandlingsskridt kombineres i en enkelt pipeline ved brug af det oprindelige penguins.csv datasæt.

  1. Fjern de to rækker med utilstrækkelige data.
  2. Opbyg en pipeline, der inkluderer kodning, imputering og skalering.

Du skal kun kode to kolonner, 'sex' og 'island'. Da du ikke ønsker at kode hele X, skal du anvende en ColumnTransformer. Herefter anvendes SimpleImputer og StandardScaler på hele X.

Her er en påmindelse om funktionerne make_column_transformer() og make_pipeline(), som du skal bruge.

Opgave

Swipe to start coding

Du har fået en DataFrame ved navn df, som indeholder pingvindata. Dit mål er at opbygge en præprocesseringspipeline, der håndterer manglende værdier, koder kategoriske kolonner og skalerer numeriske funktioner.

  1. Importér funktionen make_pipeline fra sklearn.pipeline.
  2. Opret en ColumnTransformer ved navn ct, der anvender en OneHotEncoder på kolonnerne 'sex' og 'island', mens alle andre kolonner bevares uændret (remainder='passthrough').
  3. Opret en pipeline, der inkluderer følgende trin i rækkefølge:
  • Den ColumnTransformer, du har defineret (ct);
  • En SimpleImputer med strategien sat til 'most_frequent';
  • En StandardScaler til skalering af funktioner.
  1. Anvend pipelinen på feature-matricen X og gem de transformerede data i en variabel ved navn X_transformed.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 4
single

single

some-alt