Udfordring: Oprettelse af en Pipeline
I denne udfordring skal alle forbehandlingsskridt kombineres i en enkelt pipeline ved brug af det oprindelige penguins.csv datasæt.
- Fjern de to rækker med utilstrækkelige data.
- Opbyg en pipeline, der inkluderer kodning, imputering og skalering.
Du skal kun kode to kolonner, 'sex' og 'island'. Da du ikke ønsker at kode hele X, skal du anvende en ColumnTransformer. Herefter anvendes SimpleImputer og StandardScaler på hele X.
Her er en påmindelse om funktionerne make_column_transformer() og make_pipeline(), som du skal bruge.
Swipe to start coding
Du har fået en DataFrame ved navn df, som indeholder pingvindata.
Dit mål er at opbygge en præprocesseringspipeline, der håndterer manglende værdier, koder kategoriske kolonner og skalerer numeriske funktioner.
- Importér funktionen
make_pipelinefrasklearn.pipeline. - Opret en
ColumnTransformerved navnct, der anvender enOneHotEncoderpå kolonnerne'sex'og'island', mens alle andre kolonner bevares uændret (remainder='passthrough'). - Opret en pipeline, der inkluderer følgende trin i rækkefølge:
- Den
ColumnTransformer, du har defineret (ct); - En
SimpleImputermed strategien sat til'most_frequent'; - En
StandardScalertil skalering af funktioner.
- Anvend pipelinen på feature-matricen
Xog gem de transformerede data i en variabel ved navnX_transformed.
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you show me how to build the pipeline step by step?
What should I use for encoding the 'sex' and 'island' columns?
How do I remove the two rows with insufficient data?
Awesome!
Completion rate improved to 3.13
Udfordring: Oprettelse af en Pipeline
Stryg for at vise menuen
I denne udfordring skal alle forbehandlingsskridt kombineres i en enkelt pipeline ved brug af det oprindelige penguins.csv datasæt.
- Fjern de to rækker med utilstrækkelige data.
- Opbyg en pipeline, der inkluderer kodning, imputering og skalering.
Du skal kun kode to kolonner, 'sex' og 'island'. Da du ikke ønsker at kode hele X, skal du anvende en ColumnTransformer. Herefter anvendes SimpleImputer og StandardScaler på hele X.
Her er en påmindelse om funktionerne make_column_transformer() og make_pipeline(), som du skal bruge.
Swipe to start coding
Du har fået en DataFrame ved navn df, som indeholder pingvindata.
Dit mål er at opbygge en præprocesseringspipeline, der håndterer manglende værdier, koder kategoriske kolonner og skalerer numeriske funktioner.
- Importér funktionen
make_pipelinefrasklearn.pipeline. - Opret en
ColumnTransformerved navnct, der anvender enOneHotEncoderpå kolonnerne'sex'og'island', mens alle andre kolonner bevares uændret (remainder='passthrough'). - Opret en pipeline, der inkluderer følgende trin i rækkefølge:
- Den
ColumnTransformer, du har defineret (ct); - En
SimpleImputermed strategien sat til'most_frequent'; - En
StandardScalertil skalering af funktioner.
- Anvend pipelinen på feature-matricen
Xog gem de transformerede data i en variabel ved navnX_transformed.
Løsning
Tak for dine kommentarer!
single