Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Udfordring: Forbehandlingspipeline | Feature Engineering for Maskinlæring
Datapræprocessering og Feature Engineering

bookUdfordring: Forbehandlingspipeline

Opgave

Swipe to start coding

Du får stillet Titanic-datasættet fra seaborn-biblioteket til rådighed. Din opgave er at opbygge en fuldstændig forbehandlingspipeline, der udfører alle nødvendige datatransformationer før maskinlæring.

Følg disse trin:

  1. Indlæs datasættet med sns.load_dataset("titanic").
  2. Håndter manglende værdier:
  • Numeriske kolonner → udfyld med middelværdi.
  • Kategoriske kolonner → udfyld med typetal.
  1. Kod de kategoriske variable sex og embarked ved hjælp af pd.get_dummies().
  2. Skaler de numeriske kolonner age og fare med StandardScaler.
  3. Opret en ny feature family_size = sibsp + parch + 1.
  4. Kombinér alle transformationer i en funktion kaldet preprocess_titanic(data), som returnerer det endeligt behandlede DataFrame.
  5. Tildel det behandlede datasæt til en variabel kaldet processed_data.

Udskriv de første 5 rækker af det endelige DataFrame.

Løsning

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 4
single

single

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

close

bookUdfordring: Forbehandlingspipeline

Stryg for at vise menuen

Opgave

Swipe to start coding

Du får stillet Titanic-datasættet fra seaborn-biblioteket til rådighed. Din opgave er at opbygge en fuldstændig forbehandlingspipeline, der udfører alle nødvendige datatransformationer før maskinlæring.

Følg disse trin:

  1. Indlæs datasættet med sns.load_dataset("titanic").
  2. Håndter manglende værdier:
  • Numeriske kolonner → udfyld med middelværdi.
  • Kategoriske kolonner → udfyld med typetal.
  1. Kod de kategoriske variable sex og embarked ved hjælp af pd.get_dummies().
  2. Skaler de numeriske kolonner age og fare med StandardScaler.
  3. Opret en ny feature family_size = sibsp + parch + 1.
  4. Kombinér alle transformationer i en funktion kaldet preprocess_titanic(data), som returnerer det endeligt behandlede DataFrame.
  5. Tildel det behandlede datasæt til en variabel kaldet processed_data.

Udskriv de første 5 rækker af det endelige DataFrame.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 4
single

single

some-alt