Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Vertraut Machen Mit Dem Datensatz | Datenvorverarbeitung mit Scikit-Learn
ML-Einführung Mit Scikit-Learn

bookVertraut Machen Mit Dem Datensatz

Beginnen Sie mit der Vorverarbeitung, indem Sie den Datensatz untersuchen. Im Verlauf dieses Kurses wird der Penguin-Datensatz verwendet, mit der Aufgabe, die Art eines Pinguins vorherzusagen.

Es gibt drei mögliche Optionen, die im maschinellen Lernen häufig als Klassen bezeichnet werden:

Die Merkmale sind: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' und 'sex'.

Der Datensatz ist in der Datei penguins.csv gespeichert. Er kann mit der Funktion pd.read_csv() aus einem Link geladen werden, um den Inhalt zu untersuchen:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dieses Datenset weist mehrere Probleme auf, die behoben werden müssen:

  • Fehlende Daten;
  • Kategorische Variablen;
  • Unterschiedliche Merkmals-Skalen.

Fehlende Daten

Die meisten ML-Algorithmen können fehlende Werte nicht direkt verarbeiten, daher müssen diese vor dem Training behandelt werden. Fehlende Werte können entweder entfernt oder imputiert (durch Ersatzwerte ersetzt) werden.

In pandas werden leere Zellen als NaN dargestellt. Viele ML-Modelle erzeugen einen Fehler, wenn das Datenset auch nur ein einziges NaN enthält.

Kategorische Daten

Der Datensatz enthält kategoriale Variablen, die von Machine-Learning-Modellen nicht direkt verarbeitet werden können.

Kategorische Daten müssen in numerische Form kodiert werden.

Unterschiedliche Skalen

'culmen_depth_mm' Werte reichen von 13.1 bis 21.5, während 'body_mass_g' Werte von 2700 bis 6300 reichen. Daher könnten einige ML-Modelle das Merkmal 'body_mass_g' als deutlich wichtiger einstufen als 'culmen_depth_mm'.

Skalierung löst dieses Problem. Dies wird in späteren Kapiteln behandelt.

question-icon

Ordne das Problem der passenden Lösung zu.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 3.13

bookVertraut Machen Mit Dem Datensatz

Swipe um das Menü anzuzeigen

Beginnen Sie mit der Vorverarbeitung, indem Sie den Datensatz untersuchen. Im Verlauf dieses Kurses wird der Penguin-Datensatz verwendet, mit der Aufgabe, die Art eines Pinguins vorherzusagen.

Es gibt drei mögliche Optionen, die im maschinellen Lernen häufig als Klassen bezeichnet werden:

Die Merkmale sind: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' und 'sex'.

Der Datensatz ist in der Datei penguins.csv gespeichert. Er kann mit der Funktion pd.read_csv() aus einem Link geladen werden, um den Inhalt zu untersuchen:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dieses Datenset weist mehrere Probleme auf, die behoben werden müssen:

  • Fehlende Daten;
  • Kategorische Variablen;
  • Unterschiedliche Merkmals-Skalen.

Fehlende Daten

Die meisten ML-Algorithmen können fehlende Werte nicht direkt verarbeiten, daher müssen diese vor dem Training behandelt werden. Fehlende Werte können entweder entfernt oder imputiert (durch Ersatzwerte ersetzt) werden.

In pandas werden leere Zellen als NaN dargestellt. Viele ML-Modelle erzeugen einen Fehler, wenn das Datenset auch nur ein einziges NaN enthält.

Kategorische Daten

Der Datensatz enthält kategoriale Variablen, die von Machine-Learning-Modellen nicht direkt verarbeitet werden können.

Kategorische Daten müssen in numerische Form kodiert werden.

Unterschiedliche Skalen

'culmen_depth_mm' Werte reichen von 13.1 bis 21.5, während 'body_mass_g' Werte von 2700 bis 6300 reichen. Daher könnten einige ML-Modelle das Merkmal 'body_mass_g' als deutlich wichtiger einstufen als 'culmen_depth_mm'.

Skalierung löst dieses Problem. Dies wird in späteren Kapiteln behandelt.

question-icon

Ordne das Problem der passenden Lösung zu.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2
some-alt