Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Getting Familiar with Dataset | Datenvorverarbeitung mit Scikit-Learn
Einführung in das Maschinelle Lernen mit Python

Getting Familiar with Dataset

Swipe um das Menü anzuzeigen

Mit der Vorverarbeitung wird begonnen, indem das Datenset untersucht wird. Im Verlauf dieses Kurses wird das Penguin-Datenset verwendet, mit der Aufgabe, die Art eines Pinguins vorherzusagen.

welcher Pinguin

Es gibt drei mögliche Optionen, die im maschinellen Lernen häufig als Klassen bezeichnet werden:

Pinguine

Die Merkmale sind: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' und 'sex'.

Der Datensatz ist in der Datei penguins.csv gespeichert. Er kann über einen Link mit der Funktion pd.read_csv() geladen werden, um den Inhalt zu untersuchen:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))

Dieses Datenset weist mehrere Probleme auf, die behoben werden müssen:

  • Fehlende Daten;
  • Kategorische Variablen;
  • Unterschiedliche Merkmals-Skalen.

Fehlende Daten

Die meisten ML-Algorithmen können fehlende Werte nicht direkt verarbeiten, daher müssen diese vor dem Training behandelt werden. Fehlende Werte können entweder entfernt oder imputiert (durch Ersatzwerte ersetzt) werden.

In pandas werden leere Zellen als NaN dargestellt. Viele ML-Modelle erzeugen einen Fehler, wenn das Datenset auch nur ein einziges NaN enthält.

Fehlende Werte

Kategorische Daten

Der Datensatz enthält kategoriale Variablen, die von Machine-Learning-Modellen nicht direkt verarbeitet werden können.

Kategorische Spalten

Kategorische Daten müssen in eine numerische Form kodiert werden.

Unterschiedliche Skalen

'culmen_depth_mm'-Werte reichen von 13,1 bis 21,5, während 'body_mass_g'-Werte von 2700 bis 6300 reichen. Daher könnten einige ML-Modelle das Merkmal 'body_mass_g' als wesentlich wichtiger als 'culmen_depth_mm' einstufen.

Unterschiedliche Skala

Skalierung löst dieses Problem. Das Thema wird in späteren Kapiteln behandelt.

question-icon

Ordne das Problem einer Lösungsmöglichkeit zu.

Missing values –
Categorical data –

Different Scales –

Klicken oder ziehen Sie Elemente und füllen Sie die Lücken aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 2. Kapitel 2
some-alt