Swipe um das Menü anzuzeigen

Mit der Vorverarbeitung wird begonnen, indem das Datenset untersucht wird. Im Verlauf dieses Kurses wird das Penguin-Datenset verwendet, mit der Aufgabe, die Art eines Pinguins vorherzusagen.

Es gibt drei mögliche Optionen, die im maschinellen Lernen häufig als Klassen bezeichnet werden:

Die Merkmale sind: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' und 'sex'.

Der Datensatz ist in der Datei penguins.csv gespeichert. Er kann über einen Link mit der Funktion pd.read_csv() geladen werden, um den Inhalt zu untersuchen:


              12345
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Dieses Datenset weist mehrere Probleme auf, die behoben werden müssen:

Fehlende Daten;
Kategorische Variablen;
Unterschiedliche Merkmals-Skalen.

Fehlende Daten

Die meisten ML-Algorithmen können fehlende Werte nicht direkt verarbeiten, daher müssen diese vor dem Training behandelt werden. Fehlende Werte können entweder entfernt oder imputiert (durch Ersatzwerte ersetzt) werden.

In pandas werden leere Zellen als NaN dargestellt. Viele ML-Modelle erzeugen einen Fehler, wenn das Datenset auch nur ein einziges NaN enthält.

Kategorische Daten

Der Datensatz enthält kategoriale Variablen, die von Machine-Learning-Modellen nicht direkt verarbeitet werden können.

Kategorische Daten müssen in eine numerische Form kodiert werden.

Unterschiedliche Skalen

'culmen_depth_mm'-Werte reichen von 13,1 bis 21,5, während 'body_mass_g'-Werte von 2700 bis 6300 reichen. Daher könnten einige ML-Modelle das Merkmal 'body_mass_g' als wesentlich wichtiger als 'culmen_depth_mm' einstufen.

Skalierung löst dieses Problem. Das Thema wird in späteren Kapiteln behandelt.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Getting Familiar with Dataset