Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Scikit-Learn-Konzepte | Datenvorverarbeitung mit Scikit-Learn
ML-Einführung Mit Scikit-Learn

bookScikit-Learn-Konzepte

Die scikit-learn-Bibliothek (importiert als sklearn) bietet verschiedene Funktionen und Klassen zur Datenvorverarbeitung und Modellierung. Die wichtigsten Objekte in sklearn sind Estimator, Transformer, Predictor und Model.

Estimator

Jede Klasse in sklearn, die über die Methode .fit() verfügt, wird als Estimator bezeichnet. Die .fit()-Methode ermöglicht es einem Objekt, aus den Daten zu lernen.

Mit anderen Worten: Die .fit()-Methode dient dem Trainieren eines Objekts. Sie nimmt die Parameter X und y entgegen (y ist für unüberwachte Lernaufgaben optional).

estimator.fit(X, y) # For supervised learning tasks
estimator.fit(X) # For unsupervised learning tasks

Es ist wenig sinnvoll, wenn ein Objekt nur aus Daten lernt, ohne ein Ergebnis zu liefern. Praktischer sind die beiden Objekttypen, die vom Estimator erben: der Transformer und der Predictor.

Transformer

Ein Transformer verfügt über die Methoden .fit() und .transform(), die die Daten auf bestimmte Weise transformieren.

In der Regel müssen Transformer etwas aus den Daten lernen, bevor sie transformieren können. Daher ist es notwendig, zuerst .fit() und anschließend .transform() anzuwenden. Um dies zu vereinfachen, verfügen Transformer auch über die Methode .fit_transform().
.fit_transform() führt zum gleichen Ergebnis wie die sequentielle Anwendung von .fit() und .transform(), ist jedoch manchmal schneller und wird daher gegenüber .fit().transform() bevorzugt.

transformer.fit(X) # Train the transformer
transformer.transform(X) # Transform the data using an already trained transformer
transformer.fit_transform(X) # Train the transformer and transform the data
Note
Hinweis

Transformer werden üblicherweise verwendet, um das X-Array zu transformieren. Wie wir jedoch am Beispiel des LabelEncoder sehen werden, sind einige Transformer für das y-Array konzipiert.

nan-Werte, die im Trainingsdatensatz im Bild angezeigt werden, kennzeichnen fehlende Daten in Python.

Prädiktor

Ein Prädiktor ist ein Schätzer (verfügt über die Methode .fit()), der zusätzlich die Methode .predict() besitzt. Die Methode .predict() wird zur Erstellung von Vorhersagen verwendet.

predictor.fit(X, y) # Training the predictor
predictor.predict(X_new) # Predicting the target for new instances once the predictor is trained. 

Modell

Ein Modell ist eine Art von Prädiktor, der zusätzlich die Methode .score() beinhaltet. Diese Methode berechnet einen Wert (Metrik), um die Leistung des Prädiktors zu messen.

model.fit(X, y) # Train the model
model.score(X, y) # Calculate a score for the trained model on X, y set.

Wie im vorherigen Kapitel erwähnt, ist Genauigkeit eine Metrik, die den Prozentsatz der korrekten Vorhersagen angibt.

Die Vorverarbeitungsphase umfasst die Arbeit mit Transformatoren, während wir in der Modellierungsphase mit Prädiktoren (genauer gesagt mit Modellen) arbeiten.

question mark

Wählen Sie alle korrekten Aussagen aus.

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between a transformer and a predictor?

What are some common examples of transformers and predictors in scikit-learn?

How do I choose which scikit-learn object to use for my task?

Awesome!

Completion rate improved to 3.13

bookScikit-Learn-Konzepte

Swipe um das Menü anzuzeigen

Die scikit-learn-Bibliothek (importiert als sklearn) bietet verschiedene Funktionen und Klassen zur Datenvorverarbeitung und Modellierung. Die wichtigsten Objekte in sklearn sind Estimator, Transformer, Predictor und Model.

Estimator

Jede Klasse in sklearn, die über die Methode .fit() verfügt, wird als Estimator bezeichnet. Die .fit()-Methode ermöglicht es einem Objekt, aus den Daten zu lernen.

Mit anderen Worten: Die .fit()-Methode dient dem Trainieren eines Objekts. Sie nimmt die Parameter X und y entgegen (y ist für unüberwachte Lernaufgaben optional).

estimator.fit(X, y) # For supervised learning tasks
estimator.fit(X) # For unsupervised learning tasks

Es ist wenig sinnvoll, wenn ein Objekt nur aus Daten lernt, ohne ein Ergebnis zu liefern. Praktischer sind die beiden Objekttypen, die vom Estimator erben: der Transformer und der Predictor.

Transformer

Ein Transformer verfügt über die Methoden .fit() und .transform(), die die Daten auf bestimmte Weise transformieren.

In der Regel müssen Transformer etwas aus den Daten lernen, bevor sie transformieren können. Daher ist es notwendig, zuerst .fit() und anschließend .transform() anzuwenden. Um dies zu vereinfachen, verfügen Transformer auch über die Methode .fit_transform().
.fit_transform() führt zum gleichen Ergebnis wie die sequentielle Anwendung von .fit() und .transform(), ist jedoch manchmal schneller und wird daher gegenüber .fit().transform() bevorzugt.

transformer.fit(X) # Train the transformer
transformer.transform(X) # Transform the data using an already trained transformer
transformer.fit_transform(X) # Train the transformer and transform the data
Note
Hinweis

Transformer werden üblicherweise verwendet, um das X-Array zu transformieren. Wie wir jedoch am Beispiel des LabelEncoder sehen werden, sind einige Transformer für das y-Array konzipiert.

nan-Werte, die im Trainingsdatensatz im Bild angezeigt werden, kennzeichnen fehlende Daten in Python.

Prädiktor

Ein Prädiktor ist ein Schätzer (verfügt über die Methode .fit()), der zusätzlich die Methode .predict() besitzt. Die Methode .predict() wird zur Erstellung von Vorhersagen verwendet.

predictor.fit(X, y) # Training the predictor
predictor.predict(X_new) # Predicting the target for new instances once the predictor is trained. 

Modell

Ein Modell ist eine Art von Prädiktor, der zusätzlich die Methode .score() beinhaltet. Diese Methode berechnet einen Wert (Metrik), um die Leistung des Prädiktors zu messen.

model.fit(X, y) # Train the model
model.score(X, y) # Calculate a score for the trained model on X, y set.

Wie im vorherigen Kapitel erwähnt, ist Genauigkeit eine Metrik, die den Prozentsatz der korrekten Vorhersagen angibt.

Die Vorverarbeitungsphase umfasst die Arbeit mit Transformatoren, während wir in der Modellierungsphase mit Prädiktoren (genauer gesagt mit Modellen) arbeiten.

question mark

Wählen Sie alle korrekten Aussagen aus.

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1
some-alt