Summary  
This chapter explains scikit-learn’s core API objects—estimators (with fit), transformers (fit/transform), predictors (predict), and models (score)—and how they fit into a data preprocessing and modeling workflow.  

General domain of usage  
Machine learning pipelines

Die **scikit-learn** (`sklearn`) Bibliothek bietet Werkzeuge für die Vorverarbeitung und Modellierung. Die Hauptobjekttypen sind **Estimator**, **Transformer**, **Predictor** und **Model**.

## Estimator

Jede Klasse mit `.fit()` ist ein Estimator — sie **lernt aus Daten**.

```python
estimator.fit(X, y)     # supervised  
estimator.fit(X)        # unsupervised
```

## Transformer

Ein Transformer verfügt über `.fit()` und `.transform()`, sowie `.fit_transform()`, um beides gleichzeitig auszuführen.

Transformer werden üblicherweise verwendet, um das `X`-Array zu transformieren. Wie wir jedoch am Beispiel von `LabelEncoder` sehen werden, sind einige Transformer für das `y`-Array konzipiert.

Hinweis

`nan`-Werte, die im Trainingsdatensatz im Bild angezeigt werden, weisen auf fehlende Daten in Python hin.

## Prädiktor

Ein Prädiktor ist ein Schätzer mit `.predict()` zur Generierung von Ausgaben.

```python
predictor.fit(X, y)
predictor.predict(X_new)
```

## Modell

Ein Modell ist ein Prädiktor mit `.score()`, der die Leistung bewertet.

```python
model.fit(X, y)
model.score(X, y)
```

Wie im vorherigen Kapitel erwähnt, ist **Genauigkeit** eine Metrik, die den Prozentsatz der korrekten Vorhersagen angibt.

`.fit()`, `.transform()`, `.fit_transform()`

Die **Vorverarbeitungsphase** umfasst die Arbeit mit Transformern, während in der **Modellierungsphase** mit Prädiktoren (genauer gesagt mit Modellen) gearbeitet wird.

Maschinelles Lernen wird heute überall eingesetzt. Möchten Sie es selbst erlernen? Dieser Kurs ist eine Einführung in die Welt des maschinellen Lernens, um grundlegende Konzepte zu verstehen, mit Scikit-learn – der beliebtesten Bibliothek für ML – zu arbeiten und Ihr erstes Projekt im Bereich Machine Learning zu erstellen.
Dieser Kurs richtet sich an Studierende mit Grundkenntnissen in Python, Pandas und Numpy.

Erlernen der Konzepte des maschinellen Lernens und des Workflows von ML-Projekten.

Die Vorverarbeitung ist vermutlich die wichtigste Phase eines ML-Projekts. Dieses Kapitel behandelt die notwendigen Vorverarbeitungsschritte für nahezu jedes Datenset.

Eine Pipeline ist eine elegante Methode, um alle Vorverarbeitungsschritte sowie ein Modell zu kombinieren. Pipelines erleichtern das Trainieren und die Nutzung eines Modells erheblich.

Die Modellierung ist die spannendste Phase eines ML-Projekts. Lernen Sie, das Modell zu erstellen, zu optimieren und zu evaluieren.

Scikit-learn-Konzepte

Estimator

Transformer

Prädiktor

Modell