Modelle
Die Grundlagen der Datenvorverarbeitung und des Aufbaus von Pipelines wurden nun behandelt. Der nächste Schritt ist das Modellieren.
Ein Modell in Scikit-learn ist ein Estimator, der die Methoden .predict()
und .score()
bereitstellt sowie .fit()
, das von allen Estimatoren geerbt wird.
.fit()
Sobald die Daten vorverarbeitet und für das Modell bereit sind, besteht der erste Schritt beim Erstellen eines Modells im Trainieren eines Modells. Dies erfolgt mit .fit(X, y)
.
Um ein Modell für eine überwachte Lernaufgabe (z. B. Regression, Klassifikation) zu trainieren, müssen sowohl X
als auch y
an die Methode .fit()
übergeben werden.
Bei einer unüberwachten Lernaufgabe (z. B. Clustering) sind keine gelabelten Daten erforderlich, daher kann nur die Variable X
übergeben werden, .fit(X)
. Die Verwendung von .fit(X, y)
führt jedoch nicht zu einem Fehler. Das Modell ignoriert in diesem Fall einfach die Variable y
.
Während des Trainings lernt ein Modell alles, was es für Vorhersagen benötigt. Was das Modell lernt und die Trainingsdauer hängen vom gewählten Algorithmus ab. Für jede Aufgabe stehen zahlreiche Modelle auf Basis verschiedener Algorithmen zur Verfügung. Einige trainieren langsamer, andere schneller.
Das Training ist jedoch im Allgemeinen der zeitaufwändigste Aspekt des maschinellen Lernens. Bei großen Trainingsdatensätzen kann das Training eines Modells Minuten, Stunden oder sogar Tage dauern.
.predict()
Sobald das Modell mit der Methode .fit()
trainiert wurde, kann es Vorhersagen durchführen. Vorhersagen sind so einfach wie das Aufrufen der Methode .predict()
:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
In der Regel soll für neue Instanzen, X_new
, ein Zielwert vorhergesagt werden.
.score()
Die Methode .score()
dient zur Messung der Leistungsfähigkeit eines trainierten Modells. In der Regel wird sie auf dem Testdatensatz berechnet (die folgenden Kapitel erläutern, was das ist). Die Syntax lautet:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
Die Methode .score()
benötigt tatsächliche Zielwerte (y_test
im Beispiel). Sie berechnet die Vorhersage für die X_test
-Instanzen und vergleicht diese Vorhersage mit dem wahren Zielwert (y_test
) anhand einer Metrik. Standardmäßig ist diese Metrik die Genauigkeit bei Klassifikationsaufgaben.
X_test
bezeichnet den Teil des Datensatzes, der als Testdatensatz bekannt ist und zur Bewertung der Modellleistung nach dem Training verwendet wird. Er enthält die Merkmale (Eingabedaten). y_test
ist der entsprechende Teil der wahren Labels für X_test
. Zusammen ermöglichen sie die Bewertung, wie gut das Modell neue, unbekannte Daten vorhersagt.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.13
Modelle
Swipe um das Menü anzuzeigen
Die Grundlagen der Datenvorverarbeitung und des Aufbaus von Pipelines wurden nun behandelt. Der nächste Schritt ist das Modellieren.
Ein Modell in Scikit-learn ist ein Estimator, der die Methoden .predict()
und .score()
bereitstellt sowie .fit()
, das von allen Estimatoren geerbt wird.
.fit()
Sobald die Daten vorverarbeitet und für das Modell bereit sind, besteht der erste Schritt beim Erstellen eines Modells im Trainieren eines Modells. Dies erfolgt mit .fit(X, y)
.
Um ein Modell für eine überwachte Lernaufgabe (z. B. Regression, Klassifikation) zu trainieren, müssen sowohl X
als auch y
an die Methode .fit()
übergeben werden.
Bei einer unüberwachten Lernaufgabe (z. B. Clustering) sind keine gelabelten Daten erforderlich, daher kann nur die Variable X
übergeben werden, .fit(X)
. Die Verwendung von .fit(X, y)
führt jedoch nicht zu einem Fehler. Das Modell ignoriert in diesem Fall einfach die Variable y
.
Während des Trainings lernt ein Modell alles, was es für Vorhersagen benötigt. Was das Modell lernt und die Trainingsdauer hängen vom gewählten Algorithmus ab. Für jede Aufgabe stehen zahlreiche Modelle auf Basis verschiedener Algorithmen zur Verfügung. Einige trainieren langsamer, andere schneller.
Das Training ist jedoch im Allgemeinen der zeitaufwändigste Aspekt des maschinellen Lernens. Bei großen Trainingsdatensätzen kann das Training eines Modells Minuten, Stunden oder sogar Tage dauern.
.predict()
Sobald das Modell mit der Methode .fit()
trainiert wurde, kann es Vorhersagen durchführen. Vorhersagen sind so einfach wie das Aufrufen der Methode .predict()
:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
In der Regel soll für neue Instanzen, X_new
, ein Zielwert vorhergesagt werden.
.score()
Die Methode .score()
dient zur Messung der Leistungsfähigkeit eines trainierten Modells. In der Regel wird sie auf dem Testdatensatz berechnet (die folgenden Kapitel erläutern, was das ist). Die Syntax lautet:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
Die Methode .score()
benötigt tatsächliche Zielwerte (y_test
im Beispiel). Sie berechnet die Vorhersage für die X_test
-Instanzen und vergleicht diese Vorhersage mit dem wahren Zielwert (y_test
) anhand einer Metrik. Standardmäßig ist diese Metrik die Genauigkeit bei Klassifikationsaufgaben.
X_test
bezeichnet den Teil des Datensatzes, der als Testdatensatz bekannt ist und zur Bewertung der Modellleistung nach dem Training verwendet wird. Er enthält die Merkmale (Eingabedaten). y_test
ist der entsprechende Teil der wahren Labels für X_test
. Zusammen ermöglichen sie die Bewertung, wie gut das Modell neue, unbekannte Daten vorhersagt.
Danke für Ihr Feedback!