Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Modellen | Modelleren
ML-Introductie met Scikit-learn

bookModellen

De basisprincipes van gegevensvoorbewerking en het opzetten van pipelines zijn nu behandeld. De volgende stap is modelleren.

Een model in Scikit-learn is een schatter die de methoden .predict() en .score() biedt, samen met .fit() die wordt geërfd van alle schatters.

.fit()

Zodra de gegevens zijn voorbewerkt en klaar zijn voor het model, is de eerste stap bij het bouwen van een model het trainen van een model. Dit gebeurt met behulp van .fit(X, y).

Note
Opmerking

Om een model te trainen voor een supervised learning taak (bijv. regressie, classificatie), moet je zowel X als y meegeven aan de .fit()-methode.

Bij een unsupervised learning taak (bijv. clustering) is gelabelde data niet vereist, dus kun je alleen de X-variabele meegeven, .fit(X). Het gebruik van .fit(X, y) zal echter geen foutmelding geven. Het model zal de y-variabele gewoon negeren.

Tijdens het trainen leert een model alles wat nodig is om voorspellingen te doen. Wat het model leert en de duur van de training hangen af van het gekozen algoritme. Voor elke taak zijn er verschillende modellen beschikbaar, gebaseerd op verschillende algoritmen. Sommige trainen langzamer, andere sneller.

Toch is trainen over het algemeen het meest tijdrovende aspect van machine learning. Als de trainingsset groot is, kan het trainen van een model minuten, uren of zelfs dagen duren.

.predict()

Zodra het model is getraind met de .fit()-methode, kan het voorspellingen doen. Voorspellen is net zo eenvoudig als het aanroepen van de .predict()-methode:

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

Meestal wil je een doelvariabele voorspellen voor nieuwe instanties, X_new.

.score()

De .score()-methode wordt gebruikt om de prestaties van een getraind model te meten. Gewoonlijk wordt deze berekend op de testset (de volgende hoofdstukken leggen uit wat dit is). De syntax is als volgt:

model.fit(X, y) # Training the model
model.score(X_test, y_test)

De .score()-methode vereist werkelijke doelwaarden (y_test in het voorbeeld). Het berekent de voorspelling voor X_test-instanties en vergelijkt deze voorspelling met het ware doel (y_test) met behulp van een bepaalde metriek. Standaard is deze metriek nauwkeurigheid voor classificatie.

Note
Opmerking

X_test verwijst naar de subset van de dataset, bekend als de testset, die wordt gebruikt om de prestaties van een model na training te evalueren. Het bevat de kenmerken (invoergegevens). y_test is de bijbehorende subset van ware labels voor X_test. Samen beoordelen ze hoe goed het model nieuwe, ongeziene data voorspelt.

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 1

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain more about what an estimator is in Scikit-learn?

What are some common algorithms used for modeling in Scikit-learn?

How does the .score() method differ for regression and classification tasks?

Awesome!

Completion rate improved to 3.13

bookModellen

Veeg om het menu te tonen

De basisprincipes van gegevensvoorbewerking en het opzetten van pipelines zijn nu behandeld. De volgende stap is modelleren.

Een model in Scikit-learn is een schatter die de methoden .predict() en .score() biedt, samen met .fit() die wordt geërfd van alle schatters.

.fit()

Zodra de gegevens zijn voorbewerkt en klaar zijn voor het model, is de eerste stap bij het bouwen van een model het trainen van een model. Dit gebeurt met behulp van .fit(X, y).

Note
Opmerking

Om een model te trainen voor een supervised learning taak (bijv. regressie, classificatie), moet je zowel X als y meegeven aan de .fit()-methode.

Bij een unsupervised learning taak (bijv. clustering) is gelabelde data niet vereist, dus kun je alleen de X-variabele meegeven, .fit(X). Het gebruik van .fit(X, y) zal echter geen foutmelding geven. Het model zal de y-variabele gewoon negeren.

Tijdens het trainen leert een model alles wat nodig is om voorspellingen te doen. Wat het model leert en de duur van de training hangen af van het gekozen algoritme. Voor elke taak zijn er verschillende modellen beschikbaar, gebaseerd op verschillende algoritmen. Sommige trainen langzamer, andere sneller.

Toch is trainen over het algemeen het meest tijdrovende aspect van machine learning. Als de trainingsset groot is, kan het trainen van een model minuten, uren of zelfs dagen duren.

.predict()

Zodra het model is getraind met de .fit()-methode, kan het voorspellingen doen. Voorspellen is net zo eenvoudig als het aanroepen van de .predict()-methode:

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

Meestal wil je een doelvariabele voorspellen voor nieuwe instanties, X_new.

.score()

De .score()-methode wordt gebruikt om de prestaties van een getraind model te meten. Gewoonlijk wordt deze berekend op de testset (de volgende hoofdstukken leggen uit wat dit is). De syntax is als volgt:

model.fit(X, y) # Training the model
model.score(X_test, y_test)

De .score()-methode vereist werkelijke doelwaarden (y_test in het voorbeeld). Het berekent de voorspelling voor X_test-instanties en vergelijkt deze voorspelling met het ware doel (y_test) met behulp van een bepaalde metriek. Standaard is deze metriek nauwkeurigheid voor classificatie.

Note
Opmerking

X_test verwijst naar de subset van de dataset, bekend als de testset, die wordt gebruikt om de prestaties van een model na training te evalueren. Het bevat de kenmerken (invoergegevens). y_test is de bijbehorende subset van ware labels voor X_test. Samen beoordelen ze hoe goed het model nieuwe, ongeziene data voorspelt.

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 1
some-alt