Modellen
De basisprincipes van gegevensvoorbewerking en het opzetten van pipelines zijn nu behandeld. De volgende stap is modelleren.
Een model in Scikit-learn is een schatter die de methoden .predict()
en .score()
biedt, samen met .fit()
die wordt geërfd van alle schatters.
.fit()
Zodra de gegevens zijn voorbewerkt en klaar zijn voor het model, is de eerste stap bij het bouwen van een model het trainen van een model. Dit gebeurt met behulp van .fit(X, y)
.
Om een model te trainen voor een supervised learning taak (bijv. regressie, classificatie), moet je zowel X
als y
meegeven aan de .fit()
-methode.
Bij een unsupervised learning taak (bijv. clustering) is gelabelde data niet vereist, dus kun je alleen de X
-variabele meegeven, .fit(X)
. Het gebruik van .fit(X, y)
zal echter geen foutmelding geven. Het model zal de y
-variabele gewoon negeren.
Tijdens het trainen leert een model alles wat nodig is om voorspellingen te doen. Wat het model leert en de duur van de training hangen af van het gekozen algoritme. Voor elke taak zijn er verschillende modellen beschikbaar, gebaseerd op verschillende algoritmen. Sommige trainen langzamer, andere sneller.
Toch is trainen over het algemeen het meest tijdrovende aspect van machine learning. Als de trainingsset groot is, kan het trainen van een model minuten, uren of zelfs dagen duren.
.predict()
Zodra het model is getraind met de .fit()
-methode, kan het voorspellingen doen. Voorspellen is net zo eenvoudig als het aanroepen van de .predict()
-methode:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Meestal wil je een doelvariabele voorspellen voor nieuwe instanties, X_new
.
.score()
De .score()
-methode wordt gebruikt om de prestaties van een getraind model te meten. Gewoonlijk wordt deze berekend op de testset (de volgende hoofdstukken leggen uit wat dit is). De syntax is als volgt:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
De .score()
-methode vereist werkelijke doelwaarden (y_test
in het voorbeeld). Het berekent de voorspelling voor X_test
-instanties en vergelijkt deze voorspelling met het ware doel (y_test
) met behulp van een bepaalde metriek. Standaard is deze metriek nauwkeurigheid voor classificatie.
X_test
verwijst naar de subset van de dataset, bekend als de testset, die wordt gebruikt om de prestaties van een model na training te evalueren. Het bevat de kenmerken (invoergegevens). y_test
is de bijbehorende subset van ware labels voor X_test
. Samen beoordelen ze hoe goed het model nieuwe, ongeziene data voorspelt.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain more about what an estimator is in Scikit-learn?
What are some common algorithms used for modeling in Scikit-learn?
How does the .score() method differ for regression and classification tasks?
Awesome!
Completion rate improved to 3.13
Modellen
Veeg om het menu te tonen
De basisprincipes van gegevensvoorbewerking en het opzetten van pipelines zijn nu behandeld. De volgende stap is modelleren.
Een model in Scikit-learn is een schatter die de methoden .predict()
en .score()
biedt, samen met .fit()
die wordt geërfd van alle schatters.
.fit()
Zodra de gegevens zijn voorbewerkt en klaar zijn voor het model, is de eerste stap bij het bouwen van een model het trainen van een model. Dit gebeurt met behulp van .fit(X, y)
.
Om een model te trainen voor een supervised learning taak (bijv. regressie, classificatie), moet je zowel X
als y
meegeven aan de .fit()
-methode.
Bij een unsupervised learning taak (bijv. clustering) is gelabelde data niet vereist, dus kun je alleen de X
-variabele meegeven, .fit(X)
. Het gebruik van .fit(X, y)
zal echter geen foutmelding geven. Het model zal de y
-variabele gewoon negeren.
Tijdens het trainen leert een model alles wat nodig is om voorspellingen te doen. Wat het model leert en de duur van de training hangen af van het gekozen algoritme. Voor elke taak zijn er verschillende modellen beschikbaar, gebaseerd op verschillende algoritmen. Sommige trainen langzamer, andere sneller.
Toch is trainen over het algemeen het meest tijdrovende aspect van machine learning. Als de trainingsset groot is, kan het trainen van een model minuten, uren of zelfs dagen duren.
.predict()
Zodra het model is getraind met de .fit()
-methode, kan het voorspellingen doen. Voorspellen is net zo eenvoudig als het aanroepen van de .predict()
-methode:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Meestal wil je een doelvariabele voorspellen voor nieuwe instanties, X_new
.
.score()
De .score()
-methode wordt gebruikt om de prestaties van een getraind model te meten. Gewoonlijk wordt deze berekend op de testset (de volgende hoofdstukken leggen uit wat dit is). De syntax is als volgt:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
De .score()
-methode vereist werkelijke doelwaarden (y_test
in het voorbeeld). Het berekent de voorspelling voor X_test
-instanties en vergelijkt deze voorspelling met het ware doel (y_test
) met behulp van een bepaalde metriek. Standaard is deze metriek nauwkeurigheid voor classificatie.
X_test
verwijst naar de subset van de dataset, bekend als de testset, die wordt gebruikt om de prestaties van een model na training te evalueren. Het bevat de kenmerken (invoergegevens). y_test
is de bijbehorende subset van ware labels voor X_test
. Samen beoordelen ze hoe goed het model nieuwe, ongeziene data voorspelt.
Bedankt voor je feedback!