Modellen
Veeg om het menu te tonen
De basisprincipes van gegevensvoorbewerking en het opzetten van pipelines zijn nu behandeld. De volgende stap is modelleren.
Een model in Scikit-learn is een schatter die de methoden .predict() en .score() biedt, samen met .fit() die door alle schatters wordt overgenomen.
.fit()
Zodra de data is voorbewerkt en klaar is voor het model, is de eerste stap bij het bouwen van een model het trainen van een model. Dit gebeurt met behulp van .fit(X, y).
Voor supervised learning (regressie, classificatie) vereist .fit() zowel X als y.
Voor unsupervised learning (bijvoorbeeld clustering) gebruik je alleen .fit(X). Het meegeven van y veroorzaakt geen fout — deze wordt simpelweg genegeerd.
Tijdens het trainen leert het model patronen die nodig zijn voor voorspellingen. Wat het model leert en hoe lang het trainen duurt, hangt af van het algoritme. Training is vaak het traagste onderdeel van machine learning, vooral bij grote datasets.
.predict()
Na training wordt .predict() gebruikt om voorspellingen te genereren:
model.fit(X, y)
y_pred = model.predict(X_new)
.score()
.score() evalueert een getraind model, meestal op een testset:
model.fit(X, y)
model.score(X_test, y_test)
Vergelijkt voorspellingen met werkelijke doelen. Standaard is de metriek nauwkeurigheid voor classificatie.
X_test verwijst naar de subset van de dataset, bekend als de testset, die wordt gebruikt om de prestaties van een model na training te evalueren. Het bevat de kenmerken (invoergegevens). y_test is de bijbehorende subset van ware labels voor X_test. Samen beoordelen ze hoe goed het model nieuwe, ongeziene data voorspelt.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.