Lernen Herausforderung: Automatische Hyperparameter-Optimierung

Anstatt die Hyperparameter unseres Modells manuell auszuwählen, bietet die Randomisierte Suche (RandomizedSearchCV) eine effizientere Methode zur Bestimmung einer optimalen Konfiguration. Im Gegensatz zur Gitter-Suche (GridSearchCV), die systematisch alle möglichen Kombinationen von Hyperparametern prüft, wählt die randomisierte Suche eine zufällige Teilmenge dieser Kombinationen aus. Dieser Ansatz reduziert die Rechenkosten erheblich und liefert dennoch überzeugende Ergebnisse.

Gerade bei neuronalen Netzen, bei denen die Anzahl möglicher Hyperparameter-Kombinationen enorm sein kann, ist das vollständige Testen aller Optionen häufig unpraktikabel. Die randomisierte Suche umgeht dieses Problem, indem sie eine festgelegte Anzahl zufällig ausgewählter Hyperparametersätze prüft und so eine Balance zwischen Exploration und Effizienz schafft.

RandomizedSearchCV(
    estimator=model, 
    param_distributions=randomized_parameters, 
    n_iter=number_of_models_to_test,  # Number of random combinations to evaluate
    scoring='accuracy',  # Evaluation metric
    random_state=42,  # Ensures reproducibility
)

estimator: das zu optimierende Modell (z. B. MLPClassifier);
param_distributions: ein Dictionary, in dem die Schlüssel die Namen der Hyperparameter und die Werte Listen der zu ziehenden Werte sind;
n_iter: gibt an, wie viele zufällige Kombinationen getestet werden sollen. Ein höherer Wert erhöht die Wahrscheinlichkeit, eine optimale Kombination zu finden, erfordert jedoch mehr Rechenleistung;
scoring: definiert die Bewertungsmetrik (z. B. 'accuracy' für Klassifikationsaufgaben).

Aufgabe

Swipe to start coding

Ihr Ziel ist die Abstimmung der Hyperparameter eines Multilayer-Perzeptrons (MLP) mithilfe von RandomizedSearchCV aus scikit-learn. Legen Sie dazu das Parameter-Raster param_distributions wie folgt fest:

'hidden_layer_sizes': (20, 20), (25, 25), (30, 30)
'learning_rate_init': 0.02, 0.01, 0.005
'max_iter': 10, 30, 50

Initialisieren Sie das Modell mit MLPClassifier(). Wenden Sie anschließend RandomizedSearchCV auf das Modell mlp unter Verwendung von param_distributions an, setzen Sie n_iter=4, verwenden Sie als Bewertungsmetrik 'accuracy' und random_state=1. Führen Sie die Suche auf den Trainingsdaten durch, geben Sie die besten Parameter aus, trainieren Sie das ausgewählte Modell erneut mit den vollständigen Trainingsdaten und bewerten Sie dessen Genauigkeit auf Trainings- und Testdaten.

Lösung

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3

single

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between RandomizedSearchCV and GridSearchCV in more detail?

How do I choose the right number for n_iter in RandomizedSearchCV?

What types of problems is RandomizedSearchCV best suited for?

Awesome!

Completion rate improved to 4

Swipe um das Menü anzuzeigen

RandomizedSearchCV(
    estimator=model, 
    param_distributions=randomized_parameters, 
    n_iter=number_of_models_to_test,  # Number of random combinations to evaluate
    scoring='accuracy',  # Evaluation metric
    random_state=42,  # Ensures reproducibility
)

estimator: das zu optimierende Modell (z. B. MLPClassifier);
param_distributions: ein Dictionary, in dem die Schlüssel die Namen der Hyperparameter und die Werte Listen der zu ziehenden Werte sind;
n_iter: gibt an, wie viele zufällige Kombinationen getestet werden sollen. Ein höherer Wert erhöht die Wahrscheinlichkeit, eine optimale Kombination zu finden, erfordert jedoch mehr Rechenleistung;
scoring: definiert die Bewertungsmetrik (z. B. 'accuracy' für Klassifikationsaufgaben).