Lära Justering av Hyperparametrar

Hyperparametrar i neurala nätverk

Neurala nätverk, inklusive perceptroner, har flera hyperparametrar som påverkar deras prestanda. Till skillnad från modellparametrar (t.ex. vikter och bias) ställs hyperparametrar in innan träningen påbörjas. Några viktiga hyperparametrar i perceptroner inkluderar:

Antal dolda lager och neuroner per lager: avgör modellens kapacitet att lära sig komplexa mönster. För få neuroner kan leda till underanpassning, medan för många kan orsaka överanpassning;
Inlärningshastighet: styr hur mycket modellen justerar vikterna under träningen. En hög inlärningshastighet kan göra träningen instabil, medan en låg kan leda till långsam konvergens:

Antal tränings-epoker: definierar hur många gånger modellen ser träningsdatan. Fler epoker möjliggör bättre inlärning men kan leda till överanpassning om de är för många.

Notering

Sammanfattningsvis uppstår överanpassning när en modell lär sig träningsdatan för väl och fångar upp brus istället för generella mönster. Detta resulterar i hög noggrannhet på träningsmängden men dålig generalisering till osedd data.

Underanpassning å andra sidan, inträffar när en modell är för enkel för att fånga de underliggande mönstren i datan. Detta leder till både dålig träning och testprestanda, vilket indikerar att modellen saknar tillräcklig kapacitet för effektiv inlärning.

Justering av hyperparametrar

Justering av hyperparametrar är avgörande för att optimera neurala nätverk. En dåligt justerad modell kan leda till underanpassning eller överanpassning.

Du kan ändra antalet epoker, antalet dolda lager, deras storlek och inlärningshastigheten för att observera hur noggrannheten på tränings- och testuppsättningarna förändras:


              1234567891011121314151617181920212223
            
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
import numpy as np
import warnings
# Ignore warnings
warnings.filterwarnings("ignore")
import os
os.system('wget https://codefinity-content-media.s3.eu-west-1.amazonaws.com/f9fc718f-c98b-470d-ba78-d84ef16ba45f/section_2/data.py 2>/dev/null')
from data import X_train, y_train, X_test, y_test

np.random.seed(10)
# Tweak hyperparameters here
model = MLPClassifier(max_iter=100, hidden_layer_sizes=(6, 6), learning_rate_init=0.01, random_state=10)

model.fit(X_train, y_train)

y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)
# Comparing train set accuracy and test set accuracy
train_accuracy = accuracy_score(y_train, y_pred_train)
test_accuracy = accuracy_score(y_test, y_pred_test)
print(f'Train accuracy: {train_accuracy:.3f}')
print(f'Test accuracy: {test_accuracy:.3f}')

Att hitta rätt kombination av hyperparametrar innebär systematisk experimentering och justeringar. Detta görs ofta med tekniker som grid search (testa alla möjliga kombinationer av hyperparametrar) och random search (testa ett slumpmässigt urval av hyperparametervärden).

I grunden följer träning av ett neuralt nätverk en iterativ cykel:

Definiera modellen med initiala hyperparametrar;
Träna modellen med träningsdata;
Utvärdera prestanda på en testuppsättning;
Justera hyperparametrar (t.ex. antal lager, inlärningshastighet);
Upprepa processen tills önskad prestanda uppnås.

Denna iterativa förfining säkerställer att modellen generaliserar väl till osedda data.

1. Vilket av följande är en hyperparameter snarare än en modellparameter?

2. En inlärningshastighet som är för hög kommer troligtvis att orsaka:

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 2

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4

Svep för att visa menyn