Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Fejlen ved GridSearchCV | Modellering
Quizzes & Challenges
Quizzes
Challenges
/
Introduktion til Maskinlæring med Python

bookFejlen ved GridSearchCV

Før du bruger GridSearchCV, bemærk at KNeighborsClassifier har flere hyperparametre end n_neighbors. To vigtige er weights og p.

Weights

Som standard anvender klassifikatoren weights='uniform', hvilket betyder, at alle k naboer stemmer lige meget. Indstilling af weights='distance' giver tætteste naboer større indflydelse, hvilket ofte forbedrer forudsigelser, når nærliggende punkter er mere relevante.

P

Parameteren p styrer afstandsmetrikken:

  • p=1: Manhattan-afstand;
  • p=2: Euklidisk afstand.

En p-parameter kan antage ethvert positivt heltal. Der findes mange forskellige afstande, men de er sværere at visualisere end p=1 eller p=2.

Note
Bemærk

Vær ikke bekymret, hvis detaljerne om weights eller p er uklare. De introduceres blot for at vise, at der findes mere end én hyperparameter, der kan påvirke modellens forudsigelser. Betragt dem som eksempler på hyperparametre, der kan justeres.

Tidligere blev kun n_neighbors justeret. For at søge over alle tre hyperparametre, anvendes:

param_grid = {
    'n_neighbors': [1, 3, 5, 7],
    'weights': ['distance', 'uniform'],
    'p': [1, 2]
}

GridSearchCV afprøver alle mulige kombinationer for at finde den bedste, så den vil prøve alle disse:

Et større grid som:

param_grid = {
    'n_neighbors': [...],
    'weights': ['distance', 'uniform'],
    'p': [1, 2, 3, 4, 5]
}

skaber 100 kombinationer. Med 5-fold cross-validation bliver modellen trænet 500 gange. Dette er acceptabelt for små datasæt, men for større datasæt bliver det for langsomt.

For at reducere beregningstiden tester RandomizedSearchCV kun et tilfældigt delmængde af kombinationer, hvilket normalt giver stærke resultater meget hurtigere end et fuldt grid search.

question mark

Hovedproblemet med GridSearchCV er, at den afprøver alle mulige kombinationer (af det, der er angivet i param_grid), hvilket kan tage meget lang tid. Er denne påstand korrekt?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 7

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 3.13

bookFejlen ved GridSearchCV

Stryg for at vise menuen

Før du bruger GridSearchCV, bemærk at KNeighborsClassifier har flere hyperparametre end n_neighbors. To vigtige er weights og p.

Weights

Som standard anvender klassifikatoren weights='uniform', hvilket betyder, at alle k naboer stemmer lige meget. Indstilling af weights='distance' giver tætteste naboer større indflydelse, hvilket ofte forbedrer forudsigelser, når nærliggende punkter er mere relevante.

P

Parameteren p styrer afstandsmetrikken:

  • p=1: Manhattan-afstand;
  • p=2: Euklidisk afstand.

En p-parameter kan antage ethvert positivt heltal. Der findes mange forskellige afstande, men de er sværere at visualisere end p=1 eller p=2.

Note
Bemærk

Vær ikke bekymret, hvis detaljerne om weights eller p er uklare. De introduceres blot for at vise, at der findes mere end én hyperparameter, der kan påvirke modellens forudsigelser. Betragt dem som eksempler på hyperparametre, der kan justeres.

Tidligere blev kun n_neighbors justeret. For at søge over alle tre hyperparametre, anvendes:

param_grid = {
    'n_neighbors': [1, 3, 5, 7],
    'weights': ['distance', 'uniform'],
    'p': [1, 2]
}

GridSearchCV afprøver alle mulige kombinationer for at finde den bedste, så den vil prøve alle disse:

Et større grid som:

param_grid = {
    'n_neighbors': [...],
    'weights': ['distance', 'uniform'],
    'p': [1, 2, 3, 4, 5]
}

skaber 100 kombinationer. Med 5-fold cross-validation bliver modellen trænet 500 gange. Dette er acceptabelt for små datasæt, men for større datasæt bliver det for langsomt.

For at reducere beregningstiden tester RandomizedSearchCV kun et tilfældigt delmængde af kombinationer, hvilket normalt giver stærke resultater meget hurtigere end et fuldt grid search.

question mark

Hovedproblemet med GridSearchCV er, at den afprøver alle mulige kombinationer (af det, der er angivet i param_grid), hvilket kan tage meget lang tid. Er denne påstand korrekt?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 7
some-alt