Gradientnedstigning
Gradient Descent er en optimeringsalgoritme, der minimerer en funktion ved iterativt at justere dens parametre i retning af det stejleste fald. Den er grundlæggende i maskinlæring, da den muliggør effektiv indlæring fra data for modeller.
Forståelse af gradienter
Gradienten af en funktion repræsenterer retningen og hældningen af funktionen på et givet punkt. Den angiver hvilken vej man skal bevæge sig for at minimere funktionen.
For en simpel funktion:
J(θ)=θ2Den afledte (gradienten) er:
∇J(θ)=dθd(θ2)=2θDette betyder, at for enhver værdi af θ, fortæller gradienten os, hvordan vi skal justere θ for at bevæge os nedad mod minimum.
Gradient Descent-formel
Vægtopdateringsreglen er:
θ←θ−α∇J(θ)Hvor:
- θ - modelparameter;
- α - læringsrate (skridtlængde);
- ∇J(θ) - gradienten af den funktion, vi ønsker at minimere.
For vores funktion:
θnew=θold−α(2θold)Dette betyder, at vi opdaterer θ iterativt ved at trække den skalerede gradient fra.
Trinvist bevægelse – En visuel
Eksempel med startværdier: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Efter nogle få iterationer nærmer vi os θ=0, minimum.
Læringsrate – Vælg α med omhu
- For stor α – overskrider, konvergerer aldrig;
- For lille α – konvergerer for langsomt;
- Optimal α – balancerer hastighed og nøjagtighed.
Hvornår stopper gradient descent?
Gradient descent stopper når:
∇J(θ)≈0Dette betyder, at yderligere opdateringer er ubetydelige, og vi har fundet et minimum.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 1.96
Gradientnedstigning
Stryg for at vise menuen
Gradient Descent er en optimeringsalgoritme, der minimerer en funktion ved iterativt at justere dens parametre i retning af det stejleste fald. Den er grundlæggende i maskinlæring, da den muliggør effektiv indlæring fra data for modeller.
Forståelse af gradienter
Gradienten af en funktion repræsenterer retningen og hældningen af funktionen på et givet punkt. Den angiver hvilken vej man skal bevæge sig for at minimere funktionen.
For en simpel funktion:
J(θ)=θ2Den afledte (gradienten) er:
∇J(θ)=dθd(θ2)=2θDette betyder, at for enhver værdi af θ, fortæller gradienten os, hvordan vi skal justere θ for at bevæge os nedad mod minimum.
Gradient Descent-formel
Vægtopdateringsreglen er:
θ←θ−α∇J(θ)Hvor:
- θ - modelparameter;
- α - læringsrate (skridtlængde);
- ∇J(θ) - gradienten af den funktion, vi ønsker at minimere.
For vores funktion:
θnew=θold−α(2θold)Dette betyder, at vi opdaterer θ iterativt ved at trække den skalerede gradient fra.
Trinvist bevægelse – En visuel
Eksempel med startværdier: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Efter nogle få iterationer nærmer vi os θ=0, minimum.
Læringsrate – Vælg α med omhu
- For stor α – overskrider, konvergerer aldrig;
- For lille α – konvergerer for langsomt;
- Optimal α – balancerer hastighed og nøjagtighed.
Hvornår stopper gradient descent?
Gradient descent stopper når:
∇J(θ)≈0Dette betyder, at yderligere opdateringer er ubetydelige, og vi har fundet et minimum.
Tak for dine kommentarer!