Gradient descent
Gradient Descent er en optimaliseringsalgoritme som minimerer en funksjon ved å justere parameterne sine iterativt i retning av den bratteste nedgangen. Den er grunnleggende i maskinlæring for å gjøre det mulig for modeller å lære effektivt fra data.
Forståelse av gradienter
Gradienten til en funksjon representerer retningen og brattheten til funksjonen på et gitt punkt. Den forteller oss hvilken vei vi skal bevege oss for å minimere funksjonen.
For en enkel funksjon:
J(θ)=θ2Derivert (gradienten) er:
∇J(θ)=dθd(θ2)=2θDette betyr at for enhver verdi av θ, forteller gradienten oss hvordan vi skal justere θ for å gå nedover mot minimum.
Gradient Descent-formel
Regel for oppdatering av vekt er:
θ←θ−α∇J(θ)Hvor:
- θ - modellparameter;
- α - læringsrate (størrelse på steg);
- ∇J(θ) - gradienten til funksjonen vi ønsker å minimere.
For vår funksjon:
θnew=θold−α(2θold)Dette betyr at vi oppdaterer θ iterativt ved å trekke fra den skalerte gradienten.
Stegvis bevegelse – En visuell
Eksempel med startverdier: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Etter noen iterasjoner nærmer vi oss θ=0, minimum.
Læringsrate – Velg α med omhu
- For stor α – overskrider, konvergerer aldri;
- For liten α – konvergerer for sakte;
- Optimal α – balanserer hastighet og nøyaktighet.
Når stopper gradient descent?
Gradient descent stopper når:
∇J(θ)≈0Dette betyr at videre oppdateringer er ubetydelige og vi har funnet et minimum.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain how to choose a good learning rate?
What happens if the gradient never reaches zero?
Can you show a real-world example where gradient descent is used?
Awesome!
Completion rate improved to 1.96
Gradient descent
Sveip for å vise menyen
Gradient Descent er en optimaliseringsalgoritme som minimerer en funksjon ved å justere parameterne sine iterativt i retning av den bratteste nedgangen. Den er grunnleggende i maskinlæring for å gjøre det mulig for modeller å lære effektivt fra data.
Forståelse av gradienter
Gradienten til en funksjon representerer retningen og brattheten til funksjonen på et gitt punkt. Den forteller oss hvilken vei vi skal bevege oss for å minimere funksjonen.
For en enkel funksjon:
J(θ)=θ2Derivert (gradienten) er:
∇J(θ)=dθd(θ2)=2θDette betyr at for enhver verdi av θ, forteller gradienten oss hvordan vi skal justere θ for å gå nedover mot minimum.
Gradient Descent-formel
Regel for oppdatering av vekt er:
θ←θ−α∇J(θ)Hvor:
- θ - modellparameter;
- α - læringsrate (størrelse på steg);
- ∇J(θ) - gradienten til funksjonen vi ønsker å minimere.
For vår funksjon:
θnew=θold−α(2θold)Dette betyr at vi oppdaterer θ iterativt ved å trekke fra den skalerte gradienten.
Stegvis bevegelse – En visuell
Eksempel med startverdier: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Etter noen iterasjoner nærmer vi oss θ=0, minimum.
Læringsrate – Velg α med omhu
- For stor α – overskrider, konvergerer aldri;
- For liten α – konvergerer for sakte;
- Optimal α – balanserer hastighet og nøyaktighet.
Når stopper gradient descent?
Gradient descent stopper når:
∇J(θ)≈0Dette betyr at videre oppdateringer er ubetydelige og vi har funnet et minimum.
Takk for tilbakemeldingene dine!