Gradientnedstigning
Gradient Descent är en optimeringsalgoritm som minimerar en funktion genom att iterativt justera dess parametrar i riktning mot den brantaste minskningen. Den är grundläggande inom maskininlärning för att möjliggöra effektiv inlärning från data.
Förståelse av gradienter
Gradienten av en funktion representerar riktningen och lutningen av funktionen vid en given punkt. Den visar åt vilket håll man ska röra sig för att minimera funktionen.
För en enkel funktion:
J(θ)=θ2Derivatan (gradienten) är:
∇J(θ)=dθd(θ2)=2θDetta innebär att för varje värde på θ, visar gradienten hur vi ska justera θ för att närma oss minimum.
Gradient Descent-formel
Regeln för viktuppdatering är:
θ←θ−α∇J(θ)Där:
- θ – modellparameter;
- α – inlärningshastighet (stegstorlek);
- ∇J(θ) – gradienten av funktionen vi vill minimera.
För vår funktion:
θnew=θold−α(2θold)Detta innebär att vi uppdaterar θ iterativt genom att subtrahera den skalade gradienten.
Stegvis förflyttning – En visuell
Exempel med startvärden: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Efter några iterationer närmar vi oss θ=0, minimum.
Inlärningshastighet – Välj α med omsorg
- För stort α – överskjuter, konvergerar aldrig;
- För litet α – konvergerar för långsamt;
- Optimalt α – balanserar hastighet och noggrannhet.
När slutar gradientnedstigning?
Gradientnedstigning slutar när:
∇J(θ)≈0Detta innebär att ytterligare uppdateringar är obetydliga och att vi har hittat ett minimum.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain how to choose a good learning rate?
What happens if the gradient never reaches zero?
Can you show a real-world example where gradient descent is used?
Awesome!
Completion rate improved to 1.96
Gradientnedstigning
Svep för att visa menyn
Gradient Descent är en optimeringsalgoritm som minimerar en funktion genom att iterativt justera dess parametrar i riktning mot den brantaste minskningen. Den är grundläggande inom maskininlärning för att möjliggöra effektiv inlärning från data.
Förståelse av gradienter
Gradienten av en funktion representerar riktningen och lutningen av funktionen vid en given punkt. Den visar åt vilket håll man ska röra sig för att minimera funktionen.
För en enkel funktion:
J(θ)=θ2Derivatan (gradienten) är:
∇J(θ)=dθd(θ2)=2θDetta innebär att för varje värde på θ, visar gradienten hur vi ska justera θ för att närma oss minimum.
Gradient Descent-formel
Regeln för viktuppdatering är:
θ←θ−α∇J(θ)Där:
- θ – modellparameter;
- α – inlärningshastighet (stegstorlek);
- ∇J(θ) – gradienten av funktionen vi vill minimera.
För vår funktion:
θnew=θold−α(2θold)Detta innebär att vi uppdaterar θ iterativt genom att subtrahera den skalade gradienten.
Stegvis förflyttning – En visuell
Exempel med startvärden: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Efter några iterationer närmar vi oss θ=0, minimum.
Inlärningshastighet – Välj α med omsorg
- För stort α – överskjuter, konvergerar aldrig;
- För litet α – konvergerar för långsamt;
- Optimalt α – balanserar hastighet och noggrannhet.
När slutar gradientnedstigning?
Gradientnedstigning slutar när:
∇J(θ)≈0Detta innebär att ytterligare uppdateringar är obetydliga och att vi har hittat ett minimum.
Tack för dina kommentarer!