Gradientenabstieg
Gradient Descent ist ein Optimierungsalgorithmus, der eine Funktion minimiert, indem er ihre Parameter schrittweise in Richtung des steilsten Abstiegs anpasst. Er ist grundlegend im maschinellen Lernen, da er es Modellen ermöglicht, effizient aus Daten zu lernen.
Verständnis von Gradienten
Der Gradient einer Funktion stellt die Richtung und Steilheit der Funktion an einem bestimmten Punkt dar. Er zeigt an, in welche Richtung man sich bewegen muss, um die Funktion zu minimieren.
Für eine einfache Funktion:
J(θ)=θ2Die Ableitung (Gradient) ist:
∇J(θ)=dθd(θ2)=2θDas bedeutet, dass für jeden Wert von θ der Gradient angibt, wie θ angepasst werden muss, um zum Minimum abzusteigen.
Formel für Gradient Descent
Die Regel zur Aktualisierung der Gewichte lautet:
θ←θ−α∇J(θ)Dabei gilt:
- θ – Modellparameter;
- α – Lernrate (Schrittweite);
- ∇J(θ) – Gradient der zu minimierenden Funktion.
Für unsere Funktion:
θnew=θold−α(2θold)Das bedeutet, dass θ iterativ aktualisiert wird, indem der skalierte Gradient subtrahiert wird.
Schrittweises Vorgehen – Eine Visualisierung
Beispiel mit Startwerten: θ=3, α=0,3
- θ1=3−0,3(2×3)=3−1,8=1,2;
- θ2=1,2−0,3(2×1,2)=1,2−0,72=0,48;
- θ3=0,48−0,3(2×0,48)=0,48−0,288=0,192;
- θ4=0,192−0,3(2×0,192)=0,192−0,115=0,077.
Nach einigen Iterationen bewegen wir uns auf θ=0 zu, das Minimum.
Lernrate – Die kluge Wahl von α
- Zu groß α – Überschreitung, keine Konvergenz;
- Zu klein α – zu langsame Konvergenz;
- Optimal α – Ausgewogenheit zwischen Geschwindigkeit und Genauigkeit.
Wann stoppt der Gradientenabstieg?
Der Gradientenabstieg stoppt, wenn:
∇J(θ)≈0Dies bedeutet, dass weitere Aktualisierungen unbedeutend sind und ein Minimum gefunden wurde.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain how to choose a good learning rate?
What happens if the gradient never reaches zero?
Can you show a real-world example where gradient descent is used?
Awesome!
Completion rate improved to 1.96
Gradientenabstieg
Swipe um das Menü anzuzeigen
Gradient Descent ist ein Optimierungsalgorithmus, der eine Funktion minimiert, indem er ihre Parameter schrittweise in Richtung des steilsten Abstiegs anpasst. Er ist grundlegend im maschinellen Lernen, da er es Modellen ermöglicht, effizient aus Daten zu lernen.
Verständnis von Gradienten
Der Gradient einer Funktion stellt die Richtung und Steilheit der Funktion an einem bestimmten Punkt dar. Er zeigt an, in welche Richtung man sich bewegen muss, um die Funktion zu minimieren.
Für eine einfache Funktion:
J(θ)=θ2Die Ableitung (Gradient) ist:
∇J(θ)=dθd(θ2)=2θDas bedeutet, dass für jeden Wert von θ der Gradient angibt, wie θ angepasst werden muss, um zum Minimum abzusteigen.
Formel für Gradient Descent
Die Regel zur Aktualisierung der Gewichte lautet:
θ←θ−α∇J(θ)Dabei gilt:
- θ – Modellparameter;
- α – Lernrate (Schrittweite);
- ∇J(θ) – Gradient der zu minimierenden Funktion.
Für unsere Funktion:
θnew=θold−α(2θold)Das bedeutet, dass θ iterativ aktualisiert wird, indem der skalierte Gradient subtrahiert wird.
Schrittweises Vorgehen – Eine Visualisierung
Beispiel mit Startwerten: θ=3, α=0,3
- θ1=3−0,3(2×3)=3−1,8=1,2;
- θ2=1,2−0,3(2×1,2)=1,2−0,72=0,48;
- θ3=0,48−0,3(2×0,48)=0,48−0,288=0,192;
- θ4=0,192−0,3(2×0,192)=0,192−0,115=0,077.
Nach einigen Iterationen bewegen wir uns auf θ=0 zu, das Minimum.
Lernrate – Die kluge Wahl von α
- Zu groß α – Überschreitung, keine Konvergenz;
- Zu klein α – zu langsame Konvergenz;
- Optimal α – Ausgewogenheit zwischen Geschwindigkeit und Genauigkeit.
Wann stoppt der Gradientenabstieg?
Der Gradientenabstieg stoppt, wenn:
∇J(θ)≈0Dies bedeutet, dass weitere Aktualisierungen unbedeutend sind und ein Minimum gefunden wurde.
Danke für Ihr Feedback!