Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Gradientenabstieg | Mathematische Analysis
Mathematik für Data Science

bookGradientenabstieg

Note
Definition

Gradient Descent ist ein Optimierungsalgorithmus, der eine Funktion minimiert, indem er ihre Parameter schrittweise in Richtung des steilsten Abstiegs anpasst. Er ist grundlegend im maschinellen Lernen, da er es Modellen ermöglicht, effizient aus Daten zu lernen.

Verständnis von Gradienten

Der Gradient einer Funktion stellt die Richtung und Steilheit der Funktion an einem bestimmten Punkt dar. Er zeigt an, in welche Richtung man sich bewegen muss, um die Funktion zu minimieren.

Für eine einfache Funktion:

J(θ)=θ2J(\theta) = \theta^2

Die Ableitung (Gradient) ist:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Das bedeutet, dass für jeden Wert von θθ der Gradient angibt, wie θθ angepasst werden muss, um zum Minimum abzusteigen.

Formel für Gradient Descent

Die Regel zur Aktualisierung der Gewichte lautet:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Dabei gilt:

  • θ\theta – Modellparameter;
  • α\alpha – Lernrate (Schrittweite);
  • J(θ)\nabla J(\theta) – Gradient der zu minimierenden Funktion.

Für unsere Funktion:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Das bedeutet, dass θθ iterativ aktualisiert wird, indem der skalierte Gradient subtrahiert wird.

Schrittweises Vorgehen – Eine Visualisierung

Beispiel mit Startwerten: θ=3\theta = 3, α=0,3\alpha = 0{,}3

  1. θ1=30,3(2×3)=31,8=1,2;\theta_1 = 3 - 0{,}3(2 \times 3) = 3 - 1{,}8 = 1{,}2;
  2. θ2=1,20,3(2×1,2)=1,20,72=0,48;\theta_2 = 1{,}2 - 0{,}3(2 \times 1{,}2) = 1{,}2 - 0{,}72 = 0{,}48;
  3. θ3=0,480,3(2×0,48)=0,480,288=0,192;\theta_3 = 0{,}48 - 0{,}3(2\times0{,}48) = 0{,}48 - 0{,}288 = 0{,}192;
  4. θ4=0,1920,3(2×0,192)=0,1920,115=0,077.\theta_4 = 0{,}192 - 0{,}3(2 \times 0{,}192) = 0{,}192 - 0{,}115 = 0{,}077.

Nach einigen Iterationen bewegen wir uns auf θ=0θ=0 zu, das Minimum.

Lernrate – Die kluge Wahl von α

  • Zu groß  α\ \alpha – Überschreitung, keine Konvergenz;
  • Zu klein  α\ \alpha – zu langsame Konvergenz;
  • Optimal  α\ \alpha – Ausgewogenheit zwischen Geschwindigkeit und Genauigkeit.

Wann stoppt der Gradientenabstieg?

Der Gradientenabstieg stoppt, wenn:

J(θ)0\nabla J (\theta) \approx 0

Dies bedeutet, dass weitere Aktualisierungen unbedeutend sind und ein Minimum gefunden wurde.

question mark

Wenn der Gradient J(θ)∇J(θ) null ist, was bedeutet das?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 9

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how to choose a good learning rate?

What happens if the gradient never reaches zero?

Can you show a real-world example where gradient descent is used?

Awesome!

Completion rate improved to 1.96

bookGradientenabstieg

Swipe um das Menü anzuzeigen

Note
Definition

Gradient Descent ist ein Optimierungsalgorithmus, der eine Funktion minimiert, indem er ihre Parameter schrittweise in Richtung des steilsten Abstiegs anpasst. Er ist grundlegend im maschinellen Lernen, da er es Modellen ermöglicht, effizient aus Daten zu lernen.

Verständnis von Gradienten

Der Gradient einer Funktion stellt die Richtung und Steilheit der Funktion an einem bestimmten Punkt dar. Er zeigt an, in welche Richtung man sich bewegen muss, um die Funktion zu minimieren.

Für eine einfache Funktion:

J(θ)=θ2J(\theta) = \theta^2

Die Ableitung (Gradient) ist:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Das bedeutet, dass für jeden Wert von θθ der Gradient angibt, wie θθ angepasst werden muss, um zum Minimum abzusteigen.

Formel für Gradient Descent

Die Regel zur Aktualisierung der Gewichte lautet:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Dabei gilt:

  • θ\theta – Modellparameter;
  • α\alpha – Lernrate (Schrittweite);
  • J(θ)\nabla J(\theta) – Gradient der zu minimierenden Funktion.

Für unsere Funktion:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Das bedeutet, dass θθ iterativ aktualisiert wird, indem der skalierte Gradient subtrahiert wird.

Schrittweises Vorgehen – Eine Visualisierung

Beispiel mit Startwerten: θ=3\theta = 3, α=0,3\alpha = 0{,}3

  1. θ1=30,3(2×3)=31,8=1,2;\theta_1 = 3 - 0{,}3(2 \times 3) = 3 - 1{,}8 = 1{,}2;
  2. θ2=1,20,3(2×1,2)=1,20,72=0,48;\theta_2 = 1{,}2 - 0{,}3(2 \times 1{,}2) = 1{,}2 - 0{,}72 = 0{,}48;
  3. θ3=0,480,3(2×0,48)=0,480,288=0,192;\theta_3 = 0{,}48 - 0{,}3(2\times0{,}48) = 0{,}48 - 0{,}288 = 0{,}192;
  4. θ4=0,1920,3(2×0,192)=0,1920,115=0,077.\theta_4 = 0{,}192 - 0{,}3(2 \times 0{,}192) = 0{,}192 - 0{,}115 = 0{,}077.

Nach einigen Iterationen bewegen wir uns auf θ=0θ=0 zu, das Minimum.

Lernrate – Die kluge Wahl von α

  • Zu groß  α\ \alpha – Überschreitung, keine Konvergenz;
  • Zu klein  α\ \alpha – zu langsame Konvergenz;
  • Optimal  α\ \alpha – Ausgewogenheit zwischen Geschwindigkeit und Genauigkeit.

Wann stoppt der Gradientenabstieg?

Der Gradientenabstieg stoppt, wenn:

J(θ)0\nabla J (\theta) \approx 0

Dies bedeutet, dass weitere Aktualisierungen unbedeutend sind und ein Minimum gefunden wurde.

question mark

Wenn der Gradient J(θ)∇J(θ) null ist, was bedeutet das?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 9
some-alt