Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Descente de Gradient | Analyse Mathématique
Mathématiques pour la Science des Données

bookDescente de Gradient

Note
Définition

Descente de gradient est un algorithme d'optimisation qui minimise une fonction en ajustant de manière itérative ses paramètres dans la direction de la plus forte diminution. Il est fondamental en apprentissage automatique pour permettre aux modèles d'apprendre efficacement à partir des données.

Compréhension des gradients

Le gradient d'une fonction représente la direction et la pente de la fonction en un point donné. Il indique dans quelle direction se déplacer pour minimiser la fonction.

Pour une fonction simple :

J(θ)=θ2J(\theta) = \theta^2

La dérivée (gradient) est :

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Cela signifie que pour toute valeur de θθ, le gradient indique comment ajuster θθ pour descendre vers le minimum.

Formule de la descente de gradient

La règle de mise à jour des poids est :

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Où :

  • θ\theta : paramètre du modèle ;
  • α\alpha : taux d'apprentissage (taille du pas) ;
  • J(θ)\nabla J(\theta) : gradient de la fonction à minimiser.

Pour notre fonction :

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Cela signifie que nous mettons à jour θθ de manière itérative en soustrayant le gradient mis à l'échelle.

Mouvement par étapes – Un exemple visuel

Exemple avec valeurs initiales : θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Après quelques itérations, on se rapproche de θ=0θ=0, le minimum.

Taux d'apprentissage – Choisir α judicieusement

  • Trop grand  α\ \alpha – dépasse la cible, ne converge jamais ;
  • Trop petit  α\ \alpha – convergence trop lente ;
  • Optimal  α\ \alpha – équilibre entre rapidité et précision.

Quand l’algorithme du gradient s’arrête-t-il ?

L’algorithme du gradient s’arrête lorsque :

J(θ)0\nabla J (\theta) \approx 0

Cela signifie que les mises à jour ultérieures sont insignifiantes et qu’un minimum a été trouvé.

question mark

Si le gradient J(θ)∇J(θ) est nul, que cela signifie-t-il ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 9

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 1.96

bookDescente de Gradient

Glissez pour afficher le menu

Note
Définition

Descente de gradient est un algorithme d'optimisation qui minimise une fonction en ajustant de manière itérative ses paramètres dans la direction de la plus forte diminution. Il est fondamental en apprentissage automatique pour permettre aux modèles d'apprendre efficacement à partir des données.

Compréhension des gradients

Le gradient d'une fonction représente la direction et la pente de la fonction en un point donné. Il indique dans quelle direction se déplacer pour minimiser la fonction.

Pour une fonction simple :

J(θ)=θ2J(\theta) = \theta^2

La dérivée (gradient) est :

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Cela signifie que pour toute valeur de θθ, le gradient indique comment ajuster θθ pour descendre vers le minimum.

Formule de la descente de gradient

La règle de mise à jour des poids est :

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Où :

  • θ\theta : paramètre du modèle ;
  • α\alpha : taux d'apprentissage (taille du pas) ;
  • J(θ)\nabla J(\theta) : gradient de la fonction à minimiser.

Pour notre fonction :

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Cela signifie que nous mettons à jour θθ de manière itérative en soustrayant le gradient mis à l'échelle.

Mouvement par étapes – Un exemple visuel

Exemple avec valeurs initiales : θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Après quelques itérations, on se rapproche de θ=0θ=0, le minimum.

Taux d'apprentissage – Choisir α judicieusement

  • Trop grand  α\ \alpha – dépasse la cible, ne converge jamais ;
  • Trop petit  α\ \alpha – convergence trop lente ;
  • Optimal  α\ \alpha – équilibre entre rapidité et précision.

Quand l’algorithme du gradient s’arrête-t-il ?

L’algorithme du gradient s’arrête lorsque :

J(θ)0\nabla J (\theta) \approx 0

Cela signifie que les mises à jour ultérieures sont insignifiantes et qu’un minimum a été trouvé.

question mark

Si le gradient J(θ)∇J(θ) est nul, que cela signifie-t-il ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 9
some-alt