Apprendre Descente de Gradient | Analyse Mathématique

Définition

Descente de gradient est un algorithme d'optimisation qui minimise une fonction en ajustant de manière itérative ses paramètres dans la direction de la plus forte diminution. Il est fondamental en apprentissage automatique pour permettre aux modèles d'apprendre efficacement à partir des données.

Compréhension des gradients

Le gradient d'une fonction représente la direction et la pente de la fonction en un point donné. Il indique dans quelle direction se déplacer pour minimiser la fonction.

Pour une fonction simple :

J(\theta) = \theta^2

La dérivée (gradient) est :

\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Cela signifie que pour toute valeur de $θ$ , le gradient indique comment ajuster $θ$ pour descendre vers le minimum.

Formule de la descente de gradient

La règle de mise à jour des poids est :

\theta \larr \theta - \alpha \nabla J(\theta)

Où :

$\theta$ : paramètre du modèle ;
$\alpha$ : taux d'apprentissage (taille du pas) ;
$\nabla J(\theta)$ : gradient de la fonction à minimiser.

Pour notre fonction :

\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Cela signifie que nous mettons à jour $θ$ de manière itérative en soustrayant le gradient mis à l'échelle.

Mouvement par étapes – Un exemple visuel

Exemple avec valeurs initiales : $\theta = 3$ , $\alpha = 0.3$

$\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;$
$\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;$
$\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;$
$\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.$

Après quelques itérations, on se rapproche de $θ=0$ , le minimum.

Taux d'apprentissage – Choisir α judicieusement

Trop grand $\ \alpha$ – dépasse la cible, ne converge jamais ;
Trop petit $\ \alpha$ – convergence trop lente ;
Optimal $\ \alpha$ – équilibre entre rapidité et précision.

Quand l’algorithme du gradient s’arrête-t-il ?

L’algorithme du gradient s’arrête lorsque :

\nabla J (\theta) \approx 0

Cela signifie que les mises à jour ultérieures sont insignifiantes et qu’un minimum a été trouvé.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 9

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to choose a good learning rate?

What happens if the gradient never reaches zero?

Can you show a real-world example where gradient descent is used?

Glissez pour afficher le menu