Descente de Gradient
Descente de gradient est un algorithme d'optimisation qui minimise une fonction en ajustant de manière itérative ses paramètres dans la direction de la plus forte diminution. Il est fondamental en apprentissage automatique pour permettre aux modèles d'apprendre efficacement à partir des données.
Compréhension des gradients
Le gradient d'une fonction représente la direction et la pente de la fonction en un point donné. Il indique dans quelle direction se déplacer pour minimiser la fonction.
Pour une fonction simple :
J(θ)=θ2La dérivée (gradient) est :
∇J(θ)=dθd(θ2)=2θCela signifie que pour toute valeur de θ, le gradient indique comment ajuster θ pour descendre vers le minimum.
Formule de la descente de gradient
La règle de mise à jour des poids est :
θ←θ−α∇J(θ)Où :
- θ : paramètre du modèle ;
- α : taux d'apprentissage (taille du pas) ;
- ∇J(θ) : gradient de la fonction à minimiser.
Pour notre fonction :
θnew=θold−α(2θold)Cela signifie que nous mettons à jour θ de manière itérative en soustrayant le gradient mis à l'échelle.
Mouvement par étapes – Un exemple visuel
Exemple avec valeurs initiales : θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Après quelques itérations, on se rapproche de θ=0, le minimum.
Taux d'apprentissage – Choisir α judicieusement
- Trop grand α – dépasse la cible, ne converge jamais ;
- Trop petit α – convergence trop lente ;
- Optimal α – équilibre entre rapidité et précision.
Quand l’algorithme du gradient s’arrête-t-il ?
L’algorithme du gradient s’arrête lorsque :
∇J(θ)≈0Cela signifie que les mises à jour ultérieures sont insignifiantes et qu’un minimum a été trouvé.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 1.96
Descente de Gradient
Glissez pour afficher le menu
Descente de gradient est un algorithme d'optimisation qui minimise une fonction en ajustant de manière itérative ses paramètres dans la direction de la plus forte diminution. Il est fondamental en apprentissage automatique pour permettre aux modèles d'apprendre efficacement à partir des données.
Compréhension des gradients
Le gradient d'une fonction représente la direction et la pente de la fonction en un point donné. Il indique dans quelle direction se déplacer pour minimiser la fonction.
Pour une fonction simple :
J(θ)=θ2La dérivée (gradient) est :
∇J(θ)=dθd(θ2)=2θCela signifie que pour toute valeur de θ, le gradient indique comment ajuster θ pour descendre vers le minimum.
Formule de la descente de gradient
La règle de mise à jour des poids est :
θ←θ−α∇J(θ)Où :
- θ : paramètre du modèle ;
- α : taux d'apprentissage (taille du pas) ;
- ∇J(θ) : gradient de la fonction à minimiser.
Pour notre fonction :
θnew=θold−α(2θold)Cela signifie que nous mettons à jour θ de manière itérative en soustrayant le gradient mis à l'échelle.
Mouvement par étapes – Un exemple visuel
Exemple avec valeurs initiales : θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Après quelques itérations, on se rapproche de θ=0, le minimum.
Taux d'apprentissage – Choisir α judicieusement
- Trop grand α – dépasse la cible, ne converge jamais ;
- Trop petit α – convergence trop lente ;
- Optimal α – équilibre entre rapidité et précision.
Quand l’algorithme du gradient s’arrête-t-il ?
L’algorithme du gradient s’arrête lorsque :
∇J(θ)≈0Cela signifie que les mises à jour ultérieures sont insignifiantes et qu’un minimum a été trouvé.
Merci pour vos commentaires !