Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Discesa del Gradiente | Analisi Matematica
Matematica per la Data Science

bookDiscesa del Gradiente

Note
Definizione

Discesa del gradiente è un algoritmo di ottimizzazione che minimizza una funzione regolando iterativamente i suoi parametri nella direzione della massima diminuzione. È fondamentale nell'apprendimento automatico per consentire ai modelli di apprendere in modo efficiente dai dati.

Comprensione dei gradienti

Il gradiente di una funzione rappresenta la direzione e la pendenza della funzione in un dato punto. Indica in quale direzione muoversi per minimizzare la funzione.

Per una funzione semplice:

J(θ)=θ2J(\theta) = \theta^2

La derivata (gradiente) è:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Questo significa che, per qualsiasi valore di θθ, il gradiente indica come regolare θθ per scendere verso il minimo.

Formula della discesa del gradiente

La regola di aggiornamento dei pesi è:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Dove:

  • θ\theta - parametro del modello;
  • α\alpha - tasso di apprendimento (ampiezza del passo);
  • J(θ)\nabla J(\theta) - gradiente della funzione che si vuole minimizzare.

Per la nostra funzione:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Questo significa che aggiorniamo θθ iterativamente sottraendo il gradiente scalato.

Movimento a Passi – Un Esempio Visivo

Esempio con valori iniziali: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Dopo alcune iterazioni, ci avviciniamo a θ=0θ=0, il minimo.

Tasso di Apprendimento – Scelta Accurata di α

  • Troppo grande  α\ \alpha - supera il minimo, non converge mai;
  • Troppo piccolo  α\ \alpha - converge troppo lentamente;
  • Ottimale  α\ \alpha - bilancia velocità e accuratezza.

Quando si Ferma il Gradient Descent?

Il gradient descent si ferma quando:

J(θ)0\nabla J (\theta) \approx 0

Questo significa che gli aggiornamenti successivi sono insignificanti e si è trovato un minimo.

question mark

Se il gradiente J(θ)∇J(θ) è zero, cosa significa?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 9

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain how to choose a good learning rate?

What happens if the gradient never reaches zero?

Can you show a real-world example where gradient descent is used?

Awesome!

Completion rate improved to 1.96

bookDiscesa del Gradiente

Scorri per mostrare il menu

Note
Definizione

Discesa del gradiente è un algoritmo di ottimizzazione che minimizza una funzione regolando iterativamente i suoi parametri nella direzione della massima diminuzione. È fondamentale nell'apprendimento automatico per consentire ai modelli di apprendere in modo efficiente dai dati.

Comprensione dei gradienti

Il gradiente di una funzione rappresenta la direzione e la pendenza della funzione in un dato punto. Indica in quale direzione muoversi per minimizzare la funzione.

Per una funzione semplice:

J(θ)=θ2J(\theta) = \theta^2

La derivata (gradiente) è:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Questo significa che, per qualsiasi valore di θθ, il gradiente indica come regolare θθ per scendere verso il minimo.

Formula della discesa del gradiente

La regola di aggiornamento dei pesi è:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Dove:

  • θ\theta - parametro del modello;
  • α\alpha - tasso di apprendimento (ampiezza del passo);
  • J(θ)\nabla J(\theta) - gradiente della funzione che si vuole minimizzare.

Per la nostra funzione:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Questo significa che aggiorniamo θθ iterativamente sottraendo il gradiente scalato.

Movimento a Passi – Un Esempio Visivo

Esempio con valori iniziali: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Dopo alcune iterazioni, ci avviciniamo a θ=0θ=0, il minimo.

Tasso di Apprendimento – Scelta Accurata di α

  • Troppo grande  α\ \alpha - supera il minimo, non converge mai;
  • Troppo piccolo  α\ \alpha - converge troppo lentamente;
  • Ottimale  α\ \alpha - bilancia velocità e accuratezza.

Quando si Ferma il Gradient Descent?

Il gradient descent si ferma quando:

J(θ)0\nabla J (\theta) \approx 0

Questo significa che gli aggiornamenti successivi sono insignificanti e si è trovato un minimo.

question mark

Se il gradiente J(θ)∇J(θ) è zero, cosa significa?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 9
some-alt