Impara Addestramento del Modello | Rete Neurale da Zero

L'addestramento di una rete neurale consiste in un processo iterativo in cui il modello migliora gradualmente regolando i propri pesi e bias per minimizzare la funzione di perdita. Questo processo è noto come ottimizzazione basata sul gradiente e segue un algoritmo strutturato.

Algoritmo Generale

Il dataset viene inizialmente passato attraverso la rete più volte in un ciclo, dove ogni passaggio completo è chiamato epoca. Durante ogni epoca, i dati vengono mescolati per evitare che il modello apprenda schemi basati sull'ordine degli esempi di addestramento. La mescolatura introduce casualità, portando a un modello più robusto.

Per ogni esempio di addestramento, il modello esegue la propagazione in avanti, in cui gli input attraversano la rete, strato dopo strato, producendo un output. Questo output viene poi confrontato con il valore target reale per calcolare la perdita.

Successivamente, il modello applica la retropropagazione e aggiorna i pesi e i bias in ogni strato per ridurre la perdita.

Questo processo si ripete per più epoche, consentendo alla rete di perfezionare gradualmente i propri parametri. Con il progredire dell'addestramento, la rete apprende a effettuare previsioni sempre più accurate. Tuttavia, una regolazione attenta degli iperparametri come il tasso di apprendimento è fondamentale per garantire un addestramento stabile ed efficiente.

Il tasso di apprendimento ( $\alpha$ ) determina l'ampiezza del passo negli aggiornamenti dei pesi. Se è troppo alto, il modello potrebbe superare i valori ottimali e non convergere. Se è troppo basso, l'addestramento diventa lento e potrebbe bloccarsi in una soluzione subottimale. La scelta di un tasso di apprendimento adeguato bilancia velocità e stabilità durante l'addestramento. I valori tipici variano da 0.001 a 0.1, a seconda del problema e della dimensione della rete.

Il grafico seguente mostra come un tasso di apprendimento appropriato consenta alla perdita di diminuire costantemente a un ritmo ottimale:

Infine, la discesa del gradiente stocastica (SGD) svolge un ruolo fondamentale nell'efficienza dell'addestramento. Invece di calcolare gli aggiornamenti dei pesi dopo aver elaborato l'intero dataset, la SGD aggiorna i parametri dopo ogni singolo esempio. Questo rende l'addestramento più veloce e introduce leggere variazioni negli aggiornamenti, che possono aiutare il modello a sfuggire ai minimi locali e raggiungere una soluzione complessiva migliore.

Il metodo fit()

Il metodo fit() nella classe Perceptron è responsabile dell'addestramento del modello utilizzando la discesa del gradiente stocastica.

def fit(self, training_data, labels, epochs, learning_rate):
    # Iterating over multiple epochs
    for epoch in range(epochs):
        # Shuffling the data  
        indices = np.random.permutation(training_data.shape[0])
        training_data = training_data[indices]
        labels = labels[indices]
        # Iterating through each training example
        for i in range(training_data.shape[0]):
            inputs = training_data[i, :].reshape(-1, 1)
            target = labels[i, :].reshape(-1, 1)

            # Forward propagation
            output = ...

            # Computing the gradient of the loss function w.r.t. output
            da = ...

            # Backward propagation through all layers
            for layer in self.layers[::-1]:
                da = ...

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 9

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4

Scorri per mostrare il menu