Lernen Modelltraining | Neural Network von Grund Auf

Das Training eines neuronalen Netzes ist ein iterativer Prozess, bei dem das Modell sich schrittweise verbessert, indem es seine Gewichte und Biases anpasst, um die Verlustfunktion zu minimieren. Dieser Prozess wird als gradientenbasierte Optimierung bezeichnet und folgt einem strukturierten Algorithmus.

Allgemeiner Algorithmus

Der Datensatz wird zunächst mehrfach in einer Schleife durch das Netzwerk geleitet, wobei jeder vollständige Durchlauf als Epoche bezeichnet wird. Während jeder Epoche werden die Daten durchmischt, um zu verhindern, dass das Modell Muster basierend auf der Reihenfolge der Trainingsbeispiele erlernt. Das Durchmischen trägt zur Einführung von Zufälligkeit bei und führt zu einem robusteren Modell.

Für jedes Trainingsbeispiel führt das Modell eine Vorwärtspropagation durch, bei der die Eingaben Schicht für Schicht durch das Netzwerk geleitet werden und eine Ausgabe erzeugen. Diese Ausgabe wird anschließend mit dem tatsächlichen Zielwert verglichen, um den Verlust zu berechnen.

Anschließend wendet das Modell Backpropagation an und aktualisiert die Gewichte und Biases in jeder Schicht, um den Verlust zu verringern.

Dieser Prozess wird über mehrere Epochen wiederholt, sodass das Netzwerk seine Parameter schrittweise verfeinern kann. Im Verlauf des Trainings lernt das Netzwerk, immer genauere Vorhersagen zu treffen. Eine sorgfältige Abstimmung von Hyperparametern wie der Lernrate ist jedoch entscheidend, um ein stabiles und effizientes Training zu gewährleisten.

Die Lernrate ( $\alpha$ ) bestimmt die Schrittweite bei der Aktualisierung der Gewichte. Ist sie zu hoch, kann das Modell die optimalen Werte überschreiten und konvergiert möglicherweise nicht. Ist sie zu niedrig, verläuft das Training langsam und kann in einer suboptimalen Lösung stecken bleiben. Die Wahl einer geeigneten Lernrate balanciert Geschwindigkeit und Stabilität während des Trainings. Typische Werte liegen zwischen 0.001 und 0.1, abhängig von Problemstellung und Netzwerkgröße.

Das folgende Diagramm zeigt, wie eine geeignete Lernrate den Verlust ermöglicht, gleichmäßig in optimalem Tempo zu sinken:

Abschließend spielt der stochastische Gradientenabstieg (SGD) eine entscheidende Rolle für die Trainingseffizienz. Anstatt die Gewichte nach der Verarbeitung des gesamten Datensatzes zu aktualisieren, passt SGD die Parameter nach jedem einzelnen Beispiel an. Dies macht das Training schneller und führt zu leichten Variationen bei den Aktualisierungen, was dem Modell helfen kann, lokalen Minima zu entkommen und eine insgesamt bessere Lösung zu erreichen.

Die fit()-Methode

Die fit()-Methode in der Perceptron-Klasse ist für das Training des Modells mittels stochastischem Gradientenabstieg verantwortlich.

def fit(self, training_data, labels, epochs, learning_rate):
    # Iterating over multiple epochs
    for epoch in range(epochs):
        # Shuffling the data  
        indices = np.random.permutation(training_data.shape[0])
        training_data = training_data[indices]
        labels = labels[indices]
        # Iterating through each training example
        for i in range(training_data.shape[0]):
            inputs = training_data[i, :].reshape(-1, 1)
            target = labels[i, :].reshape(-1, 1)

            # Forward propagation
            output = ...

            # Computing the gradient of the loss function w.r.t. output
            da = ...

            # Backward propagation through all layers
            for layer in self.layers[::-1]:
                da = ...

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 9

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4

Swipe um das Menü anzuzeigen