Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Utmaning: Träna Perceptronen | Neuronnätverk Från Grunden
Introduktion till neurala nätverk

bookUtmaning: Träna Perceptronen

Innan du fortsätter med att träna perceptronen, kom ihåg att den använder binär korsentropiförlustfunktion som diskuterats tidigare. Det sista viktiga begreppet innan implementering av backpropagation är formeln för derivatan av denna förlustfunktion med avseende på utgångsaktiveringar, ana^n. Nedan visas formlerna för förlustfunktionen och dess derivata:

L=(ylog(y^)+(1y)log(1y^))dan=y^yy^(1y^)\begin{aligned} L &= -(y \log(\hat{y}) + (1-y) \log(1 - \hat{y}))\\ da^n &= \frac {\hat{y} - y} {\hat{y}(1 - \hat{y})} \end{aligned}

where an=y^a^n = \hat{y}

För att verifiera att perceptronen tränas korrekt skriver metoden fit() även ut genomsnittlig förlust vid varje epok. Detta beräknas genom att ta medelvärdet av förlusten över alla träningsdata i den epoken:

for epoch in range(epochs):
    loss = 0

    for i in range(training_data.shape[0]):
        loss += -(target * np.log(output) + (1 - target) * np.log(1 - output))

average_loss = loss[0, 0] / training_data.shape[0]
print(f'Loss at epoch {epoch + 1}: {average_loss:.3f}')
L=1Ni=1N(yilog(y^i)+(1yi)log(1y^i))L = -\frac1N \sum_{i=1}^N (y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i))

Slutligen är formlerna för att beräkna gradienter följande:

dzl=dalfl(zl)dWl=dzl(al1)Tdbl=dzldal1=(Wl)Tdzl\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Exempel på träningsdata (X_train) tillsammans med motsvarande etiketter (y_train) är lagrade som NumPy-arrayer i filen utils.py. Dessutom är instanser av aktiveringsfunktionerna också definierade där:

relu = ReLU()
sigmoid = Sigmoid()
Uppgift

Swipe to start coding

  1. Beräkna följande gradienter: dz, d_weights, d_biases och da_prev i metoden backward() i klassen Layer.
  2. Beräkna modellens output i metoden fit() i klassen Perceptron.
  3. Beräkna da (danda^n) före loopen, vilket är gradienten av förlusten med avseende på utgångsaktiveringar.
  4. Beräkna da och utför backpropagation i loopen genom att anropa lämplig metod för varje lager.

Om du har implementerat träningen korrekt, givet inlärningshastigheten 0.01, bör förlusten stadigt minska för varje epok.

Lösning

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 10
single

single

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain how the derivative of the binary cross-entropy loss is used in backpropagation?

What is the purpose of printing the average loss at each epoch?

Can you clarify how the gradients are computed using the provided formulas?

close

Awesome!

Completion rate improved to 4

bookUtmaning: Träna Perceptronen

Svep för att visa menyn

Innan du fortsätter med att träna perceptronen, kom ihåg att den använder binär korsentropiförlustfunktion som diskuterats tidigare. Det sista viktiga begreppet innan implementering av backpropagation är formeln för derivatan av denna förlustfunktion med avseende på utgångsaktiveringar, ana^n. Nedan visas formlerna för förlustfunktionen och dess derivata:

L=(ylog(y^)+(1y)log(1y^))dan=y^yy^(1y^)\begin{aligned} L &= -(y \log(\hat{y}) + (1-y) \log(1 - \hat{y}))\\ da^n &= \frac {\hat{y} - y} {\hat{y}(1 - \hat{y})} \end{aligned}

where an=y^a^n = \hat{y}

För att verifiera att perceptronen tränas korrekt skriver metoden fit() även ut genomsnittlig förlust vid varje epok. Detta beräknas genom att ta medelvärdet av förlusten över alla träningsdata i den epoken:

for epoch in range(epochs):
    loss = 0

    for i in range(training_data.shape[0]):
        loss += -(target * np.log(output) + (1 - target) * np.log(1 - output))

average_loss = loss[0, 0] / training_data.shape[0]
print(f'Loss at epoch {epoch + 1}: {average_loss:.3f}')
L=1Ni=1N(yilog(y^i)+(1yi)log(1y^i))L = -\frac1N \sum_{i=1}^N (y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i))

Slutligen är formlerna för att beräkna gradienter följande:

dzl=dalfl(zl)dWl=dzl(al1)Tdbl=dzldal1=(Wl)Tdzl\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Exempel på träningsdata (X_train) tillsammans med motsvarande etiketter (y_train) är lagrade som NumPy-arrayer i filen utils.py. Dessutom är instanser av aktiveringsfunktionerna också definierade där:

relu = ReLU()
sigmoid = Sigmoid()
Uppgift

Swipe to start coding

  1. Beräkna följande gradienter: dz, d_weights, d_biases och da_prev i metoden backward() i klassen Layer.
  2. Beräkna modellens output i metoden fit() i klassen Perceptron.
  3. Beräkna da (danda^n) före loopen, vilket är gradienten av förlusten med avseende på utgångsaktiveringar.
  4. Beräkna da och utför backpropagation i loopen genom att anropa lämplig metod för varje lager.

Om du har implementerat träningen korrekt, givet inlärningshastigheten 0.01, bör förlusten stadigt minska för varje epok.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 10
single

single

some-alt