Oppiskele Haaste: Perceptronin Kouluttaminen | Neuroverkon Rakentaminen Alusta Alkaen

Ennen kuin jatkat perceptronin kouluttamista, huomioi, että se käyttää aiemmin käsiteltyä binääristä ristientropiahäviöfunktiota. Viimeinen keskeinen käsite ennen takaisinkytkennän toteuttamista on tämän häviöfunktion derivaatan kaava ulostuloaktivaation suhteen, $a^n$ . Alla ovat häviöfunktion ja sen derivaatan kaavat:

\begin{aligned} L &= -(y \log(\hat{y}) + (1-y) \log(1 - \hat{y}))\\ da^n &= \frac {\hat{y} - y} {\hat{y}(1 - \hat{y})} \end{aligned}

missä $a^n = \hat{y}$

Perceptronin koulutuksen oikeellisuuden varmistamiseksi fit()-metodi tulostaa myös keskimääräisen häviön jokaisella epookilla. Tämä lasketaan ottamalla keskiarvo häviöstä kaikille kyseisen epookin koulutusesimerkeille:

for epoch in range(epochs):
    loss = 0

    for i in range(training_data.shape[0]):
        loss += -(target * np.log(output) + (1 - target) * np.log(1 - output))

average_loss = loss[0, 0] / training_data.shape[0]
print(f'Loss at epoch {epoch + 1}: {average_loss:.3f}')

L = -\frac1N \sum_{i=1}^N (y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i))

Lopuksi gradienttien laskentakaavat ovat seuraavat:

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Esimerkkikoulutusdata (X_train) sekä vastaavat luokat (y_train) on tallennettu NumPy-taulukoina tiedostoon utils.py. Lisäksi aktivointifunktioiden instanssit on määritelty siellä:

relu = ReLU()
sigmoid = Sigmoid()

Tehtävä

Swipe to start coding

Tavoitteesi on saattaa loppuun monikerroksisen perceptronin koulutusprosessi toteuttamalla takaisinlevitys (backpropagation) ja päivittämällä mallin parametrit.

Noudata näitä vaiheita huolellisesti:

Toteuta backward()-metodi Layer-luokkaan:

Laske seuraavat gradientit:
- dz: tappion derivaatta suhteessa pre-aktivaatioarvoihin, käyttäen aktivointifunktion derivaattaa;
d_weights: tappion gradientti painojen suhteen, laskettuna dz:n ja transponoidun syötevektorin pistetulona;
d_biases: tappion gradientti biasien suhteen, joka on yhtä kuin dz;
da_prev: tappion gradientti edellisen kerroksen aktivaatioiden suhteen, saadaan kertomalla transponoitu painomatriisi dz:lla.
Päivitä painot ja biasit käyttäen oppimisnopeutta.

Täydennä fit()-metodi Perceptron-luokassa:
- Laske mallin ulostulo kutsumalla forward()-metodia;

Laske tappio käyttäen ristientropiakaavaa;
Laske $da^n$ $d a^{n}$ — tappion derivaatta ulostuloaktivaation suhteen;
- Käy kerrokset taaksepäin läpi ja suorita takaisinlevitys kutsumalla jokaisen kerroksen backward()-metodia.

Tarkista koulutuksen käyttäytyminen:

Jos kaikki on toteutettu oikein, tappion tulisi vähentyä tasaisesti jokaisella epookilla, kun oppimisnopeus on 0.01.

Ratkaisu

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 2. Luku 10

single

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how the derivative of the binary cross-entropy loss is used in backpropagation?

What is the purpose of printing the average loss at each epoch?

Can you clarify how the gradients are computed using the provided formulas?

Awesome!

Completion rate improved to 4

Pyyhkäise näyttääksesi valikon

\begin{aligned} L &= -(y \log(\hat{y}) + (1-y) \log(1 - \hat{y}))\\ da^n &= \frac {\hat{y} - y} {\hat{y}(1 - \hat{y})} \end{aligned}