Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Challenge: Implementing Scaled Dot-Product Attention | Section
Transformer Architecture

bookChallenge: Implementing Scaled Dot-Product Attention

Veeg om het menu te tonen

Task

You now have all the pieces to implement scaled dot-product attention from scratch. Using the formula from the previous chapter, write a function scaled_dot_product_attention that:

  1. Takes Q, K, V tensors of shape (batch_size, seq_len, d_k) as input;
  2. Accepts an optional mask tensor of shape (batch_size, seq_len_q, seq_len_k) — when provided, positions where mask == 0 should be set to -inf before softmax;
  3. Returns the output tensor and the attention weights.

Implement the function locally.

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 1. Hoofdstuk 3
some-alt