Comprendre la structure des **blocs encodeurs** et **blocs décodeurs** est essentiel pour maîtriser la façon dont les Transformers traitent et génèrent du texte. Chaque **bloc encodeur** dans un Transformer est conçu pour transformer des séquences d'entrée en représentations riches en contexte, tandis que chaque **bloc décodeur** génère des séquences de sortie en tenant compte à la fois des sorties précédentes et des représentations de l'encodeur. Dans les tâches de texte séquence-à-séquence, telles que la traduction ou le résumé, l'encodeur prend le texte d'entrée et l'encode en une série d'états cachés. Le décodeur utilise ensuite ces états cachés, ainsi que son propre mécanisme d'auto-attention, pour générer la séquence cible étape par étape. Cette interaction entre les blocs encodeur et décodeur permet au modèle de capturer des dépendances complexes dans le texte, rendant les Transformers particulièrement efficaces pour un large éventail de tâches de traitement du langage naturel.

Le tableau suivant résume la séquence des opérations dans un bloc encodeur de Transformer et met en évidence leur importance pour les données textuelles :



| Step | Operation                      | Purpose for Text Data                                   |
|------|-------------------------------|---------------------------------------------------------|
| 1    | **Multi-head self-attention**     | Captures relationships between all tokens in the input. |
| 2    | **Add & Normalize**               | Stabilizes training and preserves information.          |
| 3    | **Feed-forward network**          | Applies non-linear transformations to each token.       |
| 4    | **Add & Normalize**               | Further stabilizes and enables deep stacking.           |


Each operation ensures that the encoder builds increasingly abstract and context-aware representations of the input text, which are essential for downstream sequence-to-sequence tasks.


import unittest
import user_code
import ast
import re   
import importlib
import csv
import unittest
import importlib

class TestTask(unittest.TestCase):
    def test_attention_and_ffn_instances(self):
        import user_code
        importlib.reload(user_code)
        block = user_code.TransformerEncoderBlock(64)
        attn = getattr(block, 'attention', None)
        ffn = getattr(block, 'ffn', None)
        _dynamic_test(
            self,
            attn is not None and hasattr(attn, '__call__') and attn.__class__.__name__ == 'MultiHeadAttention',
            "Self-attention layer is correctly initialized as MultiHeadAttention.",
            f"Expected 'MultiHeadAttention', got '{attn.__class__.__name__ if attn else attn}'",
        )
        _dynamic_test(
            self,
            ffn is not None and hasattr(ffn, '__call__') and ffn.__class__.__name__ == 'FeedForward',
            "Feed-forward layer is correctly initialized as FeedForward.",
            f"Expected 'FeedForward', got '{ffn.__class__.__name__ if ffn else ffn}'",
        )

    def test_forward_pass_identity(self):
        import user_code
        importlib.reload(user_code)
        block = user_code.TransformerEncoderBlock(32)
        input_data = [[1,2,3],[4,5,6]]
        output = block.forward(input_data)
        _dynamic_test(
            self,
            output == input_data,
            "Forward method returns correct output when dummy layers are used.",
            f"Expected output {input_data}, got {output}",
        )

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

def normalize_text(text):
    text = text.lower()
    text = re.sub(r"\\s{2,}", " ", text)
    text = re.sub(r"\\s*([,:?])\\s*", r"\\1 ", text)
    return text.strip()

def change_var(code: str, var_name: str, value: str) -> str:
    tree = ast.parse(code)
    lines = code.splitlines()
    changed = False
    # Collect all assignment nodes to modify
    assign_nodes = [
        (i, node)
        for i, node in enumerate(tree.body)
        if isinstance(node, ast.Assign)
        and any(isinstance(target, ast.Name) and target.id == var_name for target in node.targets)
    ]

    # If nothing to change, return unmodified code
    if not assign_nodes:
        return code

    # Perform replacements for all matching assignments (from last to first to not break line offsets)
    for i, node in reversed(assign_nodes):
        start_line = node.lineno - 1
        line = lines[start_line]
        indent = ' ' * (len(line) - len(line.lstrip()))
        lines[start_line] = f"{indent}{var_name} = {value}"
        next_line = len(lines)
        for next_node in tree.body[i+1:]:
            if hasattr(next_node, 'lineno'):
                next_line = next_node.lineno - 1
                break
        if next_line > start_line + 1:
            lines[start_line+1:next_line] = []
        changed = True

    return '\\n'.join(lines) if changed else code

if __name__ == "__main__":
    unittest.main()


test_main.py

Maîtriser les bases des modèles Transformer en Python pour le traitement du langage naturel. Découvrir comment construire, interpréter et appliquer les Transformers à des données textuelles réelles, en mettant l'accent sur les compétences pratiques et la compréhension des modèles.

Explorez les éléments essentiels des modèles Transformer, y compris l'auto-attention, l'encodage positionnel et l'architecture. Acquérez une base conceptuelle et pratique solide pour des applications avancées de NLP.

Maîtriser les compétences nécessaires pour construire les blocs fondamentaux des Transformers, y compris l'attention multi-tête, les couches feed-forward et la normalisation, pour un traitement efficace du texte.

Découvrez comment utiliser les Transformers pour des tâches NLP réelles, visualiser l'attention et interpréter les prédictions du modèle pour une meilleure compréhension du texte.

Défi : Structuration des blocs encodeur et décodeur

Solution