Contenu du cours
Principes Fondamentaux de la Vision par Ordinateur
Principes Fondamentaux de la Vision par Ordinateur
Algèbre Linéaire pour la Manipulation d'Images
L'algèbre linéaire joue un rôle fondamental dans le traitement d'images. Étant donné que les images numériques sont représentées sous forme de matrices de valeurs de pixels, des opérations mathématiques telles que les transformations, le redimensionnement et les rotations peuvent être réalisées à l'aide de manipulations matricielles. Voici une présentation des concepts essentiels d'algèbre linéaire utilisés en vision par ordinateur.
Représentation des images sous forme de matrices
Une image numérique est essentiellement une grille de pixels, et chaque pixel possède une valeur d'intensité. Pour les images en niveaux de gris, il s'agit d'une matrice 2D, où chaque entrée correspond à un niveau de luminosité (0 pour le noir, 255 pour le blanc). Par exemple, une image en niveaux de gris simple de 6×6 pourrait ressembler à ceci :
Les images en couleur, quant à elles, sont des matrices 3D (également appelées tenseurs), avec des couches distinctes pour le Rouge, le Vert et le Bleu (RVB).
Les images en niveaux de gris ont une forme de (60, 60), ce qui signifie qu'elles se composent de 60 lignes et 60 colonnes, chaque pixel représentant une seule valeur d'intensité - il n'y a qu'un seul canal de couleur. En revanche, les images RVB ont une forme de (60, 60, 3), indiquant la même résolution spatiale (60 lignes et 60 colonnes), mais avec une dimension supplémentaire pour la couleur : chaque pixel contient trois valeurs correspondant aux canaux rouge, vert et bleu qui, ensemble, définissent la couleur complète à cet emplacement.
Transformations d’algèbre linéaire pour le traitement d’images
De nombreuses manipulations d’images reposent sur des opérations matricielles, faisant de l’algèbre linéaire un élément fondamental de la vision par ordinateur. Présentation des transformations les plus couramment utilisées.
Redimensionnement d’image (mise à l’échelle)
Le redimensionnement augmente ou diminue la taille d’une image. Il s’effectue en multipliant la matrice de l’image par une matrice de mise à l’échelle :
où sx et sy sont les facteurs d’échelle pour la largeur et la hauteur, respectivement. Exemple : pour doubler la taille d’une image, on utilise :
La multiplication de cette matrice par les coordonnées de chaque pixel agrandit l'image.
Rotation d'image
Pour faire pivoter une image d'un angle
Par exemple, faire pivoter une image de 90 degrés dans le sens horaire implique d'utiliser :
θ = 90°
Appliquer cette transformation déplace chaque pixel vers une nouvelle position, effectuant ainsi une rotation de l'image.
Cisaillement (Inclinaison d'une image)
Le cisaillement déforme une image en déplaçant ses lignes ou ses colonnes. La matrice de transformation de cisaillement est :
où
Pourquoi l’algèbre linéaire est essentielle en vision par ordinateur
L’algèbre linéaire constitue la base de nombreuses tâches de traitement d’image, notamment :
Détection d’objets (les boîtes englobantes reposent sur des transformations) ;
Reconnaissance faciale (vecteurs propres et ACP pour l’extraction de caractéristiques) ;
Amélioration d’image (le filtrage utilise des convolutions matricielles) ;
Réseaux de neurones (les poids sont stockés sous forme de matrices).
La compréhension de ces opérations fondamentales permet de manipuler efficacement les images et de développer des applications de vision par ordinateur plus avancées.
Merci pour vos commentaires !