Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Algèbre Linéaire pour la Manipulation d'Images | Introduction à la Vision par Ordinateur
Principes Fondamentaux de la Vision par Ordinateur
course content

Contenu du cours

Principes Fondamentaux de la Vision par Ordinateur

Principes Fondamentaux de la Vision par Ordinateur

1. Introduction à la Vision par Ordinateur
2. Traitement d'Images avec OpenCV
3. Réseaux de Neurones Convolutifs
4. Détection d'Objets
5. Aperçu des Sujets Avancés

book
Algèbre Linéaire pour la Manipulation d'Images

L'algèbre linéaire joue un rôle fondamental dans le traitement d'images. Étant donné que les images numériques sont représentées sous forme de matrices de valeurs de pixels, des opérations mathématiques telles que les transformations, le redimensionnement et les rotations peuvent être réalisées à l'aide de manipulations matricielles. Voici une présentation des concepts essentiels d'algèbre linéaire utilisés en vision par ordinateur.

Représentation des images sous forme de matrices

Une image numérique est essentiellement une grille de pixels, et chaque pixel possède une valeur d'intensité. Pour les images en niveaux de gris, il s'agit d'une matrice 2D, où chaque entrée correspond à un niveau de luminosité (0 pour le noir, 255 pour le blanc). Par exemple, une image en niveaux de gris simple de 6×6 pourrait ressembler à ceci :

Les images en couleur, quant à elles, sont des matrices 3D (également appelées tenseurs), avec des couches distinctes pour le Rouge, le Vert et le Bleu (RVB).

Les images en niveaux de gris ont une forme de (60, 60), ce qui signifie qu'elles se composent de 60 lignes et 60 colonnes, chaque pixel représentant une seule valeur d'intensité - il n'y a qu'un seul canal de couleur. En revanche, les images RVB ont une forme de (60, 60, 3), indiquant la même résolution spatiale (60 lignes et 60 colonnes), mais avec une dimension supplémentaire pour la couleur : chaque pixel contient trois valeurs correspondant aux canaux rouge, vert et bleu qui, ensemble, définissent la couleur complète à cet emplacement.

Transformations d’algèbre linéaire pour le traitement d’images

De nombreuses manipulations d’images reposent sur des opérations matricielles, faisant de l’algèbre linéaire un élément fondamental de la vision par ordinateur. Présentation des transformations les plus couramment utilisées.

Redimensionnement d’image (mise à l’échelle)

Le redimensionnement augmente ou diminue la taille d’une image. Il s’effectue en multipliant la matrice de l’image par une matrice de mise à l’échelle :

S = [ sx 0 0 sy ]

où sx et sy sont les facteurs d’échelle pour la largeur et la hauteur, respectivement. Exemple : pour doubler la taille d’une image, on utilise :

S = [ 2 0 0 2 ]

La multiplication de cette matrice par les coordonnées de chaque pixel agrandit l'image.

Rotation d'image

Pour faire pivoter une image d'un angle θ, on utilise une matrice de rotation :

R = [ cosθ -sinθ sinθ cosθ ]

Par exemple, faire pivoter une image de 90 degrés dans le sens horaire implique d'utiliser :

θ = 90°

R = [ 0 1 -1 0 ]

Appliquer cette transformation déplace chaque pixel vers une nouvelle position, effectuant ainsi une rotation de l'image.

Cisaillement (Inclinaison d'une image)

Le cisaillement déforme une image en déplaçant ses lignes ou ses colonnes. La matrice de transformation de cisaillement est :

Ω = [ 1 ωx ωy 1 ]

ωx et ωy définissent l'intensité de l'inclinaison horizontale et verticale de l'image. Déplacement de l'image de 30 % horizontalement et 20 % verticalement :

Ω = [ 1 0.3 0.2 1 ]

Pourquoi l’algèbre linéaire est essentielle en vision par ordinateur

L’algèbre linéaire constitue la base de nombreuses tâches de traitement d’image, notamment :

  • Détection d’objets (les boîtes englobantes reposent sur des transformations) ;

  • Reconnaissance faciale (vecteurs propres et ACP pour l’extraction de caractéristiques) ;

  • Amélioration d’image (le filtrage utilise des convolutions matricielles) ;

  • Réseaux de neurones (les poids sont stockés sous forme de matrices).

La compréhension de ces opérations fondamentales permet de manipuler efficacement les images et de développer des applications de vision par ordinateur plus avancées.

question mark

Laquelle des options suivantes peut représenter la forme d’une image RGB ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 3

Demandez à l'IA

expand
ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Principes Fondamentaux de la Vision par Ordinateur

Principes Fondamentaux de la Vision par Ordinateur

1. Introduction à la Vision par Ordinateur
2. Traitement d'Images avec OpenCV
3. Réseaux de Neurones Convolutifs
4. Détection d'Objets
5. Aperçu des Sujets Avancés

book
Algèbre Linéaire pour la Manipulation d'Images

L'algèbre linéaire joue un rôle fondamental dans le traitement d'images. Étant donné que les images numériques sont représentées sous forme de matrices de valeurs de pixels, des opérations mathématiques telles que les transformations, le redimensionnement et les rotations peuvent être réalisées à l'aide de manipulations matricielles. Voici une présentation des concepts essentiels d'algèbre linéaire utilisés en vision par ordinateur.

Représentation des images sous forme de matrices

Une image numérique est essentiellement une grille de pixels, et chaque pixel possède une valeur d'intensité. Pour les images en niveaux de gris, il s'agit d'une matrice 2D, où chaque entrée correspond à un niveau de luminosité (0 pour le noir, 255 pour le blanc). Par exemple, une image en niveaux de gris simple de 6×6 pourrait ressembler à ceci :

Les images en couleur, quant à elles, sont des matrices 3D (également appelées tenseurs), avec des couches distinctes pour le Rouge, le Vert et le Bleu (RVB).

Les images en niveaux de gris ont une forme de (60, 60), ce qui signifie qu'elles se composent de 60 lignes et 60 colonnes, chaque pixel représentant une seule valeur d'intensité - il n'y a qu'un seul canal de couleur. En revanche, les images RVB ont une forme de (60, 60, 3), indiquant la même résolution spatiale (60 lignes et 60 colonnes), mais avec une dimension supplémentaire pour la couleur : chaque pixel contient trois valeurs correspondant aux canaux rouge, vert et bleu qui, ensemble, définissent la couleur complète à cet emplacement.

Transformations d’algèbre linéaire pour le traitement d’images

De nombreuses manipulations d’images reposent sur des opérations matricielles, faisant de l’algèbre linéaire un élément fondamental de la vision par ordinateur. Présentation des transformations les plus couramment utilisées.

Redimensionnement d’image (mise à l’échelle)

Le redimensionnement augmente ou diminue la taille d’une image. Il s’effectue en multipliant la matrice de l’image par une matrice de mise à l’échelle :

S = [ sx 0 0 sy ]

où sx et sy sont les facteurs d’échelle pour la largeur et la hauteur, respectivement. Exemple : pour doubler la taille d’une image, on utilise :

S = [ 2 0 0 2 ]

La multiplication de cette matrice par les coordonnées de chaque pixel agrandit l'image.

Rotation d'image

Pour faire pivoter une image d'un angle θ, on utilise une matrice de rotation :

R = [ cosθ -sinθ sinθ cosθ ]

Par exemple, faire pivoter une image de 90 degrés dans le sens horaire implique d'utiliser :

θ = 90°

R = [ 0 1 -1 0 ]

Appliquer cette transformation déplace chaque pixel vers une nouvelle position, effectuant ainsi une rotation de l'image.

Cisaillement (Inclinaison d'une image)

Le cisaillement déforme une image en déplaçant ses lignes ou ses colonnes. La matrice de transformation de cisaillement est :

Ω = [ 1 ωx ωy 1 ]

ωx et ωy définissent l'intensité de l'inclinaison horizontale et verticale de l'image. Déplacement de l'image de 30 % horizontalement et 20 % verticalement :

Ω = [ 1 0.3 0.2 1 ]

Pourquoi l’algèbre linéaire est essentielle en vision par ordinateur

L’algèbre linéaire constitue la base de nombreuses tâches de traitement d’image, notamment :

  • Détection d’objets (les boîtes englobantes reposent sur des transformations) ;

  • Reconnaissance faciale (vecteurs propres et ACP pour l’extraction de caractéristiques) ;

  • Amélioration d’image (le filtrage utilise des convolutions matricielles) ;

  • Réseaux de neurones (les poids sont stockés sous forme de matrices).

La compréhension de ces opérations fondamentales permet de manipuler efficacement les images et de développer des applications de vision par ordinateur plus avancées.

question mark

Laquelle des options suivantes peut représenter la forme d’une image RGB ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 3
Nous sommes désolés de vous informer que quelque chose s'est mal passé. Qu'est-il arrivé ?
some-alt