Contenuti del Corso
Fondamenti di Computer Vision
Fondamenti di Computer Vision
Algebra Lineare per la Manipolazione delle Immagini
L'algebra lineare svolge un ruolo cruciale nell'elaborazione delle immagini. Poiché le immagini digitali sono rappresentate come matrici di valori di pixel, operazioni matematiche come trasformazioni, ridimensionamenti e rotazioni possono essere eseguite tramite manipolazioni matriciali. Analizziamo i concetti fondamentali di algebra lineare utilizzati nella visione artificiale.
Rappresentazione delle immagini come matrici
Un'immagine digitale è essenzialmente una griglia di pixel, e ogni pixel ha un valore di intensità. Nelle immagini in scala di grigi, questa è una matrice 2D, dove ogni elemento corrisponde a un livello di luminosità (0 per il nero, 255 per il bianco). Ad esempio, una semplice immagine in scala di grigi 6×6 potrebbe apparire così:
Le immagini a colori, invece, sono matrici 3D (dette anche tensori), con livelli separati per Rosso, Verde e Blu (RGB).
Le immagini in scala di grigi hanno una forma (60, 60), il che significa che sono composte da 60 righe e 60 colonne, con ogni pixel che rappresenta un singolo valore di intensità - c'è solo un canale colore. Al contrario, le immagini RGB hanno una forma (60, 60, 3), indicando la stessa risoluzione spaziale (60 righe e 60 colonne), ma con una dimensione aggiuntiva per il colore: ogni pixel contiene tre valori corrispondenti ai canali rosso, verde e blu che insieme definiscono il colore completo in quel punto.
Trasformazioni di Algebra Lineare per l'Elaborazione delle Immagini
Numerose manipolazioni delle immagini si basano su operazioni matriciali, rendendo l'algebra lineare una parte fondamentale della computer vision. Analizziamo le trasformazioni più comunemente utilizzate.
Ridimensionamento dell'Immagine (Scaling)
Il ridimensionamento aumenta o diminuisce la dimensione di un'immagine. Si ottiene moltiplicando la matrice dell'immagine per una matrice di scaling:
dove sx e sy sono i fattori di scala per la larghezza e l'altezza, rispettivamente. Esempio: Se si desidera raddoppiare la dimensione di un'immagine, si utilizza:
Moltiplicando questa matrice per le coordinate di ciascun pixel si ottiene un ingrandimento dell'immagine.
Rotazione dell'immagine
Per ruotare un'immagine di un angolo
Ad esempio, ruotare un'immagine di 90 gradi in senso orario significa utilizzare:
θ = 90°
Applicando questa trasformazione, ogni pixel viene spostato in una nuova posizione, ruotando di fatto l'immagine.
Shearing (Deformazione di un'immagine)
La deformazione distorce un'immagine spostando le sue righe o colonne. La matrice di trasformazione per la deformazione è:
dove
Perché l'algebra lineare è importante nella visione artificiale
L'algebra lineare è la base di molte operazioni di elaborazione delle immagini, tra cui:
Rilevamento degli oggetti (i riquadri di delimitazione si basano sulle trasformazioni);
Riconoscimento facciale (autovettori e PCA per l'estrazione delle caratteristiche);
Miglioramento delle immagini (il filtraggio utilizza convoluzioni di matrici);
Reti neurali (i pesi sono memorizzati come matrici).
Comprendendo queste operazioni fondamentali, è possibile manipolare le immagini in modo efficace e sviluppare applicazioni di visione artificiale più avanzate.
Grazie per i tuoi commenti!