Cursusinhoud
Essentiële Computervisie
Essentiële Computervisie
Lineaire Algebra voor Beeldmanipulatie
Lineaire algebra speelt een cruciale rol bij beeldverwerking. Omdat digitale afbeeldingen worden weergegeven als matrices van pixelwaarden, kunnen wiskundige bewerkingen zoals transformaties, schalen en rotaties worden uitgevoerd met matrixmanipulaties. Laten we de essentiële concepten uit de lineaire algebra voor computer vision uiteenzetten.
Afbeeldingsrepresentatie als matrices
Een digitale afbeelding is in wezen een raster van pixels, waarbij elke pixel een intensiteitswaarde heeft. Bij grijswaardenafbeeldingen betreft dit een 2D-matrix, waarbij elke invoer overeenkomt met een helderheidsniveau (0 voor zwart, 255 voor wit). Een eenvoudig 6×6 grijswaardenbeeld kan er bijvoorbeeld zo uitzien:
Kleurafbeeldingen daarentegen zijn 3D-matrices (ook wel tensoren genoemd), met afzonderlijke lagen voor Rood, Groen en Blauw (RGB).
Grijswaardenafbeeldingen hebben een vorm van (60, 60), wat betekent dat ze bestaan uit 60 rijen en 60 kolommen, waarbij elke pixel een enkele intensiteitswaarde vertegenwoordigt - er is slechts één kleurkanaal. Ter vergelijking: RGB-afbeeldingen hebben een vorm van (60, 60, 3), wat dezelfde ruimtelijke resolutie aangeeft (60 rijen en 60 kolommen), maar met een extra dimensie voor kleur: elke pixel bevat drie waarden die overeenkomen met de rode, groene en blauwe kanalen die samen de volledige kleur op dat punt bepalen.
Lineaire algebra-transformaties voor beeldverwerking
Verschillende beeldmanipulaties zijn gebaseerd op matrixbewerkingen, waardoor lineaire algebra een essentieel onderdeel is van computer vision. Hier volgt een overzicht van de meest gebruikte transformaties.
Beeldschaalvergroting (Resizen)
Schaalvergroting vergroot of verkleint de afmetingen van een afbeelding. Dit gebeurt door de afbeeldingsmatrix te vermenigvuldigen met een schaalmatrix:
waarbij sx en sy de schaalfactoren zijn voor respectievelijk de breedte en hoogte. Voorbeeld: Als we de grootte van een afbeelding willen verdubbelen, gebruiken we:
Door deze matrix te vermenigvuldigen met de coördinaten van elke pixel, wordt de afbeelding vergroot.
Afbeeldingsrotatie
Om een afbeelding te roteren over een hoek
Bijvoorbeeld, het roteren van een afbeelding 90 graden met de klok mee betekent het gebruik van:
θ = 90°
Het toepassen van deze transformatie verplaatst elke pixel naar een nieuwe positie, waardoor de afbeelding effectief wordt geroteerd.
Shearing (Verschuiven van een afbeelding)
Shearing vervormt een afbeelding door de rijen of kolommen te verschuiven. De shearing-transformatie matrix is:
waarbij
Waarom lineaire algebra belangrijk is in computer vision
Lineaire algebra vormt de basis van veel beeldverwerkingstaken, waaronder:
Objectdetectie (begrenzingsvakken zijn afhankelijk van transformaties);
Gezichtsherkenning (eigenvectoren en PCA voor kenmerkextractie);
Beeldverbetering (filtering maakt gebruik van matrixconvoluties);
Neurale netwerken (gewichten worden opgeslagen als matrices).
Door deze fundamentele bewerkingen te begrijpen, kunnen we beelden effectief manipuleren en geavanceerdere computer vision-toepassingen ontwikkelen.
Bedankt voor je feedback!