Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Lineær Algebra til Billedmanipulation | Introduktion til Computer Vision
Computer Vision Grundlæggende

book
Lineær Algebra til Billedmanipulation

Lineær algebra spiller en afgørende rolle i billedbehandling. Da digitale billeder repræsenteres som matricer af pixelværdier, kan matematiske operationer som transformationer, skalering og rotationer udføres ved hjælp af matrixmanipulationer. Her gennemgås de væsentlige lineære algebraiske begreber, der anvendes i computer vision.

Billedrepræsentation som matricer

Et digitalt billede er grundlæggende et gitter af pixels, hvor hver pixel har en intensitetsværdi. I gråtonebilleder er dette en 2D-matrix, hvor hver indgang svarer til et lysstyrkeniveau (0 for sort, 255 for hvid). For eksempel kan et simpelt 6×6 gråtonebillede se således ud:

Farvebilleder er derimod 3D-matricer (også kaldet tensorer), med separate lag for Rød, Grøn og Blå (RGB).

Gråtonebilleder har en form på (60, 60), hvilket betyder, at de består af 60 rækker og 60 kolonner, hvor hver pixel repræsenterer en enkelt intensitetsværdi – der er kun én farvekanal. Til sammenligning har RGB-billeder en form på (60, 60, 3), hvilket angiver den samme rumlige opløsning (60 rækker og 60 kolonner), men med en ekstra dimension for farve: hver pixel indeholder tre værdier, der svarer til de røde, grønne og blå kanaler, som tilsammen definerer den fulde farve på det pågældende punkt.

Lineær algebra-transformationer til billedbehandling

Flere billedmanipulationer er baseret på matrixoperationer, hvilket gør lineær algebra til en central del af computer vision. Her gennemgås de mest anvendte transformationer.

Billedskalering (Ændring af størrelse)

Skalering øger eller mindsker størrelsen på et billede. Dette opnås ved at multiplicere billedmatricen med en skaleringsmatrix:

S = [ sx 0 0 sy ]

hvor sx og sy er skaleringsfaktorer for henholdsvis bredde og højde. Eksempel: Hvis billedets størrelse skal fordobles, anvendes:

S = [ 2 0 0 2 ]

Multiplikation af denne matrix med hver pixels koordinater forstørrer billedet.

Billedrotation

For at rotere et billede med en vinkel θ anvendes en rotationsmatrix:

R = [ cosθ -sinθ sinθ cosθ ]

For eksempel betyder det at rotere et billede 90 grader med uret at bruge:

θ = 90°

R = [ 0 1 -1 0 ]

Anvendelse af denne transformation flytter hver pixel til en ny position, hvilket effektivt roterer billedet.

Forskydning (Skævvridning af et billede)

Forskydning forvrænger et billede ved at flytte dets rækker eller kolonner. Transformationsmatricen for forskydning er:

Ω = [ 1 ωx ωy 1 ]

hvor ωx og ωy definerer, hvor meget billedet skævvrides horisontalt og vertikalt. Forskydning af et billede 30% horisontalt og 20% vertikalt:

Ω = [ 1 0.3 0.2 1 ]

Hvorfor lineær algebra er vigtig i computer vision

Lineær algebra er grundlaget for mange billedbehandlingsopgaver, herunder:

  • Objektgenkendelse (afgrænsningsbokse afhænger af transformationer);

  • Ansigtsgenkendelse (egenværdier og PCA til feature-ekstraktion);

  • Billedforbedring (filtrering anvender matrixkonvolutioner);

  • Neurale netværk (vægte gemmes som matricer).

Ved at forstå disse grundlæggende operationer kan vi manipulere billeder effektivt og udvikle mere avancerede computer vision-applikationer.

question mark

Hvilke af mulighederne kan være formen på et RGB-billede?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 3

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

some-alt