Summary  
This chapter explains how to programmatically locate a single object in an image by representing its position with (x, y, width, height) bounding boxes, highlights the difference between classification and localization, and outlines common challenges like scale variation and occlusion.

General domain of usage  
Computer vision

Objektlokalisering refererer til å identifisere posisjonen til et objekt i et bilde. Før vi kan oppdage flere objekter, må vi først lære å lokalisere ett enkelt objekt korrekt.

## Forskjell mellom klassifisering og lokalisering

Bildeklassifisering tildeler én enkelt etikett til et helt bilde, mens lokalisering identifiserer både objektet og dets posisjon ved hjelp av en avgrensningsboks. Klassifisering forteller oss **hva** som er i bildet, mens lokalisering forteller oss **hvor** det er.

## Forståelse av avgrensningsbokser

Avgrensningsbokser er rektangulære bokser tegnet rundt objekter i et bilde for å definere deres posisjon. Disse boksene brukes som referansepunkter for objektdeteksjonsmodeller.

Koordinatrepresentasjonen **(x, y, width, height)** definerer en avgrensningsboks ved å angi øvre venstre hjørne **(x, y)** og dens dimensjoner med **bredde og høyde**.



## Utfordringer ved lokalisering

Objektlokalisering møter flere utfordringer:

- **Skalavariasjoner**: objekter kan fremstå større eller mindre avhengig av avstanden til kameraet;

- **Okkultasjon**: objekter kan være delvis skjult bak andre elementer i bildet;

- **Bakgrunnsstøy**: komplekse bakgrunner kan gjøre objektlokalisering vanskelig;

- **Ulike størrelsesforhold**: objekter med ulike former passer kanskje ikke godt inn i standard avgrensningsbokser.



Å forstå disse grunnleggende konseptene er avgjørende før man går videre til mer avanserte objektdeteksjonsteknikker.

Hva er den viktigste forskjellen mellom bildeklassifisering og objektlokalisering?

Hvilket av følgende er IKKE en vanlig utfordring ved objektlokalisering?

Omfattende introduksjon til datamaskinsyn, med fokus på maskinell persepsjon og tolkning av visuelle data. Dekker bilde-forbehandling, funksjonsekstraksjon, objektdeteksjon og dyp læring-teknikker brukt i moderne synssystemer.

Datamaskinsyn gjør det mulig for maskiner å tolke og analysere visuelle data, og etterligner menneskelig persepsjon. Denne delen dekker grunnleggende bilderepresentasjon, fargemodeller og matematiske grunnprinsipper som er essensielle for å forstå hvordan datamaskiner behandler bilder. Du vil utforske virkelige anvendelser, fra autonome kjøretøy til medisinsk bildediagnostikk, og se hvordan datamaskinsyn integreres med KI og maskinlæring.

OpenCV er et kraftig bibliotek for bildebehandling og oppgaver innen datamaskinsyn. Denne delen dekker grunnleggende teknikker som bildefiltrering, transformasjoner, kantdeteksjon og segmentering. Du vil lære hvordan man utfører uskarphet, terskling, konturdeteksjon og funksjonsekstraksjon for å forbedre og analysere bilder effektivt.

CNN-er behandler visuelle data ved hjelp av konvolusjon, pooling og aktiveringslag for å trekke ut egenskaper til oppgaver som bildeklassifisering og objektdeteksjon. Viktige komponenter inkluderer padding, konvolusjon for egenskapsuttrekking, pooling for reduksjon av kompleksitet og aktivering for ikke-linearitet. Populære arkitekturer som AlexNet, VGG og ResNet driver KI innen helsevesen, autonomi og sikkerhet.

Objektdeteksjon er en grunnleggende oppgave innen datamaskinsyn som innebærer å identifisere og lokalisere objekter i et bilde. I motsetning til bildeklassifisering, som tilordner én enkelt etikett til et helt bilde, klassifiserer objektdeteksjon ikke bare objekter, men bestemmer også deres posisjoner ved hjelp av avgrensningsbokser. Denne delen dekker sentrale teknikker og algoritmer brukt i objektdeteksjon, fra tradisjonelle metoder til dyp læringsbaserte tilnærminger som YOLO og U-Net.

Datamaskinsyn har utviklet seg betydelig over tid, fra grunnleggende bildebehandlingsmetoder til avanserte dyp læring-teknikker. Denne delen tar for seg de nyeste innovasjonene innen datamaskinsyn, med fokus på overføringslæring, ansiktsgjenkjenning og bildegenerering. Vi utforsker fordelene med forhåndstrente modeller for ytelse, prinsippene bak ansiktsgjenkjenningsteknologi, og hvordan KI genererer bilder ved hjelp av dyp læring.

Objektlokalisering

Forskjell mellom klassifisering og lokalisering

Forståelse av avgrensningsbokser

Utfordringer ved lokalisering

1. Hva er den viktigste forskjellen mellom bildeklassifisering og objektlokalisering?

2. Hvilket av følgende er IKKE en vanlig utfordring ved objektlokalisering?