Summary  
This chapter explains how to programmatically locate a single object in an image by representing its position with (x, y, width, height) bounding boxes, highlights the difference between classification and localization, and outlines common challenges like scale variation and occlusion.

General domain of usage  
Computer vision

Objektlokalisering avser identifiering av positionen för ett objekt inom en bild. Innan vi kan detektera flera objekt behöver vi först lära oss att lokalisera ett enskilt objekt korrekt.

## Skillnad mellan klassificering och lokalisering

Bildklassificering tilldelar en enda etikett till en hel bild, medan lokalisering identifierar både objektet och dess position med hjälp av en avgränsningsruta. Klassificering anger **vad** som finns i bilden, medan lokalisering anger **var** det finns.

## Förståelse av avgränsningsrutor

Avgränsningsrutor är rektangulära rutor som ritas runt objekt i en bild för att definiera deras position. Dessa rutor används som referenspunkter för objektigenkänningsmodeller.

Koordinatrepresentationen **(x, y, width, height)** definierar en avgränsningsruta genom att ange det övre vänstra hörnet **(x, y)** och dess dimensioner med **bredd och höjd**.



## Utmaningar vid lokalisering

Objektlokalisering står inför flera utmaningar:

- **Skalvariationer**: objekt kan se större eller mindre ut beroende på deras avstånd från kameran;

- **Ocklusion**: objekt kan vara delvis dolda bakom andra element i bilden;

- **Stökig bakgrund**: komplexa bakgrunder kan göra objektlokalisering svår;

- **Olika bildförhållanden**: objekt av olika former passar kanske inte bra i standardiserade avgränsningsrutor.



Att förstå dessa grundläggande begrepp är avgörande innan du går vidare till mer avancerade tekniker för objektdetektering.

Vad är den främsta skillnaden mellan bildklassificering och objektlokalisering?

Vilket av följande är INTE en vanlig utmaning vid objektlokalisering?

Omfattande introduktion till datorseende med fokus på maskinell perception och tolkning av visuella data. Täcker bildförbehandling, funktionsutvinning, objektdetektering och djupinlärningstekniker som används i moderna visionssystem.

Datorseende möjliggör för maskiner att tolka och analysera visuella data, vilket efterliknar mänsklig perception. Detta avsnitt behandlar grunderna i bildrepresentation, färgmodeller och matematiska grunder som är nödvändiga för att förstå hur datorer bearbetar bilder. Du får utforska tillämpningar i verkliga världen, från autonoma fordon till medicinsk bildbehandling, samt hur datorseende integreras med AI och maskininlärning.

OpenCV är ett kraftfullt bibliotek för bildmanipulation och datorseendeuppgifter. Detta avsnitt behandlar grundläggande tekniker såsom bildfiltrering, transformationer, kantdetektion och segmentering. Du får kunskap om hur man utför suddning, tröskling, konturdetektion och funktionsutvinning för att effektivt förbättra och analysera bilder.

CNN bearbetar visuella data med hjälp av konvolution, pooling och aktiveringslager för att extrahera egenskaper för uppgifter som bildklassificering och objektigenkänning. Viktiga komponenter inkluderar utfyllnad, konvolution för egenskapsutvinning, pooling för komplexitetsreduktion och aktivering för icke-linjäritet. Populära arkitekturer som AlexNet, VGG och ResNet driver AI inom hälso- och sjukvård, autonomi och säkerhet.

Objektdetektering är en grundläggande uppgift inom datorseende som innebär att identifiera och lokalisera objekt i en bild. Till skillnad från bildklassificering, som tilldelar en enda etikett till en hel bild, klassificerar objektdetektering inte bara objekt utan bestämmer även deras positioner med hjälp av avgränsningsrutor. Detta avsnitt behandlar centrala tekniker och algoritmer som används vid objektdetektering, från traditionella metoder till djupinlärningsbaserade tillvägagångssätt som YOLO och U-Net.

Datorseende har utvecklats avsevärt genom åren, från grundläggande bildbehandlingsmetoder till avancerade djupinlärningstekniker. Detta avsnitt behandlar de senaste innovationerna inom datorseende, med fokus på transferinlärning, ansiktsigenkänning och bildgenerering. Vi undersöker fördelarna med förtränade modeller för prestanda, principerna bakom ansiktsigenkänningsteknik samt hur AI skapar bilder med hjälp av djupinlärning.

Objektlokalisering

Skillnad mellan klassificering och lokalisering

Förståelse av avgränsningsrutor

Utmaningar vid lokalisering

1. Vad är den främsta skillnaden mellan bildklassificering och objektlokalisering?

2. Vilket av följande är INTE en vanlig utmaning vid objektlokalisering?