Oppiskele Esineiden Tunnistus

Soveltava tietokonenäkö

Pyyhkäise näyttääksesi valikon

Objektin tunnistus on merkittävä edistysaskel kuvien luokittelun ja paikantamisen jälkeen. Siinä missä luokittelu määrittää, mikä objekti kuvassa on, ja paikantaminen tunnistaa, missä yksittäinen objekti sijaitsee, objektin tunnistus laajentaa tätä tunnistamalla useita objekteja ja niiden sijainnit yhdessä kuvassa.

Mikä erottaa objektin tunnistuksen?

Toisin kuin luokittelu, joka antaa yhden luokan koko kuvalle, objektin tunnistus sisältää sekä luokittelun että paikantamisen useille objekteille. Tunnistusmallin täytyy ennustaa rajauslaatikot jokaisen objektin ympärille ja luokitella ne oikein. Tämä tekee objektin tunnistuksesta monimutkaisemman ja laskennallisesti vaativamman tehtävän kuin pelkkä luokittelu.

Liukuva ikkuna -menetelmä ja sen rajoitukset

Perinteinen tapa objektien tunnistukseen on liukuva ikkuna -menetelmä, jossa kiinteän kokoinen ikkuna siirtyy kuvan yli luokitellen jokaisen osan. Vaikka menetelmä on käsitteellisesti yksinkertainen, siinä on useita rajoituksia:

Laskennallisesti raskas: vaatii kuvan läpikäynnin useissa mittakaavoissa ja kohdissa, mikä johtaa korkeaan käsittelyaikaan;
Jäykät ikkunakoot: objektit vaihtelevat kooltaan ja mittasuhteiltaan, joten kiinteän kokoiset ikkunat ovat tehottomia;
Päällekkäiset laskennat: päällekkäiset ikkunat käsittelevät samoja kuvan alueita toistuvasti, mikä tuhlaa resursseja.

Näiden tehottomuuksien vuoksi syväoppimiseen perustuvat objektintunnistusmenetelmät ovat suurelta osin korvanneet liukuva ikkuna -lähestymistavan.

Aluepohjaiset menetelmät: Selective Search & Region Proposal Networks (RPN)

Tehokkuuden parantamiseksi aluepohjaiset menetelmät ehdottavat kiinnostusalueita (RoI) koko kuvan läpikäynnin sijaan. Kaksi keskeistä tekniikkaa ovat:

Selective search: perinteinen menetelmä, joka ryhmittelee samankaltaisia pikseleitä alue-ehdotuksiksi, vähentäen rajaavien laatikoiden määrää. Vaikka se on tehokkaampi kuin liukuva ikkuna, se on silti hidas;
Region proposal networks (RPN): käytössä Faster R-CNN:ssä, RPN:t hyödyntävät neuroverkkoa mahdollisten objektialueiden tuottamiseen suoraan, mikä parantaa nopeutta ja tarkkuutta merkittävästi verrattuna selective search -menetelmään.

Varhaiset syväoppimiseen perustuvat lähestymistavat

Syväoppiminen mullisti objektien tunnistuksen tuomalla konvoluutiohermoverkot (CNN) tunnistusputkiin. Joitakin uraauurtavia malleja ovat:

R-CNN (Regions with CNNs): tämä menetelmä käyttää CNN:ää jokaiseen alue-ehdotukseen, jotka luodaan selektiivisellä haulla. Vaikka tarkkuus on huomattavasti parempi kuin perinteisillä menetelmillä, laskennallinen hitaus johtuu toistuvista CNN-laskelmista;
Fast R-CNN: parannus R-CNN:ään verrattuna, tämä malli käsittelee koko kuvan ensin CNN:llä ja käyttää sitten RoI-poolausta piirteiden erotteluun luokittelua varten, mikä nopeuttaa tunnistusta;
Faster R-CNN: esittelee alue-ehdotusverkot (RPN), jotka korvaavat selektiivisen haun, tehden objektien tunnistuksesta nopeampaa ja tarkempaa integroimalla alue-ehdotusten generoinnin hermoverkkoon.

Objektien tunnistus perustuu luokitteluun ja paikantamiseen, mahdollistaen useiden objektien tunnistamisen yhdessä kuvassa. Perinteiset menetelmät, kuten liukuvat ikkunat, on korvattu tehokkaammilla aluepohjaisilla tekniikoilla, kuten R-CNN ja sen seuraajat. Faster R-CNN, joka hyödyntää alue-ehdotusverkkoja, edustaa merkittävää askelta kohti reaaliaikaista ja tarkkaa objektien tunnistusta. Edetessämme kehittyneemmät menetelmät, kuten YOLO ja SSD, parantavat edelleen tunnistuksen nopeutta ja tehokkuutta.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 20

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 20

Esineiden Tunnistus

Mikä erottaa objektin tunnistuksen?

Liukuva ikkuna -menetelmä ja sen rajoitukset

Aluepohjaiset menetelmät: Selective Search & Region Proposal Networks (RPN)

Varhaiset syväoppimiseen perustuvat lähestymistavat

1. Mikä on Faster R-CNN:n tärkein etu verrattuna Fast R-CNN:ään?

2. Miksi liukuva ikkuna -menetelmä on tehoton objektintunnistuksessa?

3. Mikä seuraavista on syväoppimiseen perustuva objektintunnistusmenetelmä?