Kurssisisältö
Konenäön Perusteet
Konenäön Perusteet
Rajauslaatikon Ennusteet
Rajat laatikot ovat keskeisiä objektintunnistuksessa, tarjoten tavan merkitä objektien sijainnit. Objektintunnistusmallit käyttävät näitä laatikoita määrittääkseen havaittujen objektien sijainnin ja mitat kuvassa. Rajalaatikoiden tarkka ennustaminen on olennaista luotettavan objektintunnistuksen varmistamiseksi.
Kuinka CNN:t ennustavat rajalaatikoiden koordinaatit
Konvoluutioneuroverkot (CNN:t) käsittelevät kuvia konvoluutio- ja pooling-kerrosten kautta piirteiden erottamiseksi. Objektintunnistuksessa CNN:t tuottavat piirrekarttoja, jotka kuvaavat kuvan eri osia. Rajalaatikoiden ennustaminen tapahtuu tyypillisesti seuraavasti:
Piirre-edustusten erottaminen kuvasta;
Regressiofunktion soveltaminen rajalaatikoiden koordinaattien ennustamiseen;
Havaittujen objektien luokittelu jokaisessa laatikossa.
Rajalaatikoiden ennusteet esitetään numeerisina arvoina, jotka vastaavat:
(x, y): laatikon keskikohdan koordinaatit;
(w, h): laatikon leveys ja korkeus.
Esimerkki: Rajalaatikoiden ennustaminen esikoulutetulla mallilla
Sen sijaan, että koulutetaan CNN alusta alkaen, voidaan käyttää esikoulutettua mallia, kuten Faster R-CNN TensorFlow'n model zoo -kokoelmasta, ennustamaan rajalaatikot kuvasta. Alla on esimerkki esikoulutetun mallin lataamisesta, kuvan lataamisesta, ennusteiden tekemisestä ja rajalaatikoiden visualisoinnista luokkamerkintöjen kanssa.
Tuo kirjastot
Lataa malli ja kuva
Esikäsittele kuva
Tee ennuste ja pura rajaavan laatikon ominaisuudet
Piirrä rajaavat laatikot
Visualisoi
Tulokset:
Regressiopohjaiset rajauslaatikkoennusteet
Yksi tapa ennustaa rajauslaatikoita on suora regressio, jossa konvoluutioneuroverkko (CNN) tuottaa neljä numeerista arvoa, jotka kuvaavat laatikon sijaintia ja kokoa. Mallit kuten YOLO (You Only Look Once) käyttävät tätä tekniikkaa jakamalla kuvan ruudukkoon ja liittämällä rajauslaatikkoennusteet ruutuihin.
Suoralla regressiolla on kuitenkin rajoituksia:
Se ei suoriudu hyvin erikokoisista ja -muotoisista kohteista;
Se ei käsittele päällekkäisiä kohteita tehokkaasti;
Rajauslaatikot voivat siirtyä arvaamattomasti, mikä johtaa epäjohdonmukaisuuksiin.
Ankkuripohjaiset vs. ankkurittomat lähestymistavat
Ankkuripohjaiset menetelmät
Ankkurilaatikot ovat ennalta määriteltyjä rajauslaatikoita, joilla on kiinteät koot ja kuvasuhteet. Mallit kuten Faster R-CNN ja SSD (Single Shot MultiBox Detector) käyttävät ankkurilaatikoita parantaakseen ennustetarkkuutta. Malli ennustaa säätöjä ankkurilaatikoihin sen sijaan, että se ennustaisi rajauslaatikot alusta alkaen. Tämä menetelmä soveltuu hyvin erikokoisten kohteiden tunnistamiseen, mutta lisää laskennallista monimutkaisuutta.
Ankkurittomat menetelmät
Ankkurittomat menetelmät, kuten CenterNet ja FCOS (Fully Convolutional One-Stage Object Detection), poistavat ennalta määritellyt ankkurilaatikot ja ennustavat sen sijaan suoraan objektien keskikohdat. Näiden menetelmien etuja ovat:
Yksinkertaisemmat malliarkkitehtuurit;
Nopeammat päättelyajat;
Parempi yleistettävyys uusiin objektikokoihin.
Rajatun laatikon ennustus on olennainen osa objektintunnistusta, ja eri lähestymistavat tasapainottavat tarkkuutta ja tehokkuutta. Vaikka ankkuripohjaiset menetelmät parantavat tarkkuutta käyttämällä ennalta määriteltyjä muotoja, ankkurittomat menetelmät yksinkertaistavat tunnistusta ennustamalla objektien sijainnit suoraan. Näiden tekniikoiden ymmärtäminen auttaa suunnittelemaan parempia objektintunnistusjärjestelmiä erilaisiin tosielämän sovelluksiin.
1. Mitä tietoja rajatun laatikon ennustus tyypillisesti sisältää?
2. Mikä on ankkuripohjaisten menetelmien ensisijainen etu objektintunnistuksessa?
3. Minkä haasteen suora regressio kohtaa rajaavan laatikon ennustamisessa?
Kiitos palautteestasi!