์ฐ๋ฆฌ๋ ์ง๋ ์๊ฐ๊น์ง ์นด๋ฉ๋ผ ์คํฐ์ปค์ฑ์ ๋ง๋ค๋ฉด์ ์ด๋ฏธ์ง ์์ ์ผ๊ตด์ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์ธ์ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๊ณ ๋ฏผํด ์๋ค. ์ฒซ๋ฒ์งธ๋ก ๊ณ ๋ คํด๋ณธ ๋ฐฉ๋ฒ์ Dlib ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํด์ Face Landmark๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ด์๋ค. ํ์ง๋ง ๊ทธ๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์์๋ค. ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ์ ๋ค์ด ๋ฐ๊ฒฌ๋์๋ค.
- ์ผ๊ตด์ ์ ๋ชป์ฐพ๋๋ค.
- ๋์์์ ์ฒ๋ฆฌํ๊ธฐ์ ๋๋ฌด ๋๋ฆฌ๋ค.
- ์ผ๊ตด ๊ฐ๋, ๋ฐฉํฅ, ํฌ๊ธฐ ๋ฑ์ ๋ณํ์ ์ทจ์ฝํ๋ค.
์ฐ์ ๋น๋๋ฉด ์ธ์ฆ์๋จ์ผ๋ก ์ผ๊ตด์ธ์์ด ๋ณดํธ์ ์ผ๋ก ์ฌ์ฉ๋๊ธฐ ์์ํ๋ค๋ ์ ์ ๋ค ์ ์๋ค. ๊ทธ๋ฐ๋ฐ ์ด๋ฐ ์ผ๊ตด ์ธ์์ ์ํด ๋ฅ๋ฌ๋ ์๋ฒ ๊ตฌ๋์ด ํ์ํ ๋ชจ๋ธ์ ํ์ฉํ ์ ์์๊น?
์๋ฒ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ธ ํ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ๋คํธ์ํฌ ๋น์ฉ + ์๋ฒ๋น์ฉ + ์ธํฐ๋ท ์๋์ ์ํฅ์ ๊ณ ๋ คํ์ง ์์ ์ ์๋ค. ๋คํธ์ํฌ ์ํฉ๊ณผ ๋ฌด๊ดํ๊ฒ ํญ์ ๋์ํด์ผ ํ๋ ํธ๋ํฐ ์ธ์ฆ ์๋จ์ผ๋ก๋ ์ ํฉํ์ง ์์ ๊ฒ์ด๋ค. ๊ทธ๋์ edge device(= ํธ๋ํฐ)๋ฅผ ๋ฐ๋ก ์ด์ฉํ ์ ์์ด์ผ ํ๋ค.
ํธ๋ํฐ์ ๋ชจ๋ธ์ ์ฌ๋ฆฌ๋ ค๋ฉด weight ๊ฐ ์์ ๋ชจ๋ธ์ด ๊ด๋ฆฌ์ ์ ๋ฆฌํ๋ค. ํ์ง๋ง ์ผ๋ฐ์ ์ผ๋ก ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋จ์ด์ง๊ธฐ ๋๋ฌธ์ ์ด๋ป๊ฒ ๋ณด์ํ ์ ์์์ง ๊ณ ๋ฏผ์ด ์์๋๋ค.
๊ตญ๋ด IT ๋๊ธฐ์ ๋ค๋ ์ด๋ฏธ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ํ๋ฐํ ์งํํ๊ณ ์๋ค. ์๋ ๊ธ๋ค์ ํตํด ์์ธํ ๋ด์ฉ์ ์ฐธ๊ณ ํ์.
- ์นด์นด์ค ์ผ๊ตด์ธ์ ๊ด๋ จ ๋ฆฌ์์น ๊ธ : https://tech.kakaoenterprise.com/63
- ๋ค์ด๋ฒ ์ผ๊ตด๊ฒ์ถ ๊ด๋ จ ์คํ์์ค : https://github.com/clovaai/EXTD_Pytorch
- sliding window ๋ฅผ ๋ฒ๋ ค์ผ ๋นจ๋ผ์ง๋ค. 2-stage ๋ฐฉ์์ detection์ ์ข์ ๋์์ด ๋์ง ๋ชปํ๋ค.
- ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํด์ผ ํ๋ค.
- CNN ์ GPU ์์ ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ๊ฒ ์ง๋ง, ํธ๋ํฐ์์๋ ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ๊ฐ?
- Apple ์ CoreML ์ด๋ผ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ง์ํ๋ค.
- https://developer.apple.com/documentation/coreml
- http://machinethink.net/blog/ios-11-machine-learning-for-everyone/
- ์ฌ๋ก : 16core ๋ด๋ด์์ง์ ๋ฃ์ ์์ดํฐ12 iPhone 12 Pro ๋ฐ iPhone 12 Pro Max
- ์ค๋งํธํฐ ์ ์กฐ์ฌ๊ฐ ๋ณ๋ ฌํ๋ฅผ ์ง์ํ์ง ์๋๋ค๋ฉด? ์ด๋ค ๋์์ด ์์๊น?
- ์๋๋ก์ด๋๋ ๊ตฌ๊ธ ๊ฒ
- ML kit : https://www.slideshare.net/inureyes/ml-kit-machine-learning-sdk
- tflite : https://www.tensorflow.org/lite?hl=ko
- tflite๊ฐ ์๋๋ค๋ฉด ์ง์ ๋ณ๋ ฌํ๋ก๊ทธ๋๋ฐ์ผ๋ก pytorch, tensorflow ๊ฐ์ ํด์ ์ ์ํ๋ค. (๋์ด๋ โ โ โ โ โ )
- (์ฐธ๊ณ ) ์ต๊ทผ์๋ ๋ฉด์ ์์ ์๋์ ๊ฐ์ ๋ณ๋ ฌํ ๋๊ตฌ ๊ฒฝํ์ ๋ฌป๋ ์ฌ๋ก๊ฐ ๋ง์ด ๋ฑ์ฅํ๊ณ ์๋ค. ์ฃผ๋ก ๋ชจ๋ฐ์ผ ๊ธฐ๋ฐ ์ ๋ช ์๋น์ค ํ์ฌ๋ค์ด ๊ทธ๋ฐ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
ํ์ง๋ง ๋ฌด์๋ณด๋ค๋ ์ ์ ํ๋ผ๋ฏธํฐ ์๋ก๋ ์ ํํ ์ฑ๋ฅ์ ๊ฐ์ง๋ ๋ชจ๋ธ์ ์ค๊ณํ๋ ๊ฒ ์ค์ํ๋ค.
์ฌ๋ฌ๋ถ์ ์๋ง๋ 2-stage detector ์ ์คํ์๋๊ฐ ๋๋ฆฌ๋ค๋ ๊ฒ์ ์ด๋ฏธ ๊ณต๋ถํด์ ์๊ณ ์์ ๊ฒ์ด๋ค. ์ด์ ์คํ ์์ ์ดํด๋ณธ ๊ฒ์ฒ๋ผ, ์ผ๊ตด์ธ์ ๊ฐ์ด ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ๊ฐ๋ฒผ์์ผํ๋ task ๋ 1-stage ๊ธฐ๋ฐ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ ๋ฆฌํ ๊ฒ์ด๋ค.
- object detection ๋ชจ๋ธ์ ์์ธํ ์ค๋ช : Object Detection Part 4: Fast Detection Models
- single shot object detectors : What do we learn from single shot object detectors (SSD, YOLOv3), FPN & Focal loss (RetinaNet)?
- ์ ๊ธ์ ๋ฒ์ญ๋ณธ : https://murra.tistory.com/17
์ดํ ์คํ ์์ ์ฐ๋ฆฌ๋ 1-stage(Single stage) Object detection ๋ชจ๋ธ๋ค ์์ฃผ๋ก Face detection์ ์ ํฉํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ๋ํด ํ์ํด ๋ณผ ๊ฒ์ด๋ค. YOLO, SSD, RetinaNet ๋ฑ ์ด ๋ถ์ผ์ ๋ชจ๋ธ๋ค์ ๋ฐ์ ์ฌ๋ ๋ฅ๋ฌ๋ ๋ถ์ผ์์๋ ๋งค์ฐ ํฅ๋ฏธ์ง์งํ ์ด๋ ฅ์ ๊ฐ์ง๊ณ ์์ผ๋, ํจ๊ป ์ดํด๋ณด์.
YOLO๋ผ๋ ๋ชจ๋ธ์ ๋ค์ด๋ฐ ์ผ์ค๋ ๊ณผ์ฐ ์ด๋์์ ์์๊น? YOLO๋ผ๋ ์ ๋ช ํ ๋ชจ๋ธ์ ์ธ๊ธํ๋ ค๋ฉด ์ ๋ ๋นผ๋์ ์ ์๋ ํ ์ฌ๋์ด ์๋ค. ๋ฐ๋ก Joseph Redmon, YOLO ๋ ผ๋ฌธ์ 1์ ์์ด์, C๋ก ๊ตฌํ๋ ์คํ์์ค ๋ด๋ด ๋คํธ์ํฌ Darknet์ ์ ์์์ด๋ค.
- YOLO์ ์ถํ : ๋น์ ์ ์ธ๊ณ computer vision ํ๊ณ์ ์ ๊ณ์ ์ถฉ๊ฒฉ์ ์ผ ์ ๋์ ๊ธฐ์ ์ง๋ณด๋ฅผ ๋ณด์ฌ์ค ์ฌ๋ก
CVPR 2016. ๋ฌด๋ ค 2016๋ ๋์ CVPR oral session ์์ ์ค์๊ฐ ๋ฐ๋ชจ๋ฅผ ํด๋ฒ๋ฆฐ๋ค. ์ง๊ธ์ ์์ฐ์ค๋ฌ์ ๋ณด์ผ ์๋ ์์ง๋ง, ๋น์ ๊ธฐ์ ์์ค์ ์๊ฐํด๋ณด๋ฉด object detection์ ์ค์๊ฐ์ผ๋ก ํํ์ฅ์์ ๋ณด์ฌ์คฌ๋ค๋ ๊ฒ์ ์ถฉ๊ฒฉ๊ณผ ๊ณตํฌ ๊ทธ ์์ฒด์๋ค.
CVF ์ฑ๋์์ ์ ํ๋ธ ์กฐํ์ 1์ ๋์์์ด๋ค. ์ฐธ๊ณ ๋ก 2์๋ 2 stage detector ๊ธฐ๋ฐ์ธ Mask-R-NN์ด๋ค. Detection์ด ์ผ๋ง๋ ๊ด์ฌ์ด ๋ง์์ง ์ ์ ์๋ ๋๋ชฉ์ด๋ค.
๋ํ์ ์ธ 2-stage detector์ธ R-CNN๊ณผ YOLO ๋ชจ๋ธ์ ์๋์ ๊ฐ์ด ๊ธฐ๋ณธ ๊ฐ์ ์์๋ถํฐ ์ฐจ์ด์ ์ด ์๋ค.
- RCNN ๊ณ์ด์ ๊ฐ์ : "๋ฌผ์ฒด๊ฐ ์กด์ฌํ ๊ฒ ๊ฐ์ ๊ณณ์ backbone network ๋ก ํํํ ์ ์๋ค." โ region proposal network
- YOLO v1 ์ ๊ฐ์ : "์ด๋ฏธ์ง ๋ด์ ์์ ์์ญ์ ๋๋๋ฉด ๊ทธ ๊ณณ์ ๋ฌผ์ฒด๊ฐ ์์ ์ ์๋ค." โ grid ๋ด์ ๋ฌผ์ฒด๊ฐ ์กด์ฌํ๋ค.
- backbone ์ ํต๊ณผํ 7x7 feature map ์์ 1px ๊ฐ 1๊ฐ์ grid ๋ฅผ ์๋ฏธํจ Q. ์๋ณธ ์ด๋ฏธ์ง์์ 1๊ฐ์ grid box ์ ์ฌ์ด์ฆ๋ฅผ ๊ตฌํ์์ค A. 448 / 7 = 64 โ 64x64
- 7x7 feature map ์์ 1) Bounding box ์ ๊ด๋ จ๋ Bbox ๊ฐ์ x (x, y, w, h, confidence) 5 ๊ฐ ๊ฐ 2) Class ํ๋ฅ C ๊ฐ์ tensor ๋ฅผ ์ถ๋ ฅ
- ์ฆ ์ต์ข ์ถ๋ ฅ ๊ฐ์๋ 7x7x(5xB + C) ๊ฐ ๋ฉ๋๋ค.
Q. 1๊ฐ์ grid ๋น 2๊ฐ์ Bbox ์ 20๊ฐ ํด๋์ค๋ฅผ ์์ธกํ๋ YOLO ๋ฅผ ๋ง๋ค๊ณ ์ถ์ ๊ฒฝ์ฐ output tensor ์ flatten ํ์ ๋ ํฌ๊ธฐ๋? A. 7 x 7 x (5 x 2 + 20) = (1470,)
- ์์ ๊ฑฐ์ ํด๋นํ๋ grid ๊ฐ ๋ง์๋ฐ ์ด๋ฐ ๊ฒฝ์ฐ๋ ํด๋น grid ๋ค์ด ๋ชจ๋ ์์ ๊ฑฐ๋ฅผ ๋ํ๋ด๋๊ฐ? โ ๊ทธ๋ ๋ค. ํ์ต์ด ์ ๋ ๊ฒฝ์ฐ ๋ชจ๋ ๋น์ทํ ํฌ๊ธฐ๋ก ์์ ๊ฑฐ์ bbox ๋ฅผ ์ก๋๋ค.
- ๊ทธ๋ฌ๋ฉด ํ ๋ฌผ์ฒด๋ฅผ ์ก๋ bbox ๊ฐ ๋ง์์ง๋ ๊ฒฝ์ฐ๋ ์ด๋ป๊ฒ ํ๋๊ฐ? โ ์ด๋ฏธ ๋ฐฐ์ ๋ฏ์ด NMS ์ ๊ฐ์ ๊ธฐ๋ฒ์ ์ด์ฉํ๋ค.
- YOLO ์ ๋ชฉํ๋ grid ์ ํด๋นํ๋ ๋ฌผ์ฒด๋ฅผ ์ ์ก์๋ด๋ ๊ฒ์ด๋ค.
- grid cell ์ ์ํ๋ ๋ฌผ์ฒด๋ฅผ ๊ฒ์ถํ ์ฑ ์์ด ์๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค.
- ๋ฐ๋ผ์ 1๊ฐ grid ์ ๊ท์๋ bbox ์ ๋ณด (x,y,w,h) ์ ํ์ต ๋ชฉํ๋ bbox gt ์ ์ต๋ํ ๋์ผํ๊ฒ ํ์ต๋์ด์ผ ํ๋ค. (์ด๋ IoU ๋ฅผ ์ฌ์ฉํ๋ค)
- ๊ธฐ์กด R-CNN ๊ณ์ด ๋ฐฉ๋ฒ์ ๊ฒ์ถ์๋๊ฐ ๋๋ฆฌ๋ค.
- Faster R-CNN์ RPN ํ๋ณด๊ตฐ์ ๋ฝ๊ณ localization, classification ์ ์ํํ๋ค. ์ด ๋ RPN ์์ 300๊ฐ ์์ญ์ ์ ์ํ๋๋ฐ, objectness ์ ์ซ์๊ฐ ๋ง์ ์๋ก ๋๋ ค์ง๋ฉฐ 7x7= 49 grid ์ ๋น๊ตํด์ ๋ด์ผํ ๋ถ๋ถ์ด๋ค.
- 7x7 grid ๋ง์ง๋ง layer๋ฅผ ํด์ํ๋ค.
- 7x7 x (30) ์์ 30 = 5(x,y,w,h,c) + 5 + 20 (class) ๋ก ์ด๋ฃจ์ด์ง๋ค.
- classification ์ ์ด๋ฏธ ์ฐ๋ฆฌ๊ฐ ์ตํ ์๊ณ ์๋ P( real | pred ) ์ธ likelihood ๋ฅผ ์ฌ์ฉํ๋ค.
- confidence score ๋ฅผ loss ๋ก ๋ง๋ค ๋๋ P(class | object) * P(object) * IoU ๋ก ํํํ๋ค.
- ์ฆ 7x7x2 ๊ฐ์ class confidence score ๊ฐ ๊ณ์ฐ๋๋ค.
- arXiv ๋ ผ๋ฌธ ๋ฐํ์์๋ mAP ๊ฐ 63.4 ์์ง๋ง CVPR 2016 ๋ฐํ๋๋ 69.0 ์ผ๋ก ํฅ์์์ผ์ ๋ฐํํ๋ค.
- Faster RCNN ๊ณผ ํฐ ์ฐจ์ด๊ฐ ๋์ง ์์ผ๋ฉด์ ์๋๋ 6๋ฐฐ ์ด์์ธ ํ์ ์ ์ธ ์ฐ๊ตฌ์๋ค.
- ๊ฐ๊ฐ grid cell ์ด ํ๋์ ํด๋์ค๋ง ์์ธก ๊ฐ๋ฅํ๋ฏ๋ก ์์ object ์ ๋ํด ์์ธก์ด ์ด๋ ต๋ค.
- bbox ํํ๊ฐ training data ๋ฅผ ํตํด ํ์ต โ bbox ๋ถ์ฐ์ด ๋๋ฌด ๋์ด ์๋ก์ด ํํ์ bbox ์์ธก์ด ์ ๋์ง ์์๋ค.
- ๋ชจ๋ธ ๊ตฌ์กฐ์ backbone ๋ง ๊ฑฐ์น feature map ๋์์ผ๋ก bbox ์ ๋ณด๋ฅผ ์์ธกํ๊ธฐ ๋๋ฌธ์ localization ์ด ๋ค์ ๋ถ์ ํํ๋ค.
- ํ์ ์ ๊ฐ์ ธ์จ Redmon ์ 1๋ ๋ค์ธ CVPR 2017 ์ YOLO๋ฅผ v2 ๋ก ๋ฐ์ ์์ผ ๊ฐ์ง๊ณ ๋์๋ค.
joseph redmon ์ ๋ฐํ์๋ฃ์์ intro ๋ฅผ ๋ฐ์ทํด์ yolo v2 ๋ฅผ ์ค๋ช ํ์๋ฉด,
YOLO ์์ฒด๋ก๋ ์ข์์ง๋ง ์ ํ๋๊ฐ ์์ฌ์ ๋ค.
- CVPR 2016 ์์ ๋ฐ๋ชจ ์ค์ redmon ์ด ์ ๊น ์ฌ๋ผ์ก์ ๋, ๋ท๋ฌธ์ ํ์ฅ์ค๋ก ์ธ์ํด๋ฒ๋ฆฌ๋ ์ฌ๊ณ ๊ฐ ๋ฐ์ํ๋ค. CVPR 2017 ์์ ์ด ๋ ์ฅ๋ฉด์ ์บก์ณํด์ ๊ฐ์ง๊ณ ๋์๋ค.
- Make it better
- Do it faster
- Makes us stronger
๊ฐ๊ฐ์ ๋์ ๋๋ ํน์ง์ ์งง๊ฒ ์ ๋ฆฌ ํ๋ค.
Make it better
Do it faster
Makes us stronger
YOLO v2 ๋ ์ค์ ๋ก YOLO9000 ์ด๋ผ๋ ์ด๋ฆ์ผ๋ก ๋ฐํ๋์๋ค. 9000๊ฐ์ class ๋ฅผ classification ํ๋ฉด์ detection ๊น์ง ํด๋ด๋ ๋๋ผ์์ ๋ค์ ํ ๋ฒ ๋ณด์ฌ์ฃผ๋๋ฐ์. 9000๊ฐ class๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ๊น์ง๋ ๋ค๋ฃจ์ง ์๊ฒ ๋ค. ๊ถ๊ธํ๋ค๋ฉด ์๋ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํ์.
- YOLO v2 ๋น์ SSD, R-FCN ๋ฑ์ด ์ด๋ฏธ ๋ฐํ๋ ์ํฉ์ด์๋ค. ํนํ SSD ์ YOLO ๋ ๊ฐ์ single stage ๋ฐฉ๋ฒ์ ์งํฅํ๊ณ ์์๊ธฐ ๋๋ฌธ์ ๊ฒฝ์๋ชจ๋ธ์ด ๋์๊ณ , YOLO v2 ์ ์ฅ์์๋ SSD ์์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ถ๊ฐ์ํค๋๊ฒ ์ค์ํ ๊ณผ์ ์๋ค.
์๋๋ TED์ YOLO v2 ๋ฐ๋ชจ์์์ด๋ค.
RetinaNet figure ๋ฅผ ๋ณด์๋ฉด YOLO v2๋ฅผ ์ธ๊ธํ๋ฉด์ figure ์๋ ๊ทธ๋ ค์ฃผ์ง๋ ์๋ ์ ์ ํจ์ ๋ณด์ฌ์ค๋ค. ์ค์ ๋ก RetinaNet ์ฑ๋ฅ์ด ์ข๊ธฐ๋ ํ๋ค.
๊ทธ๋ฌ๋ Redmon์ ์๋ก์ด YOLO๋ฅผ ๋ค๊ณ RetinaNet๊ณผ ์ ๋ฉด ๋น๊ต๋ฅผ ํ๋ค.
RetinaNet figure ๋ฅผ ๊ทธ๋๋ก ๊ฐ์ง๊ณ ์์ YOLO v3 ์ฑ๋ฅ์ ๋ฐ์ ๋ฃ์๋ค. ํด๋น figure ๋ YOLO ํ๋ก์ ํธ ํ์ด์ง์๋ ๊ทธ๋๋ก ์ฌ์ฉ๋์๋ค.
https://taeu.github.io/paper/deeplearning-paper-yolov3/
Redmon ์ computer vision ์ฐ๊ตฌ๊ฐ ์์ ์ ๋ชฉ์ ๊ณผ๋ ๋ค๋ฅด๊ฒ ๊ตฐ์ฌ์ ์ผ๋ก ์ฌ์ฉ๋๊ณ ์๋ ๊ฒ์ ํฐ ํ์๊ฐ์ ๋๋ผ๊ณ ์ปดํจํฐ๋น์ ์ฐ๊ตฌ๋ฅผ ๊ทธ๋ง๋๊ฒ ๋ค๊ณ ์ ์ธํ๋ค. YOLO ๋ฑ darknet ํ๋ก์ ํธ๋ Alexey Bochkovskiy ๊ฐ ๋ฉ์ธํ ์ด๋๋ก ์ด์ด๋ฐ๊ฒ ๋์๋ค.
20๋ ํ์ฌ yolo v4 ๊ฐ ๋ฐํ๋์๊ณ 1์ ์๋ Alexey Bochkovskiy๊ฐ ๋์์ง๋ง redmon์ด ๋น ์ง ๊ฒ์ ์ํ๊น์ด ์ผ์ด๋ค.
YOLO ๊ฐ 1 stage ๋ก object detection ์ด ๊ฐ๋ฅํด์ง๋ค๋ ์ฆ๋ช ์ ํ ๋ค 1 stage detector ๊ฐ ์ ๋ง์ ๋ฐ์ ์ ์ด๋ฃจ๊ธฐ ์์ํ๊ณ , SSD ๋ YOLO v1 ์์ grid ๋ฅผ ์ฌ์ฉํด์ ์๊ธฐ๋ ๋จ์ ์ ํด๊ฒฐํ ์ ์๋ ๋ช ๊ฐ์ง ํ ํฌ๋์ ์ ์ํ๋ค.
- image pyramid
- pre-defined anchor box
- ImageNet ์ผ๋ก pretrained ๋ VGG16 ์ ์ฌ์ฉ
- VGG ์์ pooling ์ ๊ฑฐ์น block ์ ํ๋์ image feature ๋ก ์ฌ์ฉ๊ฐ๋ฅ
- YOLO ์์ 7x7 feature map ํ๋๋ง์ ์ฌ์ฉํ๋ค๋ฉด, SSD ๋ 38x38, 19x19, 10x10, 5x5, 3x3 โฆ ์ ์ฌ์ฉํจ
- ๊ฐ feature map ์ YOLO ์ ๊ด์ ์์ ๋ณด๋ฉด ์๋ณธ ์ด๋ฏธ์ง์์ grid ํฌ๊ธฐ๋ฅผ ๋ค๋ฅด๊ฒ ํ๋ ํจ๊ณผ๊ฐ ์์
- ์ฆ, 5x5 feature map ์์ grid ๊ฐ ๋๋ฌด ์ปค์ small object ๋ฅผ ๋ชป์ฐพ๋ ๋ฌธ์ ๋ฅผ 38x38 feature map ์์ ์ฐพ์ ์ ์๋ ๋จ์๋ฅผ ๋ง๋ จ
Q. Image feature pyramid ์ ๋จ์ ์ ๋ฌด์์ธ๊ฐ?
A. YOLO ๋๋น ์ต์ feature map ์ ๊ฐ์๋งํผ ๊ณ์ฐ๋์ด ๋ง๋ค. 38x38 feature map์ box ๋ฅผ ๊ณ์ฐํ๊ธฐ์๋ ์ถฉ๋ถํ ๊น์ง ์์ network ์ผ ์ ์๋ค.
- YOLO v1 ์ ๋๋ฒ์งธ ๋จ์ ์ box ์ ๋ณด (x,y,w,h) ๋ฅผ ์์ธกํ๊ธฐ ์ํ seed ์ ๋ณด๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋์ bbox ๋ถํฌ๋ฅผ ๋ชจ๋ ํ์ตํ ์ ์๋ค๋ ์ โ ์ด๋ก ์ธํ ์ฑ๋ฅ ์์ค์ด ์กด์ฌํ ์ ์๋ค.
- faster R-CNN ๋ฑ ์์ ์ฌ์ฉํ๋ anchor ๋ฅผ ์ ์ฉํ ํ์๊ฐ ์๋ค. ex) ๊ฐ๊ฐ ๋ฑ์ฅํ๋ bounding box ๋ง์ x, y, w, h ํน์ฑ์ด ์กด์ฌํ ๊ฒ โ pre-defined ๋ box ๋ถํฐ x,y,w,h ๋ฅผ refinement ํ๋ layer ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์ด๋์ด๋ค. ์ด anchor box ๋ฅผ SSD ์์๋ default box ๋ผ๊ณ ๋ถ๋ฅธ๋ค.
- SSD ์ framework
- (a) : ์ด๋ฏธ์ง, GT ๋ฐ์ดํฐ์
- (b) : (vgg backbone ์ ๊ฐ๊น์ด) fine-grained feature map. 8x8 grid ์์ ๊ฐ๊ฐ์ grid ์ 3๊ฐ anchor box ๋ฅผ ์ ์ฉํ ์ ์๋ค. ๊ณ ์์ด๋ ํฌ๊ธฐ๊ฐ ์๊ธฐ ๋๋ฌธ์ (a) ์ ๊ณ ์์ด๋ 8x8 feature map ๋ด grid ์ค 1๊ฐ์ anchor box ๋ก ๋ถํฐ ํ์ต๋ ์ ์๋ค.
- (c) : ๊ฐ์ ๊ฒฝ์ฐ ํฌ๊ณ ์ธ๋ก๋ก ๊ธด ๊ฒฝํฅ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์ receptive field ๊ฐ ๋์ 4x4 feature map ์ด ์ฌ์ฉ๋๋ค.
Default box๋ฅผ ์ํ Scale. ์ฌ๋ฌ ํฌ๊ธฐ์ default box ์์ฑ์ ์ํด ์๋์ ๊ฐ์ ์์ ์ฌ์ฉํ๋ค.
anchor free
https://hoya012.github.io/blog/ICCV-2019-paper-preview/
https://blog.naver.com/jinyuri303/221876480557
์ง๊ธ๊น์ง One-Stage Detection์ ๊ฐ์ฅ ๋ํ์ ์ธ ๋ ๊ฐ์ง ๋ชจ๋ธ์ธ YOLO์ SSD์ ๋ํด ์ดํด๋ณด์๋ค. ๋ค์ ์ค์ต์์๋ SSD๋ฅผ ํ์ฉํ Face Detection์ ์ค์ ๋ก ๊ตฌํํด ๋ณด๋ ๊ณผ์ ์ ํตํด ๋์ฑ ๊น์ด ์๊ฒ ์์๋ณด๊ฒ ๋ ๊ฒ์ด๋ค.
ํ์ง๋ง ์ดํ๋ก ํนํ Face Detection ๊ณผ ๊ด๋ จํ์ฌ ์๋์ ๊ฐ์ ๋ ผ๋ฌธ๋ค์ด ์ง์์ ์ผ๋ก ๋ฐํ๋์๋ค. ์๋ ์ธ๊ธ๋ ๋ด์ฉ๋ค์ ์ถ๊ฐ์ ์ผ๋ก ์ดํด๋ณด๋ ๊ฒ์ ๊ถ์ฅํ๋ค.
S3FD https://seongkyun.github.io/papers/2019/03/21/S3FD/https://arxiv.org/abs/1708.05237
DSFD https://arxiv.org/pdf/1810.10220.pdf
RetinaFace https://arxiv.org/pdf/1905.00641.pdf