Today I learned
1. 멀티모달 복습문제
1️⃣ Object Detection 기본 개념
🔹 Object Detection의 목표
- Bounding Box(위치) + Class(종류) 를 동시에 예측
- 단순 분류(Classification)나 픽셀 단위 분류(Segmentation)와 구분됨
✔️ 정답 요약
Object Detection = 어디에 + 무엇이 있는지 예측
→ Bounding Box + Class
2️⃣ TensorFlow – Base Model Freeze
🔹 Base Model Freeze란?
- 사전 학습된 모델의 가중치를 학습에서 제외
- Transfer Learning에서 특징 추출기 역할로 사용
base_model.trainable = False
✔️ 정답 요약
trainable = False → 가중치 업데이트 중단
3️⃣ 데이터 증강 (Data Augmentation)
🔹 데이터 증강의 목적
- 데이터 다양성 확보
- 과적합 방지
- 일반화 성능 향상
- 실제 환경 변화에 대한 모델 견고성 강화
❌ 하면 안 되는 것
- 정답 라벨을 임의로 변경하는 행위
✔️ 핵심 정리
데이터 증강은 입력만 변형, 라벨은 유지
4️⃣ YOLO (You Only Look Once)
🔹 YOLO의 특징 (1-stage Detector)
- 한 번의 forward pass로
- Bounding Box
- Class
- Confidence
를 동시에 예측
✔️ YOLO vs 2-stage
구분특징
| YOLO | 빠름, 실시간 처리 |
| R-CNN 계열 | 정확하지만 느림 |
🔹 YOLO Bounding Box 표현
- (x, y, w, h)
- 중심 좌표(x, y)
- 너비(width), 높이(height)
5️⃣ IoU (Intersection over Union)
🔹 IoU란?
- 예측 박스와 정답 박스의 겹침 정도
- Object Detection 성능 평가의 핵심 지표
✔️ 정확한 정의
IoU = 겹치는 면적 / 합집합 면적
⚠️ 실수 포인트
- 분모/분자 헷갈리기 쉬움
6️⃣ NMS (Non-Maximum Suppression)
🔹 NMS의 역할
- 겹치는 Bounding Box 중
- Confidence가 가장 높은 박스만 유지
- 나머지는 제거
✔️ 왜 필요한가?
- 하나의 객체에 여러 박스가 검출되는 문제 해결
문제
아래 코드의 `TODO` 부분을 채우시오.
**요구사항**
1. `img_path`의 이미지를 불러온다
2. 이미지 크기 정보 출력
3. 이미지를 `(320, 320)`으로 이미지 크기 바꾸기
4. 원본과 크기를 바꾼 이미지를 화면에 출력한다
더보기
!pip install opencv-python
import cv2
cv2.__version__
img_ilovecoffee = cv2.imread('./einspanner.jpg')
img_ilovecoffee.shape
img_ilovecoffee_resized = cv2.resize(img_ilovecoffee, (320, 320))
img_ilovecoffee_resized.shape
import matplotlib.pyplot as plt
import numpy as np
plt.subplot(121)
plt.imshow(img_ilovecoffee)
plt.subplot(122)
plt.imshow(img_ilovecoffee_resized)
2.[라이브세션] 멀티모달 4회차
MS COCO 데이터셋
- 마이크로소프트에서 생성한 이미지 데이터셋(2014)
- 32만장, 80개의 클래스 보유
- ImageNet의 Iconic한 문제를 해결하기 위해 제안된 복잡한 이미지: → Iconic 함: 이미지 내 객체 수가 적고, 크고, 중앙에 위치함
- Bounding Box와 함께, 인스턴스 세그멘테이션(Mask), 키포인트(Keypoints) 등 다양한 라벨 지원
Pascal VOC
- 영국 서리 대학교(University of Surrey)가 개최한 Visual Object Classes (VOC) 챌린지에서 시작 (2007~2012)
- 약 1~2만 장 이미지, 20개 클래스 보유
- xml 형식, 바운딩 박스가 최상단 좌표, 최하단 좌표로 구성 (MS COCO와 차이점)
ImageNet
- 스탠포드 대학교의 페이페이 리(Fei-Fei Li) 교수 팀이 시작한 대규모 이미지 데이터셋 (2009년)
- 1400만장 이미지, 1천개 클래스
CIFAR
- 클래수 수에 따라 CIFAR-10 과 CIFAR-100으로 나뉘며, 이미지 크기는 32 x 32
- CIFAR-10: 6만장 이미지, 10개 클래스
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_260114 (0) | 2026.01.14 |
|---|---|
| TIL_260112 (1) | 2026.01.12 |
| TIL_260128 (0) | 2026.01.08 |
| TIL_260107 (0) | 2026.01.07 |
| TIL_260106 (0) | 2026.01.06 |