빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_260109

usungusung 2026. 1. 9. 20:56

Today I learned

 

 

1. 멀티모달 복습문제

1️⃣ Object Detection 기본 개념

🔹 Object Detection의 목표

  • Bounding Box(위치) + Class(종류)동시에 예측
  • 단순 분류(Classification)나 픽셀 단위 분류(Segmentation)와 구분됨

✔️ 정답 요약

Object Detection = 어디에 + 무엇이 있는지 예측
Bounding Box + Class


2️⃣ TensorFlow – Base Model Freeze

🔹 Base Model Freeze란?

  • 사전 학습된 모델의 가중치를 학습에서 제외
  • Transfer Learning에서 특징 추출기 역할로 사용
 
base_model.trainable = False

✔️ 정답 요약

trainable = False → 가중치 업데이트 중단


3️⃣ 데이터 증강 (Data Augmentation)

🔹 데이터 증강의 목적

  • 데이터 다양성 확보
  • 과적합 방지
  • 일반화 성능 향상
  • 실제 환경 변화에 대한 모델 견고성 강화

하면 안 되는 것

  • 정답 라벨을 임의로 변경하는 행위

✔️ 핵심 정리

데이터 증강은 입력만 변형, 라벨은 유지


4️⃣ YOLO (You Only Look Once)

🔹 YOLO의 특징 (1-stage Detector)

  • 한 번의 forward pass
    • Bounding Box
    • Class
    • Confidence
      동시에 예측

✔️ YOLO vs 2-stage

구분특징
YOLO 빠름, 실시간 처리
R-CNN 계열 정확하지만 느림

🔹 YOLO Bounding Box 표현

  • (x, y, w, h)
    • 중심 좌표(x, y)
    • 너비(width), 높이(height)

5️⃣ IoU (Intersection over Union)

🔹 IoU란?

  • 예측 박스와 정답 박스의 겹침 정도
  • Object Detection 성능 평가의 핵심 지표

✔️ 정확한 정의

IoU = 겹치는 면적 / 합집합 면적

⚠️ 실수 포인트

  • 분모/분자 헷갈리기 쉬움

6️⃣ NMS (Non-Maximum Suppression)

🔹 NMS의 역할

  • 겹치는 Bounding Box 중
    • Confidence가 가장 높은 박스만 유지
    • 나머지는 제거

✔️ 왜 필요한가?

  • 하나의 객체에 여러 박스가 검출되는 문제 해결

 

문제

아래 코드의 `TODO` 부분을 채우시오.

**요구사항**
1. `img_path`의 이미지를 불러온다  
2. 이미지 크기 정보 출력
3. 이미지를 `(320, 320)`으로 이미지 크기 바꾸기  
4. 원본과 크기를 바꾼 이미지를 화면에 출력한다  

더보기

!pip install opencv-python

import cv2
cv2.__version__

img_ilovecoffee = cv2.imread('./einspanner.jpg')
img_ilovecoffee.shape

img_ilovecoffee_resized = cv2.resize(img_ilovecoffee, (320, 320))
img_ilovecoffee_resized.shape

import matplotlib.pyplot as plt
import numpy as np

plt.subplot(121)
plt.imshow(img_ilovecoffee)
plt.subplot(122)
plt.imshow(img_ilovecoffee_resized)

2.[라이브세션] 멀티모달 4회차

 

MS COCO 데이터셋

  • 마이크로소프트에서 생성한 이미지 데이터셋(2014)
  • 32만장, 80개의 클래스 보유
  • ImageNet의 Iconic한 문제를 해결하기 위해 제안된 복잡한 이미지: → Iconic 함: 이미지 내 객체 수가 적고, 크고, 중앙에 위치함
  • Bounding Box와 함께, 인스턴스 세그멘테이션(Mask), 키포인트(Keypoints) 등 다양한 라벨 지원

 

Pascal VOC

  • 영국 서리 대학교(University of Surrey)가 개최한 Visual Object Classes (VOC) 챌린지에서 시작 (2007~2012)
  • 1~2만 장 이미지, 20개 클래스 보유
  • xml 형식, 바운딩 박스가 최상단 좌표, 최하단 좌표로 구성 (MS COCO와 차이점)

 

ImageNet

  • 스탠포드 대학교의 페이페이 리(Fei-Fei Li) 교수 팀이 시작한 대규모 이미지 데이터셋 (2009년)
  • 1400만장 이미지, 1천개 클래스

 

CIFAR

  • 클래수 수에 따라 CIFAR-10 과 CIFAR-100으로 나뉘며, 이미지 크기는 32 x 32
  • CIFAR-10: 6만장 이미지, 10개 클래스

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_260114  (0) 2026.01.14
TIL_260112  (1) 2026.01.12
TIL_260128  (0) 2026.01.08
TIL_260107  (0) 2026.01.07
TIL_260106  (0) 2026.01.06