빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_260202

usungusung 2026. 2. 2. 22:16

최종프로젝트 준비

 

PPT 도메인 지식 추가

2. 해결 전략: 이중 필터(하이브리드) 구조

이 문제를 해결하기 위해 단일 이상탐지 모델이 아닌,
확률 기반 + 밀도 기반 판단을 순차적으로 결합한 구조를 설계했다.

핵심 아이디어는 다음과 같다.

1️⃣ 위험할 가능성은 넓게 잡고
2️⃣ 실제로 튀는 경우만 좁게 거른다


3. Step 1 — 위험 구역 정의 (Risk Map)

첫 단계에서는 **지도학습 모델(XGBoost)**을 사용해
전체 공정 데이터 공간을 안전 영역과 위험 영역으로 나눈다.

  • 과거 불량 데이터를 학습하여
    불량 발생 확률이 높은 변수 조합 영역을 식별
  • 결과물은 알람이 아니라
  • “이 구역에 들어오면 주의 깊게 보자”라는 위험 지도(Risk Map)

📌 중요한 점
이 단계에서는 알람을 울리지 않는다.
→ 오직 이상 후보군을 넓게 선별하는 역할만 수행


4. Step 2 — 후보군 선별 (Gray Zone 포함)

새로운 샷 데이터가 들어오면,

  • Risk Map에 진입한 데이터는
    → 즉시 이상 후보군으로 분류
  • 정상/불량 경계가 모호한 데이터라도
    과거 이력상 위험했던 쪽이면 놓치지 않음

👉 이 단계는 의도적으로 과탐을 허용하는 단계다.


5. Step 3 — 밀도 기반 정밀 검사

이후 이상 후보군에 대해서만
**밀도 기반 이상탐지(LOF)**를 적용한다.

판단 기준은 단순하다.

  • 주변에 비슷한 정상 데이터가 많다 → 일시적 흔들림
  • 주변에 비슷한 데이터가 거의 없다 → 진짜 이상

즉,

“값이 이상한가?”가 아니라
**“공정 흐름에서 혼자인가?”**를 본다.


6. 최종 판단 로직

최종 알람은 다음 조건을 모두 만족할 때만 발생한다.

  • 확률적으로 위험한 구역에 속하고
  • 동시에 데이터 밀도 관점에서도 희소한 경우

👉 확률적 위험 + 실제 희소성

이 구조를 통해

  • 불필요한 알람(오탐)은 줄이고
  • 실제 조치가 필요한 이상만 전달할 수 있다.

7. 왜 이중 구조인가?

이중 구조를 선택한 이유는 명확하다.

  • 지도학습은 **“우리가 아는 불량”**을 잘 잡고
  • 비지도학습은 **“우리가 모르는 이상”**에 강하다

두 모델을 순차적으로 배치함으로써

  • 기존 불량의 정확한 탐지
  • 공정 드리프트로 인한 오탐 감소
    를 동시에 달성할 수 있었다.

 

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_260212  (1) 2026.02.12
TIL_260203  (0) 2026.02.03
TIL_260130  (1) 2026.01.30
TIL_260126  (0) 2026.01.26
TIL_260119  (0) 2026.01.19