최종프로젝트 준비
PPT 도메인 지식 추가
2. 해결 전략: 이중 필터(하이브리드) 구조
이 문제를 해결하기 위해 단일 이상탐지 모델이 아닌,
확률 기반 + 밀도 기반 판단을 순차적으로 결합한 구조를 설계했다.
핵심 아이디어는 다음과 같다.
1️⃣ 위험할 가능성은 넓게 잡고
2️⃣ 실제로 튀는 경우만 좁게 거른다
3. Step 1 — 위험 구역 정의 (Risk Map)
첫 단계에서는 **지도학습 모델(XGBoost)**을 사용해
전체 공정 데이터 공간을 안전 영역과 위험 영역으로 나눈다.
- 과거 불량 데이터를 학습하여
불량 발생 확률이 높은 변수 조합 영역을 식별 - 결과물은 알람이 아니라
- “이 구역에 들어오면 주의 깊게 보자”라는 위험 지도(Risk Map)
📌 중요한 점
이 단계에서는 알람을 울리지 않는다.
→ 오직 이상 후보군을 넓게 선별하는 역할만 수행
4. Step 2 — 후보군 선별 (Gray Zone 포함)
새로운 샷 데이터가 들어오면,
- Risk Map에 진입한 데이터는
→ 즉시 이상 후보군으로 분류 - 정상/불량 경계가 모호한 데이터라도
과거 이력상 위험했던 쪽이면 놓치지 않음
👉 이 단계는 의도적으로 과탐을 허용하는 단계다.
5. Step 3 — 밀도 기반 정밀 검사
이후 이상 후보군에 대해서만
**밀도 기반 이상탐지(LOF)**를 적용한다.
판단 기준은 단순하다.
- 주변에 비슷한 정상 데이터가 많다 → 일시적 흔들림
- 주변에 비슷한 데이터가 거의 없다 → 진짜 이상
즉,
“값이 이상한가?”가 아니라
**“공정 흐름에서 혼자인가?”**를 본다.
6. 최종 판단 로직
최종 알람은 다음 조건을 모두 만족할 때만 발생한다.
- 확률적으로 위험한 구역에 속하고
- 동시에 데이터 밀도 관점에서도 희소한 경우
👉 확률적 위험 + 실제 희소성
이 구조를 통해
- 불필요한 알람(오탐)은 줄이고
- 실제 조치가 필요한 이상만 전달할 수 있다.
7. 왜 이중 구조인가?
이중 구조를 선택한 이유는 명확하다.
- 지도학습은 **“우리가 아는 불량”**을 잘 잡고
- 비지도학습은 **“우리가 모르는 이상”**에 강하다
두 모델을 순차적으로 배치함으로써
- 기존 불량의 정확한 탐지
- 공정 드리프트로 인한 오탐 감소
를 동시에 달성할 수 있었다.
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_260212 (1) | 2026.02.12 |
|---|---|
| TIL_260203 (0) | 2026.02.03 |
| TIL_260130 (1) | 2026.01.30 |
| TIL_260126 (0) | 2026.01.26 |
| TIL_260119 (0) | 2026.01.19 |