Today I learned
1. 최종 프로젝트
주제 선정 및 전처리 진행
사출성형 공정 데이터 이상탐지 주제 선정
선정 사유
데이터의 특성과 현실 문제 구조가 머신러닝, 특히 비지도 학습에 매우 적합
데이터셋 특징
- 대부분의 생산은 정상 공정
- 불량은 2 % 내외
- 원인은 다양한, 명확한 라벨을 확보하는 것이 어려움
- 불량이 무엇인지 미라 파악하는 것 보다 정상과 다른 패턴을 빠르게 감지하는 것들이 중요
- 전형적인 이상탐지 문제 구조라고 판단하였으며, 기존에 시도해보지 않았던 비지도 학습, 준지도 학습을 시도할 수 있는 좋은 기회라고 판단
문제 정의 및 접근 방식
초기 데이터 분석 결과, 주요 제품(CN7, RG3)의 불량 비율은 약 2% 내외로 확인되었다.
- CN7 불량률 ≈ 1.9%
- RG3 불량률 ≈ 2.1%
이는 단순 지도학습을 적용할 경우 다음과 같은 문제가 발생할 수 있음을 의미한다.
- 정확도는 높게 나오지만
- 실제로는 정상만 예측하는 모델이 될 가능성 큼
- 불량 Recall이 거의 0이 되는 상황 발생
이에 따라 본 프로젝트에서는 다음과 같은 전략을 채택하였다.
- 정상 데이터만 사용한 비지도 학습
- 오토인코더(AutoEncoder) 기반 이상탐지
- 복원 오차(reconstruction error)를 기준으로 합·불 판정
이 방식은 실제 제조 공정 이상탐지에서도 널리 사용되는 접근법이다.
추후 가이드라인을 토대로 Autoencoder 모델 설계를 실습하고, 프로젝트에 녹여낼 예정.
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_260102 (0) | 2026.01.02 |
|---|---|
| TIL_251231 (0) | 2025.12.31 |
| TIL_251229 (0) | 2025.12.29 |
| TIL_251226 (1) | 2025.12.26 |
| TIL_251224 (0) | 2025.12.24 |