빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_251230

usungusung 2025. 12. 30. 22:01

Today I learned

 

 

1. 최종 프로젝트

 

주제 선정 및 전처리 진행

사출성형 공정 데이터 이상탐지 주제 선정

 

선정 사유

데이터의 특성과 현실 문제 구조가 머신러닝, 특히 비지도 학습에 매우 적합

 

데이터셋 특징

  • 대부분의 생산은 정상 공정
  • 불량은 2 % 내외
  • 원인은 다양한, 명확한 라벨을 확보하는 것이 어려움
  • 불량이 무엇인지 미라 파악하는 것 보다 정상과 다른 패턴을 빠르게 감지하는 것들이 중요
  • 전형적인 이상탐지 문제 구조라고 판단하였으며, 기존에 시도해보지 않았던 비지도 학습, 준지도 학습을 시도할 수 있는 좋은 기회라고 판단

 

문제 정의 및 접근 방식

 

초기 데이터 분석 결과, 주요 제품(CN7, RG3)의 불량 비율은 약 2% 내외로 확인되었다.

  • CN7 불량률 ≈ 1.9%
  • RG3 불량률 ≈ 2.1%

이는 단순 지도학습을 적용할 경우 다음과 같은 문제가 발생할 수 있음을 의미한다.

  • 정확도는 높게 나오지만
  • 실제로는 정상만 예측하는 모델이 될 가능성 큼
  • 불량 Recall이 거의 0이 되는 상황 발생

이에 따라 본 프로젝트에서는 다음과 같은 전략을 채택하였다.

  • 정상 데이터만 사용한 비지도 학습
  • 오토인코더(AutoEncoder) 기반 이상탐지
  • 복원 오차(reconstruction error)를 기준으로 합·불 판정

이 방식은 실제 제조 공정 이상탐지에서도 널리 사용되는 접근법이다.

 

추후 가이드라인을 토대로 Autoencoder 모델 설계를 실습하고, 프로젝트에 녹여낼 예정.

 

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_260102  (0) 2026.01.02
TIL_251231  (0) 2025.12.31
TIL_251229  (0) 2025.12.29
TIL_251226  (1) 2025.12.26
TIL_251224  (0) 2025.12.24