빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_251215

usungusung 2025. 12. 15. 20:41

Today I learned

 

 

1. 대시보드 프로젝트 진행(~12.17)

- 튜터님의 2차 피드백

 

Lot 기반 시계열 데이터에서 ‘2σ 이탈’을 어떻게 해석할 것인가

1. 피드백의 핵심 요지

  • 결과(모델 성능, 그래프)는 충분히 설득력 있음
  • 하지만 데이터의 성격(로트 데이터)지표 정의의 기준이 앞부분에서 명확히 제시되지 않음
  • 그래서 “왜 이런 분석을 했는지”에 대한 필연성이 약하게 전달됨

2. 데이터 해석 관점의 정리: 왜 ‘전체 정상 기준 μ±2σ’인가

(1) 기존 혼란의 원인

초기에는 다음 개념들이 섞여 있었다.

  • rec_num 기준
  • 개별 sequence 기준
  • 정상/불량 혼합 분포 기준

이로 인해 2σ 이탈 비율 그래프가 PPT와 대시보드에서 서로 다른 의미로 보이는 문제가 발생했다.


(2) 기준을 하나로 정리함

튜터 피드백을 반영하여 기준을 다음처럼 명확히 정의했다.

2σ 기준은 “전체 정상(양품) 데이터(전 rec_num 통합)”로부터 정의한다.

즉,

  • 특정 rec_num이나 특정 sequence의 분포를 기준으로 하지 않음
  • 공정이 정상적으로 운영되었을 때의 **‘기준 패턴 envelope’**를 먼저 정의
  • 각 sequence가 이 정상 envelope를 **얼마나 자주 벗어나는지(%)**를 측정

이렇게 정의하니,

  • Tab1: 어디에서 벗어나는지 (패턴 위치)
  • Tab2: 얼마나 자주 벗어나는지 (비율 요약)
    이라는 역할 분리가 명확해졌다.

3. 시각화 구조 개선 인사이트

(1) Tab1 (패턴 시각화)

  • 정상 데이터 기반 μ±2σ 음영은 ‘기준 영역’
  • 개별 sequence는 선(Line)으로 표현
  • 핵심 메시지:
    👉 “이 시퀀스는 정상 패턴 대비 어느 구간에서 이탈하는가”

(2) Tab2 (요약 지표)

  • rec_num 필터 제거 → 기준 혼란 방지
  • 시간 bin 개수 제거 → 사용자가 해석해야 할 변수를 줄임
  • 지표는 다음으로 단순화
    • 2σ 이탈 비율 (%)
    • 상한/하한 구분 대신 절댓값 기반 ±% 표현
  • 색상 기준
    • failure 기준 색상 유지 (정상=보라, 불량=빨강)

핵심 메시지:

“이 시퀀스는 정상 공정 대비 얼마나 위험한 패턴을 반복적으로 보이는가


4. 정리

✅ 기술적인 배움보다 더 중요한 것

  • 지표는 계산보다 ‘정의’가 중요하다
  • 특히 품질/공정 데이터에서는
  • “이 값의 기준 분포는 무엇인가?”
    를 먼저 말하지 않으면 어떤 시각화도 설득력을 갖기 어렵다.

✅ 오늘 정리된 스토리 라인

  1. 이 데이터는 Lot 단위 의사결정 데이터
  2. 정상 Lot들의 평균 패턴으로 기준 envelope(μ±2σ) 정의
  3. 각 Lot이 이 기준을 얼마나 자주 벗어나는지로 위험도 요약
  4. 세부 위치는 Tab1, 요약 판단은 Tab2

→ 이제 분석 흐름이 데이터 → 기준 → 지표 → 해석으로 자연스럽게 연결된다.

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_251217  (0) 2025.12.17
TIL_251216  (0) 2025.12.16
TIL_251212  (0) 2025.12.12
TIL_251211  (0) 2025.12.11
TIL_251208  (0) 2025.12.08