Today I learned
1. 대시보드 프로젝트 진행(~12.17)
- 튜터님의 2차 피드백
Lot 기반 시계열 데이터에서 ‘2σ 이탈’을 어떻게 해석할 것인가
1. 피드백의 핵심 요지
- 결과(모델 성능, 그래프)는 충분히 설득력 있음
- 하지만 데이터의 성격(로트 데이터) 과 지표 정의의 기준이 앞부분에서 명확히 제시되지 않음
- 그래서 “왜 이런 분석을 했는지”에 대한 필연성이 약하게 전달됨
2. 데이터 해석 관점의 정리: 왜 ‘전체 정상 기준 μ±2σ’인가
(1) 기존 혼란의 원인
초기에는 다음 개념들이 섞여 있었다.
- rec_num 기준
- 개별 sequence 기준
- 정상/불량 혼합 분포 기준
이로 인해 2σ 이탈 비율 그래프가 PPT와 대시보드에서 서로 다른 의미로 보이는 문제가 발생했다.
(2) 기준을 하나로 정리함
튜터 피드백을 반영하여 기준을 다음처럼 명확히 정의했다.
2σ 기준은 “전체 정상(양품) 데이터(전 rec_num 통합)”로부터 정의한다.
즉,
- 특정 rec_num이나 특정 sequence의 분포를 기준으로 하지 않음
- 공정이 정상적으로 운영되었을 때의 **‘기준 패턴 envelope’**를 먼저 정의
- 각 sequence가 이 정상 envelope를 **얼마나 자주 벗어나는지(%)**를 측정
이렇게 정의하니,
- Tab1: 어디에서 벗어나는지 (패턴 위치)
- Tab2: 얼마나 자주 벗어나는지 (비율 요약)
이라는 역할 분리가 명확해졌다.
3. 시각화 구조 개선 인사이트
(1) Tab1 (패턴 시각화)
- 정상 데이터 기반 μ±2σ 음영은 ‘기준 영역’
- 개별 sequence는 선(Line)으로 표현
- 핵심 메시지:
👉 “이 시퀀스는 정상 패턴 대비 어느 구간에서 이탈하는가”
(2) Tab2 (요약 지표)
- rec_num 필터 제거 → 기준 혼란 방지
- 시간 bin 개수 제거 → 사용자가 해석해야 할 변수를 줄임
- 지표는 다음으로 단순화
- 2σ 이탈 비율 (%)
- 상한/하한 구분 대신 절댓값 기반 ±% 표현
- 색상 기준
- failure 기준 색상 유지 (정상=보라, 불량=빨강)
핵심 메시지:
“이 시퀀스는 정상 공정 대비 얼마나 위험한 패턴을 반복적으로 보이는가”
4. 정리
✅ 기술적인 배움보다 더 중요한 것
- 지표는 계산보다 ‘정의’가 중요하다
- 특히 품질/공정 데이터에서는
- “이 값의 기준 분포는 무엇인가?”
를 먼저 말하지 않으면 어떤 시각화도 설득력을 갖기 어렵다.
✅ 오늘 정리된 스토리 라인
- 이 데이터는 Lot 단위 의사결정 데이터
- 정상 Lot들의 평균 패턴으로 기준 envelope(μ±2σ) 정의
- 각 Lot이 이 기준을 얼마나 자주 벗어나는지로 위험도 요약
- 세부 위치는 Tab1, 요약 판단은 Tab2
→ 이제 분석 흐름이 데이터 → 기준 → 지표 → 해석으로 자연스럽게 연결된다.
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_251217 (0) | 2025.12.17 |
|---|---|
| TIL_251216 (0) | 2025.12.16 |
| TIL_251212 (0) | 2025.12.12 |
| TIL_251211 (0) | 2025.12.11 |
| TIL_251208 (0) | 2025.12.08 |