빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_260114

usungusung 2026. 1. 14. 21:26

Today I learned

 

 

1. 최종프로젝트

피드백(20260113)

1) 전처리 검증(필수 체크리스트)
전처리 전(B) vs 후(A) 분포 비교
기본 통계/분포, 바이올린 등 시각화
변수

타겟(불량/정상) 관계 확인
상관/관계 플롯 등 EDA를 전/후로 반복 비교
베이스라인 모델로 빠르게 검증
튜닝 없이 디폴트로 한 번 돌려서 A/B 성능 비교2) 이상치 처리 관점
• 불량 판정이 목표인데 이상치를 다 지우는 건 오히려 이상일 수 있음
• 전/후 비교에서 차이가 미미하면:
전처리가 무의미하거나
이상치를 ‘신호’로 보고 이상탐지로 안고 가는 방향이 더 타당3) 설비별 편차 대응(전처리 타당성)
• 제조 데이터는 설비별 편차가 크므로
설비 단위 분리 → 로그 → 스케일링 → 설비별 IQR 컷 접근은 합리적
• “제품별에서 변수를 못 찾았다”면
그 판단 근거/기준을 보고서에 명확히 남겨야 함4) 주말/비가동 구간 처리
• 도메인에 따라 갈림
주말 영향 없음 → 주말 제거(필터링)
금→월 영향 가능 → 주말 유지 + 플래그(가동/비가동) 컬럼 고려
• 주말을 빼면 시계열은 주말에서 끊어서 연속시간 재정의 필요5) 시계열/샘플링 밀도 차이 처리
• 설비별로 “같은 1시간”에도 기록 개수가 다름
• 해결: 고정 시간 단위로 리샘플링
다수 관측치 → 평균/중앙값 등 대표값으로 압축
소수 관측치와 동일 단위로 비교6) 데이터가 적은 설비(극단값) 처리
• 특정 설비가 현저히 데이터가 적으면
도메인 이유 없으면 제외(필터링) 우선 고려
단, “그 설비가 문제라서 봐야 함”이면 안고 가되 집계/압축 방식 설계

 

피드백(20260114)

1. 현재 전처리 방식에 대한 평가
모든 수치형 컬럼(약 9개)에 대해 IQR을 and 조건으로 적용
로그 변환 + 스탠다드 스케일링 후 IQR 적용
결과적으로 약 70% 데이터 드랍
• 단일 컬럼 IQR이면 보통 10% 내외 드랍이 정상
• 컬럼 수가 많아질수록 and 조건은 드랍률 급증이 불가피2. 대안 전처리 전략
삭제 대신 상한치(cap) 적용
예: 상위 90~95 percentile로 값 대체
데이터 손실 최소화 + 정보량 유지
도메인 지식 기반 상한 설정 가능
전처리 방법의 정답은 모델링 결과로 판단
현재 방식 → 베이스라인(골든 스탠다드)로 유지
여러 전처리 버전 생성 후 모델 성능 비교 권장3. 정상 / 불량 데이터 이원화 IQR
• 정상 데이터와 불량 데이터의 분포가 다를 가능성 있음
• 각각 별도 IQR 적용은 시도해볼 만한 전략
• 단점:
특정 구간에서 불량률 왜곡(100% 구간 발생) 가능
퍼센티지 기반 Y 변수일 경우 특히 위험
• 결론:
실험 후보 중 하나로만 고려
확신은 불가, 성능 비교로 판단4. 종속변수(Y) 관련 논의
• Shot 단위 불량 개수 → 불량률을 Target 변수로 진행
• 퍼센티지 불량률은:
구간별 데이터 수 차이로 왜곡 가능성 큼
특히 전처리(IQR) 이후 분포 왜곡 우려5. 머신 단위 모델링
설비(machine)별로 특성이 크게 다름
• 권장:
머신별로 모델 분리
머신을 단순 categorical feature로 넣는 것은 비권장6. 시간 관련 Feature Engineering
• Timestamp 자체는 직접 사용 어려움
• 권장 피처:
이전 샷 대비 유휴 시간(정지 시간)
주말/연휴 등 장시간 정지 후 재가동 여부
• 주의:
유휴 시간 feature는 이상치 제거 이전 데이터 기준으로 생성7. 정규성 검증 제안
IQR + 로그 변환 후 분포가 “시각적으로 괜찮아 보이는지”는 주관적
**정규성 검정(Shapiro-Wilk 등)**으로 객관적 근거 확보 권장
컬럼별 반복 검정 가능 (자동화 쉬움)
  • 전처리 방식 선택의 정량적 근거로 활용 가능
8. 종합 결론
• 데이터 드랍이 많아도:
남은 데이터 수가 충분하고
분산(variation)이 살아 있으면 모델링 가치 있음
• 전처리는 “완벽한 답”보다 비교 실험을 통한 선택이 핵심
• 현재 전처리는 충분히 합리적 → 베이스라인으로 진행 가능 

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_260119  (0) 2026.01.19
TIL_260116  (0) 2026.01.16
TIL_260112  (1) 2026.01.12
TIL_260109  (1) 2026.01.09
TIL_260128  (0) 2026.01.08