Today I learned
1. 최종프로젝트
- 튜터님 상담
1. 전처리 전체 과정을 하나의 “분석 Flow”로 시각화할 것
- 말로 설명하지 말고 그림으로 정리
- 포함되어야 할 내용:
- 데이터 소스(스캔 / NG / 설비)
- 각 데이터의 단위 차이(제품 단위 vs shot 단위)
- 병합 지점과 기준 (시리얼, timestamp, machine number)
- 데이터가 삭제되는 지점과 이유
- 목적:
- 팀 내부 공유
- 여러 튜터/멘토에게 반복 설명 방지
- 이후 모델링 단계 변경 시 기준점 확보
👉 PPT, FigJam, Figma 등 도구는 중요하지 않고 “같은 뷰를 보는 것”이 핵심
2. 전처리된 공통 데이터셋을 공유 가능한 형태로 관리
- 개인 로컬이 아닌 Google Drive / Colab 기반 공통 데이터
- 전처리 완료 데이터 + 코드 함께 관리
- 목적:
- 팀원 간 동일 데이터 기준 유지
- 결과 비교 및 재현성 확보
3. 현재 방식으로 일단 베이스라인을 만들고 진행할 것
- ±6초 기준, merge_asof 방식에 대해:
- “지금 단계에서는 충분히 합리적”
- 너무 복잡한 가정 추가는 지양
- 데이터가 충분히 많기 때문에:
- 일부 데이터 삭제를 과도하게 걱정할 필요 없음
- 중요 포인트
- 처음부터 완벽한 병합이 목표가 아님
- “설명 가능한 기준”이 우선
4. 이후 단계에서 개선 아이디어로 남겨둘 것 (지금 당장 X)
튜터가 “아이디어로는 좋다” 수준에서 언급한 내용들:
- 고정 ±6초 대신:
- 설비 데이터의 cycle time 기반 가변 시간 윈도우
- 매칭 실패 데이터 비율 분석
- 병합 방식 변경에 따른 분포 변화 비교
👉 지금 바로 적용하라는 게 아니라, 실험 단계에서 비교 대상으로 남겨두라는 의미
5. 데이터 제공자(도메인 전문가)에게 추가 확인 권장
- 288초 지연, shot 구조, 공정 특성 관련해서
- 데이터 제공자인 튜터(영재 튜터)에게:
- 병합 가정이 도메인적으로 문제 없는지
- 공정 예외 상황이 있는지
- 목적:
- 기술적 판단에 도메인 근거 보강
6. 전처리가 프로젝트의 대부분이라는 인식 공유
- 튜터 명시적 발언:
- “전처리가 프로젝트의 80%”
- 따라서:
- 지금 단계에서 전처리 정리·공유·문서화에 시간 쓰는 것이 정상
- 모델링을 서두를 필요 없음
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_260128 (0) | 2026.01.08 |
|---|---|
| TIL_260107 (0) | 2026.01.07 |
| TIL_260105 (0) | 2026.01.05 |
| TIL_260102 (0) | 2026.01.02 |
| TIL_251231 (0) | 2025.12.31 |