TIL_260106

빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_260106

usungusung 2026. 1. 6. 20:48

Today I learned

1. 최종프로젝트

- 튜터님 상담

1. 전처리 전체 과정을 하나의 “분석 Flow”로 시각화할 것

말로 설명하지 말고 그림으로 정리
포함되어야 할 내용:
- 데이터 소스(스캔 / NG / 설비)
- 각 데이터의 단위 차이(제품 단위 vs shot 단위)
- 병합 지점과 기준 (시리얼, timestamp, machine number)
- 데이터가 삭제되는 지점과 이유
목적:
- 팀 내부 공유
- 여러 튜터/멘토에게 반복 설명 방지
- 이후 모델링 단계 변경 시 기준점 확보

👉 PPT, FigJam, Figma 등 도구는 중요하지 않고 “같은 뷰를 보는 것”이 핵심

2. 전처리된 공통 데이터셋을 공유 가능한 형태로 관리

개인 로컬이 아닌 Google Drive / Colab 기반 공통 데이터
전처리 완료 데이터 + 코드 함께 관리
목적:
- 팀원 간 동일 데이터 기준 유지
- 결과 비교 및 재현성 확보

3. 현재 방식으로 일단 베이스라인을 만들고 진행할 것

±6초 기준, merge_asof 방식에 대해:
- “지금 단계에서는 충분히 합리적”
- 너무 복잡한 가정 추가는 지양
데이터가 충분히 많기 때문에:
- 일부 데이터 삭제를 과도하게 걱정할 필요 없음
중요 포인트
- 처음부터 완벽한 병합이 목표가 아님
- “설명 가능한 기준”이 우선

4. 이후 단계에서 개선 아이디어로 남겨둘 것 (지금 당장 X)

튜터가 “아이디어로는 좋다” 수준에서 언급한 내용들:

고정 ±6초 대신:
- 설비 데이터의 cycle time 기반 가변 시간 윈도우
매칭 실패 데이터 비율 분석
병합 방식 변경에 따른 분포 변화 비교

👉 지금 바로 적용하라는 게 아니라, 실험 단계에서 비교 대상으로 남겨두라는 의미

5. 데이터 제공자(도메인 전문가)에게 추가 확인 권장

288초 지연, shot 구조, 공정 특성 관련해서
데이터 제공자인 튜터(영재 튜터)에게:
- 병합 가정이 도메인적으로 문제 없는지
- 공정 예외 상황이 있는지
목적:
- 기술적 판단에 도메인 근거 보강

6. 전처리가 프로젝트의 대부분이라는 인식 공유

튜터 명시적 발언:
- “전처리가 프로젝트의 80%”
따라서:
- 지금 단계에서 전처리 정리·공유·문서화에 시간 쓰는 것이 정상
- 모델링을 서두를 필요 없음

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_260128 (0)	2026.01.08
TIL_260107 (0)	2026.01.07
TIL_260105 (0)	2026.01.05
TIL_260102 (0)	2026.01.02
TIL_251231 (0)	2025.12.31

현재글TIL_260106

usungusung 님의 블로그

usungusung 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

usungusung 님의 블로그

TIL_260106

1. 최종프로젝트

1. 전처리 전체 과정을 하나의 “분석 Flow”로 시각화할 것

2. 전처리된 공통 데이터셋을 공유 가능한 형태로 관리

3. 현재 방식으로 일단 베이스라인을 만들고 진행할 것

4. 이후 단계에서 개선 아이디어로 남겨둘 것 (지금 당장 X)

5. 데이터 제공자(도메인 전문가)에게 추가 확인 권장

6. 전처리가 프로젝트의 대부분이라는 인식 공유

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

'빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL'의 다른글

티스토리툴바

TIL_260106

1. 최종프로젝트

1. 전처리 전체 과정을 하나의 “분석 Flow”로 시각화할 것

2. 전처리된 공통 데이터셋을 공유 가능한 형태로 관리

3. 현재 방식으로 일단 베이스라인을 만들고 진행할 것

4. 이후 단계에서 개선 아이디어로 남겨둘 것 (지금 당장 X)

5. 데이터 제공자(도메인 전문가)에게 추가 확인 권장

6. 전처리가 프로젝트의 대부분이라는 인식 공유

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

'빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL'의 다른글

관련글

티스토리툴바