Today I learned
1. 최종 프로젝트
데이터셋 전처리에서 진행이 안됨.......
Data가 너무 커 Ram 용량 초과 이슈 -> csv 에서 parquet 파일로 인코딩 진행
튜터님 피드백
1. 공정에는 “고정된 시간 지연(delay)”이 존재한다
- 사출성형기에서 제품이 생성된 후
- 자동화 설비에서 스캔되기까지는 약 180초 내외의 시간 지연이 발생
- 이 시간은 완벽히 고정은 아니지만 180초 ~ 180초 후반 범위로 비교적 일정
👉 즉,
두 데이터는 같은 시간대에 발생하지 않는다
2. asof / nearest merge의 구조적 한계
튜터님은 단순히 “이 방법이 틀렸다”가 아니라, 전제가 맞지 않는다는 점을 짚어주셨다.
- asof merge는 기본적으로
- “시간 흐름이 1:1로 대응될 때” 안전한 방법
- 하지만 실제 데이터는:
- 스캔 데이터 수 ≠ 사출 데이터 수
- 중간에 누락된 제품 존재
- 공정 지연이 존재
이 상태에서 시간만 가장 가까운 데이터를 묶으면:
- A 제품이 아니라 다음 제품(B) 과 매칭될 수 있고
- 앞쪽 데이터와 뒤쪽 데이터가 섞이는 문제가 발생
👉 시간이 가깝다고 같은 제품은 아니다
2. [라이브세션] 고급 통계 5회차
(1) 엑셀 기본 함수
- 셀 단위 계산
- 평균, 표준편차 등 기초 통계량 계산
- 소규모 데이터 빠른 확인용
👉 초기 데이터 확인 단계에 적합
(2) 분석 도구 팩 (Analysis ToolPak)
- 기본 설치 시 비활성화
- 경로:
파일 → 옵션 → 추가 기능 → Excel 추가 기능 → 분석 도구 체크 - 기능:
- 기술 통계
- t-검정
- 분산 분석(ANOVA)
- 회귀 분석
👉 반복 계산 없이 표 형태로 결과를 바로 확인할 때 유용
(3) 내장 시각화 기능
- 히스토그램
- 산점도
- 상자 그림(Box plot)
- 파레토 차트
👉 분포, 이상치, 경향 파악 용도
(4) 피벗 테이블
- 대량 데이터 요약 및 그룹화
- 공정별 / 제품별 / 날짜별 집계
- 조건에 따라 동적으로 구조 변경 가능
👉 집계·요약 분석의 핵심 도구
(5) Power Query (ETL)
- 여러 CSV / 엑셀 파일 통합
- 데이터 타입 변경
- 결측치 처리
- 반복 작업 자동화
👉 설비 데이터처럼 파일이 계속 쌓이는 경우 필수
(6) VBA
- 반복 작업 자동화
- 엑셀 기본 기능으로 어려운 로직 구현
👉 유지보수 부담이 있어 제한적으로 사용 권장
(7) Power Pivot / DAX
- 대규모 데이터 모델링
- 테이블 간 관계 설정
- 누적값, 이동 평균 등 계산
👉 엑셀을 BI 도구처럼 쓸 때 사용
3. 데이터 타입(표시 형식) 확인 – 실무 핵심 포인트
엑셀에서 숫자처럼 보이는 값이라도
표시 형식에 따라 실제 데이터 타입이 달라질 수 있다.
- 일반(문자) ↔ 숫자
- 외부 파일 복사 시 숨은 서식 동반
문제가 생길 경우:
- 메모장에 붙여넣기 → 서식 제거 → 다시 엑셀로 가져오기
👉 병합, 정렬, 계산 오류 방지용 기본 점검 사항
4. Python in Excel
- Microsoft 365 최신 버전에서 지원
- 엑셀 셀 안에서 Python 코드 실행 가능
- scipy, numpy 등 라이브러리 사용 가능
👉 엑셀 환경을 유지하면서 고급 분석을 할 때 활용
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_260106 (0) | 2026.01.06 |
|---|---|
| TIL_260105 (0) | 2026.01.05 |
| TIL_251231 (0) | 2025.12.31 |
| TIL_251230 (1) | 2025.12.30 |
| TIL_251229 (0) | 2025.12.29 |