빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_260102

usungusung 2026. 1. 2. 22:01

Today I learned

 

 

1. 최종 프로젝트

데이터셋 전처리에서 진행이 안됨.......

Data가 너무 커 Ram 용량 초과 이슈 -> csv 에서 parquet 파일로 인코딩 진행

 

튜터님 피드백

1. 공정에는 “고정된 시간 지연(delay)”이 존재한다

  • 사출성형기에서 제품이 생성된 후
  • 자동화 설비에서 스캔되기까지는 약 180초 내외의 시간 지연이 발생
  • 이 시간은 완벽히 고정은 아니지만 180초 ~ 180초 후반 범위로 비교적 일정

👉 즉,
두 데이터는 같은 시간대에 발생하지 않는다

 

2. asof / nearest merge의 구조적 한계

튜터님은 단순히 “이 방법이 틀렸다”가 아니라, 전제가 맞지 않는다는 점을 짚어주셨다.

  • asof merge는 기본적으로
  • “시간 흐름이 1:1로 대응될 때” 안전한 방법
  • 하지만 실제 데이터는:
    • 스캔 데이터 수 ≠ 사출 데이터 수
    • 중간에 누락된 제품 존재
    • 공정 지연이 존재

이 상태에서 시간만 가장 가까운 데이터를 묶으면:

  • A 제품이 아니라 다음 제품(B) 과 매칭될 수 있고
  • 앞쪽 데이터와 뒤쪽 데이터가 섞이는 문제가 발생

👉 시간이 가깝다고 같은 제품은 아니다

 

2. [라이브세션] 고급 통계 5회차

 

(1) 엑셀 기본 함수

  • 셀 단위 계산
  • 평균, 표준편차 등 기초 통계량 계산
  • 소규모 데이터 빠른 확인용

👉 초기 데이터 확인 단계에 적합


(2) 분석 도구 팩 (Analysis ToolPak)

  • 기본 설치 시 비활성화
  • 경로:
    파일 → 옵션 → 추가 기능 → Excel 추가 기능 → 분석 도구 체크
  • 기능:
    • 기술 통계
    • t-검정
    • 분산 분석(ANOVA)
    • 회귀 분석

👉 반복 계산 없이 표 형태로 결과를 바로 확인할 때 유용


(3) 내장 시각화 기능

  • 히스토그램
  • 산점도
  • 상자 그림(Box plot)
  • 파레토 차트

👉 분포, 이상치, 경향 파악 용도


(4) 피벗 테이블

  • 대량 데이터 요약 및 그룹화
  • 공정별 / 제품별 / 날짜별 집계
  • 조건에 따라 동적으로 구조 변경 가능

👉 집계·요약 분석의 핵심 도구


(5) Power Query (ETL)

  • 여러 CSV / 엑셀 파일 통합
  • 데이터 타입 변경
  • 결측치 처리
  • 반복 작업 자동화

👉 설비 데이터처럼 파일이 계속 쌓이는 경우 필수


(6) VBA

  • 반복 작업 자동화
  • 엑셀 기본 기능으로 어려운 로직 구현

👉 유지보수 부담이 있어 제한적으로 사용 권장


(7) Power Pivot / DAX

  • 대규모 데이터 모델링
  • 테이블 간 관계 설정
  • 누적값, 이동 평균 등 계산

👉 엑셀을 BI 도구처럼 쓸 때 사용


3. 데이터 타입(표시 형식) 확인 – 실무 핵심 포인트

엑셀에서 숫자처럼 보이는 값이라도
표시 형식에 따라 실제 데이터 타입이 달라질 수 있다.

  • 일반(문자) ↔ 숫자
  • 외부 파일 복사 시 숨은 서식 동반

문제가 생길 경우:

  • 메모장에 붙여넣기 → 서식 제거 → 다시 엑셀로 가져오기

👉 병합, 정렬, 계산 오류 방지용 기본 점검 사항


4. Python in Excel

  • Microsoft 365 최신 버전에서 지원
  • 엑셀 셀 안에서 Python 코드 실행 가능
  • scipy, numpy 등 라이브러리 사용 가능

👉 엑셀 환경을 유지하면서 고급 분석을 할 때 활용

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_260106  (0) 2026.01.06
TIL_260105  (0) 2026.01.05
TIL_251231  (0) 2025.12.31
TIL_251230  (1) 2025.12.30
TIL_251229  (0) 2025.12.29