빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_251125

usungusung 2025. 11. 25. 21:55

Today I learned

 

 

1. [라이브세션] 시계열 4회차

 

성능평가를 하게 되는 과정을 배우게 될 것.

 

(1) 잔차분석과 모델평가

  • 2차원 평면에서 그릴 수 있는 건 3차원까지고, 다중선형회귀의 경우 독립변수-종속변수 관계 도시가 어려움
  • 잔차 분석 도입
    • 관측값(Y) - 회귀 모형의 예측값(Yhat) = 잔차(Residual)

잔차가 백색소음인지 확인하는 방법(잔차 평가)

 

 

ACF (MA(오차))

  • 잔차가 자기상관이 없는지 확인하기 위한 도구
  • ACF 그래프에서 모든 시차에서 유의미한 상관관계가 없을 때 잔차 = 백색소음
  • 잔차가 과거 값과 상관성이 없어야 good model
    • PACF - AR(yt-1) 얘도 잊지 말자! 물론 잔차분석에는 안씀

그래프 기억나쥬? 1은 빼고 쓰는거

 

 

Ljung-Box Q 통계량

  • Ljung-Box 검정은 잔차들이 서로 상관되어 있는지 여부를 테스트
  • pvalue만 보면 된다
    • H0: 잔차들이 상관되지 않는다
    • H1: 잔차들이 상관이 있다.
  • 잔차에 패턴이 발견된다면 더 복잡한 모델을 사용해야 한

 

AIC와 BIC를 통한 모델 평가(중요)

  • AIC(Alkaike Information Criterion)
    • 모델이 데이터를 얼마나 잘 설명하는지**(모델의 적합도)**와 모델의 복잡성 사이의 균형을 고려
    • 모델의 복`잡성을 고려하여, 적합도와 모델의 자유도를 조정한 지표
  •  

k = 파라미터 갯수, L = 가능도

 

가능도?

  • 간단하게 말하면 확률
  • 주어진 모델이 얼마나 데이터에 적합한지를 평가하는 지표
  • 모델이 주어지면 확률을 구할 수 있음
  • ex) 평균 170, 표준편차가 5가 남성의 신장 일 때, 175인 사람을 만날 확률은 2%

 

 

BIC

 

 

  • AIC: 모델의 복잡성 k와 적합도 L 사이의 균형을 중시하며, 적합도가 높은 모델을 선호
  • BIC는 모델의 복잡성을 더 많이 고려하여 단순한 모델을 선호하고, 샘플 수가 클 수록 더 엄격한 패널티를 부여
  • 둘 다 낮을수록 좋다

 

AIC와 BIC 평가 코드

# 모델링
model_arima = ARIMA(data, order=(p, d, q))
model_fit = model_arima.fit()

# AIC, BIC확인
print(f"AIC: {model_fit.aic}")
print(f"BIC: {model_fit.bic}")

 

 

(2) Auto-ARIMA

ARIMA와 SARIMA 모델에서 사용되는 p,d,q,P,D,Q,s를 자동으로 탐색해주는 도구

※ p,d,q: 계절성을 고려하지 않음, P,D,Q: 계절성을 고려함

 

결과 해석

SARIMA result: 게절성이 들어있는거 분석임

융박스 0.00, 상관관계 없으므로 기각했음을 알 수 있다

 

중요한건 MAPE

잔차분석 할 때 4가지 그래프가 나옴. 이걸 해석하면 당신도 시계열 마스터

먼저 X축에다 시간을 놓는다. Y축에다 잔차를

ㅇㅣ론적인 quantiles, 아래와 위쪽이 튀는 값이 있다 빨간선은 이상적인 잔차들이 위치해야 하는 구간

튄 값들이 적고 대부분이 빨간 선에 붙어있음 - 모델링 잘됨

 

잔차의 독립성검정을 해보면 p값이 0.9나옴 - 잔차는 서로 독립적이며, 모델이 데이터를 잘 설명하고 있다!

 

w조금 맞긴 한데, 하이퍼파라미터 튜닝이 잘 되어있지 않은 상태

결과가 좀 아쉬운 부분이 있다.

아리마 모델이 시계열 기반이기 때문에 비선형적인 측정이 아쉬운 부분이 있음

 

(4) Prophet 줜나 중요

추세, 계절성, 휴일 효과 등을 고려하여 유연하고 강력한 모델링을 제공함

결측치, 비정상적 데이터에 강함

 

prophet의 특징

 

특징 설명
추세(Trend) 데이터에서 장기적인 상승 또는 하강 추세를 자동으로 탐지
주기성(Seasonality) 1) 연간 또는 주간 주기성을 자동으로 감지하고 반영
2) 주기성의 강도를 직접 조정할 수 있으며, 필요에 따라 lambda* 값으로 계절 효과를 조정
휴일 효과(Holiday Effects) 사용자가 정의한 휴일에 대한 예외적 패턴을 모델에 반영
ex) 설날, 추석, 추수감사절
결측치 및 비정상 데이터 처리 해당 데이터를 자동으로 처리하여 예측 정확도를 유지

 

장점: 예측력

단점: 해석력

 

사용 방법은 Scikit-learn과 유사함

 

코드는 그냥 봐라

 

 

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_251127  (0) 2025.11.27
TIL_251126  (0) 2025.11.26
TIL_251124  (0) 2025.11.24
TIL_251121  (1) 2025.11.21
TIL_251120  (0) 2025.11.20