Today I learned
1. 시계열과 MLops 2회차 퀴즈
1. 확률 보행 모델
- 확률 보행은 랜덤하게 움직이는 과정들을 명칭화한것.
- 데이터가 어떤 기준을 가지고 비정상 시계열을 가지고 있다는게 일반적인 성질.
- 비정상 시계열도 맞고, 수식으로 표현되는 것도 인지하고 있으면 됨.
- 시간이 지나면 평균값이 상수 C에 수렴하는 성질이 있음.
확률 보행은 단위근을 가지는 대표적인 비정상 시게열
2. 정상성의 조건
- 모든 시점에 평균, 분산이 일정해야 한다.
- 공분산은 시차(h)에만 의존하고 특정 시점(t)에는 독립적이여야 한다.
복습)
공분산
두 확률변수 X,Y 사이의 공분산은 다음과 같음

cov(X,Y)값이 양수 - 같이 위아래로 움직이는 경향, 음수 - 반대로 움직이는 경향, 0 근처 - 관련성이 약함
시계열에서 공분산
시점 t에서 Xt
시점 t+h에서 Xt+h

시점 t의 값과 그로부터 h 만큼 떨어진 시점의 값이 얼마나 같이 움직이는가?
ex)
h = 1: 오늘과 내일의 관계
h = 7: 이번주와 다음주 월요일의 관계
정상성에서 중요한 조건
Cov(Xt,Xt+h)가 t의 변화에는 의존하지 않고 h(얼마나 떨어져있냐?)에 의존해야한다.
즉, t에 대해 독립이다 = 시간이 지나도 시계열의 의존 관계가 변하지 않는다.
3. 전처리 방법
- 기하급수적으로 증가하는 데이터를 축소시켜 분산을 안정화 하는 기법 - 로그 변환
4. ADF검정에서 귀무가설
귀무가설: 일반적으로 알려져있는 사실
- 귀무가설: 시계열에 단위근이 존재한다. 즉 비정상 시계열이다.
- 대립가설: 시계열에 단위근이 존재하지 않는다.
통계적 검정에서는 주로 '정상 시계열임'을 입증하고 싶어하므로, 이것이 주로 대립가설이 된다..
※ 단위근: 시계열이 스스로를 계속 이어가며, 충격이 들어오면 계속 누적되는 특성
5. ADF 검정 시 p-value가 0.01, 유의수준이 0.05일 때 올바른 해석
p-value가 높으면 귀무가설 지지, 낮으면 귀무가설 기각, 대립가설은 정상시계열임.
2. [라이브세션] 시계열 AR, MA 모델
목표
자기상관성을 측정하는 ACF를 그리는 법을 이해한다.
시계열의 핵심 모형 AR(자기회귀)와 이동평균(MA)를 이해한다.
AR과 MA의 차수를 이해한다.
(1) 자기상관함수(Auto-Correlation Function)

기존의 상관관계: 서로 다룬 x,y에 대해 그린 그래프
시계열: 변수가 y(시간) 밖에 없다
- 자기상관함수: 시계열 데이터에서 현재 값과 과거 값 간 상관관계를 나타내는 함수, 여기는 시차(lag)이라고 부름
lag: 지연되다 그런 의미임
목적: 데이터가 시간에 따라 어떤 추세나 계절성을 가지고 있는지, 이전 데이터가 현재 데이터에 얼마나 여향을 미치는지 파악하기 위해 사용함.
해석(상관관계와 동일)
ACF = 1: 완벽한 양의 상관관계
ACF = -1: 완벽한 음의 상관관ㄷ계
ACF = 0: 상관관계 없다
공식

- 공분산이라고 하는 거는 두 변수가 얼마나 관계가 있냐 에 대한 수식임
그래서 어떤 절대값이 의미가 있나 그런거임
상대적으로 두 변수를 봤을 때 크냐 작냐에 관심이 있는거고
분모에다가 정규화를 통해 이 데이터를 절대적인 수치가 중요한지, 얼만큼 중요한지 알기 위해서 현재 시점의 분산을 넣어줌
사실 공식을 외울 필요는 없고, 상관관계와 같은 거구나! 정도만 이해하고 있으삼.
이걸 일일히 증멸할 필요는 없다. 하고싶으면 대학원으로.


그래프 설명
시차(Lag)에 따른 자기 상관관계
파란색 막대: 각 시차에서의 상관계수 값
파란색 음영: 95% 신뢰구간
천천히 감소하는 패턴: 데이터에 강한 추세(Trend)가 있음을 의미함
물결치는 모양이 발생 한경우(위 그래프의 경우 5번째 막대 같은 거): 데이터에 계절성이 있음을 의미함
(2) Statsmodel 라이브러리
파이썬에서 통계 분석을 위해 가장 널리 사용되는 라이브러리임
회귀분석: 선형회귀, 로지스틱 회귀
시계열 분석: ARIMA, SARIMA 모델링, ACF/PACF 분석 등
검정: t-test, ANOVA, 등 통계적 가설 검증 시
Scikit 라이브러리와는 차이점이 있음.
(3) 이동평균(Moving Aveerage)
그게 뭔데

일정 기간 동안의 데이터 값을 계속 평균내어 추세를 파악하는 방법
이동평균모델(MA): 이전 시점의 오차(잔차)항들이 현재값에 미치는 영향을 선형 방정식으로 표현
과거의 에측된 오류가 누적되어 현재 값에 영향을 줄 수 있는 패턴이 있다고 가정하여 전개함
MA(q)에서 q는 현재값에 영항을 미치는 이전 오차항의 갯수를 의미함

누적된다는게 포인트임. 이걸 단순히 하나만 하는게 아니라 그 전꺼, 그 전전전꺼 전부 다
MA(1) 모형은 당므과 같이
(4) 자기상관관계 심화

X축은 시차(Lag), y 축은 자기상관계수
각 시차에서 현재 값과 과거 값들의 상관관게를 보여줌
파란 점선: 유의성 경계 = 이 선 넘으면 통계적으로 유의미하단느 말임
이 패턴으로 MA(q) 모델에서 q 차수를 결정할 수 있음.
(5) 자기 회귀
(6) 편자기상관관계(Partitial AutoCorrelation)
기존의 MA 모델은 전체 y를 이용해서 예측, AR은 특정 시점의 y를 이용해서 예측하는 모델
원래 우리가 가지고 있는 데이터가 AR(2) 모형이라고 하면, 이 때 상관관계를 측정하는 방법이 편(partitial)한 것임.
PACF
현재값 yt와 두 시점 전의 값 yt-2의 상관관계를 구할 때 yt-1의 영향을 제거해야 함.

시차(Lag)1 에서는 상관관계 0.8 : 줜나 강한 양의 상관관계
시차 2에서 -0.25: 현재 값과 음의 상관관계
시차 3 이후로는 대부분 0에 가까워 유의한 상관관계가 없음
| 모델이동평균(MA) | 자기회귀(AR) | |
| 표현 | MA(q) | AR(p) |
| 가정 | 과거의 오차항(예측오차)가 현재의 데이터에 영향을 미친다. | 과거의 데이터가 현재 데이터에 영향을 준다. |
| 평가지표 | 자기상관함수(ACF) | 부분 자기 상관함수(PACF) |
| 설명 | ACF는 현재 이전 시점의 값들의 총 상관관계를 나타냄 | PACF는 중간에 있는 시점을 제외한 순수한 자기의 상관을 나타냄 |
존나 중요- 이동평균은 누적된 예측 오차를 모두 고려해야함으로 일반적인 자기상관함수를 사용
자기회귀는 과거의 데이터와 현재의 데이터만 보고 상관관계를 보아야 하므로 부분자기상관함수를 사용
(7) 자기회귀이동평균의 정의(ARMA)
자기회귀 + 모델이동평균
현재 값이 과거 값과 과거 오차항에 모두 영향ㅇ르 받는다고 가정
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_251124 (0) | 2025.11.24 |
|---|---|
| TIL_251121 (1) | 2025.11.21 |
| TIL_251119 (0) | 2025.11.19 |
| TIL_251118 (0) | 2025.11.18 |
| TIL_251117 (0) | 2025.11.17 |