시계열 개요

시계열 분석은 정상성 만족을 가정한다. 정상성은 평균과 분산이 시간에 따라 일정한 성질을 의미하는데, 자료 패턴이 시간에 따라 변화하지 않음을 의미한다.  만약 비정상 시계열 자료의 경우에는 다양한 방식으로 정상화하여 분석을 수행한다.

시계열 모형의 계략적인 구조는 아래와 같은데, 이는 적어도 자료가 특정한 추세로 변화하거나 인접자료와의 상관성이 없다는 가정하에 만들어졌다는 의미이다.

$$y_t=\beta_0+ \beta_1 x_{1t} + \beta_2 x_{2t} +\cdots +\beta_k x_{kt} + \epsilon_t$$

$$E(\epsilon_t)=0, Var(\epsilon_t)=\sigma^2, Cov(e_i, e_j)=0$$

시계열 자료
시계열 자료의 종류(정상, 비정상 시계열)아래의 평균 변동이나 분산 변동 외에도 주기적으로 변동하는 계절변동이 존재할 수 있다. par(mfrow=c(2,2)) set.seed(42) df=data.frame(idx=1:150,value=rnorm(150,0,1)) plot(df,type=‘l’,main=‘Stationary’,bty=‘l’) set.seed(42) df=data.

차분, 계차(Difference)

차분은 시계열 자료에서 특정시점의 자료에서 그 앞에 있는 자료와의 차이를 의미한다. 차분은 시계열 자료가 추세를 내포하고 있을 경우 이를 제거할 때 적용한다.

$$  1차 차분 : \Delta y_t = y_t - y_{t-1}$$

$$ 2차 차분 : \Delta^2 y_t = y_t - y_{t-1}$$

$$ 계절변동 차분 : \Delta_{12} y_t = \Delta y_t - \Delta y_{t-12}$$

역차분(Inverse Difference)

차분의 산정값을 토대로 원래의 자료로 환원하여 산정하는 과정을 역차분이라 한다.

$$ y_t = \Delta y_t + y_{t-1}$$

Box Cox 변환

시계열 자료의 특수한 변환을 나타내는 방식으로 로그변환과 지수변환을 둘 다 포함하는 변환 방식이다. $\lambda$가 1인경우를 제외한 나머지 구간에서 변화한다. 아래 예제를 통해 분산이 많이 줄어듦을 확인 할 수 있었다.

$$ f(x : \lambda ) = {{x^{\lambda}-1}\over{\lambda}} , (\lambda \ne 0)$$

$$f(x : 0) = ln(x), (\lambda = 0 ) $$

library(forecast)
bins=40
hist(AirPassengers,freq=F,breaks=bins)
lines(density(AirPassengers))
lambda=BoxCox.lambda(AirPassengers)
boxcox_x=BoxCox(AirPassengers,lambda)
hist(boxcox_x,freq=F,breaks=bins)
lines(density(boxcox_x))
qqnorm(AirPassengers)
qqline(AirPassengers)
plot(diff(AirPassengers))
qqnorm(boxcox_x)
qqline(boxcox_x)
plot(InvBoxCox(boxcox_x,lambda))
plot(diff(boxcox_x))
3.2 변환과 조정 | Forecasting: Principles and Practice
2nd edition