비선형 회귀모형 평활법 : loess 평활법

2022. 10. 5. 15:58R study/Time series

이 글은 책 'R 프로그램에 기반한 시계열 자료 분석'(이재길)을 바탕으로 작성하였습니다.

 

평활화(Smoothing)는 "거친 표본 추출이나 잡음 때문에 데이터에 좋지 않은 미세한 변동이나 불연속성 등이 있을 때, 이런 변동이나 불연속성을 약하게 하거나 제거하여 매끄럽게 하는 조작"으로 정의된다. 이러한 평활화는 추세를 파악하기 위하여 수행되는데, 일반적으로 회귀모형을 이용한 분석방법이 활용된다. 수학적으로 표현한 선형 상태모형(State Model)은 다음과 같이 표현된다.

 

$$ System : x_{t+1} = Fx_t + Gw_t \sim N(0, Q_t) $$

 

 

$$ Survey : y_t = Hx_t + v_t \sim N(0, R_t) $$

 

수식에서 x_t는 상태변수(State Variable)로서, 분석대상의 과제가 되는 변수이며, y_t는 시계열의 조사자료, F, G, H는 성분이 상수인 상태 전이행렬(State Transfer Matrix), v_t는 시계열 자료 조사과정 잡음(Survey Noise), w_t는 시스템에 유입되어 상태변수에 영향을 주는 잡음으로 백색잡음(White Noise)을 의미한다. 백색잡음은 모든 색의 빛을 합하면 흰색이 되는 것처럼, 모든 주파수를 다 갖고 있는 잡음을 의미하며, 일반적으로 잡음이라면 이를 의미한다. 

그리고 F는 시간에 따라 시스템이 어떻게 변화하는가를 나타내는 시스템의 운동방정식을 의미하며, 행렬 H는 시계열 자료와 상태변수의 연관성, 즉 각 상태변수가 시계열 자료에 어떻게 반영되어 있는가를 나타내는 지표가 된다. 

 


비선형 회귀모형 평활법 : loess(Local Polynomial Regression) 평활법

 

시계열 자료에 대하여 특정부분은 가중하여 평활화하며, 특정부분 이외의 시계열 자료는 낮게 평활화하는 방식으로서, 시계열 자료의 부분별로 가중회귀 분석을 수행하는 방식이다. 부분 가중 평활법은 loess(Local Polynomial Regression), lowess(Locally Weighted Regression) 등으로 부른다. 시계열 자료의 부분별 가중을 위한 가중치는 다음과 같이 산정된다. 

 

$$w(x_k) = [1-\left| \frac{x_i-x_k}{d_i}\right|^{3}]^{3}, k=1,2,\cdots ,N$$

 

수식에서 d_i는 x_i N번째 근접점까지의 거리이며, 가중치는 좌우대칭이다. 이러한 가중치를 토대로 다음의 LOWESS, LOESS의 값이 산정된다.

 

$$LOWESS : \widehat{y_k} = a+bx_k$$

 

$$LOESS : \widehat{y_k} = a+bx_k+cx_k^{2}$$

 

산정된 추정값을 토대로, 상대적으로 낮은 조사값의 범위 내에서 Median을 이용하여 다음과 같은 Robust 가중치가 산정된다.

 

 $$G(x_k) =\begin{Bmatrix}
 \left [ 1-\frac{\left|y_i-\widehat{y_i} \right|}{6me(\left|y_i-\widetilde{y_i} \right|)} \right ]^{2}, \left [ \frac{\left|y_i-\widehat{y_i} \right|}{6me(\left|y_i-\widehat{y_i} \right|)} \right ]<1
\\
0           \left [ \frac{\left|y_i-\widehat{y_i} \right|}{6me(\left| y_i-\widehat{y_i}\right|)} \right ] >1
\end{Bmatrix}$$

 

수식에서 보는 바와 같이 잔차가 추정값 Median의 6배가 넘는 경우, 가중치의 값은 zero로 산정되는데, 이는 잔차가 Median의 6배가 넘으면 평활화 대상에서 제외한다는 의미이다. 가중 회귀분석을 통하여 산정된 추정값을 Roust 가중회귀로 재추정하여, 최종적으로 특정부분 가중 회귀평활법의 산정수식과 그래프는 다음과 같다. 

 

$$LOWESS : \sum_{}^{}w(x_k)G(x_k)(y_k-a-bx_k)^{2} $$

 

$$LOESS : \sum_{}^{}w(x_k)G(x_k)(y_k-a-bx_k-cx_k^{2})^{2} $$