R study(3)
-
SVD를 이용한 이미지 처리
이 글은 책 'R 응용 다변량 분석(나종화)'를 바탕으로 작성되었습니다. 특잇값분해(singuar value decomposition, SVD)는 고윳값분해와 마찬가지로 행렬을 대각화하는 방법이다. 고윳값분해가 정사각($n\times n$)행렬에 대해서만 적용되는 반면, 특잇값분해는 직사각($m\times n$)행렬에 대해서도 적용되므로 그 활용도가 매우 높다. 다변량 분석(주성분 분석, 다차원척도법 등), 데이터마이닝과 기계학습 등의 주요 알고리즘에 대해 특잇값분해가 사용된다. $$ A=U\Sigma V^{T} $$ $A$ : 임의의 $m\times n$ 행렬 $U$ : $m\times n$ 직교행렬(Orthgonal matrix) $V$ : $n\times n$ 직교행렬 $\Sigma $ : $m\t..
2022.10.17 -
비선형 회귀모형 평활법 : loess 평활법
이 글은 책 'R 프로그램에 기반한 시계열 자료 분석'(이재길)을 바탕으로 작성하였습니다. 평활화(Smoothing)는 "거친 표본 추출이나 잡음 때문에 데이터에 좋지 않은 미세한 변동이나 불연속성 등이 있을 때, 이런 변동이나 불연속성을 약하게 하거나 제거하여 매끄럽게 하는 조작"으로 정의된다. 이러한 평활화는 추세를 파악하기 위하여 수행되는데, 일반적으로 회귀모형을 이용한 분석방법이 활용된다. 수학적으로 표현한 선형 상태모형(State Model)은 다음과 같이 표현된다. $$ System : x_{t+1} = Fx_t + Gw_t \sim N(0, Q_t) $$ $$ Survey : y_t = Hx_t + v_t \sim N(0, R_t) $$ 수식에서 x_t는 상태변수(State Variable)..
2022.10.05 -
결측값 대치
R 응용 다변량분석 책을 바탕으로 작성되었습니다. 다변량 자료분석에서 첫 번재 장애물은 결측값(missing values)에 대한 처리이다. 대부분의 통계분석 방법은 결측값을 포함하는 케이스를 제외한 뒤 완전한 자료에 대해 분석을 진행한다. 결측 자료의 양이 데이터 셋의 크기에 비해 매우 작은 경우에는 이 방법이 분석의 편의(bias)를 없애기 위한 최선의 전략이 될 수 있다. 그러나 이 방법은 경우에 따라 표본의 수를 크게 줄일 수 있으며, 중요한 정보를 없애게 되어 예측 모형의 성능을 크게 떨어뜨리는 원인으로 작용할 수 있다. 관측된 정보를 최대한 활용하기 위해서는 결측값에 대한 대치(imputation)가 중요하다. 가장 간명한 결측값 대치 방법으로는 각 열별로 평균-대치를 사용하는 것이다. 이 방..
2022.10.03