Momentum, RMSProp Optimizer

AI\ML\DL/Deep learning theory 2023. 5. 6. 23:33

Momentum

Momentum 기법은 gradient를 누적함으로써 관성을 가지게 하는 방법이다.

특정 방향으로 가려는 힘이 남아있어서 다른 방향으로 갈때도 조금 덜 가게 된다.

다른 말로, 이전 것들을 기억하는 관성이 남아있기 때문에 가중치 업데이트의 방향성을 어느정도 유지하여 (mini-batch) SGD보다 변동성을 줄이고, 손실 함수의 local minimum 에서 빠져나오기 쉬워진다. 이 방식으로 인해 가중치 업데이트를 좀 더 빠르고 안정적으로 수렴시킬 수 있다.

현재의 속도는 과거의 속도들에 영향을 받는데, 현재 iteration 에 최근의 속도값들이 더 큰 영향을 준다.

RMSProp (Root mean squrare propagation)

RMSProp은 Momentum 과 거의 유사한데, Gradient의 방향을 이용하지 않고 크기만을 이용하여 업데이트 해주고자 하는 각 parameter에 대한 학습 속도를 조절한다.

이때 평준화를 통해 많이 훑은 축으로는 적게, 적게 훑은 축으로는 많이 탐색한다.

Learning rate를 각 파라미터별로 다르게 준 셈이다. (경사 보고 너무 가파른 쪽은 좀 조심조심... 완만한 쪽은 과감하게!)

Adam (Adaptive moment estimation)

Adam은 momentum 과 RMSProp의 아이디어를 섞은 옵티마이저이다.

Adam 으로 파라미터를 업데이트 하는 수식은 다음과 같이 쓸 수 있다.

$$ \theta _{t}=\theta _{t-1}-\alpha \frac{\hat{m_{t}}}{\sqrt{(\hat{v_{t}}+\epsilon)}}$$

여기서 $\hat{m_{t}}$는 방향이 관성을 가지게 하는 momentum 역할을 하고, $\hat{v_{t}}$는 보폭이 가파른 쪽은 조심하고 완만한 쪽은 과감하게 이동하게 하는 RMSProp의 역할을 한다.

'AI\ML\DL > Deep learning theory' 카테고리의 다른 글

Logistic Regression (0)	2023.05.08
Backpropagation (2)	2023.05.07
Stochastic Gradient Descent (2)	2023.05.06
Gradient descent (0)	2023.05.06

ABOUT ME

𝄢 𝄢

'AI\ML\DL > Deep learning theory' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'AI\ML\DL > Deep learning theory' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바