Stochastic Gradient Descent

AI\ML\DL/Deep learning theory 2023. 5. 6. 22:17

Vanilla GD vs. SGD

Gradient descent는 모든 데이터를 다 고려했기 때문에 최소를 향하는 완벽한 방향으로 나아간다. 하지만, 모든 데이터를 다 고려하기 때문에 시간이 너무 느리다.

Stochastic gradient descent (SGD)는 GD와 달리 전체 데이터를 모두 입력하지 않고 랜덤하게 추출한 데이터를 하나씩 입력해서 loss function를 만드는 방법이다.

SGD를 사용하면 GD에서 발생하는 계산 속도 문제와 local minimum에 빠지는 한계를 극복할 수 있다.

SGD의 특징

1. 랜덤하게 데이터를 비복원추출로 하나씩 뽑아서 loss를 만들고 gradient를 계산한다. (랜덤이라 stochastic이라는 이름이 붙었다.)

즉, 데이터 하나만 보고 그래디언트를 결정하기 때문에 빠르게 위치를 업데이트한다. 따라서 gradient 방향이 항상 일정하지는 않다.)

2. GD는 무조건 전체 데이터를 다 고려한 손실함수를 보고 그래디언트를 계산하기 때문에 항상 같은 방향으로 향해서 local minimum에 빠질 위험이 있다. 하지만 SGD는 하나의 데이터만 뽑아서 손실함수를 계산하기 때문에 iteration마다 손실함수가 다를 수 있고 gradient 또한 달라진다. 이렇게 때문에 local minimum 에서 탈출할 기회가 있다.

하지만 SGD는 몇백만개의 데이터 중에서 하나씩만 보고 걔만 맞출려고 하기 때문에 너무 성급하게 방향(gradient)를 결정해서 신중하지 않고, 잦은 움직임이 있다..

이것 때문에 등장한 것이 mini-batch SGD이다.

mini-batch SGD는 2개 이상씩 데이터를 추출해서 loss를 만드는 방법이다. 예를들어 mini-batch size = 2 라면, 데이터를 2개씩 비복원추출로 랜덤하게 뽑는다는 의미이다. (iteration이 더 남았는데 남은 데이터가 하나라면 mini batch 사이즈가 2라도 그냥 하나만 뽑는다. 소외되는 데이터가 없도록 하기 위함이다.)

Mini-batch SGD에서 무리하게 batch size를 키우면 성능이 안좋아진다는 연구 결과가 있다.

batch size가 커지면 그만큼 GD와 비슷해지는 거니까 안좋은 local minimum으로 빠질 가능성이 커지기 때문이다.

https://arxiv.org/abs/1706.02677

Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

Deep learning thrives with large neural networks and large datasets. However, larger networks and larger datasets result in longer training times that impede research and development progress. Distributed synchronous SGD offers a potential solution to this

arxiv.org

따라서 이 논문에서는 batch size를 키우려면 learning rate도 같이 키우고, warmup도 해야 그나마 작은 batch size일때의 성능을 얻을 수 있다고 한다.

'AI\ML\DL > Deep learning theory' 카테고리의 다른 글

Logistic Regression (0)	2023.05.08
Backpropagation (2)	2023.05.07
Momentum, RMSProp Optimizer (1)	2023.05.06
Gradient descent (0)	2023.05.06

ABOUT ME

𝄢 𝄢

'AI\ML\DL > Deep learning theory' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'AI\ML\DL > Deep learning theory' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바