Introduction

Gradient Descent Alorithm은 Optimization Algorithm 중 하나이다.

Neural Network는 예측값과 실제값의 차이를 계산하는 Loss Function을 통해 Loss value를 구한다.

Loss Function은 용도에 맞는 다양한 함수가 존재하는데, 가장 단순한 Loss Function인 MSE를 사용하면 두 값의 차이의 제곱 평균인 Loss value를 구할 수 있다.

이 과정을 통해 Linear Function이 Non-Linear Function으로 변환된다.

학습은 Forward Propagation을 통해 얻은 Loss value를 최소화하는 방향으로 진행되는데, 이 과정을 Backward Propagation이라고하고 Optimization 중 하나인 Gradient Descent Algorithm이 사용된다.

Neural Network’s Detail works를 통해, 왜 Optimization을 써야하는지 알 수 있다.

Gradient Descent Algorithm Sequence

다른 Optimization algorithm과 비교하면 가장 단순하다.

\[W_{i} = W_{i-1} - lr(\frac{\delta L}{\delta W})\]

$w$에 대한 편미분 값, 즉 w에 대한 기울기를 Forward Propagation에 사용했던 Weight에 뺴준다.

$Learning Rate$ 인 hyperparameter를 사전에 정의하여 gradient의 감소 폭을 조절한다.