본문 바로가기

딥러닝 강의

(2)
[강의정리] Lecture 7: Training Neural Networks, Part 2 -강의 영상 - Problem with optimizer SGD 지난 강의에서 설명한 optimizer 중 SGD는 실제 학습을 하는 과정에서 많은 문제에 직면한다. 첫번째 문제로, 위와 같이 파라미터에 대한 공간이 비균등할 경우 어느 한 차원에 대한 가중치 변화에 더 민감하게 반응하여 다음과 같이 지그재그로 update되는 양상을 보이며, 가장 낮은 loss값의 optima에 접근하는 속도가 매우 느려질 수 있다. 두번째 문제는 local minima와 saddle point 문제이다. local minima는 위의 첫번째 그림처럼 gradient가 0이지만 최적의 optima가 아닌 지점을 말한다. saddle point는 양 쪽 뱡향에 대한 gradient의 부호는 같지만, 중간에 0이 되는 지점이..
[강의정리] Lecture 6: Training Neural Networks, Part 1 -강의 영상 -Activation Fuctnion 강의에서 첫번째로 설명하는 Sigmoid는 가장 기본적인 activation function이다. 해당 비선형 함수는 간단하지만 몇가지 문제점을 가지고 있는데, 첫번째는 x값이 오른쪽과 왼쪽으로 조금만 가도 gradient값이 0이 되어서 gradient가 흐르지 않는 Saturated 문제가 발생한다. 두번째는 non-zero centered 문제인데, 해당 문제는 2번째 그림과 같이 gradient가 한쪽 방향만 가질 수 있어서 update가 느리게 된다. 해당 문제가 발생하는 원인은 local gradient X에 upstream gradient를 곱할경우, non-zero centered 이면, 이전 layer에서 넘어온 x값은 항상 양수 만을 가..