이 영상은 소프트맥스–크로스엔트로피 조합의 역전파에서 늘 등장하는 “기울기가 y ^ − y y ^ −y로 단순화된다”는 결과를 처음부터 끝까지 미분으로 직접 도출해 주는 이론 중심 강의이다. RNN·LSTM·다중 분류 신경망에서 반복해서 쓰이는 핵심 공식의 유도 과정을 한 번은 꼼꼼히 보고 싶을 때 참고하기 좋다.
· 영상은 먼저 소프트맥스 출력을 y i = e o i ∑ k e o k y i = ∑ k e o k e o i 로 두고, 세 개의 출력 노드를 예로 들어 ∂ y i ∂ o j ∂o j ∂y i 를 구하는 것부터 시작한다.
· i = j i=j인 경우에는 ∂ y i ∂ o i = y i ( 1 − y i ) ∂o i ∂y i =y i (1−y i ), i ≠ j i =j인 경우에는 ∂ y i ∂ o j = − y i y j ∂o j ∂y i =−y i y j 로 정리되며, 이를 통해 소프트맥스의 야코비안 구조를 직관적으로 이해할 수 있게 한다.
크로스엔트로피와 체인 룰 결합
· 이어 다중 클래스 크로스엔트로피 손실 L = − ∑ k y k log y ^ k L=−∑ k y k log y ^ k 를 두고, ∂ L ∂ o j ∂o j ∂L 를 체인 룰로 전개한다.
· 먼저 ∂ L ∂ y ^ k = − y k y ^ k ∂ y ^ k ∂L =− y ^ k y k , 그리고 앞에서 구한 ∂ y ^ k ∂ o j ∂o j ∂ y ^ k 를 곱해 모두 더한 뒤, k = j k=j인 항과 k ≠ j k =j인 항을 나누어 정리한다.
원-핫 인코딩과 y ^ − y y ^ −y의 도출
· 원-핫 인코딩된 레이블을 가정하면, 한 클래스만 y j = 1 y j =1, 나머지는 0 0이므로 합 안의 많은 항들이 자연스럽게 사라진다.
· 정리 과정을 거치면 결국 ∂ L ∂ o j = y ^ j − y j ∂o j ∂L = y ^ j −y j 로 깔끔하게 수렴하며, 이것이 딥러닝 라이브러리들이 내부에서 사용하는 대표적인 그래디언트 형태임을 보여 준다.
실전에서 이 조합이 중요한 이유
· 소프트맥스–크로스엔트로피 조합은 RNN·LSTM·CNN·MLP 등 거의 모든 다중 분류 모델에서 출력층의 표준 조합으로 쓰이며, 기울기가 단순한 덕분에 역전파 구현이 쉬워지고 수치적으로도 안정적이다.
· 영상은 수식 전개 자체는 다소 길지만, 최종 결과가 “예측 확률 벡터에서 원-핫 레이블 벡터를 빼면 된다”로 끝나기 때문에, 이 조합이 현대 딥러닝에서 가장 널리 사랑받는 이유를 이해하는 데 큰 도움이 된다고 강조한다.