Problem Solving with Algorithms

728x90
반응형

이 영상은 소프트맥스–크로스엔트로피 조합의 역전파에서 늘 등장하는 “기울기가 y ^ − y y ^ −y로 단순화된다”는 결과를 처음부터 끝까지 미분으로 직접 도출해 주는 이론 중심 강의이다. RNN·LSTM·다중 분류 신경망에서 반복해서 쓰이는 핵심 공식의 유도 과정을 한 번은 꼼꼼히 보고 싶을 때 참고하기 좋다. ​ ​ 

 

딥러닝 101

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

 

딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에

inner-game.tistory.com

 

 

 

소프트맥스의 편미분 정리 

· 영상은 먼저 소프트맥스 출력을 y i = e o i ∑ k e o k y i = ∑ k e o k e o i 로 두고, 세 개의 출력 노드를 예로 들어 ∂ y i ∂ o j ∂o j ∂y i 를 구하는 것부터 시작한다. ​ ​

 

·  i = j i=j인 경우에는 ∂ y i ∂ o i = y i ( 1 − y i ) ∂o i ∂y i =y i (1−y i ), i ≠ j i  =j인 경우에는 ∂ y i ∂ o j = − y i y j ∂o j ∂y i =−y i y j 로 정리되며, 이를 통해 소프트맥스의 야코비안 구조를 직관적으로 이해할 수 있게 한다. ​ ​ 

 

 

크로스엔트로피와 체인 룰 결합 

· 이어 다중 클래스 크로스엔트로피 손실 L = − ∑ k y k log ⁡ y ^ k L=−∑ k y k log y ^ k 를 두고, ∂ L ∂ o j ∂o j ∂L 를 체인 룰로 전개한다. ​ ​ 

 

· 먼저 ∂ L ∂ y ^ k = − y k y ^ k ∂ y ^ k ∂L =− y ^ k y k , 그리고 앞에서 구한 ∂ y ^ k ∂ o j ∂o j ∂ y ^ k 를 곱해 모두 더한 뒤, k = j k=j인 항과 k ≠ j k  =j인 항을 나누어 정리한다. ​ ​ 

 

 

원-핫 인코딩과 y ^ − y y ^ −y의 도출 

· 원-핫 인코딩된 레이블을 가정하면, 한 클래스만 y j = 1 y j =1, 나머지는 0 0이므로 합 안의 많은 항들이 자연스럽게 사라진다. ​ ​ 

 

· 정리 과정을 거치면 결국 ∂ L ∂ o j = y ^ j − y j ∂o j ∂L = y ^ j −y j 로 깔끔하게 수렴하며, 이것이 딥러닝 라이브러리들이 내부에서 사용하는 대표적인 그래디언트 형태임을 보여 준다. ​ ​ 

 

 

실전에서 이 조합이 중요한 이유 

· 소프트맥스–크로스엔트로피 조합은 RNN·LSTM·CNN·MLP 등 거의 모든 다중 분류 모델에서 출력층의 표준 조합으로 쓰이며, 기울기가 단순한 덕분에 역전파 구현이 쉬워지고 수치적으로도 안정적이다. ​ ​ 

 

· 영상은 수식 전개 자체는 다소 길지만, 최종 결과가 “예측 확률 벡터에서 원-핫 레이블 벡터를 빼면 된다”로 끝나기 때문에, 이 조합이 현대 딥러닝에서 가장 널리 사랑받는 이유를 이해하는 데 큰 도움이 된다고 강조한다. ​

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 14강. L1, L2 Regularization | Deep Learning 101

 

딥러닝 101 - 14강. L1, L2 Regularization | Deep Learning 101

이 영상은 L1, L2 정규화(regularization)가 왜 과적합을 줄이는지, 손실 함수에 어떤 형태로 들어가고 경사하강법에서 가중치가 어떻게 업데이트되는지까지 수식으로 보여주는 입문 강의다. 특히 “

inner-game.tistory.com

 

728x90
반응형
반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
250x250