이 영상은 크로스엔트로피 손실함수를 ‘정보·기대값·엔트로피’라는 세 가지 개념으로 풀어 가며, 분류 문제에서 왜 크로스엔트로피가 널리 쓰이는지 직관적으로 설명하는 강의이다. 단순 공식 설명을 넘어서 일상적인 비유와 예시를 통해, 수식을 처음 접하는 사람도 개념 흐름을 따라가기 좋게 구성되어 있다.

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101
딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101
딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에
inner-game.tistory.com
[AI 인공지능 머신러닝 딥러닝] - 딥러닝 - 크로스 엔트로피(Cross Entropy) 손실함수 | MSE와 비교
딥러닝 - 크로스 엔트로피(Cross Entropy) 손실함수 | MSE와 비교
크로스 엔트로피(Cross Entropy)는 딥러닝과 머신러닝 분류 문제에서 가장 많이 쓰이는 손실 함수입니다. 이 손실 함수는 모델의 예측이 실제 정답과 얼마나 차이가 나는지를 수치로 측정합니다. 크
inner-game.tistory.com
· 영상은 크로스엔트로피 공식을 바로 보여준 뒤, 이를 이해하려면 먼저 ‘정보(놀람도)’ 개념을 알아야 한다고 하며, 낮은 확률의 사건이 발생할수록 더 많이 놀란다는 일상적 직관에서 출발한다.
· 동전·주사위 예제와 함께 “확률이 높을수록 덜 놀라고, 낮을수록 더 놀란다”는 점을 강조하고, 정보이론에서 놀람을 log ( 1 / p ( x ) ) log(1/p(x)), 즉 − log p ( x ) −logp(x)로 정의한다는 사실을 소개한다.
· 이어 축구팀 전력과 컨디션을 예로 들어, ‘값 × 확률’을 모두 더한 것이 기대값(예상 전력)이라는 점을 설명하며, 기대값이 “확률을 고려한 평균적 결과”라는 의미임을 자연스럽게 연결한다.
· 기대값의 틀을 이용해, “객관적인 전력 대신 놀람도(정보)를 넣으면 그것이 엔트로피”라는 식으로 엔트로피를 정의한다.
· 두 축구팀의 기량과 컨디션 분포가 다르지만 기대값은 같은 상황을 설정한 뒤, 어떤 팀이 더 예측 가능한지 비교하는 과정에서 엔트로피의 역할을 설명한다.
· 확률이 0.9나 0.1처럼 극단적일수록 플레이가 예측 가능하고 엔트로피는 낮으며, 0.5처럼 애매할수록 예측이 어렵고 엔트로피가 높아진다는 예시로 “엔트로피는 예측 불가능성의 척도”라는 직관을 잡을 수 있게 해 준다.
· 여기까지의 내용을 바탕으로, 엔트로피 공식에서 확률 p ( x ) p(x) 대신 한쪽을 p ( x ) p(x), 다른 쪽을 q ( x ) q(x)로 바꾼 것이 크로스엔트로피임을 보여 준다.
· 실제 분포 p ( x ) p(x)는 ‘정답 레이블’, 모델이 예측한 분포 q ( x ) q(x)는 ‘신경망 출력 확률’로 두고, 두 분포가 다를수록 크로스엔트로피 값이 커져 “우리가 느끼는 불편함, 괴리”가 커지는 것으로 해석한다.
· 치킨 맛집 리뷰 예시를 통해, 리뷰 점수(사람들이 느낀 평균적 맛에 대한 확률 정보)와 실제로 먹어 본 맛이 크게 다를 때 느끼는 불편함이 곧 크로스엔트로피 손실의 직관적 의미와 유사하다고 비유한다.
· 분류 문제에서 정답을 원-핫 벡터로 두면, 크로스엔트로피는 사실상 정답 클래스의 예측 확률에만 − log −log를 취하는 형태로 단순화되며, 정답 확률이 낮을수록 손실이 커진다는 점을 강조한다.
· 신경망은 이 손실을 최소화하는 방향으로 가중치를 업데이트하며, 사용되는 최적화 방법은 다른 딥러닝 모델과 마찬가지로 경사하강법과 역전파라는 점을 짚어 준다.
· 여러 샘플의 크로스엔트로피 값을 평균 내어 전체 배치 손실을 정의하고, 이를 반복적으로 줄여 나가며 모델이 실제 분포 p ( x ) p(x)에 가까운 q ( x ) q(x)를 예측하도록 학습된다는 설명으로 흐름을 마무리한다.
· 마지막으로, 분류 문제에서 평균제곱오차(MSE) 대신 크로스엔트로피를 더 선호하는 이유를 그래프와 함께 설명한다.
· 정답이 1인 이진 분류 상황에서, 예측값이 0에 가까울수록 크로스엔트로피는 MSE보다 훨씬 큰 손실과 기울기를 주어, “심하게 틀린” 예측에 더 강한 페널티를 부여한다는 점을 보여 준다.
· 이 덕분에 분류 문제에서는 크로스엔트로피가 MSE보다 손실과 그래디언트 측면에서 더 민감하게 반응하여, 잘못된 예측을 빠르게 수정하는 데 유리하다는 점을 강조하며 강의를 마무리한다.
전체적으로 이 영상은 교과서적인 정의와 정보이론의 맥락을 유지하면서도, 제비뽑기·축구·배달앱 같은 비유를 통해 직관을 쌓게 해 주는 구성이라, 크로스엔트로피 입문용 글을 쓰거나 개념 정리를 할 때 곁들여 참고하기 좋은 콘텐츠이다.
[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 8강. 확률적 경사하강법을 소개합니다 | Deep Learning 101
딥러닝 101 - 8강. 확률적 경사하강법을 소개합니다 | Deep Learning 101
이 영상은 경사하강법의 세 가지 변형인 배치 경사하강법, 확률적 경사하강법(SGD), 미니배치 경사하강법의 개념을 직관적인 비유와 간단한 수식, 파이썬 코드로 설명하는 입문 강의이다. 특히
inner-game.tistory.com