이 영상은 KL Divergence를 “크로스엔트로피에서 엔트로피를 뺀 값”이라는 정보이론 관점과, 치킨집·맛집 비유를 활용한 직관적 설명으로 풀어내는 짧은 입문 강의다. VAEs 등 생성 모델에서 KL 항이 왜 등장하는지 이해할 때 기초가 되는 내용에 초점을 맞추고 있다.

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101
딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101
딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에
inner-game.tistory.com
· KL Divergence는 두 확률분포 P P와 Q Q 사이의 정보량 차이를 재는 척도로, 공식은 D K L ( P ∥ Q ) = ∑ x P ( x ) log P ( x ) Q ( x ) D KL (P∥Q)=∑ x P(x)log Q(x) P(x) 꼴로 정의된다.
· 식을 전개하면 D K L ( P ∥ Q ) = H ( P , Q ) − H ( P ) D KL (P∥Q)=H(P,Q)−H(P), 즉 “크로스엔트로피(타 분포로 측정했을 때의 평균 놀람)에서 원래 분포의 엔트로피(자체 불확실성)를 뺀 값”이 되어, 기준 분포 자체의 난이도를 제거한 순수한 분포 차이로 해석할 수 있다.
· 강의에서는 치킨집 리뷰 예시를 활용해, P ( x ) P(x)를 많은 사람의 평가가 만든 실제 맛 분포, Q ( x ) Q(x)를 본인의 체감 맛 분포로 비유한다.
· 크로스엔트로피가 “맛집 리뷰를 믿고 갔다가 크게 실망했을 때의 평균 놀람”이라면, KL Divergence는 여기서 해당 음식(예: 엄마손맛 치킨)이 원래 가진 조리·맛의 불확실성(엔트로피)을 뺀 값이어서, **가게의 솜씨/평가와 실제 경험 사이의 ‘순수한 괴리’**를 측정한다고 설명한다.
· 영상에서는 단순한 이산 분포 두 개를 가정해 KL Divergence를 직접 계산해 보며, 두 분포가 더 비슷해질수록 값이 0에 가까워짐을 확인해 준다.
· 반대로 분포가 많이 다르면 KL 값이 커지며, 값의 범위가 0 0에서 ∞ ∞까지 뻗어 있다는 점, 두 분포가 같으면 0이 된다는 성질을 짚어 준다.
· KL Divergence는 일반적인 ‘거리’가 아니라 비대칭 척도라서, D K L ( P ∥ Q ) D KL (P∥Q)와 D K L ( Q ∥ P ) D KL (Q∥P)가 서로 다르며, 어느 쪽을 기준 분포로 둘지에 따라 값과 의미가 달라진다는 점을 강조한다.
· 이 비대칭성과 값의 스케일(0~무한대) 때문에, 두 분포 차이를 보다 대칭적이고 부드럽게 보고 싶을 때는 Jensen–Shannon Divergence(JSD)를 사용한다고 소개한다.
· JSD는 두 분포의 중간 분포 M = 1 2 ( P + Q ) M= 2 1 (P+Q)를 둔 뒤, 1 2 ( D K L ( P ∥ M ) + D K L ( Q ∥ M ) ) 2 1 (D KL (P∥M)+D KL (Q∥M))으로 정의하며, 0~1 사이로 정규화되고 대칭인 점 때문에 GAN 등에서 자주 활용된다고 덧붙인다.
이 영상을 통해 KL Divergence가 “엔트로피·크로스엔트로피와 연결된, 두 분포 간 평균 정보량 차이”라는 점과, 비대칭성과 JSD로의 확장이 어떤 의미를 갖는지 직관적으로 정리할 수 있다.
[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 17강. 시퀀스-투-시퀀스, Seq2seq 모델을 소개합니다 | Deep Learning 101
딥러닝 101 - 17강. 시퀀스-투-시퀀스, Seq2seq 모델을 소개합니다 | Deep Learning 101
이 영상은 시퀀스-투-시퀀스(seq2seq) 모델의 구조와 작동 원리를 LSTM·Word2Vec과 연결해 설명하면서, 기계번역을 중심으로 인코더–컨텍스트 벡터–디코더 흐름을 잡아 주는 입문 강의이다. 특히
inner-game.tistory.com