이 영상은 Word2Vec의 기본 아이디어, CBOW·Skip-gram 구조, 그리고 “단어 의미를 벡터 공간에 어떻게 새기는지”를 작은 숫자 예제로 보여주는 입문 강의다. 원-핫 인코딩에서 시작해 임베딩과 학습 메커니즘까지 자연스럽게 이어져, NLP 초입을 다지기에 좋다.

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101
딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101
딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에
inner-game.tistory.com
· 강의는 “I love 피자” 같은 예로 각 단어를 원-핫 벡터로 표현할 때,
· · 단어 간 의미 관계를 전혀 반영하지 못하고
· · 단어 수가 늘수록 차원이 폭증하는 문제가 있다고 짚는다.
· 이를 해결하는 기법이 단어 임베딩(word embedding) 이며, 단어를 더 낮은 차원의 실수 벡터로 매핑해
· · 의미가 비슷한 단어는 가까이, 다른 단어는 멀어지게 하고
· · 계산 효율성도 높이는 것을 목표로 한다고 설명한다.
· Word2Vec은 “단어 의미를 잘 보존하는 임베딩 벡터를 학습하는 매우 얇은 신경망”으로 소개된다.
· 예제에서는 단어 4개짜리 작은 어휘를 가정해
· · 입력층: 원-핫(차원 4)
· · 은닉층: 2차원 (임베딩 차원)
· · 출력층: 다시 4차원 구조를 두고, 실제 Word2Vec에서는 단어 수 수만, 임베딩 차원 300 정도로 확장된다고 덧붙인다.
· 은닉층에는 활성화 함수를 쓰지 않는 선형 층만 두는데, 이는
· · 방대한 데이터에서 계산 효율을 높이고
· · 단어들 간 관계를 비선형으로 “찌그러뜨리지 않고” 공평하게 표현하려는 의도일 수 있다고 해석한다.
· CBOW는 “주변 단어들(문맥, context)로 중앙 단어를 맞추는 빈칸 추론 문제”로 설명된다.
· 예를 들어 “I love 피자”에서 중앙 단어 love를 맞추기 위해, 양옆 단어 I, 피자를 입력으로 쓰는 식이다.
· 작은 예제에서는 I와 피자의 원-핫 벡터를 더해 평균을 내어(합이 1이 되도록) 은닉층으로 보낸 뒤,
· · 은닉층에서 선형변환을 거쳐 출력층 로짓을 만들고
· · softmax로 확률을 얻은 다음
· · 크로스엔트로피로 손실을 계산한다.
· 역전파와 경사하강법으로 두 가중치 행렬을 반복해서 업데이트하는데, 여기서는 수식만 간단히 제시하고 세부 계산은 생략한다.
· 은닉층 차원이 2라서, 각 단어의 은닉층 출력(=임베딩)을 2D 평면에 점으로 찍어 볼 수 있다고 설명한다.
· 초기에는 가중치가 랜덤이므로 “I, love, like, 피자” 같은 단어들이 아무렇게나 흩어져 있다.
· 그러나 CBOW/Skip-gram 학습을 반복하면,
· · 문맥이 비슷한 love, like는 같은 문장 패턴에서 자주 중앙 단어로 등장해 비슷한 업데이트를 받으므로 점점 가까워지고
· · 문맥 역할이 다른 I, 피자는 다른 위치로 멀어지는 경향을 보이게 된다.
· 이 과정을 수십·수백만 문장에 대해 수행하면 “동일 문맥에 자주 등장하는 단어일수록 벡터 공간에서도 가까워진다”는 Word2Vec의 핵심이 자연스럽게 성립한다.
· 영상 후반부에서는 Word2Vec의 두 학습 방식, CBOW와 Skip-gram을 짝으로 정리한다.
· Skip-gram은 CBOW의 반대로,
· · 중앙 단어를 입력으로 주고
· · 그 주변(윈도우 내)의 단어들을 맞추도록 학습하는 구조다.
· “I love 피자”에서 window=1이라면
· · love의 주변: I, 피자
· · I의 주변: love
· · 피자의 주변: love
식으로 (중앙, 주변) 쌍들을 많이 만들고, 중앙 단어 임베딩이 그 주변 단어들을 잘 예측하도록 학습한다.
· CBOW/Skip-gram 모두, 결국 같은 문장에서 자주 함께 등장하는 단어쌍으로부터 임베딩을 업데이트하기 때문에, 의미적으로 유사한 단어는 결국 벡터 공간에서 서로 가까이 위치하게 된다.
이 강의는 원-핫 인코딩의 한계에서 출발해, Word2Vec이 어떻게 저차원 임베딩 공간 안에 단어 의미와 문맥을 녹여 넣는지, 그리고 CBOW·Skip-gram의 학습 과정을 직관 위주로 이해하는 데 특히 도움이 되는 콘텐츠다.
[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 16강. KL Divergence | Deep Learning 101
딥러닝 101 - 16강. KL Divergence | Deep Learning 101
이 영상은 KL Divergence를 “크로스엔트로피에서 엔트로피를 뺀 값”이라는 정보이론 관점과, 치킨집·맛집 비유를 활용한 직관적 설명으로 풀어내는 짧은 입문 강의다. VAEs 등 생성 모델에서 KL 항
inner-game.tistory.com