Problem Solving with Algorithms

728x90
반응형

이 영상은 Word2Vec의 기본 아이디어, CBOW·Skip-gram 구조, 그리고 “단어 의미를 벡터 공간에 어떻게 새기는지”를 작은 숫자 예제로 보여주는 입문 강의다. 원-핫 인코딩에서 시작해 임베딩과 학습 메커니즘까지 자연스럽게 이어져, NLP 초입을 다지기에 좋다. ​ ​

 

딥러닝 101

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

 

딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에

inner-game.tistory.com

 

 

 

원-핫 인코딩과 임베딩의 필요성 

· 강의는 “I love 피자” 같은 예로 각 단어를 원-핫 벡터로 표현할 때, 

· · 단어 간 의미 관계를 전혀 반영하지 못하고 

· · 단어 수가 늘수록 차원이 폭증하는 문제가 있다고 짚는다. ​ ​

 

· 이를 해결하는 기법이 단어 임베딩(word embedding) 이며, 단어를 더 낮은 차원의 실수 벡터로 매핑해

· · 의미가 비슷한 단어는 가까이, 다른 단어는 멀어지게 하고

· · 계산 효율성도 높이는 것을 목표로 한다고 설명한다. ​ ​

 

 

Word2Vec 구조: 작은 신경망으로 임베딩 학습

· Word2Vec은 “단어 의미를 잘 보존하는 임베딩 벡터를 학습하는 매우 얇은 신경망”으로 소개된다. ​ ​

 

· 예제에서는 단어 4개짜리 작은 어휘를 가정해

· · 입력층: 원-핫(차원 4)

· · 은닉층: 2차원 (임베딩 차원)

· · 출력층: 다시 4차원 구조를 두고, 실제 Word2Vec에서는 단어 수 수만, 임베딩 차원 300 정도로 확장된다고 덧붙인다. ​ ​

 

· 은닉층에는 활성화 함수를 쓰지 않는 선형 층만 두는데, 이는

· · 방대한 데이터에서 계산 효율을 높이고

· · 단어들 간 관계를 비선형으로 “찌그러뜨리지 않고” 공평하게 표현하려는 의도일 수 있다고 해석한다. ​ ​

 

 

CBOW(Continuous Bag of Words)의 학습 방식

· CBOW는 “주변 단어들(문맥, context)로 중앙 단어를 맞추는 빈칸 추론 문제”로 설명된다. ​ ​

 

· 예를 들어 “I love 피자”에서 중앙 단어 love를 맞추기 위해, 양옆 단어 I, 피자를 입력으로 쓰는 식이다. ​

 

· 작은 예제에서는 I와 피자의 원-핫 벡터를 더해 평균을 내어(합이 1이 되도록) 은닉층으로 보낸 뒤,

· · 은닉층에서 선형변환을 거쳐 출력층 로짓을 만들고

· · softmax로 확률을 얻은 다음

· · 크로스엔트로피로 손실을 계산한다. ​ ​

 

· 역전파와 경사하강법으로 두 가중치 행렬을 반복해서 업데이트하는데, 여기서는 수식만 간단히 제시하고 세부 계산은 생략한다. ​ ​

 

 

학습이 만드는 의미 공간: 벡터 위치의 변화

· 은닉층 차원이 2라서, 각 단어의 은닉층 출력(=임베딩)을 2D 평면에 점으로 찍어 볼 수 있다고 설명한다. ​ ​

 

· 초기에는 가중치가 랜덤이므로 “I, love, like, 피자” 같은 단어들이 아무렇게나 흩어져 있다. ​

 

· 그러나 CBOW/Skip-gram 학습을 반복하면,

· · 문맥이 비슷한 love, like는 같은 문장 패턴에서 자주 중앙 단어로 등장해 비슷한 업데이트를 받으므로 점점 가까워지고

· · 문맥 역할이 다른 I, 피자는 다른 위치로 멀어지는 경향을 보이게 된다. ​ ​

 

· 이 과정을 수십·수백만 문장에 대해 수행하면 “동일 문맥에 자주 등장하는 단어일수록 벡터 공간에서도 가까워진다”는 Word2Vec의 핵심이 자연스럽게 성립한다. ​ ​

 

 

Skip-gram: 중심 단어로 주변 단어 예측

· 영상 후반부에서는 Word2Vec의 두 학습 방식, CBOW와 Skip-gram을 짝으로 정리한다. ​ ​

 

·  Skip-gram은 CBOW의 반대로,

· · 중앙 단어를 입력으로 주고

· · 그 주변(윈도우 내)의 단어들을 맞추도록 학습하는 구조다. ​ ​

 

· “I love 피자”에서 window=1이라면

· · love의 주변: I, 피자

· · I의 주변: love

· · 피자의 주변: love

식으로 (중앙, 주변) 쌍들을 많이 만들고, 중앙 단어 임베딩이 그 주변 단어들을 잘 예측하도록 학습한다. ​ ​

 

·  CBOW/Skip-gram 모두, 결국 같은 문장에서 자주 함께 등장하는 단어쌍으로부터 임베딩을 업데이트하기 때문에, 의미적으로 유사한 단어는 결국 벡터 공간에서 서로 가까이 위치하게 된다. ​ ​

 

 

이 강의는 원-핫 인코딩의 한계에서 출발해, Word2Vec이 어떻게 저차원 임베딩 공간 안에 단어 의미와 문맥을 녹여 넣는지, 그리고 CBOW·Skip-gram의 학습 과정을 직관 위주로 이해하는 데 특히 도움이 되는 콘텐츠다. ​ ​

 

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 16강. KL Divergence | Deep Learning 101

 

딥러닝 101 - 16강. KL Divergence | Deep Learning 101

이 영상은 KL Divergence를 “크로스엔트로피에서 엔트로피를 뺀 값”이라는 정보이론 관점과, 치킨집·맛집 비유를 활용한 직관적 설명으로 풀어내는 짧은 입문 강의다. VAEs 등 생성 모델에서 KL 항

inner-game.tistory.com

 

728x90
반응형
반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
250x250