Problem Solving with Algorithms

728x90
반응형

이 영상은 시퀀스-투-시퀀스(seq2seq) 모델의 구조와 작동 원리를 LSTM·Word2Vec과 연결해 설명하면서, 기계번역을 중심으로 인코더–컨텍스트 벡터–디코더 흐름을 잡아 주는 입문 강의이다. 특히 “길이가 다른 입력·출력 시퀀스를 어떻게 다루는가”를 직관적으로 이해하는 데 초점을 두고 있다. ​ ​ 

 

 

딥러닝 101



 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

 

딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에

inner-game.tistory.com

 

 

Seq2seq가 필요한 이유 

· 영상은 먼저 기계번역에서 단어 수, 어순이 언어마다 일대일로 대응하지 않는다는 점을 지적하며, 단순 RNN/LSTM만으로는 이 문제를 풀기 어렵다는 맥락을 제시한다. ​ ​ 

 

· LSTM이 장기 의존성 문제를 완화해 주긴 하지만, “문장 전체를 하나의 의미 벡터로 압축하고 다시 새로운 문장으로 풀어내는 구조”가 필요해 등장한 것이 seq2seq 모델이라고 설명한다. ​ ​ 

 

 

인코더: 입력 문장을 컨텍스트 벡터로 

· 예시 문장 “thank you”를 영어→한국어 번역하는 상황을 두고, 우선 각 단어를 Word2Vec 임베딩으로 변환한 뒤 LSTM 인코더에 순차적으로 넣는 과정을 그려 보인다. ​ ​ 

 

· LSTM은 각 시점마다 셀 상태 C t C t 와 히든 상태 h t h t 를 업데이트하며, 마지막 단어(EOS 포함)를 처리한 뒤 얻어지는 ( C T , h T ) (C T ,h T )가 입력 전체를 요약한 벡터가 된다. ​ ​ 

 

· seq2seq에서는 이 ( C T , h T ) (C T ,h T )를 합쳐 컨텍스트 벡터(context vector) 라 부르고, 인코더의 출력이자 디코더의 입력으로 사용한다. ​ ​ 

 

 

디코더: 컨텍스트에서 출력 시퀀스 생성 

· 디코더 역시 별도의 LSTM으로 구성되며, 인코더와 가중치를 공유하지 않고 독립된 파라미터를 가진다. ​ ​ 

 

· 디코더의 첫 시점에서는 인코더가 만든 컨텍스트 벡터를 초기 상태로 주고, 동시에 문장 시작 토큰(EOS/SOS)을 입력하여 첫 한국어 단어(예: “고마워”)를 예측한다. ​ ​ 

 

· 이때 디코더의 히든 상태는 다시 Word2Vec(한국어 임베딩)과 출력층, softmax를 거쳐 다음 단어의 확률 분포를 생성하고, 선택된 단어를 다음 시점의 입력으로 반복적으로 사용하여 “고마워요”, “고마워요 EOS”처럼 문장을 완성한다. ​ ​ 

 

 

학습과 역전파의 흐름 

· 학습 시에는 디코더에서 예측한 각 단어의 분포와 실제 정답 문장을 원-핫 벡터로 비교하여, 크로스엔트로피 손실을 시퀀스 길이만큼 누적한다. ​ ​ 

 

· 역전파는 디코더의 마지막 시점부터 시작해 softmax–크로스엔트로피 층을 거쳐 LSTM 가중치까지 전달되고, 이후 BPTT를 통해 컨텍스트 벡터를 경유하여 인코더 쪽 LSTM의 가중치까지 거슬러 올라간다. ​ ​ 

 

· 이렇게 인코더·디코더 두 LSTM이 함께 업데이트되면서, 인코더는 “잘 압축된 의미 벡터”를, 디코더는 “그 벡터에서 자연스러운 번역을 펼치는 규칙”을 점점 더 잘 학습하게 된다. ​ ​ 

 

 

Seq2seq의 의의와 확장 

· 영상은 seq2seq가 인코더–컨텍스트–디코더 구조 덕분에 “입·출력 길이가 달라도 되는” 번역·요약·챗봇 등 다양한 시퀀스 변환 문제에 적용된다는 점을 강조한다. ​ ​ 

 

· 이어 이 구조 위에 어텐션 메커니즘이 추가되면 긴 문장에서도 더 안정적인 성능을 내게 되고, 더 나아가 트랜스포머로 발전했다는 계보를 언급하며, 딥러닝·NLP 공부에서 반드시 짚고 넘어가야 할 기본 모델로 정리한다. ​ ​

 

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 19강. Seq2seq+Attention 모델을 소개합니다 | Deep Learning 101

 

딥러닝 101 - 19강. Seq2seq+Attention 모델을 소개합니다 | Deep Learning 101

이 영상은 기존 seq2seq에 어텐션 메커니즘을 더해, 긴 입력 문장에서 디코더가 “어떤 단어를 얼마나 참고해야 하는지”를 동적으로 계산하는 과정을 직관적으로 보여 주는 강의다. 인코더–컨

inner-game.tistory.com

 

728x90
반응형
반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
250x250