Problem Solving with Algorithms

728x90
반응형

이 영상은 기존 seq2seq에 어텐션 메커니즘을 더해, 긴 입력 문장에서 디코더가 “어떤 단어를 얼마나 참고해야 하는지”를 동적으로 계산하는 과정을 직관적으로 보여 주는 강의다. 인코더–컨텍스트–디코더 구조 위에 dot-product 기반 어텐션을 얹는 기본 형태를 이해하기에 적합하다. ​ ​ 

 

딥러닝 101

 

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

 

딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에

inner-game.tistory.com

 

 

 

Seq2seq 한계와 어텐션의 필요성 

· 기본 seq2seq는 인코더가 입력 전체를 고정 길이 컨텍스트 벡터 하나로 압축하기 때문에, 입력 시퀀스가 길어질수록 모든 정보를 이 한 벡터에 담기 어렵다는 문제가 있다. ​ ​ 

 

· 어텐션은 디코더가 출력 각 시점마다 “인코더의 어떤 시점(hidden state)에 더 집중할지”를 학습해, 긴 문장이나 복잡한 구조에서도 번역 품질과 장기 의존성 처리를 개선한다. ​ ​ 

 

 

인코더 출력 보존과 어텐션 스코어 계산 

· 어텐션을 쓰는 seq2seq에서는 인코더의 마지막 상태만 쓰지 않고, 각 시점의 은닉 상태 h 1 e n c , h 2 e n c , … h 1 enc ,h 2 enc ,…를 모두 저장해 둔다. ​ ​ 

 

· 디코더에서 어떤 시점 t t의 은닉 상태 h t d e c h t dec 가 있을 때, 이 벡터를 기준으로 인코더의 각 은닉 상태와의 유사도를 attention score로 계산한다. ​ ​ 

 

· 영상에서는 가장 단순한 dot-product 방식을 사용해, 예를 들어 인코더 상태 ( 0.8 , 0.2 ) (0.8,0.2), 디코더 상태 ( 0.7 , 0.3 ) (0.7,0.3)이면 내적 0.8 ⋅ 0.7 + 0.2 ⋅ 0.3 = 0.62 0.8⋅0.7+0.2⋅0.3=0.62와 같은 식으로 점수를 구한다. ​ ​ 

 

 

소프트맥스 정규화와 가중합 컨텍스트 벡터 

· 이렇게 얻은 attention score들을 softmax에 통과시켜 확률 분포(어텐션 가중치)로 만든다. ​ ​ 

 

· 각 인코더 은닉 상태에 이 가중치를 곱해 “중요한 입력일수록 값이 증폭되도록” 만들고, 이 가중치가 적용된 은닉 상태들을 모두 더해 새로운 컨텍스트 벡터를 구성한다. ​ ​ 

 

· 이 컨텍스트 벡터는 기존 seq2seq의 고정 컨텍스트 벡터보다 훨씬 “현재 디코더 시점에 맞춰진 요약정보”이므로, 디코더의 다음 LSTM 입력이나 출력층에 함께 사용되어 더 정확한 예측을 돕는다. ​ ​ 

 

 

디코더에서의 반복 적용과 효과 

· 디코더는 각 시점마다 자신의 은닉 상태를 기준으로 새로운 attention score를 계산하고, 그에 따라 매번 다른 컨텍스트 벡터를 만들어 사용한다. ​ ​ 

 

· 출력 토큰이 EOS가 나올 때까지 이 과정을 반복하며, 매번 “현재 생성하려는 단어와 가장 관련이 높은 입력 위치”에 더 많은 주의를 기울이게 된다. ​ ​ 

 

· 이 메커니즘 덕분에 모델은 단순 seq2seq보다 긴 문장에 강하고, 어느 입력 단어를 참조해 어떤 출력 단어를 만들었는지 attention 분포를 통해 해석 가능하다는 장점도 얻는다. ​ ​ 

 

영상은 수식을 최소화하고, dot-product·softmax·가중합이라는 세 단계만으로 “어텐션이 seq2seq에 어떻게 붙고, 무엇이 달라지는지”를 감각적으로 파악하게 해 주는 입문용 설명이라고 볼 수 있다. ​ ​

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 21강. 트랜스포머, 스텝 바이 스텝 | Deep Learning 101

 

딥러닝 101 - 21강. 트랜스포머, 스텝 바이 스텝 | Deep Learning 101

이 영상은 트랜스포머의 인코더–디코더 구조, 위치 인코딩, 멀티헤드 셀프 어텐션, 잔차 연결·정규화, 피드포워드 네트워크, 마스크드 디코더까지를 작은 장난감 예제로 “끝까지 손으로 따라

inner-game.tistory.com

 

728x90
반응형
반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
250x250