이 영상은 트랜스포머의 인코더–디코더 구조, 위치 인코딩, 멀티헤드 셀프 어텐션, 잔차 연결·정규화, 피드포워드 네트워크, 마스크드 디코더까지를 작은 장난감 예제로 “끝까지 손으로 따라갈 수 있게” 보여주는 스텝바이스텝 강의입니다. 특히 Q·K·V 계산과 어텐션 행렬, 마스크드 어텐션의 동작이 수치 수준에서 펼쳐지는 것이 장점입니다.

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101
딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101
딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에
inner-game.tistory.com
· 트랜스포머는 크게 인코더 스택과 디코더 스택으로 구성되며, 각 블록 안에는 멀티헤드 어텐션, Add & Norm, 피드포워드, 다시 Add & Norm이 반복되는 모듈형 구조를 갖습니다.
· 입력 문장은 먼저 단어 인덱스로 토크나이즈되고, 단어 임베딩 레이어를 거쳐 고정 길이 벡터(영상에선 6차원)로 변환됩니다.
· 여기에 사인·코사인 기반 위치 인코딩(positional encoding) 을 더해, 동일한 단어라도 위치에 따라 다른 벡터가 되도록 만들어 어순 정보를 반영합니다.
· 인코더 블록에서는 “입력 + 위치 인코딩”을 복사해 Q, K, V 세 행렬을 만들고, 각각 다른 가중치 행렬과 곱해 선형 변환된 Q , K , V Q,K,V를 얻습니다.
· 셀프 어텐션은 Q K ⊤ QK ⊤ 을 계산해 토큰 간 유사도 스코어를 만들고, 차원 수의 제곱근으로 나누어(scale) softmax를 취함으로써 각 토큰이 다른 토큰에 얼마나 주의를 줄지 나타내는 확률 행렬을 만듭니다.
· 이 어텐션 행렬에 V V를 곱해 “입력 문맥을 반영한 새로운 표현”을 얻고, 여러 헤드에서 얻은 결과를 concat 후 선형층을 통과시키면 멀티헤드 어텐션의 출력이 됩니다.
· 이후 원래 입력(임베딩+포지션)을 더하는 잔차 연결(skip connection) 과 레이어 정규화(Add & Norm)를 거쳐, 두 층짜리 ReLU 피드포워드 네트워크를 통과시킨 뒤 다시 잔차+정규화를 적용하면 인코더 출력이 완성됩니다.
· 디코더 입력도 마찬가지로 단어 임베딩+위치 인코딩으로 시작합니다.
· 첫 번째 멀티헤드 어텐션은 마스크드 셀프 어텐션 으로, Q K ⊤ QK ⊤ 행렬의 미래 위치(아직 생성되지 않은 토큰 위치)에 − ∞ −∞를 더해 softmax 후 해당 위치의 가중치가 0이 되게 하여, 디코더가 미래 단어를 미리 보지 않도록 합니다.
· 두 번째 멀티헤드 어텐션은 인코더–디코더 어텐션으로, 디코더의 은닉 상태에서 나온 Q Q와 인코더 출력에서 온 K , V K,V를 사용해 “출력 각 시점이 입력 문장의 어떤 위치에 주목할지”를 학습합니다.
· 이 뒤에도 인코더와 같은 구조의 피드포워드·잔차·정규화를 거치며, 최종적으로 선형층을 통해 단어장 크기(예: 11)로 차원을 펼친 뒤 softmax로 다음 토큰 확률을 출력합니다.
· 인코더의 셀프 어텐션은 “하나의 시퀀스 안에서 단어들끼리 서로 얼마나 관련 있는지”를 병렬적으로 계산하기 때문에, 긴 문장에서도 모든 단어쌍 의존성을 한 번에 포착할 수 있습니다.
· 디코더의 마스크드 셀프 어텐션은 오토레그레시브(autoregressive) 생성 조건을 만족시키기 위해, 현재까지 생성된 단어들만 보고 다음 단어를 예측하도록 제한합니다.
· 이런 설계 덕분에 트랜스포머는 RNN 계열과 달리 시퀀스를 순차적으로 처리하지 않고 완전히 병렬화된 어텐션 연산으로 긴 문맥을 다루면서도 높은 효율을 유지하는 모델이 되었고, 이후 다양한 대형 언어모델과 멀티모달 모델의 기반이 되었다고 영상은 강조합니다.
딥러닝 101 - 23강. Variational Autoencoder, 변분오토인코더 VAEs를 알아보자 | Deep Learning 101
이 영상은 오토인코더에서 한 단계 더 나아가, 잠재공간을 확률분포(정규분포) 로 모델링해 새로운 데이터를 생성할 수 있게 해 주는 변분 오토인코더(VAE)의 구조와 동작을 직관적 비유와 수치
inner-game.tistory.com