Problem Solving with Algorithms

728x90
반응형

이 영상은 오토인코더에서 한 단계 더 나아가, 잠재공간을 확률분포(정규분포) 로 모델링해 새로운 데이터를 생성할 수 있게 해 주는 변분 오토인코더(VAE)의 구조와 동작을 직관적 비유와 수치 예제로 설명한다. 특히 평균·분산, 재파라미터라이제이션 트릭, 재구성 손실+KL 발산으로 이루어진 손실까지 한 번에 개념을 잡을 수 있다.

 

딥러닝 101

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

 

딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에

inner-game.tistory.com

 

 

 

오토인코더 vs VAE: 잠재공간의 차이

· 일반 오토인코더는 입력을 잠재 벡터 z z 하나로 압축했다가 다시 복원하며, 이 z z는 “블랙박스” 같은 고정 벡터라서 사용자가 의미 있게 조절하거나 새로운 샘플을 만들기는 어렵다.

 

· VAE는 잠재공간을 “평균 μ μ와 분산 σ 2 σ 2 ”로 표현되는 정규분포로 모델링해, 각 데이터가 잠재공간의 분포로 매핑되도록 강제하고, 이 분포에서 샘플링한 z z로 새로운 데이터를 생성할 수 있도록 설계된다.

 

치킨 소스 비유로 보는 잠재공간

· 영상은 치킨 프랜차이즈 비유를 사용한다. 오토인코더의 잠재공간은 “본사가 준 비법 소스”처럼 레시피를 알 수 없고 그대로 재현만 가능한 상태로, 사람이 조절해 새로운 맛을 만들기 어렵다. ​

 

· VAE의 잠재공간은 “특제 소스의 재료 비율(평균·분산)을 공개한 상태”에 비유되어, 레시피를 이해하고 비율을 조절해 새로운 양념치킨(새 샘플)을 만들어 볼 수 있는 구조라고 설명한다. ​ ​

 

 

인코더: μ μ, log ⁡ σ 2 logσ 2 와 재파라미터라이제이션 트릭

· 인코더는 입력 벡터를 받아 은닉층을 거친 뒤, 두 개의 선형층을 통해 잠재공간의 평균 μ μ와 로그 분산 log ⁡ σ 2 logσ 2 를 출력한다. ​ ​

 

· 여기서 분산 대신 log ⁡ σ 2 logσ 2 를 쓰는 이유는 분산을 항상 양수로 유지하기 쉽고, 수치 안정성이 좋기 때문이다. ​ ​

 

· 샘플링 단계에서는 재파라미터라이제이션 트릭을 사용해

σ = exp ⁡ ( log ⁡ σ 2 ) , z = μ + σ ⊙ ϵ , ϵ ∼ N ( 0 , I ) σ= exp(logσ 2 ) ,z=μ+σ⊙ϵ,ϵ∼N(0,I)

꼴로 z z를 만든다. 이 방식 덕분에 샘플링 연산을 통해서도 μ , σ μ,σ에 대한 그래디언트를 역전파할 수 있다.

 

 

 

디코더와 손실: 재구성 + KL 발산

· 디코더는 샘플링된 z z를 입력으로 받아, 일반 오토인코더처럼 복원 벡터 x ^ x ^ 를 출력한다. ​ ​

 

· 손실은 두 부분으로 구성된다.

· · 재구성 손실: 원본 x x와 복원 x ^ x ^ 사이의 차이(MSE나 BCE 등)를 측정해, 데이터 정보를 잘 보존하도록 유도한다. ​ ​

· · KL Divergence: 인코더가 만든 잠재분포 q ( z ∣ x ) = N ( μ , σ 2 ) q(z∣x)=N(μ,σ 2 )가 표준 정규분포 N ( 0 , I ) N(0,I)에 가까워지도록,

D K L ( q ( z ∣ x ) ∥ N ( 0 , I ) ) = 1 2 ∑ i ( μ i 2 + σ i 2 − log ⁡ σ i 2 − 1 ) D KL (q(z∣x)∥N(0,I))= 2 1 i ∑ (μ i 2 +σ i 2 −logσ i 2 −1)

형태의 항을 더한다. ​ ​

 

· 최종 손실은 “재구성 손실 + KL 발산”으로, 인코더·디코더 전체에 역전파를 통해 가중치를 업데이트한다. 이렇게 학습하면 잠재공간이 자연스럽게 표준 정규분포 근처에서 잘 구조화된 형태로 정리된다. ​ ​

 

 

 

VAE의 의의와 활용 방향

· VAE는 “데이터를 잘 복원하면서도 잠재공간이 정규분포를 따르도록” 학습하기 때문에, 학습 후에는 그저 N ( 0 , I ) N(0,I)에서 z z를 샘플링해 디코더에 넣는 것만으로도 학습 데이터와 유사한 새로운 샘플을 쉽게 생성할 수 있다. ​ ​

 

· 영상에서는 이러한 잠재공간 제어 아이디어가 이후 언어 모델·이미지 생성 모델과 결합되어, 스테이블 디퓨전과 같은 현대적 생성 모델의 기반이 되었다는 점을 짚으며, VAE를 “잠재공간을 사람 손에 쥐여 준 첫 주요 생성 모델”로서의 의의를 강조한다. ​ ​

 

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 25강. ResNet 잔차신경망이란? (feat.기울기소실문제) | Deep Learning 101

 

딥러닝 101 - 25강. ResNet 잔차신경망이란? (feat.기울기소실문제) | Deep Learning 101

이 영상은 기울기 소실(vanishing gradient) 문제를 간단한 3층 신경망 손계산으로 직접 보여 준 뒤, 같은 구조에 스킵 커넥션을 추가했을 때 기울기가 어떻게 달라지는지 비교하며 ResNet의 핵심 아이

inner-game.tistory.com

 

728x90
반응형
반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
250x250