Problem Solving with Algorithms

728x90
반응형

이 영상은 L1, L2 정규화(regularization)가 왜 과적합을 줄이는지, 손실 함수에 어떤 형태로 들어가고 경사하강법에서 가중치가 어떻게 업데이트되는지까지 수식으로 보여주는 입문 강의다. 특히 “가중치에 페널티를 더해 학습을 일부러 방해하지만, 오히려 일반화 성능이 좋아진다”는 역설적인 아이디어를 직관과 미분 계산으로 함께 설명해 준다. ​ ​ 

 

딥러닝 101

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

 

딥러닝 101 - 무료 강의 전체 소개 | Deep Learning 101

딥러닝 101 재생목록은 CNN부터 트랜스포머, VAE, ResNet까지 현대 딥러닝의 핵심 개념을 한 번에 훑을 수 있는 입문·중급용 강의 시리즈입니다. 실습 위주의 설명과 직관적인 비유가 많아서, 수식에

inner-game.tistory.com

 

 

 

Regularization과 과적합 직관 

· 강의는 먼저 모의고사 유형만 과도하게 외운 학생이 실제 시험에서 새로운 유형을 잘 못 푸는 비유로 과적합(overfitting)을 설명한다. ​ ​ 

 

· 영화 추천 시스템 예시에서, 장르·감독처럼 중요한 특성과 개봉연도·상영시간처럼 덜 중요한 특성이 모두 모델에 들어가면 학습 데이터에는 잘 맞지만 새로운 데이터에서는 성능이 떨어질 수 있음을 보여 준다. ​ 

 

· 이런 상황에서 regularization은 “불필요한 가중치의 영향을 줄이거나 없애” 모델이 더 단순한 해를 택하도록 유도하는 방법이라고 정의한다. ​ ​ 

 

 

L1 정규화: 절댓값 페널티와 희소성 

· L1 정규화는 손실 함수에 λ ∑ i ∣ w i ∣ λ∑ i ∣w i ∣를 더하는 형태로, 모든 가중치의 절댓값 합을 페널티로 추가한다. ​ ​ 

 

· 단순 1차 회귀 y = w x + b y=wx+b에 MSE 손실과 L1 항을 합친 뒤 ∂ L / ∂ w ∂L/∂w를 미분하면, 절댓값의 도함수 때문에 기울기에 부호(sgn)가 등장하고, 업데이트식이 “가중치의 부호 방향으로 일정량을 밀어 0에 더 가깝게 만드는” 꼴로 정리된다. ​ ​ 

 

· 이 때문에 작은 가중치들은 반복 업데이트 과정에서 실제로 0까지 떨어지기 쉬워지고, 중요하지 않은 특성이 자동으로 제거된 희소(sparse) 모델이 되는 경향이 있다. ​ ​ 

 

 

L2 정규화: 제곱 페널티와 weight decay 

· L2 정규화는 손실 함수에 λ ∑ i w i 2 λ∑ i w i 2 를 더하며, 가중치 제곱 합을 페널티로 추가한다. ​ ​ 

 

· 같은 설정에서 미분하면, ∂ L / ∂ w ∂L/∂w에 2 λ w 2λw 항이 추가되어, 업데이트식이 “기존 경사하강 업데이트 + 가중치를 비율로 줄이는 weight decay” 형태가 됨을 보여 준다. ​ ​ 

 

· L1이 가중치의 크기와 상관없이 ‘일정량’을 깎는 데 비해, L2는 가중치가 클수록 더 큰 페널티를 주고, 작을수록 작은 페널티를 주기 때문에 전체 가중치를 부드럽게 줄이며 보다 안정적인 정규화 효과를 낸다고 설명한다. ​ ​ 

 

 

L1 vs L2: 특징과 활용 차이 

· L1: 절댓값 페널티로 인해 작은 가중치들을 0으로 만드는 경향이 강해, 특성 선택·차원 축소가 필요한 상황이나 희소한 표현을 선호할 때 유리하다. ​ ​ 

 

· L2: 가중치의 제곱에 비례하는 페널티로, 특정 가중치만 0으로 만들기보다는 전체를 작게 유지해 모델 복잡도를 줄이고, 과적합을 완화하는 데 널리 사용된다. ​ ​ 

 

· 강의는 마지막에 “카페의 적당한 소음이 오히려 공부에 도움될 때도 있다”는 비유를 들며, regularization이 학습을 방해하는 것처럼 보이지만 실제로는 더 일반화 잘 되는 모델을 만드는 ‘좋은 방해’가 될 수 있다고 정리한다.

 

 

[AI 인공지능 머신러닝 딥러닝/딥러닝] - 딥러닝 101 - 15강. Word2Vec 쉬운 예제로 개념잡기 | Deep Learning 101

 

딥러닝 101 - 15강. Word2Vec 쉬운 예제로 개념잡기 | Deep Learning 101

이 영상은 Word2Vec의 기본 아이디어, CBOW·Skip-gram 구조, 그리고 “단어 의미를 벡터 공간에 어떻게 새기는지”를 작은 숫자 예제로 보여주는 입문 강의다. 원-핫 인코딩에서 시작해 임베딩과 학습

inner-game.tistory.com

 

728x90
반응형
반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
250x250