혁펜하임의 “탄탄한” 컨벡스 최적화 (Convex Optimization) 7강

728x90

혁펜하임의 “탄탄한” 컨벡스 최적화는 머신러닝·딥러닝을 공부하는 사람들이 ‘최적화’를 진짜 수학적으로, 그러면서도 직관적으로 이해하도록 도와주는 한국어 강의 시리즈입니다. 강의의 전체 구성, 수강 난이도, 어떤 수학/ML 배경이 연결되는지, 그리고 어떻게 활용하면 좋은지는 아래의 포스팅에 정리되어 있습니다.

[AI 인공지능 머신러닝 딥러닝] - 혁펜하임의 “탄탄한” 컨벡스 최적화 (Convex Optimization) 강의 소개

혁펜하임의 “탄탄한” 컨벡스 최적화 (Convex Optimization) 강의 소개

혁펜하임의 “탄탄한” 컨벡스 최적화는 머신러닝·딥러닝을 공부하는 사람들이 ‘최적화’를 진짜 수학적으로, 그러면서도 직관적으로 이해하도록 도와주는 한국어 강의 시리즈입니다.

inner-game.tistory.com

혁펜하임의 “탄탄한” 컨벡스 최적화 (Convex Optimization) 강의

[최적화] 7-1강. 서포트 벡터 머신 (Support Vector Machine: SVM) 5분 만에 이해 시켜드림 & 코드 실습까지!!

이 강의(7-1강)는 선형 SVM의 핵심 아이디어(마진 최대화, 결정 경계, 서포트 벡터)를 2D 예제로 직관적으로 설명하고, 이를 제약이 있는 컨벡스 최적화 문제·Primal-Dual IPM으로 연결하는 입문 영상입니다.

SVM 직관: 국경과 마진

강의에서는 두 클래스(예: 꼬부기 vs 파이리)를 가장 잘 가르는 “국경 직선”을 찾는 문제로 SVM을 설명합니다.

이때 결정 경계 w ⊤ x + b = 0 w ⊤ x+b=0와 양쪽 클래스에서 가장 가까운 점(서포트 벡터)까지의 거리를 **마진(margin)**이라 부르고, 이 마진이 최대가 되도록 w , b w,b를 선택하는 것이 SVM의 목표라는 점을 시각적으로 보여 줍니다.

수식화: 마진 최대화 → 최적화 문제

벡터 내적을 이용해 직선(하이퍼플레인)을 w ⊤ x + b = 0 w ⊤ x+b=0으로 표현하고, 각 점 x i x i 에 레이블 y i ∈ { + 1 , − 1 } y i ∈{+1,−1}을 부여하면, 선형 SVM의 하드마진 제약은

y i ( w ⊤ x i + b ) ≥ 1 y i (w ⊤ x i +b)≥1

로 쓸 수 있습니다.

마진은 2 / ∥ w ∥ 2/∥w∥가 되므로, 이를 최대화하는 문제는 ∥ w ∥ ∥w∥ 혹은 1 2 ∥ w ∥ 2 2 1 ∥w∥ 2 를 최소화하는 제약 최적화 문제

min ⁡ w , b 1 2 ∥ w ∥ 2 s.t. y i ( w ⊤ x i + b ) ≥ 1 w,b min 2 1 ∥w∥ 2 s.t. y i (w ⊤ x i +b)≥1

로 바뀐다는 것을 유도해 줍니다.

제약을 한 번에 쓰는 트릭과 KKT/PD-IPM 연결

각 데이터 포인트의 제약을 g i ( w , b ) ≤ 0 g i (w,b)≤0 꼴로 통일하기 위해, y i ∈ { ± 1 } y i ∈{±1}를 이용해

1 − y i ( w ⊤ x i + b ) ≤ 0 1−y i (w ⊤ x i +b)≤0

형태로 쓰고, 이를 모두 모아 부등식 제약이 있는 컨벡스 문제로 인식합니다.

이 문제는 정확히 이전 강의들에서 다룬 KKT·듀얼리티·프라이멀-듀얼 인테리어 포인트 메서드의 적용 대상이므로, 라그랑지안·KKT 조건을 세워 Primal-Dual IPM으로 푸는 구조까지 자연스럽게 연결합니다.

서포트 벡터의 의미

KKT의 complementary slackness에 따라, 마진 경계에 딱 걸쳐 있는 점들은 대응하는 라그랑주 승수가 0이 아니고, 마진 밖에 충분히 떨어져 있는 점들은 승수가 0이 됩니다.

강의에서는 승수가 0이 아닌 점들만이 결정 경계를 결정하는 **서포트 벡터(support vectors)**가 되며, 이 점들만으로도 최종 경계를 완전히 복원할 수 있기 때문에 알고리즘 이름이 “서포트 벡터 머신”이라는 직관을 그림과 코드 결과로 보여 줍니다.

코드 실습: 선형 SVM 학습과 시각화

마지막으로 간단한 2D 데이터(두 클러스터)를 생성해, Primal-Dual IPM으로 SVM을 학습하고

- 이터레이션에 따라 경계선이 이동하는 과정

- 수렴 후 결정 경계와 마진

- 서포트 벡터가 되는 점들(라그랑주 승수 ≠ 0인 점들)

을 시각적으로 확인합니다.

이 강의까지 보면, “SVM = 마진 최대화 컨벡스 문제 = KKT/인테리어 포인트로 푸는 모델”이라는 큰 그림을 잡을 수 있도록 구성되어 있습니다.

[최적화] 7-2강. soft margin SVM 세상에서 제일 쉽게 설명해 드림!

이 강의(7-2강)는 7-1강의 “하드 마진 SVM”을 현실 데이터에 맞게 일반화한 “소프트 마진 SVM”을, 슬랙 변수와 C 하이퍼파라미터 관점에서 직관적으로 설명하는 내용입니다.

즉, “완벽하게 직선으로 다 나눌 수 없을 때, 약간의 오차를 허용하면서도 마진은 최대한 크게 유지하는 방법”이 소프트 마진 SVM이라는 것을 이해시키는 데 초점이 있습니다.

Hard vs Soft margin 직관

하드 마진 SVM은 모든 데이터가 마진 밖(깨끗한 분리)을 만족해야 해서, 조금만 노이즈가 있어도 모델이 지나치게 민감해지거나 아예 해가 없어질 수 있습니다.

소프트 마진 SVM은 마진 안쪽에 들어오거나 오분류되는 점들을 허용하되, 그만큼 **패널티를 주는 항(슬랙 변수)**을 목적함수에 추가해 “마진 크기 vs 오차 허용”을 트레이드오프로 조절합니다.

수식: 슬랙 변수와 C

하드 마진 제약

y i ( w ⊤ x i + b ) ≥ 1 y i (w ⊤ x i +b)≥1

을 느슨하게 만들기 위해, 각 샘플에 슬랙 변수 ξ i ≥ 0 ξ i ≥0를 도입해

y i ( w ⊤ x i + b ) ≥ 1 − ξ i y i (w ⊤ x i +b)≥1−ξ i

로 완화합니다.

이때 목적함수는

min ⁡ w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i ξ i w,b,ξ min 2 1 ∥w∥ 2 +C i ∑ ξ i

가 되어, 첫 항은 마진을 크게 만들려 하고, 두 번째 항은 마진을 침범하거나 오분류한 정도(슬랙)를 줄이려 합니다.

하이퍼파라미터 C C가 클수록 슬랙에 대한 벌점이 커져 “하드 마진에 가까운, 오차를 거의 허용하지 않는 모델”, 작을수록 마진을 크게 두고 오차를 더 허용하는 “완화된 모델”이 됩니다.

최적화 관점과 듀얼/힌지 로스 연결

이 소프트 마진 SVM도 여전히 볼록(컨벡스) 최적화 문제이고, 슬랙 변수 제약까지 포함한 형태에서 라그랑지안과 KKT를 이용하면, 듀얼 문제에서 α i α i 가 0 ≤ α i ≤ C 0≤α i ≤C로 bound되는 조건이 추가됩니다.

또한 ξ i ξ i 는 사실상 힌지 손실 max ⁡ ( 0 , 1 − y i ( w ⊤ x i + b ) ) max(0,1−y i (w ⊤ x i +b))와 동일한 역할을 하므로, 소프트 마진 SVM은 1 2 ∥ w ∥ 2 + C ∑ i max ⁡ ( 0 , 1 − y i f ( x i ) ) 2 1 ∥w∥ 2 +C i ∑ max(0,1−y i f(x i )) 를 최소화하는 “정규화 + 힌지 손실” 모델이라는 연결도 함께 설명할 수 있습니다.

7-1, 7-3강과의 연결

- 7-1강: 하드 마진 SVM의 마진 최대화, 서포트 벡터, Primal-Dual IPM 구현·시각화

- 7-2강: 현실 노이즈를 반영한 소프트 마진 SVM, 슬랙 변수·C의 의미, 제약/목적함수 변화

- 7-3강: 이 소프트 마진/듀얼 SVM 위에 커널을 얹어서, 비선형 데이터까지 처리하는 커널 SVM으로 확장

이렇게 이어지기 때문에, 7-2강을 이해하면 **“SVM = (정규화 + 힌지 손실) 컨벡스 문제”**라는 현대적인 관점도 자연스럽게 잡힙니다.

[최적화] 7-3강. Kernel trick SVM 직접 그려서 보여드립니다.

이 강의(7-3강)는 SVM에서의 kernel trick을, 실제 feature 변환과 결정경계를 그림으로 보여주면서 설명하는 영상입니다.

컨벡스 최적화 파트의 마무리로, SVM의 듀얼 문제와 커널을 연결해 “비선형 데이터도 선형 SVM처럼 푸는 원리”를 이해시키는 데 초점을 둡니다.

데이터 변환과 커널 직관

먼저 2차원에서 선형 분리가 안 되는 데이터를, x ↦ ϕ ( x ) x↦ϕ(x) 같은 비선형 변환으로 **고차원(feature space)**으로 보낸 뒤 그 공간에서 하이퍼플레인으로 분리하는 그림을 보여 줍니다.

이어 “변환된 공간에서의 내적 ⟨ ϕ ( x i ) , ϕ ( x j ) ⟩ ⟨ϕ(x i ),ϕ(x j )⟩을, 원래 공간에서 바로 계산해 주는 함수”를 **kernel K ( x i , x j ) K(x i ,x j )**라 부르고, 변환을 명시적으로 계산하지 않고도 SVM을 학습할 수 있게 해 주는 것이 kernel trick이라는 점을 강조합니다.

Gaussian kernel과 무한 차원 매핑

대표적인 예로 Gaussian(RBF) kernel

K ( x , z ) = exp ⁡ ⁣ ( − ∥ x − z ∥ 2 2 σ 2 ) K(x,z)=exp(− 2σ 2 ∥x−z∥ 2 )

을 소개하고, 테일러 전개를 통해 이것이 사실상 **무한 차원 feature 벡터 ϕ ( x ) ϕ(x)**의 내적과 같다는 아이디어를 설명합니다.

즉, Gaussian kernel을 쓰면 데이터를 무한 차원으로 매핑한 뒤 거기서 선형 SVM을 쓰는 효과를 내면서, 실제로는 ϕ ( x ) ϕ(x)를 전혀 계산하지 않는다는 점을 시각적으로 보여 줍니다.

SVM 듀얼 문제와 “w를 안 찾는” 형식

하드마진/소프트마진 SVM의 primal을 라그랑지안으로 두고, α i α i 에 대한 듀얼 문제로 바꾸면 목적함수와 제약이 **데이터 간 내적 ⟨ x i , x j ⟩ ⟨x i ,x j ⟩**만으로 표현된다는 것을 유도합니다. 여기서 내적을 K ( x i , x j ) K(x i ,x j )로 치환하면, 듀얼 변수 α α만으로 최적화가 가능해지고, 최종 결정함수는

f ( x ) = ∑ i α i y i K ( x i , x ) + c f(x)= i ∑ α i y i K(x i ,x)+c

형태가 되어 직접 w w를 찾지 않고도 결정경계를 표현할 수 있다는 점을 강조합니다.