혁펜하임의 “탄탄한” 컨벡스 최적화는 머신러닝·딥러닝을 공부하는 사람들이 ‘최적화’를 진짜 수학적으로, 그러면서도 직관적으로 이해하도록 도와주는 한국어 강의 시리즈입니다. 강의의 전체 구성, 수강 난이도, 어떤 수학/ML 배경이 연결되는지, 그리고 어떻게 활용하면 좋은지는 아래의 포스팅에 정리되어 있습니다.
[AI 인공지능 머신러닝 딥러닝] - 혁펜하임의 “탄탄한” 컨벡스 최적화 (Convex Optimization) 강의 소개
혁펜하임의 “탄탄한” 컨벡스 최적화 (Convex Optimization) 강의 소개
혁펜하임의 “탄탄한” 컨벡스 최적화는 머신러닝·딥러닝을 공부하는 사람들이 ‘최적화’를 진짜 수학적으로, 그러면서도 직관적으로 이해하도록 도와주는 한국어 강의 시리즈입니다.
inner-game.tistory.com

이 강의(7-1강)는 선형 SVM의 핵심 아이디어(마진 최대화, 결정 경계, 서포트 벡터)를 2D 예제로 직관적으로 설명하고, 이를 제약이 있는 컨벡스 최적화 문제·Primal-Dual IPM으로 연결하는 입문 영상입니다.
강의에서는 두 클래스(예: 꼬부기 vs 파이리)를 가장 잘 가르는 “국경 직선”을 찾는 문제로 SVM을 설명합니다.
이때 결정 경계 w ⊤ x + b = 0 w ⊤ x+b=0와 양쪽 클래스에서 가장 가까운 점(서포트 벡터)까지의 거리를 **마진(margin)**이라 부르고, 이 마진이 최대가 되도록 w , b w,b를 선택하는 것이 SVM의 목표라는 점을 시각적으로 보여 줍니다.
벡터 내적을 이용해 직선(하이퍼플레인)을 w ⊤ x + b = 0 w ⊤ x+b=0으로 표현하고, 각 점 x i x i 에 레이블 y i ∈ { + 1 , − 1 } y i ∈{+1,−1}을 부여하면, 선형 SVM의 하드마진 제약은
y i ( w ⊤ x i + b ) ≥ 1 y i (w ⊤ x i +b)≥1
로 쓸 수 있습니다.
마진은 2 / ∥ w ∥ 2/∥w∥가 되므로, 이를 최대화하는 문제는 ∥ w ∥ ∥w∥ 혹은 1 2 ∥ w ∥ 2 2 1 ∥w∥ 2 를 최소화하는 제약 최적화 문제
min w , b 1 2 ∥ w ∥ 2 s.t. y i ( w ⊤ x i + b ) ≥ 1 w,b min 2 1 ∥w∥ 2 s.t. y i (w ⊤ x i +b)≥1
로 바뀐다는 것을 유도해 줍니다.
각 데이터 포인트의 제약을 g i ( w , b ) ≤ 0 g i (w,b)≤0 꼴로 통일하기 위해, y i ∈ { ± 1 } y i ∈{±1}를 이용해
1 − y i ( w ⊤ x i + b ) ≤ 0 1−y i (w ⊤ x i +b)≤0
형태로 쓰고, 이를 모두 모아 부등식 제약이 있는 컨벡스 문제로 인식합니다.
이 문제는 정확히 이전 강의들에서 다룬 KKT·듀얼리티·프라이멀-듀얼 인테리어 포인트 메서드의 적용 대상이므로, 라그랑지안·KKT 조건을 세워 Primal-Dual IPM으로 푸는 구조까지 자연스럽게 연결합니다.
KKT의 complementary slackness에 따라, 마진 경계에 딱 걸쳐 있는 점들은 대응하는 라그랑주 승수가 0이 아니고, 마진 밖에 충분히 떨어져 있는 점들은 승수가 0이 됩니다.
강의에서는 승수가 0이 아닌 점들만이 결정 경계를 결정하는 **서포트 벡터(support vectors)**가 되며, 이 점들만으로도 최종 경계를 완전히 복원할 수 있기 때문에 알고리즘 이름이 “서포트 벡터 머신”이라는 직관을 그림과 코드 결과로 보여 줍니다.
마지막으로 간단한 2D 데이터(두 클러스터)를 생성해, Primal-Dual IPM으로 SVM을 학습하고
- 이터레이션에 따라 경계선이 이동하는 과정
- 수렴 후 결정 경계와 마진
- 서포트 벡터가 되는 점들(라그랑주 승수 ≠ 0인 점들)
을 시각적으로 확인합니다.
이 강의까지 보면, “SVM = 마진 최대화 컨벡스 문제 = KKT/인테리어 포인트로 푸는 모델”이라는 큰 그림을 잡을 수 있도록 구성되어 있습니다.
이 강의(7-2강)는 7-1강의 “하드 마진 SVM”을 현실 데이터에 맞게 일반화한 “소프트 마진 SVM”을, 슬랙 변수와 C 하이퍼파라미터 관점에서 직관적으로 설명하는 내용입니다.
즉, “완벽하게 직선으로 다 나눌 수 없을 때, 약간의 오차를 허용하면서도 마진은 최대한 크게 유지하는 방법”이 소프트 마진 SVM이라는 것을 이해시키는 데 초점이 있습니다.
하드 마진 SVM은 모든 데이터가 마진 밖(깨끗한 분리)을 만족해야 해서, 조금만 노이즈가 있어도 모델이 지나치게 민감해지거나 아예 해가 없어질 수 있습니다.
소프트 마진 SVM은 마진 안쪽에 들어오거나 오분류되는 점들을 허용하되, 그만큼 **패널티를 주는 항(슬랙 변수)**을 목적함수에 추가해 “마진 크기 vs 오차 허용”을 트레이드오프로 조절합니다.
하드 마진 제약
y i ( w ⊤ x i + b ) ≥ 1 y i (w ⊤ x i +b)≥1
을 느슨하게 만들기 위해, 각 샘플에 슬랙 변수 ξ i ≥ 0 ξ i ≥0를 도입해
y i ( w ⊤ x i + b ) ≥ 1 − ξ i y i (w ⊤ x i +b)≥1−ξ i
로 완화합니다.
이때 목적함수는
min w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i ξ i w,b,ξ min 2 1 ∥w∥ 2 +C i ∑ ξ i
가 되어, 첫 항은 마진을 크게 만들려 하고, 두 번째 항은 마진을 침범하거나 오분류한 정도(슬랙)를 줄이려 합니다.
하이퍼파라미터 C C가 클수록 슬랙에 대한 벌점이 커져 “하드 마진에 가까운, 오차를 거의 허용하지 않는 모델”, 작을수록 마진을 크게 두고 오차를 더 허용하는 “완화된 모델”이 됩니다.
이 소프트 마진 SVM도 여전히 볼록(컨벡스) 최적화 문제이고, 슬랙 변수 제약까지 포함한 형태에서 라그랑지안과 KKT를 이용하면, 듀얼 문제에서 α i α i 가 0 ≤ α i ≤ C 0≤α i ≤C로 bound되는 조건이 추가됩니다.
또한 ξ i ξ i 는 사실상 힌지 손실 max ( 0 , 1 − y i ( w ⊤ x i + b ) ) max(0,1−y i (w ⊤ x i +b))와 동일한 역할을 하므로, 소프트 마진 SVM은 1 2 ∥ w ∥ 2 + C ∑ i max ( 0 , 1 − y i f ( x i ) ) 2 1 ∥w∥ 2 +C i ∑ max(0,1−y i f(x i )) 를 최소화하는 “정규화 + 힌지 손실” 모델이라는 연결도 함께 설명할 수 있습니다.
- 7-1강: 하드 마진 SVM의 마진 최대화, 서포트 벡터, Primal-Dual IPM 구현·시각화
- 7-2강: 현실 노이즈를 반영한 소프트 마진 SVM, 슬랙 변수·C의 의미, 제약/목적함수 변화
- 7-3강: 이 소프트 마진/듀얼 SVM 위에 커널을 얹어서, 비선형 데이터까지 처리하는 커널 SVM으로 확장
이렇게 이어지기 때문에, 7-2강을 이해하면 **“SVM = (정규화 + 힌지 손실) 컨벡스 문제”**라는 현대적인 관점도 자연스럽게 잡힙니다.
이 강의(7-3강)는 SVM에서의 kernel trick을, 실제 feature 변환과 결정경계를 그림으로 보여주면서 설명하는 영상입니다.
컨벡스 최적화 파트의 마무리로, SVM의 듀얼 문제와 커널을 연결해 “비선형 데이터도 선형 SVM처럼 푸는 원리”를 이해시키는 데 초점을 둡니다.
먼저 2차원에서 선형 분리가 안 되는 데이터를, x ↦ ϕ ( x ) x↦ϕ(x) 같은 비선형 변환으로 **고차원(feature space)**으로 보낸 뒤 그 공간에서 하이퍼플레인으로 분리하는 그림을 보여 줍니다.
이어 “변환된 공간에서의 내적 ⟨ ϕ ( x i ) , ϕ ( x j ) ⟩ ⟨ϕ(x i ),ϕ(x j )⟩을, 원래 공간에서 바로 계산해 주는 함수”를 **kernel K ( x i , x j ) K(x i ,x j )**라 부르고, 변환을 명시적으로 계산하지 않고도 SVM을 학습할 수 있게 해 주는 것이 kernel trick이라는 점을 강조합니다.
대표적인 예로 Gaussian(RBF) kernel
K ( x , z ) = exp ( − ∥ x − z ∥ 2 2 σ 2 ) K(x,z)=exp(− 2σ 2 ∥x−z∥ 2 )
을 소개하고, 테일러 전개를 통해 이것이 사실상 **무한 차원 feature 벡터 ϕ ( x ) ϕ(x)**의 내적과 같다는 아이디어를 설명합니다.
즉, Gaussian kernel을 쓰면 데이터를 무한 차원으로 매핑한 뒤 거기서 선형 SVM을 쓰는 효과를 내면서, 실제로는 ϕ ( x ) ϕ(x)를 전혀 계산하지 않는다는 점을 시각적으로 보여 줍니다.
하드마진/소프트마진 SVM의 primal을 라그랑지안으로 두고, α i α i 에 대한 듀얼 문제로 바꾸면 목적함수와 제약이 **데이터 간 내적 ⟨ x i , x j ⟩ ⟨x i ,x j ⟩**만으로 표현된다는 것을 유도합니다. 여기서 내적을 K ( x i , x j ) K(x i ,x j )로 치환하면, 듀얼 변수 α α만으로 최적화가 가능해지고, 최종 결정함수는
f ( x ) = ∑ i α i y i K ( x i , x ) + c f(x)= i ∑ α i y i K(x i ,x)+c
형태가 되어 직접 w w를 찾지 않고도 결정경계를 표현할 수 있다는 점을 강조합니다.
마지막으로 여러 커널(선형, 다항식, Gaussian 등)을 바꿔 가며 2D 데이터에 대해 커널 SVM을 학습시키고,
- 선형 커널: 직선 경계
- 다항식/가우시안 커널: 곡선/원형 등 비선형 경계
가 어떻게 달라지는지 2D/3D 그래프로 보여 줍니다.
특히 Gaussian kernel의 σ σ를 바꾸면 경계가 과적합/완화되는 모습이 달라지는 것도 함께 보여 주면서, 하이퍼파라미터의 역할까지 직관적으로 이해하도록 돕는 강의입니다.
[AI 인공지능 머신러닝 딥러닝] - 이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 - 무료 강의 및 책 소개
이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 - 무료 강의 및 책 소개
한국어로 딥러닝 공부해봤다는 사람중에 안들어 본 사람이 없을것 같은 이지 딥러닝 시리즈 입니다. 이 강의는 유투브로 제공되며 책도 있습니다. 이지 딥러닝 유투브 강의이지 딥러닝 유투브
inner-game.tistory.com
[AI 인공지능 머신러닝 딥러닝/Python | PyTorch] - 인스톨! 파이토치 강의 소개
인스톨! 파이토치 강의 소개
혁펜하임 PyTorch 강의 오리엔테이션 요약혁펜하임 채널의 '[PyTorch] 0강. 오리엔테이션' 영상은 채널 5주년 기념으로 '인스톨! 파이토치' 강의를 소개하는 내용입니다. 강의자는 최근 출간한 '이론
inner-game.tistory.com
[AI 인공지능 머신러닝 딥러닝/인공지능 수학] - 2025 인공지능·머신러닝 입문자를 위한 핵심 통계개념 완전정복 (1/2)
2025 인공지능·머신러닝 입문자를 위한 핵심 통계개념 완전정복 (1/2)
안녕하세요! 오늘은 최근에 시청한 유튜브 신박Ai의 “[인공지능을 위한 머신러닝101] 머신러닝을 위한 기초통계개념” 영상을 바탕으로, 인공지능과 머신러닝을 공부하는 데 꼭 필요한 통계 개
inner-game.tistory.com
[AI 인공지능 머신러닝 딥러닝] - 2025 인공지능 기초 완전정복: 유튜브로 배우는 신경망·딥러닝·실습코딩 가이드
2025 인공지능 기초 완전정복: 유튜브로 배우는 신경망·딥러닝·실습코딩 가이드
안녕하세요! 오늘은 제가 최근에 시청한 유튜브 플레이리스트 “인공신경망기초-신박Ai”를 바탕으로, 인공지능(Artificial Intelligence; AI) 기초에 대해 공부한 내용을 정리하여 티스토리 블로그 포
inner-game.tistory.com