Problem Solving with Algorithms

728x90
반응형

전체 강의 보기

[AI 인공지능 머신러닝 딥러닝] - 꽂히는 딥러닝 | 전체 강의 소개

 

꽂히는 딥러닝 | 전체 강의 소개

꽂히는 딥러닝 플레이리스트는 “수학·이론·직관”을 한 번에 잡으면서도, 처음부터 끝까지 흐름 있게 딥러닝을 배우고 싶은 사람에게 잘 맞는 입문·기본 강의 묶음입니다. 혁펜하임 특유의

inner-game.tistory.com

 

 

 

 

꽂히는 딥러닝

 

 

 

3장(3-1~3-4)은 “신경망이 분류를 어떻게 수행하는지”를 퍼셉트론 → 로지스틱 회귀 → 소프트맥스 회귀 → 개념 정리 순서로 한 번에 잡아 주는 세트입니다. 이 범위를 듣고 나면, 이진·다중 분류 문제에서 출력, 확률, 손실함수가 서로 어떻게 맞물리는지 큰 그림이 그려지게 됩니다.

 

 

 

3-1강. 퍼셉트론과 MLP입니다

3-1강에서는 먼저 2차원 평면 위에 플러스·마이너스 클래스를 찍어 놓고, 직선 하나로는 XOR 패턴을 분리할 수 없다는 한계를 시각적으로 보여 줍니다. 이어서 AND·OR 같은 간단한 논리 연산을 구현하는 퍼셉트론을 예로 들며, 계단 함수 형태의 활성화 함수를 쓰는 단일 뉴런이 어떻게 선형 분류기를 만들어 내는지 설명합니다.

이후 “직선 하나로 안 되면 직선을 여러 개 쓰면 된다”는 아이디어로 넘어가, 히든 레이어에 여러 퍼셉트론을 두고 각각 다른 직선을 표현하게 한 뒤, 이들을 조합해 XOR처럼 한 번에 나눌 수 없던 영역도 잘라낼 수 있음을 보여 줍니다. 이때 히든 레이어가 1~2개인 경우를 shallow network, 그 이상을 deep network로 부르면서, MLP가 선형 경계 여러 개를 합성해 매우 복잡한 결정 경계까지 만들 수 있는 모델임을 강조합니다.

또한 원 모양처럼 곡선 경계가 필요한 경우도, 적당한 직선을 많이 배치하면 “다각형으로 근사”하는 방식으로 대략 감싸 줄 수 있다는 예시를 통해, MLP가 사실상 임의의 분류 경계를 가까이 근사할 수 있다는 직관을 심어 줍니다. 이 강의는 퍼셉트론과 MLP를 단순히 정의로만 배우는 것이 아니라, “직선을 많이 그려서 원하는 영역을 오려내는 도구”로 이해하게 해 주는 데 초점이 맞춰져 있습니다.

 

 

 

3-2강. 로지스틱 회귀와 이진 분류입니다

3-2강에서는 로지스틱 회귀를 통해 “기계가 강아지 사진을 보고 강아지일 확률을 학습하는 과정”을 단계적으로 설명합니다. 먼저 시그모이드 활성화 함수가 실수 전체를 입력으로 받아 0~1 사이 값으로 압축하기 때문에, 출력값을 자연스럽게 “강아지일 확률”로 해석할 수 있다는 점을 짚습니다.

 

그다음, 선형 회귀에서 쓰던 제곱 오차를 그대로 쓰면 시그모이드 구간에서 기울기가 거의 0이 되어 학습이 멈춰 버리는 문제(세추레이션)를 직관적인 그래프와 함께 설명합니다. 이를 해결하기 위해, 확률 분포 관점에서 우도(likelihood)를 정의하고, “데이터 라벨이 주어졌을 때 그 라벨이 나올 확률”의 곱을 최대화하는 최대우도 추정(MLE) 아이디어를 사용해 로지스틱 손실을 도출합니다.[^1]

강아지/비강아지 데이터를 예로 들어, 강아지 사진에는 $P(y=1|x)$가 크도록, 강아지가 아닌 사진에는 $P(y=0|x)$가 크도록 만드는 것이 학습의 목표임을 보여 주고, 이 확률들을 곱한 우도를 로그를 취해 합으로 바꾸면 최적화가 쉬워진다는 점도 함께 다룹니다.[^1] 이렇게 해서 얻어진 로지스틱 손실이 결국 교차 엔트로피 형태로 쓸 수 있다는 연결까지 보여 주어, 뒤이어 나올 소프트맥스 회귀와의 통일된 관점을 준비합니다.

 

 

 

3-3강. 소프트맥스 회귀와 다중 분류입니다

3-3강에서는 이진 분류를 넘어, 강아지·고양이·소·말처럼 여러 클래스를 한 번에 분류하는 다중 분류 문제로 확장합니다. 먼저 스칼라 하나만 출력하는 구조로는 “강아지일 확률”은 알 수 있어도 그것이 고양이인지, 소인지까지는 구분하기 어렵다는 점을 지적하고, 출력 벡터를 사용하는 원핫 인코딩(one-hot encoding)을 소개합니다.

 

출력을 $[1,0,0]$, $[0,1,0]$, $[0,0,1]$ 같은 벡터로 표현하면, 각 자리의 값이 해당 클래스일 확률로 해석될 수 있고, 가장 큰 값을 가진 인덱스를 예측 클래스로 선택하는 구조가 됩니다. 여기서 소프트맥스 활성화 함수를 적용하면, 각 로짓(logit)에 지수 함수를 취한 뒤 전체 합으로 나누기 때문에, 모든 출력이 0~1 사이이고 합이 1이 되는 “정상화된 확률 벡터”를 얻을 수 있다는 점을 설명합니다.

 

강의에서는 소프트맥스의 장점으로, 시그모이드에 비해 세추레이션 문제가 덜하고, 각 클래스 간의 상대적인 크기를 반영하는 “상대 평가”가 가능하다는 점을 강조합니다. 또한 단순 정규화($x_i / \sum x_j$) 대신 지수 함수를 쓰는 이유로, 큰 값을 더 두드러지게 만들어 결정이 더 뚜렷해지는 효과를 들며 직관을 보완합니다. 마지막으로 소프트맥스 출력과 목표 분포(원핫 벡터) 사이의 거리를 재는 손실로 교차 엔트로피를 도입하고, 이를 최소화하는 것이 곧 올바른 클래스에 높은 확률을 주도록 뉴럴넷 파라미터를 조정하는 과정임을 정리합니다.

 

 

 

3-4강. “분류도 사실 회귀다!”입니다

3-4강에서는 지금까지 배운 선형 회귀·로지스틱 회귀·소프트맥스 회귀를 한 발 물러나서 바라보며, “분류 문제도 결국 어떤 함수를 근사하는 회귀 문제”라는 관점을 제시합니다. 이때 분류기는 입력을 받아 특정 클래스에 속할 확률(또는 점수)을 출력하는 함수이고, 회귀는 연속적인 값을 출력하는 함수지만, 둘 다 “입력→출력” 함수를 잘 맞추는 문제라는 점에서 본질적으로 같다고 설명합니다.[^2]

즉, 로지스틱 회귀는 확률값으로 보이는 회귀 함수, 소프트맥스 회귀는 확률 벡터를 뱉는 회귀 함수로 볼 수 있으며, 분류와 회귀가 손실함수와 출력 해석 방식만 다를 뿐 같은 수학적 틀 위에 서 있다는 통찰을 제공합니다. 이 관점 덕분에, 이후 딥러닝에서 회귀용·분류용 구조를 설계하거나 손실함수를 선택할 때도 공통된 시야를 유지할 수 있도록 도와줍니다.

 

 

 

다음 글

[AI 인공지능 머신러닝 딥러닝] - 꽂히는 딥러닝 | 4강 엔트로피, 크로스 엔트로피, KL 다이버전스, 상호정보량 및 로지스틱/소프트맥스 손실, MLE, 분포 간 거리 같은 개념의 뿌리

 

꽂히는 딥러닝 | 4강 엔트로피, 크로스 엔트로피, KL 다이버전스, 상호정보량 및 로지스틱/소프트

4강은 딥러닝에서 자주 등장하는 엔트로피, 크로스 엔트로피, KL 다이버전스, 상호정보량을 “정보를 얼마나 효율적으로 표현할 수 있는가”라는 하나의 직관으로 묶어 설명하는 영상입니다. 로

inner-game.tistory.com

 

 

이 블로그의 관련 글

[AI 인공지능 머신러닝 딥러닝] - 이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 - 무료 강의 및 책 소개

 

이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 - 무료 강의 및 책 소개

한국어로 딥러닝 공부해봤다는 사람중에 안들어 본 사람이 없을것 같은 이지 딥러닝 시리즈 입니다. 이 강의는 유투브로 제공되며 책도 있습니다. 이지 딥러닝 유투브 강의이지 딥러닝 유투브

inner-game.tistory.com

 

 

[AI 인공지능 머신러닝 딥러닝/Python | PyTorch] - 인스톨! 파이토치 강의 소개 | 전체 강의 소개 및 0강 오레인테이션

 

인스톨! 파이토치 강의 소개 | 전체 강의 소개 및 0강 오레인테이션

혁펜하임 PyTorch 강의 오리엔테이션 요약혁펜하임 채널의 '[PyTorch] 0강. 오리엔테이션' 영상은 채널 5주년 기념으로 '인스톨! 파이토치' 강의를 소개하는 내용입니다. 강의자는 최근 출간한 '이지

inner-game.tistory.com

 

728x90
반응형
반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
250x250