이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 1강 - 지도 학습과 비지도 학습, 자기 지도 학습, 강화 학습

728x90

[AI 인공지능 머신러닝 딥러닝] - 이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 - 무료 강의 및 책 소개

이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 - 무료 강의 및 책 소개

한국어로 딥러닝 공부해봤다는 사람중에 안들어 본 사람이 없을것 같은 이지 딥러닝 시리즈 입니다. 이 강의는 유투브로 제공되며 책도 있습니다. 이지 딥러닝 유투브 강의이지 딥러닝 유투브

inner-game.tistory.com

[Easy! 딥러닝] 1-1강. 모두를 위한 정말 쉬운 딥러닝 강의를 시작합니다!

이 1-1강의 핵심은 “AI·머신러닝·딥러닝의 관계를 큰 그림으로 정리하고, 규칙 기반 vs 데이터 기반, 그리고 CNN·RNN이 각각 어떤 데이터(이미지·연속 데이터)를 어떻게 숫자로 받아들이는지 직관을 잡는 것”입니다.

AI · ML · DL 큰 그림

영상에서는 다음처럼 계층 구조를 잡습니다.

AI: 인간처럼 “지능적인 일”을 하도록 만든 모든 인공 시스템(규칙 기반, 검색, ML 포함).

머신러닝: 그중에서 “데이터를 기반으로 규칙·모델을 스스로 학습”하는 방법들. 사람이 if-else 규칙을 직접 쓰지 않고, 입력–정답 예시로부터 패턴을 배움.

딥러닝: 머신러닝 안에서, 특히 딥 뉴럴 네트워크(DNN) 를 사용해 많은 데이터에서 복잡한 패턴을 자동으로 추출하는 방법. 규칙 기반 방식은 사람이 귀 모양, 눈 모양 같은 특징을 보고 직접 규칙을 짜는 반면, 머신러닝/딥러닝은 “이건 강아지, 이건 고양이”라는 라벨만 대량으로 주고, 차이는 모델이 스스로 찾게 한다는 점을 강조합니다.

머신러닝 학습·테스트 과정

머신러닝의 기본 루프를 강아지/고양이 예시로 설명합니다.

훈련(Training): 많은 강아지/고양이 사진과 정답 레이블(강아지=1, 고양이=0 등)을 반복해서 보여 주며, 모델이 두 클래스를 구분하는 함수를 학습.

테스트(Testing): 훈련에 사용하지 않은 “처음 보는” 강아지·고양이 사진에 대해, 모델이 올바르게 분류하는지 확인.

핵심은 “훈련 데이터에만 잘 맞는 게 아니라, 처음 보는 새로운 데이터(Test)에 잘해야 진짜 똑똑한 AI”라는 점입니다.

딥러닝, CNN, RNN 역할

딥러닝 = “입력과 출력이 모두 숫자인 딥 뉴럴 네트워크로 학습하는 것”이고, 이미지·문장 같은 데이터도 모두 숫자(행렬·벡터)로 바꿔서 처리한다는 점을 반복해서 보여 줍니다.

CNN(Convolutional Neural Network): 입력: RGB 이미지 → 3×H×W 형태의 숫자 행렬(채널×행×열). 역할: 이미지에서 지역적 패턴(엣지, 질감, 물체)을 잘 뽑아내어 분류·검출 등에 사용.

RNN(Recurrent Neural Network): 입력: “저는 강사입니다” 같은 연속적인 토큰 시퀀스(단어/서브워드 등)를 숫자 벡터로 인코딩한 것. 역할: 시퀀스 전체 문맥을 고려해 번역, 언어모델링 등 “순서가 중요한 데이터”를 처리.

요약하면, 이 강의는 AI–ML–DL 관계, 규칙 기반 vs 데이터 기반 사고방식, CNN은 이미지, RNN은 시퀀스에 잘 맞는다는 아주 상위 레벨 직관을 잡는 “오리엔테이션 강의”라고 보면 됩니다.

[Easy! 딥러닝] 1-2강. 지도 학습과 비지도 학습 | 활용 사례까지!

이 1-2강의 핵심은 “지도학습은 정답(레이블)이 있는 데이터를 가지고 분류·회귀·검출·세그멘테이션·포즈추정 등을 하는 방식이고, 비지도학습은 정답 없이 데이터 구조를 찾는 방식이며, 이 강의 시리즈에서는 특히 지도학습을 중심으로 설명한다”는 점입니다.

지도 학습: 레이블이 있는 학습

지도학습은 입력마다 정답 y가 주어진 상태에서, 입력→출력 관계를 학습하는 방식입니다. 분류(Classification): 출력이 “강아지/고양이/배경”처럼 이산 클래스일 때. 예: 이미지가 어떤 동물인지 맞히기. 회귀(Regression): 출력이 위치 좌표·가격처럼 연속값일 때. 예: 바운딩 박스의 ( x , y , w , h ) (x,y,w,h)를 예측. 영상에서는 CNN 위에 출력 헤드를 어떻게 달아 주느냐에 따라 다양한 지도학습 문제가 되는 예를 보여 줍니다. 분류: 입력 이미지 → “고양이다/강아지다” 한 개 레이블. 분류 + 회귀(Detection/Localization): 입력 → “어디에 무슨 물체가 있는지” (클래스 + 박스 좌표). 세그멘테이션(분할): 각 픽셀마다 “배경/강아지/고양이/오리 …” 클래스를 예측. 포즈 추정·랜드마크(사람 관절, 얼굴 포인트): 머리, 어깨, 무릎, 턱·눈·입 등 포인트들의 좌표를 모두 회귀로 예측. 공통점은 전부 “누군가가 사진마다 정답(클래스, 박스, 키포인트)을 힘들게 라벨링해 둔 데이터”가 필요하다는 점이고, 어려운 문제일수록 이 라벨링 비용이 매우 크다는 이야기를 합니다.

비지도 학습과 다른 학습 형태

비지도학습은 정답이 없는 데이터에서 군집(클러스터링), 차원 축소(PCA, SVD) 등으로 구조를 찾는 방식으로, “정답 라벨을 모르는 상태”라는 점이 지도학습과의 가장 큰 차이입니다. 영상에서는 비지도·자기지도·강화학습도 큰 그림만 언급하고, 이 강의 코스에서는 실제로 구현·이론을 파고드는 부분은 지도학습에 집중하겠다고 정리합니다.

[Easy! 딥러닝] 1-3강. 자기 지도 학습 (Self-Supervised Learning) | 딱 10분만 투자해보세요!

이 1-3강의 핵심은 “정답 레이블 없이도 ‘가짜 문제’를 스스로 만들어 먼저 학습(self-supervised pretraining)을 해 두면, 적은 라벨로 지도학습을 할 때 훨씬 성능이 좋아지고, 그 대표적인 방식이 컨텍스트 프리딕션과 컨트라스트 러닝이며, GPT·BERT도 이런 자기지도 학습에 속한다”는 점입니다.

자기지도 학습의 아이디어

지도학습은 라벨링 비용이 크기 때문에, 라벨 없는 대량의 데이터를 활용하고 싶다는 필요에서 자기지도 학습이 나옵니다. 자기지도 학습은 다음 순서를 따릅니다. 먼저 “가짜 문제(pretext task)”를 정의해서, 라벨 없이도 입력 내부에서 정답을 스스로 만들 수 있게 한다. 이 가짜 문제를 큰 데이터로 열심히 풀게 해서 사전학습(pre-training) 된 표현을 얻는다. 이후 원하는 진짜 문제(분류, 검출 등)에 대해 다운스트림 테스크로 전이학습(transfer learning)을 수행한다. 이렇게 하면, 라벨이 적은 상황에서도 단순 지도학습만 할 때보다 일반화 성능이 좋아지는 것이 여러 논문에서 확인되었습니다.

예시 1: 컨텍스트 프리딕션

영상에서 소개하는 유명 논문은 “패치들의 상대적 위치를 맞추는 가짜 문제”입니다. 큰 이미지에서 기준 패치(파란색)를 랜덤 위치에 자르고, 주변의 다른 패치들을 여러 후보 위치(1~8번 등)로 잘라 둡니다. 모델 입력: 기준 패치 + 주변 패치 한 개. 모델 목표: 주변 패치가 기준 패치 기준으로 어느 위치(1~8)인지 맞히기. 이 과제를 반복해서 풀게 하면 모델은 “얼굴이 있으면 그 옆에 귀·볼이 온다”, “고양이 몸 옆에 꼬리가 온다” 같은 공간적 구성 규칙을 자연스럽게 배우게 되고, 결과적으로 객체 인식·검출에 유용한 표현을 얻게 됩니다.

예시 2: 컨트라스트 러닝

컨트라스트 러닝은 “같은 출처에서 온 두 뷰는 가깝게, 다른 출처에서 온 뷰는 멀게”라는 기준으로 표현 공간을 학습하는 방법입니다. 하나의 원본 이미지에서 두 개의 서로 다른 패치/증강(1, 2)을 뽑아 모델에 넣고, 출력 벡터를 1′, 2′라고 합니다. 다른 이미지에서 뽑은 패치들(3, 4)에 대한 출력은 3′, 4′입니다. 학습 목표: 1′와 2′는 서로 가깝게(positive pair), 1′–3′, 1′–4′, 2′–3′, …는 멀게(negative pair) 되도록 손실을 설계. 이렇게 하면, 라벨 없이도 “같은 이미지/유사한 의미를 가진 뷰끼리는 임베딩이 가까워지고, 다른 것은 멀어지는” 표현 공간을 얻게 되고, 이후 분류/검출 등 다운스트림 테스크에서 적은 라벨로도 좋은 성능을 냅니다.

GPT·BERT와 자기지도 학습

영상 마지막에서는 언어 모델을 예로 들며, GPT와 BERT도 전형적인 자기지도 학습이라고 설명합니다. GPT 계열: 넥스트 토큰 프리딕션 (next-token prediction). 문장의 앞부분만 보고 “다음 토큰이 무엇인지” 맞히는 가짜 문제를, 웹 텍스트 같은 대량의 비라벨 코퍼스에 대해 수행. BERT 계열: 마스크드 단어 복원(masked token prediction). 문장 중 일부 토큰을 마스크로 가리고, “빈칸에 들어갈 단어가 무엇인지” 맞히는 문제로 사전학습. 두 경우 모두 사람이 문장마다 태스크별 레이블을 붙이지 않아도, 원시 텍스트만으로 스스로 정답을 구성해 학습한다는 점에서 전형적인 자기지도 학습으로 볼 수 있습니다.

[Easy! 딥러닝] 1-4강. 강화 학습 개념 짧게 알아보기

이 1-4강의 핵심은 “강화학습은 ‘행동 → 보상’을 반복 경험하면서 어떤 상황(state)에서 어떤 행동(action)을 해야 장기적으로 보상이 최대가 되는지 학습하는 방식이고, 이를 위해 Q함수, Q-learning, 입실론-그리디 탐험, 디스카운트 팩터 같은 개념을 쓴다”는 점입니다.

강화학습 기본 구성요소

강의에서는 강아지 손 훈련, 오목, 맛집 찾기 비유로 다음 개념들을 소개합니다. 에이전트(agent): 행동의 주체. 강아지, 바둑 두는 AI, 맛집을 고르는 “나”. 환경(environment): 에이전트가 상호작용하는 세계. 주인·심판·지도·게임판 등. 상태(state): 현재 상황을 나타내는 정보. 미로에서의 위치, 바둑판 상태, 데이트에서 현재 가게 위치 등. 행동(action): 에이전트가 선택할 수 있는 움직임. 좌/우/상/하 이동, 어디에 돌을 둘지, 손/앉아 등. 보상(reward): 행동 결과에 대해 환경이 주는 점수. 이기면 +100, 최악의 가게면 −100처럼 설계. 목표는 “정책(policy)” 즉, 각 상태에서 어떤 행동을 고를지를 정하는 규칙을 잘 학습하여 장기 누적 보상을 최대화하는 것입니다.

Q함수와 Q-learning 직관

Q함수 Q ( s , a ) Q(s,a)는 “상태 s에서 행동 a를 했을 때 앞으로 얻게 될 보상의 기대값”입니다. 미로 예에서 특정 칸에서 ‘오른쪽으로 가기’의 Q값이 100이면, 그 행동이 결국 맛집(리워드 +100)으로 이어질 것이라는 기대를 의미. Q-learning은 경험을 반복하면서 Q ( s , a ) ← Q ( s , a ) + α ( r + γ max ⁡ a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s,a)←Q(s,a)+α(r+γ a ′ max Q(s ′ ,a ′ )−Q(s,a)) 형태로 Q값을 갱신해 가는 알고리즘입니다. 강의에서는 수식 대신 “다음 상태에서 가능한 행동 중 최대 Q를 가져와 이전 행동의 점수를 업데이트한다”는 식으로 설명합니다. 딥 Q-learning(DQN)은 이 Q함수를 테이블 대신 딥 뉴럴 네트워크로 근사할 때의 이름입니다.

탐험 vs 이용: 입실론-그리디

경험이 쌓이면 에이전트는 “항상 현재 Q값이 최대인 행동(맛집 가는 루트)”만 고르려 하지만, 그러면 더 좋은 숨은 맛집(리워드 1000)을 영원히 놓칠 수 있습니다. 이를 막기 위해 입실론-그리디(epsilon-greedy) 전략을 씁니다. 확률 1 − ϵ 1−ϵ: 현재 Q값이 가장 큰 행동(지금까지 배운 최선)을 선택. 확률 ϵ ϵ: 완전히 랜덤하게 행동을 골라 “일탈”하며 새로운 루트를 탐험. ϵ ϵ을 0.1로 두면 10% 확률로 일부러 모험을 하는 셈이고, 학습이 진행될수록 ϵ ϵ을 줄여 탐험보다 이용에 더 집중하는 식으로 스케줄링할 수 있습니다.

디스카운트 팩터: 가까운 보상 vs 먼 보상

디스카운트 팩터 γ γ는 “먼 미래 보상을 얼마나 깎아서 볼 것인가”를 정하는 0~1 사이의 값입니다. γ γ가 1에 가까우면 먼 미래 보상도 거의 그대로 중요하게 보고, γ γ가 작으면(예: 0.9) 한 단계 거리를 갈 때마다 0.9 0.9를 곱해, 멀리 돌아가는 경로의 가치를 점점 낮춥니다. 강의의 예처럼 바로 아래로 내려가면 곧바로 +100, 오른쪽으로 돌아가면 멀리 돌아서 +100을 받는 상황에서, 디스카운트 팩터를 쓰면 더 빨리 보상을 얻는 경로의 Q값이 더 크게 되어, “가까운 맛집 루트”를 더 선호하게 만들 수 있습니다.