꽂히는 딥러닝 | 10강 Confusion matrix 혼동 행렬 한 칸 한 칸이 무슨 의미인지, 그리고 Precision·Recall·F1이 각각 언제 중요한지

728x90

전체 강의 보기

꽂히는 딥러닝 | 전체 강의 소개

꽂히는 딥러닝 플레이리스트는 “수학·이론·직관”을 한 번에 잡으면서도, 처음부터 끝까지 흐름 있게 딥러닝을 배우고 싶은 사람에게 잘 맞는 입문·기본 강의 묶음입니다. 혁펜하임 특유의

inner-game.tistory.com

10강은 “혼동 행렬 한 칸 한 칸이 무슨 의미인지, 그리고 Precision·Recall·F1이 각각 언제 중요한지”를 직관적인 예시로 정리해 주는 강의입니다. 특히 암 검사·흰머리 뽑는 기계·스팸 메일함 비유 덕분에, 수식이 아니라 상황으로 기억하게 되는 것이 특징입니다.

혼동 행렬과 TP·FP·FN·TN입니다

강의는 먼저 이진 분류 문제에서 실제 값(Positive/Negative)과 예측 값(Positive/Negative)을 행·열로 놓은 혼동 행렬(confusion matrix)을 다시 그리면서 시작합니다. 실제와 예측이 모두 맞은 칸을 True Positive(TP), True Negative(TN), 방향이 엇갈려 틀린 칸을 False Positive(FP), False Negative(FN)로 채워 넣으며, 이름이 왜 그렇게 붙었는지 차근차근 설명합니다.

이 표를 기준으로 Accuracy는 “전체 중 맞춘 비율”로 간단히 정의되지만, 데이터 불균형이나 상황에 따라서는 Accuracy만으로는 중요한 오류를 감지하지 못할 수 있다는 점을 짚습니다. 그래서 Positive 관련 오류를 자세히 보기 위해 Precision과 Recall이라는 두 지표를 따로 떼어 정의한다고 설명합니다.

Recall: 암 검사(리콜=암)입니다

Recall은 “실제로 Positive인 것들 중에서, 모델이 Positive라고 잘 잡아낸 비율”로 정의됩니다. 수식으로는 $\text{Recall} = \frac{TP}{TP + FN}$이며, 분모에 “진짜 Positive 전체(TP+FN)”가 들어간다는 점을 강조합니다.

혁펜하임은 암 검사를 예로 들어, 실제로 암인데도 암이 아니라고 판단해 놓치면(FN) 큰일이 나는 상황에서는 Recall을 최우선으로 봐야 한다고 설명합니다. 이 경우 “실제 암 환자를 최대한 놓치지 않는 것”이 목표라, FP(암이 아닌데 암이라고 판단)는 어느 정도 감수하더라도 FN을 거의 0에 가깝게 만드는 것이 중요하다고 정리합니다. “리콜=암 검사(리-콜=리-암)”라는 말장난으로 기억 포인트도 잡아 줍니다.

Precision: 흰머리 뽑는 기계입니다

Precision은 “모델이 Positive라고 예측한 것들 중에서, 실제로도 Positive인 비율”로 정의됩니다. 수식은 $\text{Precision} = \frac{TP}{TP + FP}$이고, 분모에 “예측 Positive 전체(TP+FP)”가 들어간다는 점을 혼동 행렬에서 손으로 짚어 보여 줍니다.

여기서는 흰머리 뽑는 기계 비유가 등장합니다. 흰머리만 뽑고 싶은데, 기계가 까만 머리까지 흰머리라고 착각하고 뽑아 버리면(FP) 머리숱이 줄어드는 심각한 문제가 생기므로, “내가 흰머리라고 뽑은 것들 중 실제로 흰머리 비율(Precision)”이 매우 중요하다는 직관을 줍니다. 실제 흰머리를 다 못 뽑고 조금 남기는(FN) 건 몇 번 더 빗으면 되니 덜 심각하다는 식으로, Recall보다 Precision을 더 우선하는 상황을 설명합니다.

스팸 메일함 예시도 나옵니다. 중요한 메일을 스팸으로 잘못 분류(FP)하면 치명적인 손해가 생길 수 있기 때문에, “스팸이라고 분류한 것들 중 진짜 스팸 비율(Precision)”을 높이는 것이 핵심이라는 점을 강조합니다.

Precision–Recall 트레이드오프와 임계값입니다

강의 후반부에서는 암 진단 점수(0~10) 예시로, 분류 임계값(threshold)을 어디에 두느냐에 따라 Precision과 Recall이 어떻게 반대로 움직이는지 시각적으로 보여 줍니다. 임계값을 아주 낮게 두면, 조금만 점수가 높아도 죄다 Positive로 판정해서 Recall은 거의 1에 가깝지만 FP가 많아져 Precision이 낮아집니다.

반대로 임계값을 아주 높게 두면, 정말 점수가 큰 샘플만 Positive로 판정해서 Precision은 1에 가까워지지만, 실제 Positive를 많이 놓치게 되어 Recall이 떨어지게 됩니다. 다양한 임계값에서 TP·FP·FN·TN을 하나씩 세어 보고, 그에 따른 Precision·Recall 값을 적어 나가며 두 지표가 “한쪽을 올리면 한쪽이 내려가는” 전형적인 트레이드오프 관계에 있다는 점을 강조합니다.

강의에서는 F1-score가 Precision과 Recall의 조화평균이라는 사실도 언급하며, 둘 중 하나가 매우 낮으면 F1도 함께 낮아지기 때문에, “둘을 함께 적당히 높게 유지하고 싶은 상황”에서 유용한 지표라는 점을 짧게 정리합니다.

한줄 정리입니다

10강 혼동 행렬 강의는 혼동 행렬 네 칸(TP·FP·FN·TN)에 현실적인 의미를 붙여 주고, 암 검사(Recall)·흰머리 뽑는 기계/스팸 필터(Precision) 비유를 통해 “언제 어떤 지표를 더 신경 써야 하는지”를 상황별로 기억하게 해 주는 영상입니다.

[AI 인공지능 머신러닝 딥러닝] - 꽂히는 딥러닝 | 11강 CBOW와 Skip-Gram

꽂히는 딥러닝 | 11강 CBOW와 Skip-Gram

11강은 워드 임베딩의 대표 모델인 CBOW와 Skip-Gram을, “행뽑기”와 원-핫 인코딩 관점에서 아주 구체적으로 풀어 주는 강의입니다. 마지막에는 왜 Negative Sampling이 필요한지까지 이어서 설명해 주

inner-game.tistory.com

이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 - 무료 강의 및 책 소개

한국어로 딥러닝 공부해봤다는 사람중에 안들어 본 사람이 없을것 같은 이지 딥러닝 시리즈 입니다. 이 강의는 유투브로 제공되며 책도 있습니다. 이지 딥러닝 유투브 강의이지 딥러닝 유투브

inner-game.tistory.com

[AI 인공지능 머신러닝 딥러닝/Python | PyTorch] - 인스톨! 파이토치 강의 소개 | 전체 강의 소개 및 0강 오레인테이션

인스톨! 파이토치 강의 소개 | 전체 강의 소개 및 0강 오레인테이션

혁펜하임 PyTorch 강의 오리엔테이션 요약혁펜하임 채널의 '[PyTorch] 0강. 오리엔테이션' 영상은 채널 5주년 기념으로 '인스톨! 파이토치' 강의를 소개하는 내용입니다. 강의자는 최근 출간한 '이지

inner-game.tistory.com

728x90

Problem Solving with Algorithms

꽂히는 딥러닝 | 10강 Confusion matrix 혼동 행렬 한 칸 한 칸이 무슨 의미인지, 그리고 Precision·Recall·F1이 각각 언제 중요한지

혼동 행렬과 TP·FP·FN·TN입니다

Recall: 암 검사(리콜=암)입니다

Precision: 흰머리 뽑는 기계입니다

Precision–Recall 트레이드오프와 임계값입니다

한줄 정리입니다

다음 글

이 블로그의 관련 글

공유하기

'AI 인공지능 머신러닝 딥러닝' 의 관련글

티스토리툴바