Problem Solving with Algorithms

2025 인공지능·머신러닝 입문자를 위한 핵심 통계개념 완전정복 (2/2)

AI 인공지능 머신러닝 딥러닝

2025. 10. 30. 22:13

728x90

안녕하세요! 오늘은 최근에 시청한 유튜브 신박Ai의 “[인공지능을 위한 머신러닝101] 머신러닝을 위한 기초통계개념” 영상을 바탕으로, 인공지능과 머신러닝을 공부하는 데 꼭 필요한 통계 개념들을 정리해보았습니다. 머신러닝이나 데이터과학, 인공지능을 처음 접하는 분들에게 도움이 되면 좋겠습니다.

이 포스팅은 후반부 강의 내용입니다.

전반부의 내용은 아래의 포스팅을 참고하세요.

[AI 인공지능 머신러닝 딥러닝/인공지능 수학] - 2025 인공지능·머신러닝 입문자를 위한 핵심 통계개념 완전정복 (1/2)

2025 인공지능·머신러닝 입문자를 위한 핵심 통계개념 완전정복 (1/2)

안녕하세요! 오늘은 최근에 시청한 유튜브 신박Ai의 “[인공지능을 위한 머신러닝101] 머신러닝을 위한 기초통계개념” 영상을 바탕으로, 인공지능과 머신러닝을 공부하는 데 꼭 필요한 통계 개

inner-game.tistory.com

유튜브 재생 목록

https://youtube.com/playlist?list=PLW2RwdZfXkE9rjbyxetoxDfEx9vCvUIV2&si=VEf5U0nO4wUcdJPI

5. [인공지능을 위한 머신러닝 101] 나이브 베이즈 분류기를 알아보자!

베이즈 정리

예를들면 우리 예제에서 P(이메일은) 이메일일 경우이기 때문에 우리의 경우는 그냥 1

그중에 스팸일 확률이 위의 p(스팸)

왼쪽은 p(스팸|이메일) 이라고 조건부확률이라는 것인데 '어떤 이메일이 왔을 때, 그 이메일이 스팸메일일 확률'

아래 그림에서 위의 빨간 동그라미: 우도 Likelyhood - 주어진 이메일이 스팸이라 할 때, 그 이메일의 단어 패턴이 얼마나 스팸 메일의 패턴을 따르는 지를 보여주는 지표입니다.

우도: 그 이메일이 스팸메일이라면 스펨메일 특유의 패턴이 얼마나 높은 확률로 나오는지

미리 준비된 사전데이터(왼쪽): 사전은 딕셔너리 사전이 아니라, 히스토리의 사전입니다 .

오른쪽 밑에 사전데이터가 한번 더 나온다. 이렇게 6개중 3개가 스팸이었으므로 P(스팸)은 0.5

하지만 이 나이브 베이즈 분류법은 중대한 약점이 하나 있습니다.

"오늘 긴급 대출" 일 경우 '오늘'이 스팸에서 0이 되기 때문에 확률을 다 곱한 우도 또한 0이 될것이고,

"오늘 긴급 대출"이 스팸일 확률이 0이 되어 버린다.

라플라스 스무딩

오늘을 0으로 먼저 추가

6. [인공지능을 위한 머신러닝 101] 의사결정나무와 랜덤포레스트를 알아보자

스무고개게임의 원리와 같다.

G, 지니계수

시그마 밑의 i는 분기(branch)의 개수입니다.

분기는 왼쪽 테이블의 '데이트'컬럼인 예/아니오 입니다.

제곱의 의미:

두번연속 파란색이 나올 경우 상자안에 주로 파란색이 들어있다고 생각할 수 있음.

여친이 언제든지 데이트 해줄경우

즉 지니계수는 낮은게 목적이며

의사결정나무를 통해 지니계수를 낮추는 것이 알고리즘의 목표입니다.

다시 예제로 돌아가보자.

먼저 맑은의 경우

예스가 1개이고 노가 2개 총 3개라는 의미의 1/3 2/3 제곱

의사결정나무의 중요한 결점

트리 구조가 데이터에 따라 크게 바뀔 수 있는 불안정성이 있다.

새로운 데이터 하나를 추가해보자.(맨밑에줄)

트리의 구조가 크게 바뀌었음

이에 대한 솔루션이 랜덤포레스트

7. [인공지능을 위한 머신러닝 101] K-최근접 이웃 (K-Nearest Neighbors, KNN)에 대해 알아보자

KNN은 이웃을 보고 판단하는 모델인데, 이 이웃이라는 개념이, 수사에서도, 추천 시스템에서도, 의료에서도 실제로 쓰이고 있습니다.

이 다음 8강은 '이웃을 찾는것' 에서 한 걸음 더 나아가서 '비슷한 친구들끼리 모아주는 알고리즘'인 K-means클러스터링에 대해 배우게 됩니다.

용의자들 중 범죄자를 찾고 싶을 때

KNN알고리즘의 핵심

유사도란 각 특징들간의 거리를 계산하는 것

용의자는 무혐의

이렇게 K 값에 따라 결과가 흔들리기 때문에,

하지만, 판단의 근거가 되는 좋은 특징들로 데이터가 풍부해진다면,

8. [인공지능을 위한 머신러닝 101] K-평균 클러스터링 알고리즘을 알아보자!

비슷한 특성을 가진 데이터끼리 그룹화하여 숨겨진 패턴을 찾아내는 데 사용된다.

목표

원리

기본 설명은 여기까지.

어떻게 최적의 클러스터를 찾아내나?

여기서는 2개, 그리고 A,F 로 한다.

유클리드 거리 사용

클러스터 1에 할당

C도 클러스터 1에 할당

E는 클러스터 2에 할당

다음단계는 중심점 재계산 단계

C2도 새로운 좌표 할당

그리고 계속 해준다.

9. 내 모델은 얼마나 정확한가?: 정확도, 정밀도, 재현률, F1스코어 그리고 혼동행렬

머신러닝 모델의 성능을 측정하는 5가지 중요한 지표

5가지 중요 지표

70%면 괜찮은거 아닌가? 하고 생각할지 모르지만 아님.

이 블로그의 관련 글

[AI 인공지능 머신러닝 딥러닝] - 이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 - 무료 강의 및 책 소개

이지 딥러닝 - 혁펜하임 | Easy! 딥러닝 - 무료 강의 및 책 소개

한국어로 딥러닝 공부해봤다는 사람중에 안들어 본 사람이 없을것 같은 이지 딥러닝 시리즈 입니다. 이 강의는 유투브로 제공되며 책도 있습니다. 이지 딥러닝 유투브 강의이지 딥러닝 유투브

inner-game.tistory.com

[AI 인공지능 머신러닝 딥러닝] - 2025 인공지능 기초 완전정복: 유튜브로 배우는 신경망·딥러닝·실습코딩 가이드

2025 인공지능 기초 완전정복: 유튜브로 배우는 신경망·딥러닝·실습코딩 가이드

안녕하세요! 오늘은 제가 최근에 시청한 유튜브 플레이리스트 “인공신경망기초-신박Ai”를 바탕으로, 인공지능(Artificial Intelligence; AI) 기초에 대해 공부한 내용을 정리하여 티스토리 블로그 포

inner-game.tistory.com

[AI 인공지능 머신러닝 딥러닝] - AI 비전공자를 위한 기초 수학 1 선형대수학 | KAIST-ON 플랫폼 소개

AI 비전공자를 위한 기초 수학 1 선형대수학 | KAIST-ON 플랫폼 소개

카이스트에서 제공하는 무료 강의입니다. 카이스트에서는 KAIST-ON 이라는 온라인 교육 플랫폼을 제공합니다. 추가적으로 해당 강의를 듣기 전이나 후에 이 강의를 듣는 것도 추천드립니다.https://

inner-game.tistory.com

728x90

공유하기

kakaoTalk

kakaostory

naver

band

'AI 인공지능 머신러닝 딥러닝' 의 관련글

250x250

맨위로

티스토리툴바