홈 / 데이터 분석 / Article 15

데이터 분석 · 통계와 검정

분류분석과 평가 지표: 정확도, 정밀도, 재현율

분류 모델은 맞혔는지 여부만 보는 것이 아니다. 어떤 오류를 더 줄여야 하는지에 따라 정밀도와 재현율 해석이 달라진다.

Article 15 • 중급 • 10분 읽기

이 글에서 꼭 잡아야 할 것

분류 모델은 맞혔는지 여부만 보는 것이 아니다. 어떤 오류를 더 줄여야 하는지에 따라 정밀도와 재현율 해석이 달라진다.

평가 지표는 정의 암기보다 상황 해석이 중요하다. 예를 들어 스팸 필터와 질병 진단 모델은 같은 분류 문제라도 더 중요하게 보는 오류가 다르다. ADsP는 이 차이를 사례형으로 자주 묻기 때문에, 지표를 상황과 연결해서 기억하는 편이 좋다.

난이도 중급

모듈 통계와 검정

학습 시간 10분

핵심 키워드 Accuracy, Precision, Recall

개념 지도와 이해 포인트

혼동행렬 TP, FP, FN, TN을 기준으로 모델 결과를 구분한다. 평가 지표는 모두 이 표에서 출발한다.

정확도와 한계 정확도는 직관적이지만 클래스 불균형 데이터에서는 쉽게 왜곡될 수 있다. 그래서 다른 지표를 함께 본다.

정밀도와 재현율 정밀도는 예측 양성의 정확성, 재현율은 실제 양성을 얼마나 놓치지 않았는지를 보여 준다.

대표 문법 패턴

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]

print("accuracy", accuracy_score(y_true, y_pred))
print("precision", precision_score(y_true, y_pred))
print("recall", recall_score(y_true, y_pred))
print("f1", f1_score(y_true, y_pred))

문법 읽는 포인트

지표는 혼동행렬에서 출발한다.
정확도 하나만으로는 모델을 설명하기 어렵다.
정밀도와 재현율은 중요 오류 유형을 기준으로 구분하자.

핵심 용어

Accuracy
Precision
Recall

상황별로 더 중요한 지표 고르기

지표는 식보다 상황 연결이 중요하다. 어떤 오류를 더 줄여야 하는지 먼저 생각하면 대부분의 평가 문제를 안정적으로 풀 수 있다.

cases = {
    "스팸 메일 필터": "정밀도 중요",
    "질병 진단": "재현율 중요",
    "전반적 성능 균형": "F1-score 참고"
}

for case, metric in cases.items():
    print(case, "->", metric)

수험 체크포인트와 자주 하는 실수

시험 체크포인트

혼동행렬 4칸은 직접 적을 수 있어야 한다.
정밀도와 재현율 차이는 사례형으로 기억하는 것이 가장 좋다.
클래스 불균형 상황에서 정확도 한계를 자주 묻는다.

자주 하는 실수

정확도가 높으면 무조건 좋은 모델이라고 보는 실수
정밀도와 재현율 분모를 뒤섞는 실수
상황에 맞지 않는 평가 지표를 선택하는 실수

연결 학습

평가 지표 해석이 잡히면 군집과 연관규칙처럼 비지도 영역과도 비교가 쉬워진다. ADsP 대비에서는 지표 정의와 사례를 묶어 복습하는 편이 좋다.

작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.

댓글을 불러오는 중입니다.

같은 카테고리에서 이어서 읽기

지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.

데이터 분석 · 통계와 검정 · Article 12

확률분포와 중심극한정리 이해하기

정규분포, 이항분포, 포아송분포처럼 이름이 많은 파트지만, 핵심은 언제 어떤 분포를 쓰는지 구분하는 감각이다. 중심극한정리는 그 연결을 잡아 주는 핵심 개념이다.

NormalBinomialCLT

데이터 분석 · 통계와 검정 · Article 13

가설검정, 유의수준, p-value 한 번에 정리

가설검정은 통계 파트에서 가장 많이 헷갈리는 주제다. 귀무가설과 대립가설, 유의수준과 p-value 관계를 문장으로 설명할 수 있을 정도로 정리해야 한다.

Hypothesisp-valueAlpha

데이터 분석 · 통계와 검정 · Article 14

상관분석과 회귀분석의 차이

상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.

CorrelationRegressionR2

데이터 분석 · 모델링과 활용 · Article 16

군집분석의 기본: K-means와 세그먼트 이해

군집분석은 답이 이미 있는 문제를 맞히는 것이 아니라, 닮은 대상을 묶어 구조를 찾는 과정이다. 세그먼트 분석의 기초 감각을 여기서 잡는다.

ClusteringK-meansSegment

데이터 분석 · 모델링과 활용 · Article 17

연관규칙 분석: 지지도, 신뢰도, 향상도

연관규칙은 함께 발생하는 패턴을 찾는 대표적인 데이터 마이닝 기법이다. 지지도, 신뢰도, 향상도 해석을 정확히 이해하는 것이 핵심이다.

SupportConfidenceLift

이 글의 흐름

빠른 메모

카테고리: 데이터 분석
모듈: 통계와 검정
읽기 시간: 10분
핵심 키워드: Accuracy, Precision, Recall

실습으로 이어가기

개념을 읽은 직후가 가장 좋습니다. asdp.sqld.kr에서 같은 주제를 바로 실습하거나 문제풀이로 이어 보세요.