데이터 분석 · 통계와 검정

분류분석과 평가 지표: 정확도, 정밀도, 재현율

분류 모델은 맞혔는지 여부만 보는 것이 아니다. 어떤 오류를 더 줄여야 하는지에 따라 정밀도와 재현율 해석이 달라진다.

분류분석과 평가 지표: 정확도, 정밀도, 재현율 대표 이미지

이 글에서 꼭 잡아야 할 것

분류 모델은 맞혔는지 여부만 보는 것이 아니다. 어떤 오류를 더 줄여야 하는지에 따라 정밀도와 재현율 해석이 달라진다.

평가 지표는 정의 암기보다 상황 해석이 중요하다. 예를 들어 스팸 필터와 질병 진단 모델은 같은 분류 문제라도 더 중요하게 보는 오류가 다르다. ADsP는 이 차이를 사례형으로 자주 묻기 때문에, 지표를 상황과 연결해서 기억하는 편이 좋다.

난이도 중급
모듈 통계와 검정
학습 시간 10분
핵심 키워드 Accuracy, Precision, Recall

개념 지도와 이해 포인트

혼동행렬 TP, FP, FN, TN을 기준으로 모델 결과를 구분한다. 평가 지표는 모두 이 표에서 출발한다.
정확도와 한계 정확도는 직관적이지만 클래스 불균형 데이터에서는 쉽게 왜곡될 수 있다. 그래서 다른 지표를 함께 본다.
정밀도와 재현율 정밀도는 예측 양성의 정확성, 재현율은 실제 양성을 얼마나 놓치지 않았는지를 보여 준다.
분류분석과 평가 지표: 정확도, 정밀도, 재현율 개념 다이어그램

대표 문법 패턴

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]

print("accuracy", accuracy_score(y_true, y_pred))
print("precision", precision_score(y_true, y_pred))
print("recall", recall_score(y_true, y_pred))
print("f1", f1_score(y_true, y_pred))

문법 읽는 포인트

  • 지표는 혼동행렬에서 출발한다.
  • 정확도 하나만으로는 모델을 설명하기 어렵다.
  • 정밀도와 재현율은 중요 오류 유형을 기준으로 구분하자.

핵심 용어

  • Accuracy
  • Precision
  • Recall

상황별로 더 중요한 지표 고르기

지표는 식보다 상황 연결이 중요하다. 어떤 오류를 더 줄여야 하는지 먼저 생각하면 대부분의 평가 문제를 안정적으로 풀 수 있다.

cases = {
    "스팸 메일 필터": "정밀도 중요",
    "질병 진단": "재현율 중요",
    "전반적 성능 균형": "F1-score 참고"
}

for case, metric in cases.items():
    print(case, "->", metric)

수험 체크포인트와 자주 하는 실수

시험 체크포인트

  • 혼동행렬 4칸은 직접 적을 수 있어야 한다.
  • 정밀도와 재현율 차이는 사례형으로 기억하는 것이 가장 좋다.
  • 클래스 불균형 상황에서 정확도 한계를 자주 묻는다.

자주 하는 실수

  • 정확도가 높으면 무조건 좋은 모델이라고 보는 실수
  • 정밀도와 재현율 분모를 뒤섞는 실수
  • 상황에 맞지 않는 평가 지표를 선택하는 실수

연결 학습

평가 지표 해석이 잡히면 군집과 연관규칙처럼 비지도 영역과도 비교가 쉬워진다. ADsP 대비에서는 지표 정의와 사례를 묶어 복습하는 편이 좋다.

댓글 0

작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.

일반 댓글 작성

댓글을 불러오는 중입니다.

같은 카테고리에서 이어서 읽기

지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.