이 글에서 꼭 잡아야 할 것
분류 모델은 맞혔는지 여부만 보는 것이 아니다. 어떤 오류를 더 줄여야 하는지에 따라 정밀도와 재현율 해석이 달라진다.
평가 지표는 정의 암기보다 상황 해석이 중요하다. 예를 들어 스팸 필터와 질병 진단 모델은 같은 분류 문제라도 더 중요하게 보는 오류가 다르다. ADsP는 이 차이를 사례형으로 자주 묻기 때문에, 지표를 상황과 연결해서 기억하는 편이 좋다.
개념 지도와 이해 포인트
대표 문법 패턴
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]
print("accuracy", accuracy_score(y_true, y_pred))
print("precision", precision_score(y_true, y_pred))
print("recall", recall_score(y_true, y_pred))
print("f1", f1_score(y_true, y_pred))
문법 읽는 포인트
- 지표는 혼동행렬에서 출발한다.
- 정확도 하나만으로는 모델을 설명하기 어렵다.
- 정밀도와 재현율은 중요 오류 유형을 기준으로 구분하자.
핵심 용어
- Accuracy
- Precision
- Recall
상황별로 더 중요한 지표 고르기
지표는 식보다 상황 연결이 중요하다. 어떤 오류를 더 줄여야 하는지 먼저 생각하면 대부분의 평가 문제를 안정적으로 풀 수 있다.
cases = {
"스팸 메일 필터": "정밀도 중요",
"질병 진단": "재현율 중요",
"전반적 성능 균형": "F1-score 참고"
}
for case, metric in cases.items():
print(case, "->", metric)
수험 체크포인트와 자주 하는 실수
시험 체크포인트
- 혼동행렬 4칸은 직접 적을 수 있어야 한다.
- 정밀도와 재현율 차이는 사례형으로 기억하는 것이 가장 좋다.
- 클래스 불균형 상황에서 정확도 한계를 자주 묻는다.
자주 하는 실수
- 정확도가 높으면 무조건 좋은 모델이라고 보는 실수
- 정밀도와 재현율 분모를 뒤섞는 실수
- 상황에 맞지 않는 평가 지표를 선택하는 실수
연결 학습
평가 지표 해석이 잡히면 군집과 연관규칙처럼 비지도 영역과도 비교가 쉬워진다. ADsP 대비에서는 지표 정의와 사례를 묶어 복습하는 편이 좋다.
댓글 0
작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.
같은 카테고리에서 이어서 읽기
지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.
확률분포와 중심극한정리 이해하기
정규분포, 이항분포, 포아송분포처럼 이름이 많은 파트지만, 핵심은 언제 어떤 분포를 쓰는지 구분하는 감각이다. 중심극한정리는 그 연결을 잡아 주는 핵심 개념이다.
가설검정, 유의수준, p-value 한 번에 정리
가설검정은 통계 파트에서 가장 많이 헷갈리는 주제다. 귀무가설과 대립가설, 유의수준과 p-value 관계를 문장으로 설명할 수 있을 정도로 정리해야 한다.
상관분석과 회귀분석의 차이
상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.
군집분석의 기본: K-means와 세그먼트 이해
군집분석은 답이 이미 있는 문제를 맞히는 것이 아니라, 닮은 대상을 묶어 구조를 찾는 과정이다. 세그먼트 분석의 기초 감각을 여기서 잡는다.
연관규칙 분석: 지지도, 신뢰도, 향상도
연관규칙은 함께 발생하는 패턴을 찾는 대표적인 데이터 마이닝 기법이다. 지지도, 신뢰도, 향상도 해석을 정확히 이해하는 것이 핵심이다.
댓글을 불러오는 중입니다.