홈 / 데이터 분석 / Article 16

데이터 분석 · 모델링과 활용

군집분석의 기본: K-means와 세그먼트 이해

군집분석은 답이 이미 있는 문제를 맞히는 것이 아니라, 닮은 대상을 묶어 구조를 찾는 과정이다. 세그먼트 분석의 기초 감각을 여기서 잡는다.

Article 16 • 중급 • 9분 읽기

이 글에서 꼭 잡아야 할 것

군집분석은 답이 이미 있는 문제를 맞히는 것이 아니라, 닮은 대상을 묶어 구조를 찾는 과정이다. 세그먼트 분석의 기초 감각을 여기서 잡는다.

군집분석은 알고리즘보다 해석이 더 중요한 파트다. ADsP에서도 K-means의 반복 구조, 군집 수 결정, 거리 기반 사고를 묻지만, 결국 실무에서는 왜 특정 고객군이 묶였는지 설명할 수 있어야 가치가 있다. 따라서 군집 결과를 특성별로 읽는 연습이 중요하다.

난이도 중급

모듈 모델링과 활용

학습 시간 9분

핵심 키워드 Clustering, K-means, Segment

개념 지도와 이해 포인트

비지도학습 군집분석은 정답 라벨 없이 데이터를 묶는 방법이다. 분류와 가장 큰 차이는 사전 정답이 없다는 점이다.

K-means 원리 K개의 중심점을 두고 각 데이터를 가장 가까운 중심점에 할당하며 반복적으로 군집을 조정한다.

세그먼트 해석 모델 결과보다 각 군집이 어떤 특성을 가지는지 설명하는 일이 실무에서는 더 중요하다.

대표 문법 패턴

from sklearn.cluster import KMeans
import pandas as pd

df = pd.DataFrame({
    "visit_count": [2, 3, 12, 14, 20, 22],
    "purchase_amt": [10, 15, 80, 85, 140, 150]
})

model = KMeans(n_clusters=3, random_state=42, n_init=10)
df["cluster"] = model.fit_predict(df)
print(df)

문법 읽는 포인트

군집은 라벨이 없는 데이터를 묶는 문제다.
K-means는 중심점 기반 반복 알고리즘으로 이해하면 쉽다.
군집 결과는 해석 단계가 반드시 필요하다.

핵심 용어

Clustering
K-means
Segment

고객 세그먼트 예시 읽어 보기

군집 결과를 숫자 0, 1, 2로만 두지 말고 의미 있는 이름으로 바꾸는 연습이 중요하다. 시험에서도 해석형 문항에서 강해진다.

segments = {
    "Cluster 0": "방문과 구매가 모두 낮은 휴면 후보",
    "Cluster 1": "구매 충성도가 높은 핵심 고객",
    "Cluster 2": "방문은 많지만 구매 전환이 낮은 관심 고객"
}

수험 체크포인트와 자주 하는 실수

시험 체크포인트

지도학습과 비지도학습 차이를 확실히 구분하자.
K-means는 중심점과 거리 개념으로 기억하면 좋다.
군집 수 결정은 실무 해석과 함께 생각해야 한다.

자주 하는 실수

군집 라벨을 정답처럼 이해하는 실수
분류와 군집을 같은 문제로 보는 실수
군집 결과 해석 없이 알고리즘만 외우는 실수

연결 학습

군집분석은 고객 세분화나 상품 그룹화 해석과 자주 연결된다. 이후 연관규칙 파트에서는 함께 나타나는 패턴을 찾는 방식으로 넘어간다.

작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.

댓글을 불러오는 중입니다.

같은 카테고리에서 이어서 읽기

지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.

데이터 분석 · 통계와 검정 · Article 13

가설검정, 유의수준, p-value 한 번에 정리

가설검정은 통계 파트에서 가장 많이 헷갈리는 주제다. 귀무가설과 대립가설, 유의수준과 p-value 관계를 문장으로 설명할 수 있을 정도로 정리해야 한다.

Hypothesisp-valueAlpha

데이터 분석 · 통계와 검정 · Article 14

상관분석과 회귀분석의 차이

상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.

CorrelationRegressionR2

데이터 분석 · 통계와 검정 · Article 15

분류분석과 평가 지표: 정확도, 정밀도, 재현율

분류 모델은 맞혔는지 여부만 보는 것이 아니다. 어떤 오류를 더 줄여야 하는지에 따라 정밀도와 재현율 해석이 달라진다.

AccuracyPrecisionRecall

데이터 분석 · 모델링과 활용 · Article 17

연관규칙 분석: 지지도, 신뢰도, 향상도

연관규칙은 함께 발생하는 패턴을 찾는 대표적인 데이터 마이닝 기법이다. 지지도, 신뢰도, 향상도 해석을 정확히 이해하는 것이 핵심이다.

SupportConfidenceLift

데이터 분석 · 모델링과 활용 · Article 18

시계열 분석의 기초: 추세, 계절성, 자기상관

시간 순서가 있는 데이터는 일반 표본과 다르게 읽어야 한다. 시계열 분석의 핵심은 추세와 계절성, 자기상관을 구분하는 데 있다.

TrendSeasonalityAutocorrelation

이 글의 흐름

빠른 메모

카테고리: 데이터 분석
모듈: 모델링과 활용
읽기 시간: 9분
핵심 키워드: Clustering, K-means, Segment

실습으로 이어가기

개념을 읽은 직후가 가장 좋습니다. asdp.sqld.kr에서 같은 주제를 바로 실습하거나 문제풀이로 이어 보세요.