이 글에서 꼭 잡아야 할 것
연관규칙은 함께 발생하는 패턴을 찾는 대표적인 데이터 마이닝 기법이다. 지지도, 신뢰도, 향상도 해석을 정확히 이해하는 것이 핵심이다.
연관규칙은 식이 비슷해 보여서 헷갈리기 쉽지만, 분모가 무엇인지 명확히 보면 구분이 쉬워진다. 지지도는 전체, 신뢰도는 선행 항목, 향상도는 독립일 때 기대값과의 비교라는 구조를 먼저 떠올리면 대부분의 문제를 정리할 수 있다.
개념 지도와 이해 포인트
대표 문법 패턴
transactions = 100
support_ab = 20 / transactions
confidence_a_to_b = 20 / 25
lift_a_to_b = confidence_a_to_b / (30 / 100)
print(support_ab, confidence_a_to_b, lift_a_to_b)
문법 읽는 포인트
- 지지도·신뢰도·향상도는 분모를 기준으로 구분하자.
- 향상도 1보다 크면 양의 연관을 시사한다.
- 연관규칙은 해석과 활용 맥락이 함께 중요하다.
핵심 용어
- Support
- Confidence
- Lift
장바구니 예시로 세 지표 비교하기
정렬해 보면 어떤 조합이 단순 빈도 이상으로 의미 있는지 빨리 볼 수 있다. 시험에서도 향상도 해석이 자주 나온다.
SELECT item_a, item_b, support, confidence, lift
FROM association_rules
ORDER BY lift DESC;
수험 체크포인트와 자주 하는 실수
시험 체크포인트
- 세 지표는 분모를 써 보면서 외우면 헷갈림이 줄어든다.
- 향상도 1 기준 의미를 정확히 기억하자.
- 연관규칙 활용 사례를 함께 기억하면 해석이 쉬워진다.
자주 하는 실수
- 지지도와 신뢰도를 같은 비율로 보는 실수
- 향상도 의미를 빈도처럼 오해하는 실수
- 수치가 높다고 무조건 활용 가치가 높다고 생각하는 실수
연결 학습
연관규칙은 패턴 탐색 감각을 길러 주는 좋은 주제다. 다음 글에서는 시간 흐름이 있는 데이터를 다루는 시계열 분석 기초로 넘어간다.
댓글 0
작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.
같은 카테고리에서 이어서 읽기
지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.
상관분석과 회귀분석의 차이
상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.
분류분석과 평가 지표: 정확도, 정밀도, 재현율
분류 모델은 맞혔는지 여부만 보는 것이 아니다. 어떤 오류를 더 줄여야 하는지에 따라 정밀도와 재현율 해석이 달라진다.
군집분석의 기본: K-means와 세그먼트 이해
군집분석은 답이 이미 있는 문제를 맞히는 것이 아니라, 닮은 대상을 묶어 구조를 찾는 과정이다. 세그먼트 분석의 기초 감각을 여기서 잡는다.
시계열 분석의 기초: 추세, 계절성, 자기상관
시간 순서가 있는 데이터는 일반 표본과 다르게 읽어야 한다. 시계열 분석의 핵심은 추세와 계절성, 자기상관을 구분하는 데 있다.
데이터 시각화와 스토리텔링의 원칙
분석 결과는 잘 계산하는 것만큼 잘 전달하는 것도 중요하다. 좋은 시각화는 예쁜 차트가 아니라, 핵심 메시지를 빠르게 이해하게 만드는 차트다.
댓글을 불러오는 중입니다.