홈 / 데이터 분석 / Article 14

데이터 분석 · 통계와 검정

상관분석과 회귀분석의 차이

상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.

Article 14 • 중급 • 10분 읽기

이 글에서 꼭 잡아야 할 것

상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.

상관분석과 회귀분석은 비슷해 보여도 목적이 다르다. 상관은 관계 강도를 보는 것이고, 회귀는 설명과 예측을 위한 모형이다. ADsP에서는 이 차이를 해석형 문장으로 자주 물으며, 다중공선성이나 잔차 해석 같은 기초 개념도 함께 엮여 나온다.

난이도 중급

모듈 통계와 검정

학습 시간 10분

핵심 키워드 Correlation, Regression, R2

개념 지도와 이해 포인트

상관분석 상관분석은 두 변수의 함께 움직이는 정도를 본다. 방향과 강도는 알 수 있지만 인과관계를 곧장 의미하지는 않는다.

회귀분석 회귀분석은 종속변수를 독립변수로 설명하거나 예측하는 모형이다. 계수 해석과 설명력 개념이 함께 등장한다.

설명력 결정계수 R²는 모델이 종속변수 변동을 얼마나 설명하는지 보여 준다. 높다고 무조건 좋은 모델은 아니라는 점도 중요하다.

대표 문법 패턴

import pandas as pd
from sklearn.linear_model import LinearRegression

df = pd.DataFrame({
    "ad_cost": [10, 12, 15, 18, 20],
    "sales": [100, 120, 150, 170, 195]
})

print(df.corr())

model = LinearRegression().fit(df[["ad_cost"]], df["sales"])
print(model.coef_, model.intercept_)

문법 읽는 포인트

상관은 관계, 회귀는 설명/예측이라는 목적 차이를 기억하자.
상관이 높아도 인과를 바로 말할 수는 없다.
회귀에서는 계수 해석과 설명력 해석이 함께 중요하다.

핵심 용어

Correlation
Regression
R2

광고비와 매출 데이터로 상관과 회귀 구분하기

먼저 상관을 보고, 이후 회귀로 설명식까지 세우는 흐름을 떠올리면 두 기법 차이를 훨씬 명확하게 이해할 수 있다.

SELECT CORR(ad_cost, sales) AS corr_value
FROM campaign_summary;

수험 체크포인트와 자주 하는 실수

시험 체크포인트

상관과 인과를 구분하는 표현 문제에 대비하자.
R² 의미는 “설명된 변동 비율”로 기억하면 좋다.
회귀계수 해석은 변수 단위 변화와 연결해 읽자.

자주 하는 실수

상관이 높으면 원인 관계도 확실하다고 보는 실수
회귀계수를 상관계수처럼 읽는 실수
설명력이 높으면 무조건 좋은 모델이라 생각하는 실수

연결 학습

상관과 회귀를 분리해서 이해하면 분류와 예측 모델 파트도 덜 헷갈린다. 이후에는 분류와 평가 지표처럼 모델 활용 영역으로 넘어간다.

작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.

댓글을 불러오는 중입니다.

같은 카테고리에서 이어서 읽기

지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.

데이터 분석 · 통계와 검정 · Article 11

기술 통계의 핵심: 평균, 중앙값, 분산, 왜도

기술 통계는 데이터를 요약하는 가장 기본적인 언어다. ADsP에서는 수식 암기보다 각 지표가 언제 유용한지를 이해하는 문제가 더 중요하다.

MeanMedianVariance

데이터 분석 · 통계와 검정 · Article 12

확률분포와 중심극한정리 이해하기

정규분포, 이항분포, 포아송분포처럼 이름이 많은 파트지만, 핵심은 언제 어떤 분포를 쓰는지 구분하는 감각이다. 중심극한정리는 그 연결을 잡아 주는 핵심 개념이다.

NormalBinomialCLT

데이터 분석 · 통계와 검정 · Article 13

가설검정, 유의수준, p-value 한 번에 정리

가설검정은 통계 파트에서 가장 많이 헷갈리는 주제다. 귀무가설과 대립가설, 유의수준과 p-value 관계를 문장으로 설명할 수 있을 정도로 정리해야 한다.

Hypothesisp-valueAlpha

데이터 분석 · 통계와 검정 · Article 15

분류분석과 평가 지표: 정확도, 정밀도, 재현율

분류 모델은 맞혔는지 여부만 보는 것이 아니다. 어떤 오류를 더 줄여야 하는지에 따라 정밀도와 재현율 해석이 달라진다.

AccuracyPrecisionRecall

데이터 분석 · 모델링과 활용 · Article 16

군집분석의 기본: K-means와 세그먼트 이해

군집분석은 답이 이미 있는 문제를 맞히는 것이 아니라, 닮은 대상을 묶어 구조를 찾는 과정이다. 세그먼트 분석의 기초 감각을 여기서 잡는다.

ClusteringK-meansSegment

이 글의 흐름

빠른 메모

카테고리: 데이터 분석
모듈: 통계와 검정
읽기 시간: 10분
핵심 키워드: Correlation, Regression, R2

실습으로 이어가기

개념을 읽은 직후가 가장 좋습니다. asdp.sqld.kr에서 같은 주제를 바로 실습하거나 문제풀이로 이어 보세요.