데이터 분석 · 통계와 검정

상관분석과 회귀분석의 차이

상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.

상관분석과 회귀분석의 차이 대표 이미지

이 글에서 꼭 잡아야 할 것

상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.

상관분석과 회귀분석은 비슷해 보여도 목적이 다르다. 상관은 관계 강도를 보는 것이고, 회귀는 설명과 예측을 위한 모형이다. ADsP에서는 이 차이를 해석형 문장으로 자주 물으며, 다중공선성이나 잔차 해석 같은 기초 개념도 함께 엮여 나온다.

난이도 중급
모듈 통계와 검정
학습 시간 10분
핵심 키워드 Correlation, Regression, R2

개념 지도와 이해 포인트

상관분석 상관분석은 두 변수의 함께 움직이는 정도를 본다. 방향과 강도는 알 수 있지만 인과관계를 곧장 의미하지는 않는다.
회귀분석 회귀분석은 종속변수를 독립변수로 설명하거나 예측하는 모형이다. 계수 해석과 설명력 개념이 함께 등장한다.
설명력 결정계수 R²는 모델이 종속변수 변동을 얼마나 설명하는지 보여 준다. 높다고 무조건 좋은 모델은 아니라는 점도 중요하다.
상관분석과 회귀분석의 차이 개념 다이어그램

대표 문법 패턴

import pandas as pd
from sklearn.linear_model import LinearRegression

df = pd.DataFrame({
    "ad_cost": [10, 12, 15, 18, 20],
    "sales": [100, 120, 150, 170, 195]
})

print(df.corr())

model = LinearRegression().fit(df[["ad_cost"]], df["sales"])
print(model.coef_, model.intercept_)

문법 읽는 포인트

  • 상관은 관계, 회귀는 설명/예측이라는 목적 차이를 기억하자.
  • 상관이 높아도 인과를 바로 말할 수는 없다.
  • 회귀에서는 계수 해석과 설명력 해석이 함께 중요하다.

핵심 용어

  • Correlation
  • Regression
  • R2

광고비와 매출 데이터로 상관과 회귀 구분하기

먼저 상관을 보고, 이후 회귀로 설명식까지 세우는 흐름을 떠올리면 두 기법 차이를 훨씬 명확하게 이해할 수 있다.

SELECT CORR(ad_cost, sales) AS corr_value
FROM campaign_summary;

수험 체크포인트와 자주 하는 실수

시험 체크포인트

  • 상관과 인과를 구분하는 표현 문제에 대비하자.
  • R² 의미는 “설명된 변동 비율”로 기억하면 좋다.
  • 회귀계수 해석은 변수 단위 변화와 연결해 읽자.

자주 하는 실수

  • 상관이 높으면 원인 관계도 확실하다고 보는 실수
  • 회귀계수를 상관계수처럼 읽는 실수
  • 설명력이 높으면 무조건 좋은 모델이라 생각하는 실수

연결 학습

상관과 회귀를 분리해서 이해하면 분류와 예측 모델 파트도 덜 헷갈린다. 이후에는 분류와 평가 지표처럼 모델 활용 영역으로 넘어간다.

댓글 0

작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.

일반 댓글 작성

댓글을 불러오는 중입니다.

같은 카테고리에서 이어서 읽기

지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.