홈 / 데이터 분석 / Article 12

데이터 분석 · 통계와 검정

확률분포와 중심극한정리 이해하기

정규분포, 이항분포, 포아송분포처럼 이름이 많은 파트지만, 핵심은 언제 어떤 분포를 쓰는지 구분하는 감각이다. 중심극한정리는 그 연결을 잡아 주는 핵심 개념이다.

Article 12 • 초급 • 10분 읽기

이 글에서 꼭 잡아야 할 것

확률분포는 공식을 외우는 것보다 상황을 분류하는 연습이 중요하다. 동전 던지기처럼 성공/실패가 반복되면 이항분포, 콜센터 유입 건수처럼 단위 시간당 사건 수를 다루면 포아송분포가 자연스럽다. 중심극한정리는 표본평균이 왜 정규 근사로 다뤄지는지 설명하는 핵심 개념이다.

난이도 초급

모듈 통계와 검정

학습 시간 10분

핵심 키워드 Normal, Binomial, CLT

개념 지도와 이해 포인트

확률분포의 의미 확률분포는 값이 어떤 형태로 나타날 가능성이 큰지 설명하는 틀이다. 데이터 성격을 설명하는 언어라고 볼 수 있다.

대표 분포 이항분포는 성공/실패, 포아송분포는 단위 시간당 사건 수, 정규분포는 자연스러운 연속형 분포 문제에서 자주 등장한다.

중심극한정리 표본 크기가 충분히 크면 표본평균의 분포가 정규분포에 가까워진다는 개념이다. 추정과 검정 파트의 핵심 연결 고리다.

대표 문법 패턴

import numpy as np

samples = np.random.binomial(n=10, p=0.5, size=1000)
sample_means = samples.reshape(100, 10).mean(axis=1)

print("표본평균 평균:", sample_means.mean())

문법 읽는 포인트

분포 문제는 데이터 유형과 상황을 함께 보는 것이 핵심이다.
중심극한정리는 표본평균의 분포를 설명한다.
정규분포는 실제 데이터 자체보다 근사 도구로도 자주 쓰인다.

핵심 용어

Normal
Binomial
CLT

사례를 보고 분포 이름 붙이기

분포는 정의보다 사례로 연결해 두면 훨씬 오래 기억된다. 시험에서도 공식보다 사례 매칭이 체감상 더 자주 나온다.

cases = {
    "동전 10번 던져 앞면 개수": "이항분포",
    "1시간 동안 콜센터 문의 건수": "포아송분포",
    "여러 표본평균의 분포": "정규 근사"
}

수험 체크포인트와 자주 하는 실수

시험 체크포인트

이항·포아송·정규 분포는 상황 예시로 구분하자.
중심극한정리는 표본평균과 연결해서 기억하자.
확률변수와 확률분포 차이를 먼저 정리해 두면 좋다.

자주 하는 실수

정규분포를 모든 데이터에 그대로 적용하는 실수
중심극한정리가 모집단 분포 자체를 바꾸는 개념이라고 오해하는 실수
이항분포와 포아송분포 상황을 뒤섞는 실수

연결 학습

분포 감각이 생기면 다음 가설검정 파트도 훨씬 자연스럽게 연결된다. ADsP에서는 이 개념이 검정과 신뢰구간 문제의 바닥이 된다.

작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.

댓글을 불러오는 중입니다.

같은 카테고리에서 이어서 읽기

지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.

데이터 분석 · 분석 기획 · Article 09

CRISP-DM과 데이터 분석 방법론

방법론은 형식이 아니라 팀의 사고 순서를 맞추는 도구다. ADsP에서 가장 자주 등장하는 CRISP-DM과 KDD 흐름을 비교하며 정리한다.

CRISP-DMKDDProcess

데이터 분석 · 분석 기획 · Article 10

데이터 수집 전략과 표본 추출

좋은 분석은 좋은 데이터에서 시작한다. 어떤 데이터를, 어떤 방식으로, 얼마나 수집할지 정하는 일은 기획과 통계가 만나는 핵심 구간이다.

SamplingSurveyCollection

데이터 분석 · 통계와 검정 · Article 11

기술 통계의 핵심: 평균, 중앙값, 분산, 왜도

기술 통계는 데이터를 요약하는 가장 기본적인 언어다. ADsP에서는 수식 암기보다 각 지표가 언제 유용한지를 이해하는 문제가 더 중요하다.

MeanMedianVariance

데이터 분석 · 통계와 검정 · Article 13

가설검정, 유의수준, p-value 한 번에 정리

가설검정은 통계 파트에서 가장 많이 헷갈리는 주제다. 귀무가설과 대립가설, 유의수준과 p-value 관계를 문장으로 설명할 수 있을 정도로 정리해야 한다.

Hypothesisp-valueAlpha

데이터 분석 · 통계와 검정 · Article 14

상관분석과 회귀분석의 차이

상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.

CorrelationRegressionR2

이 글의 흐름

빠른 메모

카테고리: 데이터 분석
모듈: 통계와 검정
읽기 시간: 10분
핵심 키워드: Normal, Binomial, CLT

실습으로 이어가기

개념을 읽은 직후가 가장 좋습니다. asdp.sqld.kr에서 같은 주제를 바로 실습하거나 문제풀이로 이어 보세요.