이 글에서 꼭 잡아야 할 것
정규분포, 이항분포, 포아송분포처럼 이름이 많은 파트지만, 핵심은 언제 어떤 분포를 쓰는지 구분하는 감각이다. 중심극한정리는 그 연결을 잡아 주는 핵심 개념이다.
확률분포는 공식을 외우는 것보다 상황을 분류하는 연습이 중요하다. 동전 던지기처럼 성공/실패가 반복되면 이항분포, 콜센터 유입 건수처럼 단위 시간당 사건 수를 다루면 포아송분포가 자연스럽다. 중심극한정리는 표본평균이 왜 정규 근사로 다뤄지는지 설명하는 핵심 개념이다.
개념 지도와 이해 포인트
대표 문법 패턴
import numpy as np
samples = np.random.binomial(n=10, p=0.5, size=1000)
sample_means = samples.reshape(100, 10).mean(axis=1)
print("표본평균 평균:", sample_means.mean())
문법 읽는 포인트
- 분포 문제는 데이터 유형과 상황을 함께 보는 것이 핵심이다.
- 중심극한정리는 표본평균의 분포를 설명한다.
- 정규분포는 실제 데이터 자체보다 근사 도구로도 자주 쓰인다.
핵심 용어
- Normal
- Binomial
- CLT
사례를 보고 분포 이름 붙이기
분포는 정의보다 사례로 연결해 두면 훨씬 오래 기억된다. 시험에서도 공식보다 사례 매칭이 체감상 더 자주 나온다.
cases = {
"동전 10번 던져 앞면 개수": "이항분포",
"1시간 동안 콜센터 문의 건수": "포아송분포",
"여러 표본평균의 분포": "정규 근사"
}
수험 체크포인트와 자주 하는 실수
시험 체크포인트
- 이항·포아송·정규 분포는 상황 예시로 구분하자.
- 중심극한정리는 표본평균과 연결해서 기억하자.
- 확률변수와 확률분포 차이를 먼저 정리해 두면 좋다.
자주 하는 실수
- 정규분포를 모든 데이터에 그대로 적용하는 실수
- 중심극한정리가 모집단 분포 자체를 바꾸는 개념이라고 오해하는 실수
- 이항분포와 포아송분포 상황을 뒤섞는 실수
연결 학습
분포 감각이 생기면 다음 가설검정 파트도 훨씬 자연스럽게 연결된다. ADsP에서는 이 개념이 검정과 신뢰구간 문제의 바닥이 된다.
댓글 0
작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.
같은 카테고리에서 이어서 읽기
지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.
CRISP-DM과 데이터 분석 방법론
방법론은 형식이 아니라 팀의 사고 순서를 맞추는 도구다. ADsP에서 가장 자주 등장하는 CRISP-DM과 KDD 흐름을 비교하며 정리한다.
데이터 수집 전략과 표본 추출
좋은 분석은 좋은 데이터에서 시작한다. 어떤 데이터를, 어떤 방식으로, 얼마나 수집할지 정하는 일은 기획과 통계가 만나는 핵심 구간이다.
기술 통계의 핵심: 평균, 중앙값, 분산, 왜도
기술 통계는 데이터를 요약하는 가장 기본적인 언어다. ADsP에서는 수식 암기보다 각 지표가 언제 유용한지를 이해하는 문제가 더 중요하다.
가설검정, 유의수준, p-value 한 번에 정리
가설검정은 통계 파트에서 가장 많이 헷갈리는 주제다. 귀무가설과 대립가설, 유의수준과 p-value 관계를 문장으로 설명할 수 있을 정도로 정리해야 한다.
상관분석과 회귀분석의 차이
상관과 인과를 구분하지 못하면 분석 해석이 쉽게 흔들린다. ADsP에서는 상관계수와 회귀모형의 의미, 활용 목적 차이를 분명히 물어본다.
댓글을 불러오는 중입니다.