이 글에서 꼭 잡아야 할 것
기술 통계는 데이터를 요약하는 가장 기본적인 언어다. ADsP에서는 수식 암기보다 각 지표가 언제 유용한지를 이해하는 문제가 더 중요하다.
기술 통계는 통계 파트의 출발점이지만 실무에서도 가장 많이 쓰인다. 평균만 보고 데이터 특성을 판단하면 쉽게 왜곡될 수 있기 때문에, 중앙값과 산포도, 분포 형태를 함께 보는 습관이 중요하다. ADsP도 이 지점을 이론형과 계산형으로 반복해서 다룬다.
개념 지도와 이해 포인트
대표 문법 패턴
import pandas as pd
s = pd.Series([12, 13, 14, 15, 60])
print("평균:", s.mean())
print("중앙값:", s.median())
print("분산:", s.var())
문법 읽는 포인트
- 이상치가 있으면 평균보다 중앙값이 더 안정적일 수 있다.
- 산포도는 평균과 함께 봐야 의미가 생긴다.
- 왜도는 분포의 방향성을, 첨도는 뾰족함을 보여 준다.
핵심 용어
- Mean
- Median
- Variance
대표값 비교로 이상치 감각 익히기
작은 예시를 직접 계산해 보면 이상치가 평균에 얼마나 큰 영향을 주는지 바로 체감할 수 있다. 시험에서도 이런 감각형 문제가 자주 나온다.
data = [18, 19, 20, 21, 85]
mean_value = sum(data) / len(data)
median_value = sorted(data)[len(data) // 2]
print(mean_value, median_value)
수험 체크포인트와 자주 하는 실수
시험 체크포인트
- 평균과 중앙값 비교 문제는 이상치 여부를 먼저 보자.
- 분산과 표준편차 차이는 제곱 단위 여부로 기억하면 좋다.
- 왜도는 좌우 꼬리 방향으로 이해하면 헷갈림이 줄어든다.
자주 하는 실수
- 평균이 항상 대표값으로 적합하다고 생각하는 실수
- 표준편차와 분산을 같은 값으로 착각하는 실수
- 왜도 방향을 반대로 기억하는 실수
연결 학습
기술 통계가 익숙해지면 확률분포와 가설검정도 훨씬 읽기 쉬워진다. 통계 문제는 asdp.sqld.kr에서 짧은 계산형 문항으로 반복하기 좋다.
댓글 0
작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.
같은 카테고리에서 이어서 읽기
지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.
분석 과제 도출과 우선순위 평가
아이디어가 많다고 좋은 기획이 되는 것은 아니다. 효과와 난이도, 데이터 확보 가능성을 기준으로 과제를 고르고 우선순위를 정하는 과정이 필요하다.
CRISP-DM과 데이터 분석 방법론
방법론은 형식이 아니라 팀의 사고 순서를 맞추는 도구다. ADsP에서 가장 자주 등장하는 CRISP-DM과 KDD 흐름을 비교하며 정리한다.
데이터 수집 전략과 표본 추출
좋은 분석은 좋은 데이터에서 시작한다. 어떤 데이터를, 어떤 방식으로, 얼마나 수집할지 정하는 일은 기획과 통계가 만나는 핵심 구간이다.
확률분포와 중심극한정리 이해하기
정규분포, 이항분포, 포아송분포처럼 이름이 많은 파트지만, 핵심은 언제 어떤 분포를 쓰는지 구분하는 감각이다. 중심극한정리는 그 연결을 잡아 주는 핵심 개념이다.
가설검정, 유의수준, p-value 한 번에 정리
가설검정은 통계 파트에서 가장 많이 헷갈리는 주제다. 귀무가설과 대립가설, 유의수준과 p-value 관계를 문장으로 설명할 수 있을 정도로 정리해야 한다.
댓글을 불러오는 중입니다.