데이터 분석 · 통계와 검정

기술 통계의 핵심: 평균, 중앙값, 분산, 왜도

기술 통계는 데이터를 요약하는 가장 기본적인 언어다. ADsP에서는 수식 암기보다 각 지표가 언제 유용한지를 이해하는 문제가 더 중요하다.

기술 통계의 핵심: 평균, 중앙값, 분산, 왜도 대표 이미지

이 글에서 꼭 잡아야 할 것

기술 통계는 데이터를 요약하는 가장 기본적인 언어다. ADsP에서는 수식 암기보다 각 지표가 언제 유용한지를 이해하는 문제가 더 중요하다.

기술 통계는 통계 파트의 출발점이지만 실무에서도 가장 많이 쓰인다. 평균만 보고 데이터 특성을 판단하면 쉽게 왜곡될 수 있기 때문에, 중앙값과 산포도, 분포 형태를 함께 보는 습관이 중요하다. ADsP도 이 지점을 이론형과 계산형으로 반복해서 다룬다.

난이도 초급
모듈 통계와 검정
학습 시간 10분
핵심 키워드 Mean, Median, Variance

개념 지도와 이해 포인트

대표값 평균은 전체 값을 반영하지만 이상치에 민감하다. 중앙값은 극단값이 있을 때 더 안정적일 수 있다.
산포도 분산과 표준편차는 값이 얼마나 퍼져 있는지 보여 준다. 평균만 보면 놓치는 변동성을 함께 설명해 준다.
분포 모양 왜도와 첨도는 분포의 비대칭성과 뾰족함을 설명한다. 시험에서는 개념 비교형으로 자주 등장한다.
기술 통계의 핵심: 평균, 중앙값, 분산, 왜도 개념 다이어그램

대표 문법 패턴

import pandas as pd

s = pd.Series([12, 13, 14, 15, 60])
print("평균:", s.mean())
print("중앙값:", s.median())
print("분산:", s.var())

문법 읽는 포인트

  • 이상치가 있으면 평균보다 중앙값이 더 안정적일 수 있다.
  • 산포도는 평균과 함께 봐야 의미가 생긴다.
  • 왜도는 분포의 방향성을, 첨도는 뾰족함을 보여 준다.

핵심 용어

  • Mean
  • Median
  • Variance

대표값 비교로 이상치 감각 익히기

작은 예시를 직접 계산해 보면 이상치가 평균에 얼마나 큰 영향을 주는지 바로 체감할 수 있다. 시험에서도 이런 감각형 문제가 자주 나온다.

data = [18, 19, 20, 21, 85]
mean_value = sum(data) / len(data)
median_value = sorted(data)[len(data) // 2]
print(mean_value, median_value)

수험 체크포인트와 자주 하는 실수

시험 체크포인트

  • 평균과 중앙값 비교 문제는 이상치 여부를 먼저 보자.
  • 분산과 표준편차 차이는 제곱 단위 여부로 기억하면 좋다.
  • 왜도는 좌우 꼬리 방향으로 이해하면 헷갈림이 줄어든다.

자주 하는 실수

  • 평균이 항상 대표값으로 적합하다고 생각하는 실수
  • 표준편차와 분산을 같은 값으로 착각하는 실수
  • 왜도 방향을 반대로 기억하는 실수

연결 학습

기술 통계가 익숙해지면 확률분포와 가설검정도 훨씬 읽기 쉬워진다. 통계 문제는 asdp.sqld.kr에서 짧은 계산형 문항으로 반복하기 좋다.

댓글 0

작성자 이름과 댓글 내용을 입력하면 바로 등록됩니다. 답글은 한 단계까지 지원하고, 댓글은 최대 200자까지 작성할 수 있습니다.

일반 댓글 작성

댓글을 불러오는 중입니다.

같은 카테고리에서 이어서 읽기

지금 읽은 글과 가까운 흐름의 글 5개를 모아 두었습니다. 바로 앞뒤 문맥을 이어서 읽고 싶을 때 가장 편합니다.