왜도와 첨도란? – 데이터가 왜곡되는 이유 (통계학 기초, ADSP)
같은 평균인데 왜 이렇게 체감이 다르지? 데이터를 보고도 ‘어딘가 이상한데…’라는 기분이 들었다면, 바로 오늘의 주제인 왜도(Skewness)와 첨도(Kurtosis)를 만날 때입니다.
안녕하세요, 문노베입니다. ADSP 시험을 준비하면서 ‘평균과 중앙값만으로 대표값은 충분하지 않다’는 걸 여러 번 느꼈어요.
특히 보고서나 AI 분석 결과에서 뭔가 이상하게 느껴지는 데이터들—그럴 땐 대부분 분포 자체가 비대칭이거나 이상치가 섞여 있었던 경우더라고요.
오늘은 왜도와 첨도라는 개념을 통해, 우리가 숫자 뒤에 숨겨진 진짜 모습을 어떻게 파악할 수 있을지 이야기해보려고 해요.
GPT 같은 AI도 이걸 간과하면 이상한 답을 내놓기도 하거든요 😅
목차
왜도란? – 평균이 끌려가는 방향
왜도(Skewness)는 분포의 비대칭성을 나타내는 지표예요. 정규분포처럼 좌우가 대칭이면 왜도는 0, 오른쪽으로 길게 꼬리가 늘어나면 양의 왜도(> 0), 왼쪽으로 꼬리가 길면 음의 왜도(< 0)입니다.
극단값(Outlier)이 어느 방향에 있느냐에 따라 평균이 끌려가는 방향도 달라지고, 중앙값과 평균 사이의 간격으로도 왜도의 방향을 파악할 수 있어요.
- 📈 평균 > 중앙값 → 양의 왜도 (고액 소득자 등)
- 📉 평균 < 중앙값 → 음의 왜도 (낮은 점수자 등)
첨도란? – 데이터가 몰려 있는 정도
첨도(Kurtosis)는 분포의 ‘뾰족함’ 혹은 ‘꼬리 두께’를 측정해요.
쉽게 말해, 데이터가 얼마나 중심에 몰려 있거나, 극단값이 자주 나오는지를 보는 지표예요.
- 🎯 첨도 = 0: 정규분포와 동일한 분포 (Mesokurtic)
- 🎯 첨도 > 0: 더 뾰족하고 꼬리가 두꺼움 (Leptokurtic)
- 🎯 첨도 < 0: 평평하고 중심 밀집도가 낮음 (Platykurtic)
첨도가 높으면 극단값이 나올 가능성이 크고, 분석 결과에 미치는 영향력도 커집니다.
예를 들어 어떤 광고 캠페인 결과에서 평균 클릭률은 비슷한데 첨도가 높다면, 일부 사용자의 극단적인 반응이 전체 평균을 왜곡하고 있을 수 있죠.
예제로 보는 왜도와 첨도의 차이
📘 예제: 두 회사의 직원 연봉 데이터가 아래와 같다고 해볼게요. 둘 다 평균은 4000만 원이지만 느낌이 전혀 다를 수 있어요.
회사 A | 회사 B |
---|---|
대부분이 4000만 원, 간혹 3900–4100만 원 | 대부분이 2500–3000만 원, 한 명이 2억 원 |
→ 왜도 0, 첨도 낮음 | → 양의 왜도, 첨도 매우 높음 |
두 회사의 평균은 같지만, 분포 구조가 완전히 달라요. 보고서에서 평균만 본다면, 잘못된 판단을 내릴 수 있는 대표적인 사례죠.
왜도·첨도가 AI 분석에 미치는 영향
AI 모델이 데이터를 학습할 때, 극단값(outlier)에 얼마나 민감한지는 결과에 큰 영향을 줍니다.
예를 들어 회귀 분석에서 한두 개의 극단값이 전체 예측을 왜곡시키는 경우도 있어요.
이는 왜도와 첨도에 의해 발생하는 ‘데이터의 비정상성’ 때문이에요.
딥러닝에서도 데이터 분포가 너무 찌그러지거나 뾰족하면 학습이 느려지거나, 모델이 특정 그룹에만 과도하게 적응(Overfitting)하는 문제가 발생할 수 있습니다.
그래서 데이터 전처리 단계에서 분포를 정규화(normalization)하거나, 로그 변환을 통해 왜도·첨도를 조정하기도 하죠.
정규분포와 비교해 시각적으로 파악하기
왜도와 첨도를 수치로 계산할 수도 있지만, 📊 히스토그램, 박스플롯(Boxplot), Q-Q 플롯처럼 시각적 도구를 함께 활용하면 더 쉽게 파악할 수 있어요.
- 📌 히스토그램 → 종 모양이 한쪽으로 찌그러졌다면 왜도
- 📌 박스플롯 → 수염이 길거나 한쪽에 치우쳤다면 왜도
- 📌 Q-Q 플롯 → 정규선에서 멀리 떨어진 점들이 있다면 첨도
정규분포를 기준으로 얼마나 ‘비뚤어졌는가’를 체크하는 감각을 키우면, 단순 수치 이상으로 데이터의 속성과 왜곡 가능성을 예측할 수 있어요.
2025.03.27 - [자격증 정복기/ADSP - 데이터분석준전문가] - 정규분포란? – 통계학에서 가장 중요한 곡선, AI는 여기서 시작된다 (통계학 기초, ADSP)
정규분포란? – 통계학에서 가장 중요한 곡선, AI는 여기서 시작된다 (통계학 기초)
정규분포란? – 통계학에서 가장 중요한 곡선, AI는 여기서 시작된다 (통계학 기초)“대부분의 데이터는 종 모양이다.” 통계를 배우다 보면 마치 국룰처럼 듣게 되는 말이 있어요. 그 중심에 있
nobe-moon.tistory.com
실전 문제 – 평균만 보고 오해하지 마세요!
📘 문제: 다음은 어떤 교육 프로그램의 만족도 조사 결과입니다. 2, 2, 3, 3, 3, 4, 4, 5, 9
평균은 약 4.0입니다.
이 결과는 ‘전반적으로 만족했다’고 해석할 수 있을까요?
✏️ 풀이 포인트: - 평균과 중앙값 차이 → 왜도 존재 여부 - 극단값 ‘9’의 영향 → 첨도 상승 - 실제 응답자의 대부분은 2~4점 사이 → 결과적으로 평균만 보면 ‘왜곡된 낙관적 해석’이 될 수 있어요.
이런 연습을 통해, 단순 수치를 넘어서 데이터의 구조와 방향성까지 이해할 수 있게 돼요. 😊
자주 묻는 질문 (FAQ)
왜도와 첨도를 꼭 계산해야 하나요?
꼭 그런 건 아니지만, 데이터 분포를 빠르게 파악하거나, 정규성 가정을 할 때 매우 유용한 지표입니다. 실무에서 판단 오류를 줄이는 데 도움 됩니다.
왜도가 크면 무조건 이상한 데이터인가요?
꼭 그렇진 않아요. 현실 데이터는 대부분 비대칭적이기 때문에, 왜도는 ‘이상이 아니라 특성’ 일 수 있어요. 다만 그 특성을 이해하지 않으면 해석에 오류가 생깁니다.
첨도 값이 높으면 꼭 나쁜 건가요?
아니요. 높은 첨도는 극단값이 자주 등장한다는 의미일 뿐, 그 자체가 좋거나 나쁜 건 아니에요. 하지만 분석 결과가 ‘일부 데이터에 휘둘릴 가능성’은 높아집니다.
정규분포가 이상적인 형태인가요?
통계 분석에서는 ‘기준점’ 일뿐입니다. 현실 데이터가 꼭 정규분포를 따라야 할 이유는 없어요. 오히려 실제 데이터는 왜도나 첨도를 갖는 경우가 더 많죠.
ADSP 시험에 왜도·첨도 나오나요?
기술통계 파트의 단골 문제예요. 주로 ‘비대칭 분포에서 평균과 중앙값 관계’, ‘극단값이 많을 때 영향’ 등을 묻는 유형으로 출제됩니다.
AI에서 왜도·첨도를 직접 조정할 수 있나요?
데이터 전처리에서 로그 변환, 표준화(Z-score), 이상치 제거 등을 통해 간접적으로 조정할 수 있습니다. 모델 성능 향상에도 도움이 되죠.
통계를 공부하면서 가장 놀라웠던 건, 평균 하나로 모든 걸 설명할 수 없다는 사실이었어요.
보고서에서 '평균 만족도 4.0점'이라고 쓰여 있어도, 그 안에는 9점을 준 소수와 2점을 준 다수가 섞여 있을 수 있다는 걸 깨닫게 됐죠.
왜도와 첨도는 숫자 너머의 진실을 보여주는 힌트입니다.
정규분포라는 기준점에서 얼마나 멀어졌는지를 알려주고, AI 분석에서도, 정책 판단에서도 우리가 놓치고 있는 함정을 짚어줘요.
이제 여러분도 ‘평균’ 뒤에 숨은 데이터의 얼굴을 구분할 수 있길 바라며, 다음 글에서 더 깊은 통계 이야기로 만나요!
2025.03.27 - [자격증 정복기/ADSP - 데이터분석준전문가] - 평균과 중앙값 차이? – 데이터를 해석하는 관점의 차이 (통계학 기초)
평균과 중앙값 차이? – 데이터를 해석하는 관점의 차이 (통계학 기초)
평균과 중앙값 차이? – 데이터를 해석하는 관점의 차이 (통계학 기초)“대한민국의 평균 월소득은 380만 원입니다.” 이 말을 들었을 때, 여러분은 어떤 생각이 드시나요? …그런데 이상하죠. 나
nobe-moon.tistory.com
'자격증 정복기 > ADSP - 데이터분석준전문가' 카테고리의 다른 글
상관관계란? – 연관은 있어도 인과는 아닐 수 있습니다 (통계학 기초, ADSP) (0) | 2025.04.02 |
---|---|
산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP) (0) | 2025.03.29 |
정규분포란? – 통계학에서 가장 중요한 곡선, AI는 여기서 시작된다 (통계학 기초, ADSP) (0) | 2025.03.27 |
평균과 중앙값 차이? – 데이터를 해석하는 관점의 차이 (통계학 기초, ADSP) (0) | 2025.03.27 |
통계학이란? AI와 데이터 분석을 위한 기초 개념 정리 (통계학 기초, ADSP) (0) | 2025.03.26 |
댓글