상관관계란? – 연관은 있어도 인과는 아닐 수 있습니다 (통계학 기초, ADSP)
아이스크림 판매량이 늘어나면 익사 사고도 늘어난다? 두 데이터가 함께 움직인다고 해서 하나는 다른 하나의 원인일까요? 상관관계는 우리에게 중요한 통찰을 주지만, 때로는 위험한 착각을 불러올 수도 있어요.
안녕하세요, 문노베입니다. 데이터 분석을 하다 보면 ‘이 둘은 관련이 있어 보인다’는 감각이 자주 찾아옵니다.
실제로도 통계에서는 상관관계(Correlation)라는 개념으로 두 변수 간의 관계를 수치로 표현하죠.
하지만 여기에는 하나의 함정이 숨어 있어요. 바로 ‘상관 = 인과’로 오해하는 순간입니다.
이번 편에서는 상관관계의 개념부터 시작해, 잘못된 인과 추론을 피하는 법, 그리고 실제 분석과 AI에서 상관관계를 어떻게 활용하고 조심해야 하는지를 함께 알아볼게요.
목차
상관관계란? – 두 변수의 함께 움직임
상관관계(Correlation)는 두 변수 간의 ‘함께 움직이는 정도’를 말해요.
하나는 오를 때 다른 것도 같이 오르거나, 하나가 내려갈 때 다른 것도 따라 내려가면 그 사이에는 ‘관계’가 있다고 판단할 수 있죠.
예를 들어 키와 몸무게는 대체로 같이 증가하는 경향이 있어요.
이런 경우를 양의 상관관계(positive correlation)라고 부릅니다.
반대로 커피 소비량이 늘어날수록 잠자는 시간이 줄어든다면 음의 상관관계(negative correlation)라고 하죠.
상관계수 해석법 – 얼마나 함께 움직이는가?
상관계수(Correlation coefficient)는 -1에서 +1 사이의 값으로 표현되며, 두 변수 간 관계의 방향과 강도를 수치로 나타냅니다.
상관계수 범위 | 해석 |
---|---|
+1 | 완벽한 양의 상관관계 (둘이 완전히 같은 방향으로 움직임) |
0 | 상관 없음 (서로 무관한 관계) |
-1 | 완벽한 음의 상관관계 (한쪽이 오를 때 다른 쪽은 완전히 반대로 움직임) |
일반적으로 ±0.7 이상이면 강한 상관, ±0.3 정도는 약한 상관으로 해석합니다.
하지만! 상관계수가 높다고 해서 꼭 인과가 있다는 건 아니에요. 이건 다음 섹션에서 꼭 짚고 넘어갈게요.
상관은 인과가 아니다 – 착각의 사례들
상관관계가 있다고 해서, 반드시 원인과 결과가 있는 것은 아닙니다. 하지만 우리는 자주 이 둘을 혼동하곤 해요.
상관은 단지 같이 움직일 뿐, 왜 움직이는지는 말해주지 않거든요.
가장 유명한 사례 중 하나는 바로 이것이죠.
상관계수는 꽤 높습니다. 하지만 아이스크림을 많이 먹는다고 익사 사고가 늘어날까요?
→ 공통 원인인 ‘더위’가 두 변수 모두에 영향을 준 것입니다.
이처럼 상관관계에는 다음 3가지 관계 유형이 숨겨져 있을 수 있어요:
- 진짜 인과관계: A가 B에 직접 영향을 주는 경우
- 공통 원인: A와 B 모두에 영향을 주는 제3의 요인이 존재
- 우연한 상관: 단순히 우연히 함께 움직이는 경우
상관을 본 후에는 항상 질문해야 해요. “이건 왜 함께 움직일까?”, “혹시 제3의 요인이 있을까?” 이 질문이 바로 데이터를 해석하는 힘이 됩니다.
2025.03.27 - [자격증 정복기/ADSP - 데이터분석준전문가] - 왜도와 첨도란? – 데이터가 왜곡되는 이유 (통계학 기초, ADSP)
왜도와 첨도란? – 데이터가 왜곡되는 이유 (통계학 기초, ADSP)
왜도와 첨도란? – 데이터가 왜곡되는 이유 (통계학 기초, ADSP)같은 평균인데 왜 이렇게 체감이 다르지? 데이터를 보고도 ‘어딘가 이상한데…’라는 기분이 들었다면, 바로 오늘의 주제인 왜도(
nobe-moon.tistory.com
피어슨과 스피어만 – 어떤 상관계수를 써야 할까?
상관관계에는 두 가지 주요한 측정 방식이 있어요. 바로 피어슨(Pearson) 상관계수와 스피어만(Spearman) 상관계수입니다.
두 지표 모두 ‘서로 얼마나 같이 움직이냐’를 측정하지만, 전제 조건과 해석 방식이 다르죠.
구분 | 피어슨 상관계수 | 스피어만 상관계수 |
---|---|---|
전제 조건 | 두 변수 모두 연속형, 정규분포에 가까울 것 | 순위형 데이터나 이상치 존재 가능성 |
해석 방식 | 선형 관계(linear relationship) | 단조 관계(monotonic relationship) |
이상치에 대한 민감도 | 매우 민감 | 덜 민감 |
데이터 형태 | 연속적 수치형 데이터 | 순서만 의미 있는 순위형 데이터 |
한 줄 요약: 📌 피어슨은 정규분포 + 선형관계일 때 📌 스피어만은 순위형 + 이상치가 많을 때 → 데이터의 특성에 따라 적절한 상관계수를 선택하는 게 핵심이에요!
🎯 ADSP 실전 팁: 시험에서는 주어진 데이터의 ‘분포’, ‘변수 형태’, ‘이상치 여부’를 보고 “어떤 상관계수를 써야 할까요?”라는 문제가 자주 출제돼요. 실무에서도 반드시 짚고 넘어가야 하는 핵심 포인트입니다!
AI는 상관관계를 어떻게 활용할까?
머신러닝이나 통계 모델링의 초반 단계에서는 변수 간 상관관계를 분석해요. 이유는 간단해요.
예측에 도움이 되는 ‘패턴’을 찾기 위한 사전 탐색 과정이기 때문이죠.
예를 들어, 고객의 이탈 여부를 예측하는 모델을 만든다고 해볼게요.
여기서 고객 나이와 이탈률이 높은 상관을 보였다면, 이 변수는 예측에 유용할 수 있어요.
하지만! 나이가 많다고 해서 무조건 이탈하는 건 아니죠? 이건 인과가 아니라 상관일 뿐이니까요.
- ✅ 상관관계: 예측에 유용한 힌트 제공
- ⚠️ 인과관계 아님: 잘못된 정책 결정에 주의
- 🧠 모델 학습: 상관관계 기반으로도 충분히 작동하지만, 해석은 별개!
정책, 전략, 의사결정에는 언제나 ‘인과’에 가까운 해석이 필요해요.
AI 모델은 도구일 뿐, 해석은 결국 사람의 몫이라는 걸 잊지 말아야 합니다.
실전 예제 – 상관관계만 보고 판단하면?
📘 문제: 회사 마케팅팀이 “고객이 홈페이지에서 머문 시간이 늘어날수록 구매율도 높아진다”는 분석 결과를 보고 ‘페이지 체류시간을 늘리는 캠페인’을 진행했습니다.
그런데 실제로 구매율은 오히려 떨어졌습니다. 왜일까요?
✏️ 풀이: 페이지에 오래 머무른 건 ‘고민이 많아서’, ‘찾는 정보가 없어서’일 수도 있어요.
즉, 체류시간과 구매율 사이의 상관은 있었지만 인과는 아니었던 것! 이런 오류는 현실에서 정말 자주 발생해요.
데이터 분석을 하다 보면 눈에 띄는 상관관계가 자주 보입니다.
하지만 그럴수록 더 조심해야 해요. 그게 정말 원인인지, 아니면 우연히 같이 움직인 것인지를 구분하지 않으면, 멋진 분석도 엉뚱한 해석이 되기 때문이죠.
상관은 통계의 힌트일 뿐, 인과는 직접 검증해야 하는 영역입니다.
이 차이를 명확히 이해하고 나면, 분석이 훨씬 입체적으로, 그리고 책임감 있게 보이기 시작할 거예요.
2025.03.28 - [자격증 정복기/ADSP - 데이터분석준전문가] - 산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)
산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)
산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)"평균은 같은데, 왜 이렇게 다르지?" 이런 생각이 들었다면, 당신은 이미 통계의 핵심 감각을 가진 겁니다. 답은 바
nobe-moon.tistory.com
'자격증 정복기 > ADSP - 데이터분석준전문가' 카테고리의 다른 글
회귀분석 실전 – 결정계수(R²)와 다중회귀 이해하기(통계학 기초, ADSP) (0) | 2025.04.23 |
---|---|
회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP) (0) | 2025.04.17 |
산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP) (0) | 2025.03.29 |
왜도와 첨도란? – 데이터가 왜곡되는 이유 (통계학 기초, ADSP) (0) | 2025.03.28 |
정규분포란? – 통계학에서 가장 중요한 곡선, AI는 여기서 시작된다 (통계학 기초, ADSP) (0) | 2025.03.27 |
댓글