회귀분석 실전 – 결정계수(R²)와 다중회귀 이해하기(통계학 기초, ADSP)
광고비 하나만으로 매출을 예측할 수 있을까요? 그때 필요한 게 바로 결정계수(R²)와 다중회귀분석입니다.
안녕하세요, 문노베입니다.
지난 시간에는 단순선형회귀로 회귀분석의 구조를 익혔어요.
이번 편에서는 한발 더 나아가서 ‘회귀모형이 얼마나 잘 맞는지’, ‘변수가 여러 개인 경우는 어떻게 처리할지’에 대해 이야기해볼게요.
이제부터는 실무 감각이 더 중요해지는 구간이에요. 수치 하나하나가 모델의 신뢰도, 전략의 방향성과 연결되니까요.
2025.04.17 - [자격증 정복기/ADSP - 데이터분석준전문가] - 회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)
회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)
회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)"광고비를 10% 늘리면, 매출은 얼마나 오를까?" "공부시간이 늘면 성적도 올라갈까?" 이런 질문들에 숫자로 답하고 싶다면, 회
nobe-moon.tistory.com
목차
결정계수란? – 회귀선이 얼마나 잘 맞는가
결정계수(R², Coefficient of Determination)는 회귀선이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표입니다.
즉, 모델이 얼마나 잘 맞는가?를 0~1 사이의 숫자로 표현하는 거예요.
- R² = 1: 모델이 모든 데이터를 완벽하게 설명
- R² = 0: 모델이 아무것도 설명하지 못함
- R² = 0.75: 전체 변화의 75%를 회귀선이 설명
문노베 팁: R²이 높다고 무조건 좋은 모델은 아니에요. 복잡한 모델일수록 R²은 올라가기 쉬우니, 해석에 주의!
잔차의 의미 – 예측과 현실의 거리
잔차(residual)는 실제값(y)과 예측값(ŷ)의 차이입니다.
모델이 예측한 값과 현실 값이 얼마나 떨어져 있는지를 보여주는 거죠.
잔차가 클수록 모델의 예측이 틀린 거고, 잔차가 작을수록 회귀선이 데이터를 잘 통과하고 있다고 볼 수 있어요.
- 잔차 = y - ŷ (실제값 - 예측값)
- 잔차가 0에 가까울수록 예측력이 우수
- 잔차의 제곱을 모두 더한 값이 ‘잔차제곱합’ → R² 계산에 사용
시각적으로 보면, 잔차는 회귀선과 각 점을 연결하는 세로선이에요.
그래프 위에서 잔차가 작게 흩어져 있으면 모델이 꽤 괜찮은 편입니다.
다중회귀분석이란? – 변수가 여러 개인 경우
현실은 단순하지 않죠. 매출은 광고비만이 아니라 방문자 수, 계절, 날씨, 브랜드 인지도 등 다양한 요인의 영향을 받아요.
이렇게 두 개 이상의 독립변수로 하나의 종속변수를 예측할 때 사용하는 게 바로 다중회귀분석(Multiple Linear Regression)입니다.
수식은 다음과 같아요:
- x₁, x₂, ..., xₙ: 여러 개의 독립변수
- a₁, a₂, ..., aₙ: 각각의 회귀계수 (기울기)
- b: 절편
- ε: 오차항
문노베 팁: 단순선형회귀는 2차원 평면의 직선, 다중회귀는 3차원 이상 공간의 ‘평면’ 또는 ‘초평면’이라고 생각하면 좋아요.
실전 예제 – 광고비와 방문자 수로 매출 예측
📘 사례: 어떤 온라인 쇼핑몰에서 주간 매출(y)은 광고비(x₁)와 방문자 수(x₂)의 영향을 받는다고 가정해 봅시다.
분석 결과 다음과 같은 회귀식이 나왔다면:
- 광고비 1단위 증가 시 매출 2.5만 원 증가
- 방문자 수 1단위 증가 시 매출 1.2만 원 증가
- 광고 안 하고 방문자도 없을 때 기본 매출은 300만 원
이렇게 해석하면 각 변수의 독립적인 영향력과 기여도를 파악할 수 있어요.
다중회귀는 특히 마케팅, 재무, 운영 등에서 핵심 도구로 자주 사용됩니다.
다중공선성이란? – 변수끼리 너무 닮았다면
다중회귀분석에서 조심해야 할 함정 중 하나가 바로 다중공선성(Multicollinearity)입니다.
이건 독립변수들끼리 서로 너무 높은 상관관계를 가질 때 발생하는 문제예요.
예를 들어 ‘광고비’와 ‘SNS 캠페인비’가 거의 비슷한 전략에서 동시에 증가한다면, 모델은 이 둘을 ‘독립적인 변수’로 보지 못해 계산이 불안정해집니다.
- 📉 회귀계수가 갑자기 마이너스가 되거나,
- 📉 변수 중요도가 왜곡되거나,
- 📉 R²는 높은데 각 변수의 p값은 유의하지 않을 수 있음
진단 방법:
- 상관계수 행렬 확인: 독립변수 간 상관계수가 0.8 이상이면 의심
- VIF (Variance Inflation Factor): 10 이상이면 다중공선성 의심
해결 방법:
- 변수 중 하나 제거하거나
- 변수들을 묶어 새로운 지표로 만들기 (예: PCA)
- 정규화 회귀 사용 (Ridge, Lasso 등 → 다음 편에서 다룸!)
문노베 한 줄 정리: 다중회귀는 똑똑한 모델이지만, 변수끼리 너무 닮으면 오히려 바보처럼 헷갈립니다!
회귀모형 해석 실수 피하기
회귀모형을 만들었을 때 많은 사람이 R²가 높으면 끝났다! 고 생각하지만, 정작 중요한 건 각 변수의 해석력과 예측의 의미입니다.
예측이 잘 되더라도, 인과가 왜곡되거나, 변수 의미를 오독하면 정책이나 전략이 엉뚱한 방향으로 갈 수도 있어요.
- 📌 R²는 높지만, 잔차 분포가 엉망일 수 있음
- 📌 회귀계수의 부호를 기계적으로 해석하면 위험
- 📌 변수 간 공선성은 반드시 확인
- 📌 변수 추가로 인한 과적합(overfitting) 주의
회귀는 단순한 예측 도구가 아니라, 데이터를 읽는 ‘시선’이에요. 숫자에 책임감을 더해주는 사고방식이기도 하죠.
이번 글에서는 결정계수부터 다중회귀, 다중공선성까지 실무에 꼭 필요한 요소들을 정리해 봤어요.
다음 편에서는 회귀분석의 확장 버전 – 릿지(Ridge)와 라쏘(Lasso)를 통해 정규화 회귀와 변수 선택의 기술까지 배워볼 거예요.
예측이 아닌 모델링 자체의 구조 설계에 관심이 있다면 절대 놓치지 마세요!
2025.03.28 - [자격증 정복기/ADSP - 데이터분석준전문가] - 산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)
산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)
산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)"평균은 같은데, 왜 이렇게 다르지?" 이런 생각이 들었다면, 당신은 이미 통계의 핵심 감각을 가진 겁니다. 답은 바
nobe-moon.tistory.com
'자격증 정복기 > ADSP - 데이터분석준전문가' 카테고리의 다른 글
교차검증이란? – 과적합을 피하고 회귀모델을 선택하는 기술 (통계학기초, ADSP 독학) (0) | 2025.04.29 |
---|---|
회귀분석의 확장 – 릿지와 라쏘, 그리고 변수 선택의 기술 (통계학 기초, ADSP 독학) (0) | 2025.04.23 |
회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP) (0) | 2025.04.17 |
상관관계란? – 연관은 있어도 인과는 아닐 수 있습니다 (통계학 기초, ADSP) (0) | 2025.04.02 |
산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP) (0) | 2025.03.29 |
댓글