자격증 정복기/ADSP - 데이터분석준전문가

회귀분석 실전 – 결정계수(R²)와 다중회귀 이해하기(통계학 기초, ADSP)

문노베 2025. 4. 23.

회귀분석 실전 – 결정계수(R²)와 다중회귀 이해하기(통계학 기초, ADSP)

광고비 하나만으로 매출을 예측할 수 있을까요? 그때 필요한 게 바로 결정계수(R²)와 다중회귀분석입니다.

 

회귀분석 실전 – 결정계수(R²)와 다중회귀 이해하기(통계학 기초, ADSP)

 

안녕하세요, 문노베입니다.

 

지난 시간에는 단순선형회귀로 회귀분석의 구조를 익혔어요.

 

이번 편에서는 한발 더 나아가서 ‘회귀모형이 얼마나 잘 맞는지’, ‘변수가 여러 개인 경우는 어떻게 처리할지’에 대해 이야기해볼게요.

 

이제부터는 실무 감각이 더 중요해지는 구간이에요. 수치 하나하나가 모델의 신뢰도, 전략의 방향성과 연결되니까요.

 

2025.04.17 - [자격증 정복기/ADSP - 데이터분석준전문가] - 회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)

 

회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)

회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)"광고비를 10% 늘리면, 매출은 얼마나 오를까?" "공부시간이 늘면 성적도 올라갈까?" 이런 질문들에 숫자로 답하고 싶다면, 회

nobe-moon.tistory.com

 

결정계수란? – 회귀선이 얼마나 잘 맞는가

결정계수(R², Coefficient of Determination)는 회귀선이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표입니다.

 

즉, 모델이 얼마나 잘 맞는가?를 0~1 사이의 숫자로 표현하는 거예요.

 

- R² = 1: 모델이 모든 데이터를 완벽하게 설명

- R² = 0: 모델이 아무것도 설명하지 못함

- R² = 0.75: 전체 변화의 75%를 회귀선이 설명

공식 개념: R² = 1 - (잔차제곱합 / 총제곱합) → 오차가 적을수록 회귀선이 더 정확하다는 의미

문노베 팁: R²이 높다고 무조건 좋은 모델은 아니에요. 복잡한 모델일수록 R²은 올라가기 쉬우니, 해석에 주의!

잔차의 의미 – 예측과 현실의 거리

잔차(residual)실제값(y)과 예측값(ŷ)의 차이입니다.

 

모델이 예측한 값과 현실 값이 얼마나 떨어져 있는지를 보여주는 거죠.

 

잔차가 클수록 모델의 예측이 틀린 거고, 잔차가 작을수록 회귀선이 데이터를 잘 통과하고 있다고 볼 수 있어요.

  • 잔차 = y - ŷ (실제값 - 예측값)
  • 잔차가 0에 가까울수록 예측력이 우수
  • 잔차의 제곱을 모두 더한 값이 ‘잔차제곱합’ → R² 계산에 사용

시각적으로 보면, 잔차는 회귀선과 각 점을 연결하는 세로선이에요.

 

그래프 위에서 잔차가 작게 흩어져 있으면 모델이 꽤 괜찮은 편입니다.

 

잔차(residual)는 실제값(y)과 예측값(ŷ)의 차이입니다.



모델이 예측한 값과 현실 값이 얼마나 떨어져 있는지를 보여주는 거죠.



잔차가 클수록 모델의 예측이 틀린 거고, 잔차가 작을수록 회귀선이 데이터를 잘 통과하고 있다고 볼 수 있어요.

다중회귀분석이란? – 변수가 여러 개인 경우

현실은 단순하지 않죠. 매출은 광고비만이 아니라 방문자 수, 계절, 날씨, 브랜드 인지도 등 다양한 요인의 영향을 받아요.

 

이렇게 두 개 이상의 독립변수로 하나의 종속변수를 예측할 때 사용하는 게 바로 다중회귀분석(Multiple Linear Regression)입니다.

 

수식은 다음과 같아요:

y = a₁x₁ + a₂x₂ + ... + aₙxₙ + b + ε
  • x₁, x₂, ..., xₙ: 여러 개의 독립변수
  • a₁, a₂, ..., aₙ: 각각의 회귀계수 (기울기)
  • b: 절편
  • ε: 오차항

문노베 팁: 단순선형회귀는 2차원 평면의 직선, 다중회귀는 3차원 이상 공간의 ‘평면’ 또는 ‘초평면’이라고 생각하면 좋아요.

 

이렇게 두 개 이상의 독립변수로 하나의 종속변수를 예측할 때 사용하는 게 바로 다중회귀분석(Multiple Linear Regression)입니다.

실전 예제 – 광고비와 방문자 수로 매출 예측

📘 사례: 어떤 온라인 쇼핑몰에서 주간 매출(y)은 광고비(x₁)와 방문자 수(x₂)의 영향을 받는다고 가정해 봅시다.

 

분석 결과 다음과 같은 회귀식이 나왔다면:

y = 2.5x₁ + 1.2x₂ + 300

- 광고비 1단위 증가 시 매출 2.5만 원 증가

- 방문자 수 1단위 증가 시 매출 1.2만 원 증가

- 광고 안 하고 방문자도 없을 때 기본 매출은 300만 원

 

 

이렇게 해석하면 각 변수의 독립적인 영향력기여도를 파악할 수 있어요.

 

다중회귀는 특히 마케팅, 재무, 운영 등에서 핵심 도구로 자주 사용됩니다.

다중공선성이란? – 변수끼리 너무 닮았다면

다중회귀분석에서 조심해야 할 함정 중 하나가 바로 다중공선성(Multicollinearity)입니다.

 

이건 독립변수들끼리 서로 너무 높은 상관관계를 가질 때 발생하는 문제예요.

 

예를 들어 ‘광고비’와 ‘SNS 캠페인비’가 거의 비슷한 전략에서 동시에 증가한다면, 모델은 이 둘을 ‘독립적인 변수’로 보지 못해 계산이 불안정해집니다.

  • 📉 회귀계수가 갑자기 마이너스가 되거나,
  • 📉 변수 중요도가 왜곡되거나,
  • 📉 R²는 높은데 각 변수의 p값은 유의하지 않을 수 있음

다중회귀분석에서 조심해야 할 함정 중 하나가 바로 다중공선성(Multicollinearity)입니다.



이건 독립변수들끼리 서로 너무 높은 상관관계를 가질 때 발생하는 문제예요.



예를 들어 ‘광고비’와 ‘SNS 캠페인비’가 거의 비슷한 전략에서 동시에 증가한다면, 모델은 이 둘을 ‘독립적인 변수’로 보지 못해 계산이 불안정해집니다.

 

진단 방법:

- 상관계수 행렬 확인: 독립변수 간 상관계수가 0.8 이상이면 의심

- VIF (Variance Inflation Factor): 10 이상이면 다중공선성 의심

 

해결 방법:

- 변수 중 하나 제거하거나

- 변수들을 묶어 새로운 지표로 만들기 (예: PCA)

- 정규화 회귀 사용 (Ridge, Lasso 등 → 다음 편에서 다룸!)

 

문노베 한 줄 정리: 다중회귀는 똑똑한 모델이지만, 변수끼리 너무 닮으면 오히려 바보처럼 헷갈립니다!

회귀모형 해석 실수 피하기

회귀모형을 만들었을 때 많은 사람이 R²가 높으면 끝났다! 고 생각하지만, 정작 중요한 건 각 변수의 해석력과 예측의 의미입니다.

 

예측이 잘 되더라도, 인과가 왜곡되거나, 변수 의미를 오독하면 정책이나 전략이 엉뚱한 방향으로 갈 수도 있어요.

  • 📌 R²는 높지만, 잔차 분포가 엉망일 수 있음
  • 📌 회귀계수의 부호를 기계적으로 해석하면 위험
  • 📌 변수 간 공선성은 반드시 확인
  • 📌 변수 추가로 인한 과적합(overfitting) 주의

회귀는 단순한 예측 도구가 아니라, 데이터를 읽는 ‘시선’이에요. 숫자에 책임감을 더해주는 사고방식이기도 하죠.

 

이번 글에서는 결정계수부터 다중회귀, 다중공선성까지 실무에 꼭 필요한 요소들을 정리해 봤어요.

 

다음 편에서는 회귀분석의 확장 버전 – 릿지(Ridge)와 라쏘(Lasso)를 통해 정규화 회귀와 변수 선택의 기술까지 배워볼 거예요.

 

예측이 아닌 모델링 자체의 구조 설계에 관심이 있다면 절대 놓치지 마세요!

 

2025.03.28 - [자격증 정복기/ADSP - 데이터분석준전문가] - 산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)

 

산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)

산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)"평균은 같은데, 왜 이렇게 다르지?" 이런 생각이 들었다면, 당신은 이미 통계의 핵심 감각을 가진 겁니다. 답은 바

nobe-moon.tistory.com

 

반응형

댓글