자격증 정복기/ADSP - 데이터분석준전문가

회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)

문노베 2025. 4. 17.

회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)

"광고비를 10% 늘리면, 매출은 얼마나 오를까?" "공부시간이 늘면 성적도 올라갈까?" 이런 질문들에 숫자로 답하고 싶다면, 회귀분석이 딱이에요. 두 변수 사이의 관계를 직선 하나로 설명하고 예측까지 가능하게 해주는 강력한 도구, 그게 바로 회귀분석입니다.

 

회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP) / 단순선형회귀, 독립변수, 종속변수, 회귀계수

 

안녕하세요, 문노베입니다 :) 오늘부터 3편에 걸쳐 회귀분석(Regression Analysis)을 깊이 있게 다뤄보려 해요.

 

저도 ADSP 공부를 하면서 회귀가 처음엔 너무 수식 같고 어렵게 느껴졌지만, 개념만 잡고 나니 오히려 데이터 해석의 중심축이 되더라고요!

 

이 첫 번째 글에서는 ‘회귀분석이란 무엇인가’부터 시작해서, 단순선형회귀의 구조와 기본적인 용어(독립변수·종속변수, 회귀계수, 절편 등)를 익혀볼게요.

 

다음 글로 넘어가기 전에, 이 기본을 확실히 잡는 게 가장 중요합니다!

회귀분석이란? – 상관보다 한발 더 나아간 관계

회귀분석(Regression Analysis)은 두 변수 사이의 관계를 '수식'으로 표현해서, 하나의 값을 입력했을 때 다른 값을 예측할 수 있게 만들어주는 통계 기법이에요.

 

상관관계가 "함께 움직인다"를 말해줬다면, 회귀는 "이만큼 움직이면 저만큼 따라간다"는 예측 가능성을 열어줍니다.

 

예를 들어, 광고비를 100만 원 더 쓰면 매출이 300만 원 늘어난다? 이런 분석이 바로 회귀의 역할이에요.

 

수치를 기반으로 한 전략, 정책, 추천 시스템을 설계하려면 반드시 거쳐야 할 관문이죠.

 

회귀분석(Regression Analysis)은 두 변수 사이의 관계를 '수식'으로 표현해서, 하나의 값을 입력했을 때 다른 값을 예측할 수 있게 만들어주는 통계 기법

 

2025.03.28 - [자격증 정복기/ADSP - 데이터분석준전문가] - 산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)

 

산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)

산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP)"평균은 같은데, 왜 이렇게 다르지?" 이런 생각이 들었다면, 당신은 이미 통계의 핵심 감각을 가진 겁니다. 답은 바

nobe-moon.tistory.com

 

종속변수와 독립변수 – 입력과 결과를 구분하기

회귀분석에서 가장 먼저 해야 할 일은 '무엇이 원인이고, 무엇이 결과인지'를 구분하는 거예요.

  • 독립변수 (Independent Variable): 원인, 입력값, 설명변수
  • 종속변수 (Dependent Variable): 결과, 출력값, 반응변수

📘 예시로 볼게요:

  • 🧠 공부 시간(독립변수) → 📈 시험 성적(종속변수)
  • 💸 광고비(독립변수) → 🛍 매출(종속변수)
  • 👶 아동 수면 시간(독립변수) → 🧘‍♀️ 부모 스트레스 수준(종속변수)

팁: 현실에서는 종속과 독립을 구분하기 어려울 때도 있어요. 실험이 아니라면 '해석'에 주의해야 해요. 회귀는 인과를 보장하지 않습니다!

 

반응형

단순선형회귀의 구조 – y = ax + b

단순선형회귀(Simple Linear Regression)는 가장 기본적인 회귀모형이에요. 변수 하나(x)가 변수 하나(y)에 미치는 영향을 직선으로 표현합니다.

수식은 이렇게 생겼죠:

y = ax + b
  • y: 종속변수 (결과)
  • x: 독립변수 (원인)
  • a: 기울기(회귀계수, 얼마나 영향 주는지)
  • b: 절편 (x=0일 때 y의 값)

이어서 이 수식 속의 요소들 – 회귀계수, 절편, 오차항을 더 깊이 있게 설명할게요. 그리고 공부 시간 vs 성적 예제로 직접 회귀선을 그려보는 연습도 함께 해볼 겁니다 😊

회귀계수, 절편, 오차항 – 숫자 속 의미 찾기

우리가 봤던 단순한 수식 y = ax + b 안에도 통계적으로 매우 중요한 개념이 숨어 있어요. 하나씩 정리해볼게요.

요소 의미
a (기울기, 회귀계수) x가 1 증가할 때 y가 얼마나 변하는지 보여줌
b (절편) x가 0일 때 y의 예상값 (기준점)
ε (오차항) 실제 관측값과 예측값 사이의 차이 (노이즈)

오차항 ε는 보통 생략되지만, 실제 모델은 y = ax + b + ε로 이해하는 게 정확해요. 현실은 언제나 완벽한 직선이 아니니까요 😊

 

단순선형회귀 구조: y=ax+b / 회귀계수, 절편, 오차항 – 숫자 속 의미 찾기

실제 사례 – 공부시간과 시험 성적의 관계

이제 실제 데이터로 회귀선을 시각화해볼게요. 가상의 5명의 학생 데이터를 보며 직관을 익혀볼 수 있어요.

  • 공부시간(x): [1, 2, 3, 4, 5]
  • 시험성적(y): [50, 55, 65, 70, 80]

엑셀이나 파이썬에서 회귀선을 그려보면 대략 이런 모습이 나옵니다 👇

(✏️ 해당 이미지/코드 시각화는 별도 포스팅 또는 예제로 연결 가능!)

회귀선의 해석: 공부시간이 1시간 늘 때마다 성적은 약 7.5점 오르는 추세. → 기울기 a = 7.5, 절편 b = 42.5 정도로 추정 가능

 

정리 및 실전 예제 – 회귀선 직접 읽어보기

📘 문제: 어느 피트니스 센터에서 ‘주간 운동 시간(x)’과 ‘체중 감량량(y)’을 조사했어요. y = –0.8x + 3.6 이라고 할 때,

  • Q1. 운동을 4시간 하면 평균 몇 kg 빠질까요?
  • Q2. y 절편은 어떤 의미일까요?

✏️ A1. –0.8×4 + 3.6 = 0.4 → 평균 0.4kg 감량 ✏️ A2. 절편 3.6은 ‘운동을 전혀 하지 않았을 때’ 평균 감량량을 의미

자주 묻는 질문 (FAQ)

회귀분석은 상관관계와 뭐가 다른가요?

상관은 단순히 두 변수 간의 '함께 움직임'을 나타내지만, 회귀는 '하나의 변화가 다른 변수에 얼마나 영향을 주는지'를 수치로 예측합니다.

기울기와 절편은 어떤 의미인가요?

기울기(a)는 독립변수가 1 증가할 때 종속변수가 얼마나 변화하는지를 나타내고, 절편(b)은 독립변수가 0일 때 종속변수의 예측값입니다.

단순선형회귀는 언제 쓰면 되나요?

독립변수가 1개일 때, 종속변수와의 선형적인 관계를 파악하고 싶을 때 사용합니다. 예: 공부시간 → 성적

오차항은 왜 중요한가요?

오차항은 모델이 설명하지 못하는 ‘노이즈’입니다. 현실 데이터에는 항상 완벽하지 않은 부분이 있고, 그걸 감안해서 모델을 만들어야 합니다.

회귀모형은 예측만 하나요, 해석도 가능한가요?

예측과 해석 둘 다 가능합니다. 특히 단순선형회귀는 '왜 그런 결과가 나왔는지'를 설명하는 데 유용해서 실무에서 자주 사용됩니다.

ADSP 시험에서 회귀분석은 어떻게 출제돼요?

주로 기울기, 절편, 오차항의 해석이나 회귀선의 해석, 잔차 개념을 묻는 문제가 출제됩니다. 수식을 정확히 이해하고 있어야 해요.

 

처음 회귀분석을 배울 때는 그저 ‘직선 하나 그리는 계산’처럼 느껴졌어요.

 

그런데 시간이 지나면서, 이 선 하나가 현실을 예측하고 해석하는 도구라는 걸 깨달았죠.

 

숫자를 통한 통찰이란, 그냥 공식이 아니라 세상을 바라보는 방법이기도 합니다.

 

이번 편에서 다룬 단순선형회귀는 회귀분석의 ‘입구’일 뿐이에요.

 

다음 편에서는 결정계수(R²), 잔차, 다중회귀분석을 통해 회귀분석을 어떻게 실전에서 활용하고 해석하는지 더 깊이 들어가볼게요.

 

예측에서 끝나지 않고, 의미까지 읽는 힘을 함께 키워봅시다 😊

 

 

반응형

댓글