회귀분석의 확장 – 릿지와 라쏘, 그리고 변수 선택의 기술 (통계학 기초, ADSP 독학)
변수가 많아지면 모델이 똑똑해질까요? 사실은 정반대입니다. 너무 많은 변수는 예측력을 떨어뜨리고, 해석을 혼란스럽게 만듭니다. 그래서 등장한 게 릿지(Ridge), 라쏘(Lasso) 같은 정규화 회귀 기법이에요.
안녕하세요, 문노베입니다.
이번 편에서는 회귀모형을 더욱 정교하게 다듬는 방법, 즉 변수가 너무 많을 때 모델을 간결하게 유지하는 전략을 다뤄볼 거예요.
실무와 머신러닝 모두에서 꼭 알아야 할 기법들이죠!
목차
변수가 많을수록 생기는 문제 – 과적합과 해석 불가
처음엔 변수를 더 넣을수록 예측이 잘 될 거라 생각했어요.
하지만 실무에서는 오히려 모델이 너무 민감해지고, 예측은 높지만 실제 적용에선 엉뚱한 결과가 나올 때가 많더라고요.
이걸 과적합(Overfitting)이라고 합니다.
훈련 데이터에만 지나치게 맞춘 나머지, 새로운 데이터엔 약한 모델이 되어버리는 거죠.
여기에다 변수가 너무 많으면 해석도 어렵고, 회귀계수가 왜곡되기도 해요.
정규화 회귀란? – 패널티를 통해 모델을 단순하게
정규화 회귀(Regularization)는 모델이 너무 복잡해지지 않도록 제약을 거는 기술이에요.
복잡도를 줄이면서도 예측력을 유지하려는 전략이죠.
이런 정규화 기법은 보통 손실함수에 '패널티 항'을 추가해서 이루어져요.
기존 오차 외에 회귀계수 크기에 따라 벌점을 주는 거예요.
- 릿지(Ridge): 회귀계수들의 제곱합을 페널티로 추가
- 라쏘(Lasso): 회귀계수들의 절댓값 합을 패널티로 추가
릿지 회귀 – 변수는 유지, 영향력을 줄인다
릿지 회귀(Ridge Regression)는 회귀계수들의 크기를 줄이는 방식으로 과적합을 막아요.
변수는 모두 유지하면서, 덜 중요한 변수의 영향력을 최소화하죠.
이 방법은 특히 변수가 많고 다중공선성이 존재할 때 유용해요. 모든 변수의 정보를 남겨두되, 과도한 영향력을 억제하는 느낌이죠.
릿지 회귀는 마치 모델에게 이렇게 말하는 것 같아요.
“모든 변수를 써도 좋아. 하지만 너무 센 변수는 조용히 해줄래?”
일반적인 다중회귀에서는 변수 간의 상관관계가 높을수록(다중공선성), 계수 해석이 꼬이고, 과적합 위험이 커집니다.
하지만 릿지는 회귀계수에 벌점을 부여해서, 덜 중요한 변수의 계수를 자연스럽게 줄여요.
기억하세요. 릿지는 ‘모든 변수를 살려두되, 영향력을 억제’하는 방식입니다.
변수가 많고, 버릴 수 없는 상황이라면 릿지가 훌륭한 선택이에요.
2025.04.22 - [자격증 정복기/ADSP - 데이터분석준전문가] - 회귀분석 실전 – 결정계수(R²)와 다중회귀 이해하기(통계학 기초, ADSP)
회귀분석 실전 – 결정계수(R²)와 다중회귀 이해하기(통계학 기초, ADSP)
회귀분석 실전 – 결정계수(R²)와 다중회귀 이해하기(통계학 기초, ADSP)광고비 하나만으로 매출을 예측할 수 있을까요? 그때 필요한 게 바로 결정계수(R²)와 다중회귀분석입니다. 안녕하세요, 문
nobe-moon.tistory.com
라쏘 회귀 – 중요 변수만 남기고 나머진 제거
라쏘 회귀(Lasso Regression)는 계수의 절댓값을 기준으로 패널티를 주기 때문에 덜 중요한 변수의 회귀계수를 0으로 만들어버릴 수 있어요.
즉, 변수 선택 기능(Feature Selection)까지 수행할 수 있다는 장점이 있죠.
이 방법은 모델을 간결하게 하고, 해석 가능성을 높이는 데 특히 유리합니다.
반면 라쏘는 단호해요.
“당신은 별로 중요하지 않으니, 이번 모델에서 빠져줄래요?” 라쏘는 릿지와 달리 회귀계수의 절댓값에 패널티를 부여합니다.
그러면 계수가 0이 되어, 변수 자체가 모델에서 제거될 수 있어요. 이게 바로 라쏘 회귀가 갖는 가장 큰 장점,
변수 선택(Feature Selection) 기능입니다. 라쏘는 모델을 해석하기 쉽게 만들어주고, 과도한 복잡함에서 벗어날 수 있게 해 줘요.
릿지 vs 라쏘 비교 – 언제, 어떤 상황에서 쓸까?
항목 | 릿지 회귀 | 라쏘 회귀 |
---|---|---|
패널티 | 계수의 제곱합 | 계수의 절댓값 합 |
변수 제거 | X (모두 유지) | O (일부 계수 = 0) |
해석력 | 낮음 (모든 변수 있음) | 높음 (불필요한 변수 제거됨) |
- 릿지는 정보 손실을 최소화하면서 안정적인 모델을 만들고 싶을 때
- 라쏘는 ‘중요한 변수만 골라내는’ 게 우선일 때
실제로 실무에서는 둘 다 비교해서 성능을 체크해 보고,
필요하다면 두 방법의 중간 성격을 갖는 ‘엘라스틱넷(Elastic Net)’을 쓰기도 해요.
실전 사례와 팁 – 해석 가능한 모델을 만든다는 것
📘 예시: 한 병원이 환자 1000명의 데이터를 바탕으로 입원 기간을 예측하는 모델을 만들고자 했어요.
초기에는 나이, 체중, 검사 수치 등 25개의 변수로 모델을 구성했지만, 해석이 어려워지고 예측이 불안정해졌죠.
라쏘 회귀를 적용하자 7개의 주요 변수만 남았고, 모델은 훨씬 간결해지면서 해석력도 높아졌습니다.
현실은 복잡하지만, 모델은 단순할수록 강해질 때도 있어요.
릿지와 라쏘는 단순한 예측이 아니라, 현실을 읽어내는 전략적인 회귀모형입니다.
복잡한 데이터를 품위 있게 정리하고 싶은 사람이라면, 이 두 가지는 꼭 익혀야 할 ‘무기’ 예요.
2025.04.17 - [자격증 정복기/ADSP - 데이터분석준전문가] - 회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)
회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)
회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP)"광고비를 10% 늘리면, 매출은 얼마나 오를까?" "공부시간이 늘면 성적도 올라갈까?" 이런 질문들에 숫자로 답하고 싶다면, 회
nobe-moon.tistory.com
'자격증 정복기 > ADSP - 데이터분석준전문가' 카테고리의 다른 글
교차검증이란? – 과적합을 피하고 회귀모델을 선택하는 기술 (통계학기초, ADSP 독학) (0) | 2025.04.29 |
---|---|
회귀분석 실전 – 결정계수(R²)와 다중회귀 이해하기(통계학 기초, ADSP) (0) | 2025.04.23 |
회귀분석이란? – 선으로 예측하는 통계의 출발점 (통계학 기초, ADSP) (0) | 2025.04.17 |
상관관계란? – 연관은 있어도 인과는 아닐 수 있습니다 (통계학 기초, ADSP) (0) | 2025.04.02 |
산포도란? – 분산과 표준편차로 데이터의 흩어짐을 읽는 법 (통계학 기초, ADSP) (0) | 2025.03.29 |
댓글