일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 라플라시안 행렬
- 스펙트럴 클러스터링
- 한계 수입
- distance concentration
- 동치 관계
- k-최근접 이웃
- 케인즈의 십자가
- 핀볼 로스
- 이항관계
- normalized laplacian matrix
- pinball loss
- 총 수요 곡선
- 분위수 회귀
- 부분 순서
- 수입 극대화
- 독점 기업의 수입 극대화
- 소득승수
- 전순서
- 거리 집중
- quantile regression
- 지시함수
- 차원의 저주
- 정규화 라플라시안 행렬
- 동치류
- 미시경제학
- Machine Learning
- Curse of dimensionality
- laplacian matrix
- 수요의 가격탄력성
- spectral clustering
- Today
- Total
데이터 낚시꾼
핀볼 로스(Pinball Loss), 분위수 회귀(Quantile Regression) 본문
핀볼 로스(Pinball Loss), 분위수 회귀(Quantile Regression)
datafisher 2025. 5. 16. 11:01요약
- 평균 예측에 머무르지 않고, 데이터 분포의 다양한 위치를 포착하는 분위수 예측(Quantile Regression) 필요
- 핀볼 로스: 특히 이상치에 강건하고, 리스크와 불확실성의 정량화에 용이
- 핀볼 로스 및 분위수 회귀분석을 통해 예측값의 신뢰 구간을 추정하거나 리스크 중심 모델링 설계 가능
분위수 회귀(Quantile Regression): 주어진 $X$에 대해 조건부 분위수 $q_\tau(Y|X)$ 를 예측
- 예: $\tau = 0.1$이면 10% 분위수 → 하위 10% 경계 예측, $\tau = 0.5$이면 중위수 (median) 등
OLS(Ordinary Least Squares) 회귀와 비교 시 분위수 회귀의 장점: 비대칭 분포에 유연, 예측 불확실성 구간 도출 가능
- 손실 함수(Loss function): MSE vs Pinball loss
- 예측값: 평균 vs 분위수
- 이상치 민감도: 높음 vs 낮음(robust)
- 정보 제공: 단일 중심 vs 분포 전반
활용 예시
- 수요 예측에서 상/하한 신뢰구간
- 금융 리스크: VaR(Value at Risk) 등
- 의료 지표: 성장 곡선, 혈압 범위 등
핀볼 로스(Pinball Loss) 소개
- 정의 및 수식:
$$
\rho_{\tau}(u) =
\begin{cases}
\tau \cdot u = \tau \cdot \lVert u \rVert & \text{if } u \ge 0 \\
(\tau - 1) \cdot u = (1 - \tau) \cdot { \lVert u \rVert } & \text{if } u < 0
\end{cases}
$$
- $\tau$: 예측하고자 하는 분위수 (예: 0.1, 0.5, 0.9 등)
- $u = y - \hat{y}$: 실제값과 예측값의 오차
- 직관적 의미
- 과대 예측 시 $\tau$ 배의 패널티
- 과소 예측 시 $(1 - \tau)$ 배의 패널티
- 오차 방향에 따라 비대칭적으로 적용되는 가중치
- 그래프 형태
- $u = 0$을 기준으로 꺾이는 선형 형태
- $\tau = 0.5$일 때는 절댓값 손실(absolute error)과 동일한 형태
- 참고
- 분위수 값에 따라 기울기와 절편이 변화하는 손실 곡선
- Quantile Loss, Check Function, Tilted Loss 등으로 부르기도 함
- Quantile Loss + Huber Loss => Quantile Huber Loss (Huberized Quantile Loss)
Pinball Loss와 Quantile Regression의 관계: pinball loss의 기댓값을 최소화하면, 그 최소값이 $\tau$-분위수에 해당
$$
\arg \min_q \mathbb{E}[\rho_{\tau}(y - q)] = Q_{\tau}(y)
$$
- 손실 최소화 해가 곧 분위수 회귀 추정치로 수렴
(증명)
1. 기대 손실 함수를 과대 예측, 과소 예측 2개 항으로 분해
$$
L(q) = \mathbb{E}[\rho_\tau(Y - q)] = \int_{-\infty}^{q}(1 - \tau)(q - y)f(y)dy + \int_q^{\infty} \tau(y - q)f(y)dy
$$
2. 라이프니츠 적분 규칙(Leibniz integral rule)을 이용하여 2개 항 각각을 미분:
$$
\frac{dL}{dq} = F(q) - \tau
$$
- (첫째 항)
= $(1 - \tau)(q - q)f(q) + \int_{-\infty}^{q} (1 - \tau) \cdot \frac{d}{dq}(q - y) f(y) dy $
= $ \int_{-\infty}^{q} (1 - \tau) \cdot f(y) dy = (1 - \tau) F(q) $ - (둘째 항)
= $ -\tau (q - q)f(q) + \int_q^{\infty} (-\tau) \cdot \frac{d}{dq}(y - q) f(y) dy $
= $ -\int_q^{\infty} \tau f(y) dy = -\tau (1 - F(q)) $
3. 최소가 되는 필요조건:
$$
F(q) = \tau
\Rightarrow q = F^{-1}(\tau) = \text{Quantile}_\tau(Y)
$$
4. 볼록성(Convexity)에 의해 위 3.의 지점은 전역 최솟값(global minimum)
- 핀볼 로스: convex function
- 기대 손실 $L(q)$: 선형 결합 + 적분 형태 유지
기계 학습에서 분위수 회귀 분석에 핀볼 로스를 활용하는 방식: 직접 활용, 간접 활용 또는 미사용
- 직접 활용: Linear Quantile Regression(+ LP 기반 최적화), Quantile LightGBM, Neural Network 등
- 간접 활용: Support Vector Regressor (pinball loss와 유사하지만 직접적 손실 사용은 아님)
- 미사용 방식: Random Forest (명시적 손실 함수 없음)