관리 메뉴

데이터 낚시꾼

핀볼 로스(Pinball Loss), 분위수 회귀(Quantile Regression) 본문

기계학습/손실 함수(Loss function)

핀볼 로스(Pinball Loss), 분위수 회귀(Quantile Regression)

datafisher 2025. 5. 16. 11:01

요약 

  • 평균 예측에 머무르지 않고, 데이터 분포의 다양한 위치를 포착하는 분위수 예측(Quantile Regression) 필요
  • 핀볼 로스: 특히 이상치에 강건하고, 리스크와 불확실성의 정량화에 용이
  • 핀볼 로스 및 분위수 회귀분석을 통해 예측값의 신뢰 구간을 추정하거나 리스크 중심 모델링 설계 가능

 

 

 

분위수 회귀(Quantile Regression): 주어진 $X$에 대해 조건부 분위수 $q_\tau(Y|X)$ 를 예측

  • 예: $\tau = 0.1$이면 10% 분위수 → 하위 10% 경계 예측, $\tau = 0.5$이면 중위수 (median) 등

OLS(Ordinary Least Squares) 회귀와 비교 시 분위수 회귀의 장점: 비대칭 분포에 유연, 예측 불확실성 구간 도출 가능

  • 손실 함수(Loss function): MSE vs Pinball loss
  • 예측값: 평균 vs 분위수
  • 이상치 민감도: 높음 vs 낮음(robust)
  • 정보 제공: 단일 중심 vs 분포 전반

활용 예시

  • 수요 예측에서 상/하한 신뢰구간
  • 금융 리스크: VaR(Value at Risk) 등
  • 의료 지표: 성장 곡선, 혈압 범위 등

 

 

 

핀볼 로스(Pinball Loss) 소개

- 정의 및 수식:
$$
\rho_{\tau}(u) = 
\begin{cases}
\tau \cdot u = \tau \cdot \lVert u \rVert & \text{if } u \ge 0 \\
(\tau - 1) \cdot u =  (1 - \tau) \cdot { \lVert u \rVert } & \text{if } u < 0
\end{cases}
$$

  • $\tau$: 예측하고자 하는 분위수 (예: 0.1, 0.5, 0.9 등)
  • $u = y - \hat{y}$: 실제값과 예측값의 오차

- 직관적 의미

  • 과대 예측 시 $\tau$ 배의 패널티
  • 과소 예측 시 $(1 - \tau)$ 배의 패널티
  • 오차 방향에 따라 비대칭적으로 적용되는 가중치

- 그래프 형태

  • $u = 0$을 기준으로 꺾이는 선형 형태
  • $\tau = 0.5$일 때는 절댓값 손실(absolute error)과 동일한 형태

- 참고

  • 분위수 값에 따라 기울기와 절편이 변화하는 손실 곡선
  • Quantile Loss, Check Function, Tilted Loss 등으로 부르기도 함
  • Quantile Loss + Huber Loss => Quantile Huber Loss (Huberized Quantile Loss)

 

 

 

Pinball Loss와 Quantile Regression의 관계: pinball loss의 기댓값을 최소화하면, 그 최소값이 $\tau$-분위수에 해당

$$
\arg \min_q \mathbb{E}[\rho_{\tau}(y - q)] = Q_{\tau}(y)
$$

  • 손실 최소화 해가 곧 분위수 회귀 추정치로 수렴

(증명)

1. 기대 손실 함수를 과대 예측, 과소 예측 2개 항으로 분해
$$
L(q) = \mathbb{E}[\rho_\tau(Y - q)] = \int_{-\infty}^{q}(1 - \tau)(q - y)f(y)dy + \int_q^{\infty} \tau(y - q)f(y)dy
$$
2. 라이프니츠 적분 규칙(Leibniz integral rule)을 이용하여 2개 항 각각을 미분:
$$
\frac{dL}{dq} = F(q) - \tau
$$

  • (첫째 항)
    = $(1 - \tau)(q - q)f(q) + \int_{-\infty}^{q} (1 - \tau) \cdot \frac{d}{dq}(q - y) f(y) dy $
    = $ \int_{-\infty}^{q} (1 - \tau) \cdot f(y) dy = (1 - \tau) F(q) $
  • (둘째 항)
    = $ -\tau (q - q)f(q) + \int_q^{\infty} (-\tau) \cdot \frac{d}{dq}(y - q) f(y) dy $
    = $ -\int_q^{\infty} \tau f(y) dy = -\tau (1 - F(q)) $

3. 최소가 되는 필요조건:
$$
F(q) = \tau
\Rightarrow q = F^{-1}(\tau) = \text{Quantile}_\tau(Y)
$$

4. 볼록성(Convexity)에 의해 위 3.의 지점은 전역 최솟값(global minimum)

  • 핀볼 로스: convex function
  • 기대 손실 $L(q)$: 선형 결합 + 적분 형태 유지

 

 

 

기계 학습에서 분위수 회귀 분석에 핀볼 로스를 활용하는 방식: 직접 활용, 간접 활용 또는 미사용

  • 직접 활용: Linear Quantile Regression(+ LP 기반 최적화), Quantile LightGBM, Neural Network 등
  • 간접 활용: Support Vector Regressor (pinball loss와 유사하지만 직접적 손실 사용은 아님)
  • 미사용 방식: Random Forest (명시적 손실 함수 없음)