핀볼 로스(Pinball Loss), 분위수 회귀(Quantile Regression)

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

데이터 낚시꾼

핀볼 로스(Pinball Loss), 분위수 회귀(Quantile Regression) 본문

기계학습/손실 함수(Loss function)

핀볼 로스(Pinball Loss), 분위수 회귀(Quantile Regression)

datafisher 2025. 5. 16. 11:01

요약

평균 예측에 머무르지 않고, 데이터 분포의 다양한 위치를 포착하는 분위수 예측(Quantile Regression) 필요
핀볼 로스: 특히 이상치에 강건하고, 리스크와 불확실성의 정량화에 용이
핀볼 로스 및 분위수 회귀분석을 통해 예측값의 신뢰 구간을 추정하거나 리스크 중심 모델링 설계 가능

분위수 회귀(Quantile Regression): 주어진 $X$에 대해 조건부 분위수 $q_\tau(Y|X)$ 를 예측

예: $\tau = 0.1$이면 10% 분위수 → 하위 10% 경계 예측, $\tau = 0.5$이면 중위수 (median) 등

OLS(Ordinary Least Squares) 회귀와 비교 시 분위수 회귀의 장점: 비대칭 분포에 유연, 예측 불확실성 구간 도출 가능

손실 함수(Loss function): MSE vs Pinball loss
예측값: 평균 vs 분위수
이상치 민감도: 높음 vs 낮음(robust)
정보 제공: 단일 중심 vs 분포 전반

활용 예시

수요 예측에서 상/하한 신뢰구간
금융 리스크: VaR(Value at Risk) 등
의료 지표: 성장 곡선, 혈압 범위 등

핀볼 로스(Pinball Loss) 소개

- 정의 및 수식:
$$
\rho_{\tau}(u) =
\begin{cases}
\tau \cdot u = \tau \cdot \lVert u \rVert & \text{if } u \ge 0 \\
(\tau - 1) \cdot u = (1 - \tau) \cdot { \lVert u \rVert } & \text{if } u < 0
\end{cases}
$$

$\tau$: 예측하고자 하는 분위수 (예: 0.1, 0.5, 0.9 등)
$u = y - \hat{y}$: 실제값과 예측값의 오차

- 직관적 의미

과대 예측 시 $\tau$ 배의 패널티
과소 예측 시 $(1 - \tau)$ 배의 패널티
오차 방향에 따라 비대칭적으로 적용되는 가중치

- 그래프 형태

$u = 0$을 기준으로 꺾이는 선형 형태
$\tau = 0.5$일 때는 절댓값 손실(absolute error)과 동일한 형태

- 참고

분위수 값에 따라 기울기와 절편이 변화하는 손실 곡선
Quantile Loss, Check Function, Tilted Loss 등으로 부르기도 함
Quantile Loss + Huber Loss => Quantile Huber Loss (Huberized Quantile Loss)

Pinball Loss와 Quantile Regression의 관계: pinball loss의 기댓값을 최소화하면, 그 최소값이 $\tau$-분위수에 해당

$$
\arg \min_q \mathbb{E}[\rho_{\tau}(y - q)] = Q_{\tau}(y)
$$

손실 최소화 해가 곧 분위수 회귀 추정치로 수렴

(증명)

1. 기대 손실 함수를 과대 예측, 과소 예측 2개 항으로 분해
$$
L(q) = \mathbb{E}[\rho_\tau(Y - q)] = \int_{-\infty}^{q}(1 - \tau)(q - y)f(y)dy + \int_q^{\infty} \tau(y - q)f(y)dy
$$
2. 라이프니츠 적분 규칙(Leibniz integral rule)을 이용하여 2개 항 각각을 미분:
$$
\frac{dL}{dq} = F(q) - \tau
$$

(첫째 항)
= $(1 - \tau)(q - q)f(q) + \int_{-\infty}^{q} (1 - \tau) \cdot \frac{d}{dq}(q - y) f(y) dy $
= $ \int_{-\infty}^{q} (1 - \tau) \cdot f(y) dy = (1 - \tau) F(q) $
(둘째 항)
= $ -\tau (q - q)f(q) + \int_q^{\infty} (-\tau) \cdot \frac{d}{dq}(y - q) f(y) dy $
= $ -\int_q^{\infty} \tau f(y) dy = -\tau (1 - F(q)) $

3. 최소가 되는 필요조건:
$$
F(q) = \tau
\Rightarrow q = F^{-1}(\tau) = \text{Quantile}_\tau(Y)
$$

4. 볼록성(Convexity)에 의해 위 3.의 지점은 전역 최솟값(global minimum)

핀볼 로스: convex function
기대 손실 $L(q)$: 선형 결합 + 적분 형태 유지

기계 학습에서 분위수 회귀 분석에 핀볼 로스를 활용하는 방식: 직접 활용, 간접 활용 또는 미사용

직접 활용: Linear Quantile Regression(+ LP 기반 최적화), Quantile LightGBM, Neural Network 등
간접 활용: Support Vector Regressor (pinball loss와 유사하지만 직접적 손실 사용은 아님)
미사용 방식: Random Forest (명시적 손실 함수 없음)

데이터 낚시꾼

핀볼 로스(Pinball Loss), 분위수 회귀(Quantile Regression) 본문

핀볼 로스(Pinball Loss), 분위수 회귀(Quantile Regression)

티스토리툴바