2値分類問題の確率モデルを考える。
各ラベルは、特徴量に応じて決まる成功率 $p_i = f(X_i)$ に対してBernoulli分布で生成しているものとする。
$$ y_i \sim \operatorname{Bernoulli}[p_i=f(X_i)] $$
推定のため、成功率を導く関数が $\theta$ でパラメータ付けられた関数モデル $f_\theta$ に属すると仮定すると、問題は観測データ $\mathcal{D}=\{(X_i, y_i)\}_i$ のもとで尤度を最大化するモデルパラメータ $\theta$ を求めるというものになる。
$$ \operatorname*{Maximize}_\theta \Pr[\mathcal{D}\mid \theta] $$
Bernoulli分布は
$$ \Pr[y; p] = \left(\begin{cases} p & (y=1)\\ 1-p & (y=0) \end{cases}\right) = p^{y}(1-p)^{y-1} $$
と書けるので、尤度は
$$ \begin{align*} \Pr[\{(X_i,y_i)\}i \mid \theta] &= \prod{i=1}^N \operatorname{Bernoulli}[y_i; p_i(=f_\theta(X_i))]\\ &=\exp\left(\sum_{i=1}^N\{ y_i\log p_i+(1-y_i)\log(1-p_i)\}\right) \end{align*} $$
である。カッコの中 ×-1 が(負の対数尤度)log loss、あるいはcross entropy lossと呼ばれるもの。
$$ \mathcal{L}(\{p_i\}, \{y_i\}) = -\sum_{i=1}^N\left\{ y_i\log p_i+(1-y_i)\log(1-p_i)\right\} $$
ところで、0,1 に近い値をモデルで近似しやすくするためにsigmoidを使った変数変換を使うテクニックがよく知られている。
$$ p=\operatorname{sigmoid}(z) = \frac{1}{1+e^{-z}} $$
$$ z = \operatorname{logit}(p) = \log\left(\frac{p}{1-p}\right) $$
logit(sigmoidの逆関数)は $p\approx0.5$ では 0 前後、$p\to 0/1$ で $z\to \pm\infty$ になるので都合のいい感じに 0,1 付近の値を拡大視することができる。
$x>0$ をログスケールにすると0に近い値も大きい値もいい感じに比較できるのと同じ操作である。
改めてロス関数を書くと、