Теория вероятностей позволяет использовать вероятностные модели в случае, когда параметры этих моделей нам известны. На практике же такого практически никогда не бывает. В этом разделе мы обсудим некоторые методы оценки параметров вероятностных моделей, конечно же, на основе имеющихся данных


Итак, предположим, что имея набор данных $D$, мы хотим оценить параметры $\theta$ нашей вероятностной модели.

<aside> 📌 [Def | Обучение модели] Процесс оценки $\theta$ по данным $D$ называется обучением модели

</aside>

Оценка максимального правдоподобия (MLE)

Подход метода максимального правдоподобия оказывается удивительно интуитивным — давайте максимизируем вероятность получения ровно-таки нашего набора данных $D$.

<aside> 📌 [Def | MLE оценка] MLE оценкой параметров вероятностной модели называется

$$ \theta_{MLE}=\argmax_\theta \mathbb P(D|\theta). $$

</aside>

Заметьте, что перед нами плотность совместного распределения. Обычно предполагается, что обучающие примеры независимо выбраны из одно и того же (это не обязательно) распределения (iid — independent and identically distributed). В этом случае

$$ \mathbb P(D|\theta) = \prod_{i = 1}^{|D|}\mathbb P(X_i|\theta). $$

На самом деле, говоря об обучении с учителем, $X_i = (x_i, y_i)$, где $y_i$ — «правильный ответ» на наблюдение с параметрами $x_i$. В этом случае, желая предсказывать правильные ответы,

$$ \mathbb P(D|\theta) = \prod_{i = 1}^{|D|}\mathbb P(y_i|x_i, \theta). $$

«Оптимизация» произведения — гиблая задача, поэтому последнее выражение часто логарифмируют, получая логарифмическую функцию правдоподобия (LL — log likelihood) вида

$$ LL(\theta) = \log \mathbb P(D|\theta) = \sum\limits_{i = 1}^{|D|} \log \mathbb P(y_i|x_i,\theta). $$

Эту функцию и нужно максимизировать. Так как обычно принято решать задачу минимизации (уменьшать потери, уменьшать ошибку), для симметрии все умножают на $-1$, приходя к отрицательной логарифмической функции правдоподобия (NLL) вида

$$ NLL(\theta)=-\log \mathbb P(D|\theta) = - \sum\limits_{i = 1}^{|D|} \log \mathbb P(y_i|x_i,\theta) $$

и решают задачу

$$ \theta_{MLE} = \argmin_\theta NLL(\theta). $$

Приведем некоторые примеры.