2020年5月26日 星期二

正規化 Regularization 與 Maximum A Posteriori Estimation 中先驗機率 Prior 的選擇

最大似然估計與最大後驗機率估計的文章中簡介了最大後驗機率估計 Maximum a posteriori estimation 是想找到參數 \(\theta\) 讓 posterior \(Pr(\theta|D) \) 最大: \[ \hat{\theta}_{MAP}=arg\ \underset{\theta}{max}\ Pr(\theta |D) = arg\ \underset{\theta}{max}\ Pr(D|\theta)\ Pr(\theta) \] 我們在那篇文章中也討論了似然 likelihood 的共軛先驗 conjugate prior,以及選擇共軛先驗當成先驗機率 \( Pr(\theta) \) 的原因。這一篇文章介紹的是另一種先驗機率的選擇:當選擇特定的機率分布當成先驗機率 Prior 時能達到正規化 Regularization 的效果。

常態分布的先驗機率相等於 L2 Regularization 的效果

我們假設先驗機率 \(Pr(\theta)\) 為常態分布 \( \theta\sim N(0, \sigma^2) \): \[ Pr(\theta) = \frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{\theta^2}{2 \sigma^2}) \\ ln(Pr(\theta)) = ln(\frac{1}{(2 \pi \sigma^2)^{1/2}}) - \frac{\theta^2}{2 \sigma^2} \] 將此式帶回解 \(\theta_{MAP}\) 的式子: \[ \theta_{MAP} = arg\ \underset{\theta}{max} \ Pr(\theta |D) = arg\ \underset{\theta}{max}\ Pr(D|\theta)\ Pr(\theta) \\ = arg\ \underset{\theta}{max}\ ln(Pr(D|\theta)\ Pr(\theta)) \\ = arg\ \underset{\theta}{min}\ -ln(Pr(D|\theta)\ Pr(\theta)) \\ = arg\ \underset{\theta}{min}\ -ln(Pr(D|\theta)) - ln(Pr(\theta)) \\ = arg\ \underset{\theta}{min}\ -ln(Pr(D|\theta)) - (ln(\frac{1}{(2 \pi \sigma^2)^{1/2}}) - \frac{\theta^2}{2 \sigma^2}) \\ = arg\ \underset{\theta}{min}\ -ln(Pr(D|\theta)) + \frac{\theta^2}{2 \sigma^2} \] 從上式中其實就可以看到先驗機率 \( Pr(\theta) \) 變成了 L2 regularization 的形式,也就是 \( constant \cdot \theta^2\)。

接下來討論一下 \(Pr(D|\theta)\) 的形式:這邊拿線性回歸 linear regression 當例子,也就是: \[ y_i = f(x_i,\theta) + \epsilon \\ y_i - f(x_i,\theta) = \epsilon \sim N(0, \sigma^2_D) \] 也就是說 \(\epsilon\) 是以零為中心的常態分布,拿來解釋 \(Pr(D|\theta)\) 的意義為 \(Pr(D|\theta)\) 可以用此機率分布 \(N(0, \sigma^2_D)\) 來描述,當 \(f(x_i,\theta)\) 越趨近於 \(y_i\) 時其機率便越高。把 \(Pr(D|\theta) = N(0, \sigma^2_D)\) 代入解 \(\theta_{MAP}\) 的式子: \[ \theta_{MAP} = arg\ \underset{\theta}{min}\ \frac{1}{2 \sigma^2_D} \sum_{i=1}^{N}||y_i - f(x_i,\theta)||^2 + \frac{\theta^2}{2 \sigma^2} \] 以上式子就是大家很熟悉的 linear regression 搭配 L2 正規化(L2 regularization)的式子。

Laplace 分布的先驗機率相等於 L1 Regularization 的效果

當假設先驗機率 \(Pr(\theta)\) 為 Laplace 分布 [1] 時能達到 L1 正規化的效果。Laplace 分布的機率密度函數如下: \[ f(x|\mu,b) = \frac{1}{2b}exp(-\frac{|x-\mu|}{b}) \] 證明的方式跟前一段非常類似,有興趣的讀者可以讀這篇文章 [2]。這邊就放上推導完的結果來作結: \[ \theta_{MAP} = arg\ \underset{\theta}{min}\ \frac{1}{2 \sigma^2_D} \sum_{i=1}^{N}||y_i - f(x_i,\theta)||^2 + \lambda|\theta| \]

參考資料

[1] https://en.wikipedia.org/wiki/Laplace_distribution
[2] http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/

沒有留言:

張貼留言