2020年5月24日 星期日

為什麼機器學習裡大家都用常態分布 Normal Distribution?

中央極限定理:從二項分布到常態分布

前文已經寫了二項分布的形式: \[ Pr(X=k)=\binom{N}{k}p^k (1-p)^{N-k} \] 而中央極限定理告訴我們當有非常多樣本,也就是 N 趨近於無限大時,此機率分布會趨近於常態分布。定理的證明有一點複雜,可以參考這篇文章 [1] 。我們在取樣本的時候往往是從真實世界中取一小部分,這可以解釋為什麼我們通常都用常態分布來描述隨機誤差。

常態分布是隨機性最大的分布

在資訊理論中我們通常用熵 Entropy [3] 來衡量隨機性。熵的定義如下: \[ H(x) = E[-ln(Pr(x))] = -\sum_{i=1}^{N} Pr(x_i) ln(Pr(x_i)) \] 連續函數的形式為: \[ H(x) = -\int_{-\infty}^{\infty} Pr(x)\cdot ln(Pr(x))dx \] 將常態分布的機率密度函數 \(\frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{1}{2 \sigma^2}(x - \mu)^2)\) 代進熵的式子: \[ H(x_{normal}) = -\int_{-\infty}^{\infty} \frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{1}{2 \sigma^2}(x - \mu)^2) \\ \cdot [ln(\frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{1}{2 \sigma^2}(x - \mu)^2))] dx \\ = -\int_{-\infty}^{\infty} \frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{1}{2 \sigma^2}(x - \mu)^2) \\ \cdot [ln(\frac{1}{(2 \pi \sigma^2)^{1/2}}) -\frac{1}{2 \sigma^2}(x - \mu)^2] dx \\ = -\int_{-\infty}^{\infty} \frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{1}{2 \sigma^2}(x - \mu)^2) [-\frac{1}{2}ln(2 \pi \sigma^2) -\frac{1}{2 \sigma^2}(x - \mu)^2] dx \\ = \frac{1}{2}ln(2 \pi \sigma^2) \int_{-\infty}^{\infty} \frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{1}{2 \sigma^2}(x - \mu)^2) dx \\ + \frac{1}{2 \sigma^2} \int_{-\infty}^{\infty} \frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{1}{2 \sigma^2}(x - \mu)^2)(x - \mu)^2 dx \\ = \frac{1}{2}ln(2 \pi \sigma^2) + \frac{1}{2 \sigma^2} E_{normal}[(x - \mu)^2] \\ = \frac{1}{2}ln(2 \pi \sigma^2) + \frac{1}{2 \sigma^2} Var_{normal}[x] = \frac{1}{2}ln(2 \pi \sigma^2) + \frac{1}{2 \sigma^2} \cdot \sigma^2 \\ = \frac{1}{2}ln(2 \pi \sigma^2) + \frac{1}{2} = \frac{ln(2 \pi e \sigma^2)}{2} \] 而這個熵是所有Variance 為 \(\sigma^2\) 的分布中最大的,這篇文章 [2] 有很仔細的證明。(註:這個前提是在限定 Variance 的情況下;如果沒有限定 Variance 則平均分配會得到最大的 Entropy 。)這個結論證明了常態分布是隨機性最大的分布,隨機性最大也可以說是所需先驗知識最少,因此可以解釋為什麼在深度學習裡我們會用常態分布來設定模型參數的初始值。

最後引用 Ian Goodfellow 所寫的 Deep Learning [4] 書中 3.9.3 所寫的一段話作結:
Out of all possible probability distributions with the same variance, the normal distribution encodes the maximum amount of uncertainty over the real numbers. We can thus think of the normal distribution as being the one that inserts the least amount of prior knowledge into a model.

參考資料

[1] https://zhuanlan.zhihu.com/p/84744089
[2] https://www.ycc.idv.tw/deep-dl_1.html 
[3] https://en.wikipedia.org/wiki/Entropy_(information_theory)
[4] https://www.deeplearningbook.org/ 

沒有留言:

張貼留言