2020年5月23日 星期六

無偏估計與有偏估計 Unbiased/Biased Estimators

估計量的偏差 Bias

假設有個機率模型的參數是 \(\theta\) ,而我們觀測到的樣本為 \(x\) ,假設這些數據符合某種未知分布 \( P_{\theta}(x) = P(x|\theta)\) ,而 \( \hat{\theta}\) 為我們對於此未知參數 \(\theta\) 的估計量,則偏差 Bias 為: \[ Bias_{\theta}[\hat{\theta}] = E_{\theta}[\hat{\theta}] - \theta \] 當估計的參數偏差 Bias 等於零時稱為無偏估計,否則稱為有偏估計。

常態分布的最大似然估計

常態分布的機率密度函數為: \[ N(x|\mu, \sigma^{2})=\frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{1}{2 \sigma^2}(x - \mu)^2) \] 似然函數為: \[ L = \prod_{i=1}^{N} \frac{1}{(2 \pi \sigma^2)^{1/2}}exp(-\frac{1}{2 \sigma^2}(x_i - \mu)^2) \] 取對數整理: \[ l = -\frac{N}{2}ln(\sigma^2) - \frac{N}{2}ln(2\pi) - \frac{1}{2\sigma^2} \sum_{i=1}^{N}(x_i - \mu)^2 \] 導數求極值: \[ \frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^{N}(x_i - \mu) = 0 \\ \mu_{MLE} = \frac{1}{N}\sum_{i=1}^{N}x_i \\ \frac{\partial l}{\partial \sigma^2} = -\frac{N}{2\sigma^2} + \frac{1}{2} (\sigma^2)^{-2} \sum_{i=1}^{N}(x_i - \mu)^2 = 0 \\ \sigma^{2}_{MLE} = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2 \] 由於在估計時我們不知道真正的 \( \mu \) ,所以拿 \( \mu_{MLE}\) 代替: \[ \sigma^{2}_{MLE} = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu_{MLE})^2 \]

\(\mu_{MLE}\) 是無偏估計

我們可以用一開始提到的式子來驗證: \[ E[\mu_{MLE}] = E[ \frac{1}{N}\sum_{i=1}^{N}x_i] = \frac{1}{N}\sum_{i=1}^{N}E[x_i] = \frac{1}{N}N\mu = \mu \] 其中 \( E[x_i]\) 是對於 \(x_i\) 的期望值,而我們假設所有的 \(x\) 都是由參數為 \(\mu\) 及 \(\sigma\) 的獨立同分布( Independent and Identically Distributed)產生的,因此 \( E[x_i]\) 就是 \(\mu\) 。

\(\sigma^{2}_{MLE}\) 是有偏估計

一樣用上面的式子來驗證: \[ E[\sigma^{2}_{MLE}]=E[\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu_{MLE})^2] = E[\frac{1}{N}((x_i - \mu)-(\mu_{MLE} - \mu))^2] \\ = E[\frac{1}{N}\sum_{i=1}^{N}((x_i - \mu)^2 - 2(x_i - \mu)(\mu_{MLE} - \mu) + (\mu_{MLE} - \mu)^2)] \\ = E[\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2 - \frac{2}{N}(\mu_{MLE} - \mu)\sum_{i=1}^{N}(x_i - \mu) + (\mu_{MLE} - \mu)^2] \\ = E[\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2 - \frac{2}{N}(\mu_{MLE} - \mu)N(\mu_{MLE} - \mu) + (\mu_{MLE} - \mu)^2] \\ = E[\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2] - E[(\mu_{MLE} - \mu)^2] = \sigma^2 - \frac{1}{N}\sigma^2 < \sigma^2 \] 其中 \( E[(\mu_{MLE} - \mu)^2\) 就是 \( Var(\mu_{MLE}) \),則可以推得: \[ Var(\mu_{MLE}) = Var(\frac{1}{N}\sum_{i=1}^{N}x_i) = \frac{1}{N^2}\sum_{i=1}^{N}Var(X_i) = \frac{N \sigma^2}{N^2} = \frac{\sigma^2}{N} \] 這個結果直覺的解釋是用 MLE 估的 variance 會比其分布真正的 variance 還要小。

從統計抽樣來解釋

假設每次實驗抽了一百個樣本,做了同樣的實驗十次。這十次實驗都可以估出一組 \( \mu\) 與 \( \sigma\),而把這十次的 \( \mu\) 平均以後會等於拿全部一千筆樣本求得的 \( \mu\) ,但是它們 \( \sigma\) 的平均並不一定等於由一千筆樣本求得的 \( \sigma\)。這也是為什麼統計課裡教說在計算樣本標準差時,我們該除以 N-1 而不是 N 。如果估計 \( \sigma \) 時用以下式子,則此估計的偏差就會是零。 \[ \widehat{\sigma^{2}_{MLE}} = \frac{1}{N-1}\sum_{i=1}^{N}(x_i - \mu_{MLE})^2 \]

沒有留言:

張貼留言