最大似然估计
statistic
本文字数:1.9k 字 | 阅读时长 ≈ 9 min

最大似然估计

statistic
本文字数:1.9k 字 | 阅读时长 ≈ 9 min

最大似然估计(Maximum likelihood estimation)可以简单理解为我们有一堆数据(数据之间是独立同分布的.iid),为了得到这些数据,我们设计了一个模型,最大似然估计就是求使模型能够得到这些数据的最大可能性的参数,这是一个统计(statistics)问题

与概率(probability)的区别:概率是我们已知参数θ来预测结果,比如对于标准高斯分布X N(0,1),我们知道了确切的表达式,那么最终通过模型得到的结果我们大致也可以猜测到。但是对于统计问题,我们预先知道了结果,比如我们有 10000 个样本(他们可能服从某一分布,假设服从高斯分布),我们的目的就是估计\mu & \sigma使得我们假设的模型能够最大概率的生成我们目前知道的样本

1. 似然函数定义

似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性,用L表示,给定输出x时,关于参数θ的似然函数L(θ|x)在数值上等于给定参数θ后变量 X 的概率
L(θ|x)=P(X=x|θ)


在统计学习中,我们有N个样本x1,x2,x3xN,假设他们之间是相互独立的,那么似然函数
L(θ)=P(X1=x1,X2=x2XN=xN)=Ni=1p(Xi=xi)=Ni=1p(xi,θ)

最大似然函数的目的就是求解一个θ使得L(θ)最大化

2. 最大似然估计的无偏性判断

这里用一维高斯分布来判断μσ2的无偏性及有偏性,一维高斯分布函数
$$
f(x|\theta)=f(x|\mu, \sigma)=\frac{1}{\sqrt{2\pi}\sigma}e{-\frac{(x-\mu)2}{2\sigma ^2}}


MLE: \hat\theta = \underset {\theta}{\operatorname {arg,max}}~lnL(X|\mu, \sigma)
$$

2.1 分为三种情况

(1)已知σ2,未知μ,求μ的最大似然估计量ˆμ

似然函数:$L(X|\mu)=\prod_{i=1}{N}p(x_{i}|\mu)=\prod_{i=1}{N}\frac{1}{\sqrt{2\pi}\sigma}e{-\frac{(x_{i}-\mu)2}{2\sigma ^2}}$

两边分别取对数:$lnL(X|\mu)=ln\prod_{i=1}{N}p(x_{i}|\mu)=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma2}\sum_{i=1}{N}(x_{i}-\mu)2$

两边对μ求导
$$
\begin{aligned}
\frac{dlnL(X|\mu)}{d\mu}=\sum_{i=1}{N}\frac{1}{\sigma2}(x_{i}-\mu)=0 \
\sum_{i=1}^{N}(x_{i}-\mu)=0 \rightarrow \sum_{i=1}^{N}x_{i}-N\mu=0 \
\hat \mu = \frac{1}{N}\sum_{i=1}^{N}x_{i}= \overline{X}
\end{aligned}
$$
可以发现,当σ2已知时,μ的最大似然估计量只受样本的影响,ˆμμ的无偏估计

$E[\hat \mu]=E[\frac{1}{N}\sum_{i=1}{N}x_{i}]=\frac{1}{N}\sum_{i=1}{N}E[x_{i}]=\frac{1}{N}N\mu=\mu$

(2)已知μ,未知$\sigma{2}\sigma{2}\hat\sigma^{2}$

似然函数:$L(X|\sigma{2})=\prod_{i=1}{N}p(x_{i}|\sigma{2})=\prod_{i=1}{N}\frac{1}{\sqrt{2\pi}\sigma}e{-\frac{(x_{i}-\mu)2}{2\sigma ^2}}$

两边分别取对数:$lnL(X|\sigma{2})=ln\prod_{i=1}{N}p(x_{i}|\sigma{2})=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma2}\sum_{i=1}{N}(x_{i}-\mu)2$

两边对σ2求导
$$
\begin{aligned}
\frac{dlnL(X|\sigma{2})}{d\sigma{2}}=\sum_{i=1}{N}\frac{1}{\sigma2}(x_{i}-\mu)=0 \
-\frac{N}{2\sigma{2}}+\frac{1}{2\sigma{4}}\sum_{i=1}{N}(x_{i}-\mu){2}=0 \
\hat \sigma^{2} = \frac{1}{N}\sum_{i=1}{N}(x_{i}-\mu)2
\end{aligned}
$$
可以发现,当μ已知时,ˆσ2的最大似然估计量受到样本以及样本均值的影响,$\hat \sigma{2}\sigma{2}$的无偏估计

$$
\begin{aligned}
E[\hat \sigma^{2}]=
E[\frac{1}{N}\sum_{i=1}{N}(x_{i}-\mu){2}]=E[\frac{1}{N}\sum_{i=1}{N}x_{i}{2}-\frac{1}{N}\sum_{i=1}{N}2x_{i}\mu+\frac{1}{N}\sum_{i=1}{N}\mu^{2}] = E[\frac{1}{N}\sum_{N}{i=1}x_{i}{2}-2\mu{2}+\mu{2}] \
= E[\frac{1}{N}\sum_{i=1}{N}x_{i}2-\mu^{2}] \
= \frac{1}{N}\sum_{i=1}{N}(E(x_{i}2)-E^{2}(x_{i})) \
= D(x_{i}) \
= \sigma^{2}
\end{aligned}
$$

(3)μ和$\sigma{2}\mu\sigma{2}\hat\mu\hat\sigma^{2}$

似然函数:$L(X|\mu, \sigma{2})=\prod_{i=1}{N}p(x_{i}|\mu, \sigma{2})=\prod_{i=1}{N}\frac{1}{\sqrt{2\pi}\sigma}e{-\frac{(x_{i}-\mu)2}{2\sigma ^2}}$

两边分别取对数:$lnL(X|\mu, \sigma{2})=ln\prod_{i=1}{N}p(x_{i}|\mu, \sigma{2})=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma2}\sum_{i=1}{N}(x_{i}-\mu)2$

$$
\begin{aligned}
\frac{dlnL(X|\mu)}{d\mu}=\sum_{i=1}{N}\frac{1}{\sigma2}(x_{i}-\mu)=0 \
\sum_{i=1}^{N}(x_{i}-\mu)=0 \rightarrow \sum_{i=1}^{N}x_{i}-N\mu=0 \
\hat \mu = \frac{1}{N}\sum_{i=1}^{N}x_{i}= \overline{X}
\end{aligned}
$$

$$
\begin{aligned}
\frac{dlnL(X|\sigma{2})}{d\sigma{2}}=\sum_{i=1}{N}\frac{1}{\sigma2}(x_{i}-\mu)=0 \
-\frac{N}{2\sigma{2}}+\frac{1}{2\sigma{4}}\sum_{i=1}{N}(x_{i}-\mu){2}=0 \
\hat \sigma^{2} = \frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat \mu)^2 = \frac{1}{N}\sum_{i=1}^{N}(x_{i}-\overline X)^2
\end{aligned}
$$

可以发现,当μ的最大似然估计量ˆμ只受样本的影响(因为在计算时σ2被消去了),ˆμμ的无偏估计

$E[\hat \mu]=E[\overline X]=E[\frac{1}{N}\sum_{i=1}{N}x_{i}]=\frac{1}{N}\sum_{i=1}{N}E[x_{i}]=\frac{1}{N}N\mu=\mu$

但是在计算σ2的最大似然估计量ˆσ2不仅受到样本的影响,还受到μ的影响,其中μ未知,只能用计算出的ˆμ来替代,通过下面计算可以发现$\hat \sigma{2}\sigma{2}$的有偏估计

$$
\begin{aligned}
E[\hat \sigma^{2}] &= E[\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\overline X)^{2}] = E[\frac{1}{N}\sum_{i=1}{N}x_{i}{2}-\frac{1}{N}\sum_{i=1}^{N}2x_{i}\overline X+\frac{1}{N}\sum_{i=1}^{N}\overline X^{2}] \
& = E[\frac{1}{N}\sum_{N}{i=1}x_{i}{2}-2\overline X^{2}+\overline X^{2}] = E{(\frac{1}{N}\sum_{i=1}{N}x_{i}2-\overline X^{2})-(\overline X^{2}-\overline X^{2})} \
& = E[(\frac{1}{N}\sum_{i=1}{N}x_{i}2-\overline X^{2})]-E(\overline X^{2}-\overline X^{2}) \
& = \frac{1}{N}\sum_{i=1}{N}[E(x_{i}2)-E^{2}(x_{i})]-[E(\overline X{2})-E{2}(\overline X)] \
& = D(x_{i})-D(\overline X) = \sigma{2}-\frac{\sigma{2}}{N} =\frac{N-1}{N}\sigma^{2}
\end{aligned}
$$

所以在计算样本的方差$S{2}S{2}=\frac{N}{N-1}E[\hat \sigma^{2}]$

3. 最大似然和最小二乘的关系

当数据为高斯分布时,最大似然和最小二乘相同

假设一个模型为线性回归模型,噪声为高斯噪声

已知$f_{\theta}(\mathbf{x}) = f(y|x,w) = \sum_{i=1}{N}x_{i}w_{i}{T}+\epsilon = \mathbf{x} \mathbf{w^{T}}+\mathbf{\epsilon}\epsilon_{i}~N(0, \sigma{2})f(y_{i}|x_{i},w_{i})=y_{i}~N(x_{i}w_{i}{T}, \sigma^{2})$

由上面推导的最大似然函数求解:$\underset {w}{\operatorname {arg,max}}~lnL(w)=ln\prod_{i=1}{N}p(y_{i}|x_{i},w_{i})=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma2}\sum_{i=1}{N}(y_{i}-x_{i}w_{i}{T})^2$

由于前两项都与w无关,因此可以将上式简化为:$\underset {w}{\operatorname {arg,max}}lnL(w)=-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(y_{i}-x_{i}w_{i}^{T})^2\sum_{i=1}{N}(y_{i}-x_{i}w_{i}{T})^2$

而最小二乘法的公式也是如此:$\underset {w}{\operatorname {arg,min}}~f(w)=\sum_{i=1}{N}(y_{i}-x_{i}w_{i}{T})^2 = \vert\vert Y-XW{T}\vert\vert_{2}{2}$

4月 06, 2025
3月 10, 2025
12月 31, 2024