参数估计

点估计

点估计问题一般提法如下:设总体 \(X\) 的分布函数 \(F(x; \theta)\) 的形式为已知;\(\theta\) 是待估参数,\(X_1\)\(X_2\)\(\cdots\)\(X_n\)\(X\) 的一个样本,\(x_1\)\(x_2\)\(\cdots\)\(x_n\) 是相应的一个样本值,点估计问题就是要构造一个适当的统计量 \(\hat{\theta}(X_1, X_2, \cdots, X_n)\),用它的观察值 \(\hat{\theta}(x_1, x_2, \cdots, x_n)\) 作为未知参数 \(\theta\) 的近似值,我们称 \(\hat{\theta}(X_1, X_2, \cdots, X_n)\)\(\theta\)估计量,称 \(\hat{\theta}(x_1, x_2, \cdots, x_n)\)\(\theta\) 的估计值。在不混淆的情况下统称估计量和估计值为估计,并都简记为 \(\hat{\theta}\)

矩估计

\(X\) 为连续型随机变量,其概率密度为 \(f(x; \theta_1, \theta_2, \cdots, \theta_k)\),或 \(X\) 为离散型随机变量。其分布律为 \(P\{X = x\} = p(x; \theta_1, \theta_2, \cdots, \theta_k)\),其中 \(\theta_1\)\(\theta_2\)\(\cdots\)\(\theta_{k}\) 为待估参数 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自 \(X\) 的样本,假设总体 \(X\) 的前 \(k\) 阶矩

\[ \begin{aligned} \mu_l &= E(X^l) = \int_{-\infty}^{\infty} x^l f(x; \theta_1, \theta_2, \cdots, \theta_k) \text{d}x \\ &= \sum_{x \in R_X} x^l p(x; \theta_1, \theta_2, \cdots, \theta_k) \end{aligned} \]

存在,其中,\(R_X\)\(X\) 可能取汁的范围,\(l = 1, 2, \cdots, k\),一般来说,它们是 \(\theta_1\)\(\theta_2\)\(\cdots\)\(\theta_{k}\) 的函数,基于样本矩

\[ A_l = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{l} \]

依概率收敛于相应的总体矩 \(\mu_{l}(l = 1, 2, \cdots, k)\),样本矩的连续函数依概率收敛于相应的总体矩的连续函数,我们就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量,这种估计方法称为矩估计,矩估计的具体做法如下:设

\[ \begin{cases} \mu_1 &= \mu_1(\theta_1, \theta_2, \cdots, \theta_k) \\ \mu_2 &= \mu_2(\theta_1, \theta_2, \cdots, \theta_k) \\ \cdots \\ \mu_k &= \mu_k(\theta_1, \theta_2, \cdots, \theta_k) \end{cases} \]

解方程得出 \(\theta_1\)\(\theta_2\)\(\cdots\)\(\theta_{k}\) 的表达式,即 \(\theta_i = \theta_i (\mu_1, \mu_2, \cdots, \mu_k)\),再以 \(A_i\) 分别代替 \(\mu_i\),得 \(\hat{\theta_i} = \theta_i(A_1, A_2, \cdots, A_k), i = 1, 2, \cdots, k\) 分别作为 \(\theta_i\) 的估计量。

最大似然估计

若总体 \(X\) 属离散型,其分布律 \(P\{X = x\} = p(x; \theta), \theta \in \Theta\) 的形式为已知,\(\theta\) 为待估参数,\(\Theta\)\(\theta\) 可能取值的范围,设 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自 \(X\) 的样本,则 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 的联合分布律为

\[ \prod_{i = 1}^{n} p(x_i; \theta) \]

又设 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 是相应于样本 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 的一个样本值,易知样本 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 取到观察值 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 的概率,亦即事件 \(\{X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n\}\) 发生的概率为

\[ L(\theta) = L(x_1, x_2, \cdots, x_n; \theta) = \prod_{i = 1}^{n} p(x_i; \theta), \quad \theta \in \Theta \]

这一概率随 \(\theta\) 的取值而变化,它是 \(\theta\) 的函数,\(L(\theta)\) 称为样本的似然函数

接下来,我们固定样本观察值 \(x_1\)\(x_2\)\(\cdots\)\(x_n\),在 \(\Theta\) 内挑选使似然函数达到最大的参数值 \(\hat{\theta}\),作为参数 \(\theta\) 的估计值,即取 \(\hat{\theta}\) 使

\[ L(x_1, x_2, \cdots, x_n; \hat{\theta}) = \max_{\theta \in \Theta} L(x_1, x_2, \cdots, x_n; \theta) \]

这样得到的 \(\hat{\theta}\) 与样本值 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 有关,常记为 \(\hat{\theta}(x_1, x_2, \cdots, x_n)\),称为参数 \(\theta\)最大似然估计值,而相应的统计量 \(\hat{\theta}(X_1, X_2, \cdots, X_n)\) 称为参数 \(\theta\)最大似然估计量

若总体 \(X\) 属连续型,其概率密度 \(f(x; \theta), \theta \in \Theta\) 的形式已知,\(\theta\) 为待估参数,\(\Theta\)\(\theta\) 可能取值的范围,设 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自 \(X\) 的样本,则 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 的联合概率密度为

\[ \prod_{i = 1}^{n} f(x_i; \theta) \]

\(x_1\)\(x_2\)\(\cdots\)\(x_n\) 是相应于样本 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 的一个样本值,则随机点 \((X_1, X_2, \cdots, X_n)\) 落在点 \((x_1, x_2, \cdots, x_n)\) 的领域(边长分别为 \(\text{d}x_1\)\(\text{d}x_2\)\(\cdots\)\(\text{d}x_n\)\(n\) 维立方体)内的概率近似地为

\[ \prod_{i = 1}^{n} f(x_i; \theta) \text{d}x_i \]

其值随 \(\theta\) 的取值而变化,与离散型情况一样,我们取 \(\theta\) 的估计值 \(\hat{\theta}\) 使概率式取到最大值,但因子 \(\prod\limits_{i = 1}^{n} \text{d}x_i\) 不随 \(\theta\) 而变,故只需要考虑函数

\[ L(\theta) = L(x_1, x_2, \cdots, x_n; \theta) = \prod_{i = 1}^{n} f(x_i; \theta) \]

的最大值。这里 \(L(\theta)\) 称为样本的似然函数,若

\[ L(x_1, x_2, \cdots, x_n; \hat{\theta}) = \max_{\theta \in \Theta} L(x_1, x_2, \cdots, x_n; \theta) \]

则称 \(\hat{\theta}(x_1, x_2, \cdots, x_n)\)\(\theta\)最大似然估计值,称 \(\hat{\theta}(X_1, X_2, \cdots, X_n)\)\(\theta\)最大似然估计量

我们得到了两种类型:离散型和连续性,的似然函数,接下来,将 \(\theta\) 视为自变量,求其最大值点 \(\hat{\theta}\)

估计量的评选标准

无偏性

若估计量 \(\theta = \theta(X_1, X_2, \cdots, X_n)\) 的数学期望 \(E(\theta)\) 存在,且对于任意 \(\theta \in \Theta\)

\[ E(\hat{\theta}) = \theta \]

则称 \(\hat{\theta}\)\(\theta\)无偏估计量

有效性

\(\hat{\theta_1} = \hat{\theta_1}(X_1, X_2, \cdots, X_n)\)\(\hat{\theta_2} = \hat{\theta_2} (X_1, X_2, \cdots, X_n)\) 都是 \(\theta\) 的无偏估计量,若对于任意 \(\theta \in \Theta\),有

\[ D(\hat{\theta_1}) \leq D(\hat{\theta_2}) \]

且至少对于某一个 \(\theta \in \Theta\) 上式中的不等号成立,则称 \(\hat{\theta_1}\)\(\hat{\theta_2}\) 有效

相合性

\(\hat{\theta}(X_1, X_2, \cdots, X_n)\) 为参数 \(\theta\) 的估计量,若对于任意 \(\theta \in \Theta\),当 \(n \to \infty\)\(\hat{\theta}(X_1, X_2, \cdots, X_n)\) 依概率收敛于 \(\theta\),则称 \(\hat{\theta}\)\(\theta\)相合估计量

即,若对于任意 \(\theta \in \Theta\) 都满足:对于任意 \(\varepsilon > 0\),有

\[ \lim_{n \to \infty} P\{|\hat{\theta} - \theta| < \varepsilon\} = 1 \]

则称 \(\hat{\theta}\)\(\theta\)相合估计量

区间估计

置信区间

设总体 \(X\) 的分布函数 \(F(x; \theta)\) 含有一个未知参数 \(\theta\)\(\theta \in \Theta\),对于给定值 \(0 < \alpha < 1\),若由来自 \(X\) 的样本 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 确定的两个统计量 \(\utilde{\theta} = \utilde{\theta}(X_1, X_2, \cdots, X_n)\)\(\bar{\theta} = \bar{\theta}(X_1, X_2, \cdots, X_n)(\utilde{\theta} < \bar{\theta})\),对于任意 \(\theta \in \Theta\) 满足

\[ P\{\utilde{\theta}(X_1, X_2, \cdots, X_n) < \theta < \bar{\theta}(X_1, X_2, \cdots, X_n)\} \geq 1 - \alpha \]

则称随机区间 \((\utilde{\theta}, \bar{\theta})\)\(\theta\) 的置信水平为 \(\utilde{\theta}\)\(\bar{\theta}\) 分别称为置信水平为 \(1 - \alpha\) 的双侧置信区间的置信下限置信上限\(1 - \alpha\) 称为置信水平

枢轴量

设总体参数为 \(\theta\),样本统计量为 \((X_1, X_2, \cdots, X_n)\),如果一个函数 \(Q(X_1, X_2, \cdots, X_n; \theta)\) 满足以下条件:

  1. 它是样本数据和参数 \(\theta\) 的函数;
  2. 在样本分布已知的情况下,其分布不依赖于未知参数 \(\theta\)

那么,\(Q\) 就成为一个枢轴量

正态总体均值与方差的区间估计

单个总体的情况

设已给定置信水平为 \(1 - \alpha\),并设 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 为总体 \(N(\mu, \sigma^2)\) 的样本,\(\overline{X}\)\(S^2\) 分别是样本均值和样本方差。

  1. 均值 \(\mu\) 的置信区间

    \(\sigma^2\) 已知,一个置信水平为 \(1 - \alpha\) 的置信区间为

    \[ \bigg(\overline{X} \pm \frac{\sigma}{\sqrt{n}} z_{\alpha / 2}\bigg) \]

    \(\sigma^2\) 未知,一个置信水平为 \(1 - \alpha\) 的置信区间为

    \[ \bigg(\overline{X} \pm \frac{S}{\sqrt{n}} t_{\alpha / 2}(n - 1)\bigg) \]

  2. 方差 \(\sigma^2\) 的置信区间

    一个置信水平为 \(1 - \alpha\) 的置信区间

    \[ \bigg(\frac{(n - 1)S^2}{\chi_{\alpha / 2}^2 (n - 1)}, \frac{(n - 1)S^2}{\chi_{1 - \alpha / 2}^2(n - 1)}\bigg) \]

两个总体的情况

  1. 两个总体均值差 \(\mu_1 - \mu_2\) 的置信区间

    \(\sigma_1^2\)\(\sigma_2^2\) 均为已知,一个置信水平为 \(1 - \alpha\) 的置信区间为

    \[ \bigg(\overline{X} - \overline{Y} \pm z_{\alpha / 2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\bigg) \]

    \(\sigma_1^2 = \sigma_2^2 = \sigma^2\),但 \(\sigma^2\) 未知,一个置信水平为 \(1 - \alpha\) 的置信区间为

    \[ \bigg(\overline{X} - \overline{Y} \pm t_{\alpha / 2} (n_1 + n_2 - 2) \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\bigg) \]

  2. 两个总体方差比 \(\sigma_1^2 / \sigma_2^2\) 的置信区间

    假设总体均值未知,则一个置信水平为 \(1 - \alpha\) 的置信区间为

    \[ \bigg(\frac{S_1^2}{S_2^2}\frac{1}{F_{\alpha / 2}(n_1 - 1, n_2 - 1)}, \frac{S_1^2}{S_2^2}\frac{1}{F_{1 - \alpha / 2}(n_1 - 1, n_2 - 1)}\bigg) \]

(0-1) 分布参数的区间估计

设有一容量为 \(n > 50\) 的大样本,它来自 (0-1) 分布的总体 \(X\)\(X\) 的分布律为

\[ f(x; p) = p^x(1 - p)^{1 - x}, \quad x = 0, 1 \]

其中 \(p\) 为未知参数,求 \(p\) 的置信水平为 \(1 - \alpha\) 的置信区间。

已知 (0-1) 分布的均值和方差分别为

\[ u = p, \quad \sigma^2 = p(1 - p) \]

\(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是一个样本,由中心极限定理知

\[ \frac{\sum_{i = 1}^{n} X_i - np}{\sqrt{np(1 - p)}} = \frac{n\overline{X} - np}{\sqrt{np(1 - p)}} \sim N(0, 1) \]

于是有

\[ P\bigg\{-z_{\alpha / 2} < \frac{n\overline{X} - np}{\sqrt{np(1 - p)}} < z_{alpha / 2}\bigg\} \approx 1 - \alpha \]

而中间不等式等价于

\[ (n + z_{\alpha / 2}^2 p^2 - (2n \overline{X} + z_{\alpha / 2}^2)p + n\overline{X}^2) < 0 \]

\[ \begin{aligned} p_1 &= \frac{1}{2a} (-b - \sqrt{b^2 - 4ac}) \\ p_2 &= \frac{1}{2a} (-b + \sqrt{b^2 - 4ac}) \end{aligned} \]

即置信水平为 \(1 - \alpha\) 的置信区间为 \((p_1, p_2)\)

单侧置信区间

对于给定值 \(0 < \alpha < 1\),若由样本 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 确定的统计量 \(\utilde{\theta} = \utilde{\theta}(X_1, X_2, \cdots, X_n)\),对于任意 \(\theta \in \Theta\) 满足

\[ P\{\theta > \utilde{\theta}\} \geq 1 - \alpha \]

称随机区间 \((\utilde{\theta}, \infty)\)\(\theta\) 的置信水平为 \(1 - \alpha\)单侧置信区间\(\utilde{\theta}\) 称为 \(\theta\) 的置信水平为 \(1 - \alpha\)单侧置信下线

又若统计量 \(\bar{\theta} = \bar{\theta}(X_1, X_2, \cdots, X_n)\),对于任意 \(\theta \in \Theta\) 满足

\[ P\{\theta < \bar{\theta}\} \geq 1 - \alpha \]

称随机区间 \((-\infty, \bar{\theta})\)\(\theta\) 置信水平为 \(1 - \alpha\)单侧置信区间\(\bar{\theta}\) 称为 \(\theta\) 的置信水平为 \(1 - \alpha\)单侧置信上限


参数估计
https://ddccffq.github.io/2025/11/15/概率论与数理统计/参数估计/
作者
ddccffq
发布于
2025年11月15日
许可协议