样本及抽样分布

总体个体容量

在数理统计中,我们往往研究有关对象的某一项数量指标,为此,考虑与这一数量指标相联系的随机试验,对这一数量指标进行试验或观察,我们将试验的全部可能的观察值称为总体,这些值不一定都不相同,数目上也不一定是有限的,每一个可能观察值称为个体,总体中所包含的个体的个数称为总体的容量

样本和样本值

\(X\) 是具有分布函数 \(F\) 的随机变量,若 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是具有同一分布函数 \(F\) 的、相互独立的随机变量,则称 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 为从分布函数 \(F\)(或总体 \(F\)、或总体 \(X\))得到的容量为 \(n\)简单随机样本,简称样本,它们的观察值 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 称为样本值,又称为 \(X\)\(n\) 个独立的观察值

有定义得:若 \(X_1\)\(X_2\)\(\cdots\)\(X_n\)\(F\) 的一个样本,则 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 相互独立,其它们的分布函数都是 \(F\),所以 \((X_1, X_2, \cdots, X_n)\) 的分布函数为

\[ F^{\ast} (x_1, x_2, \cdots, x_n) = \prod_{i = 1}^{n} F(x_i) \]

又若 \(X\) 具有概率密度 \(f\),则 \((X_1, X_2, \cdots, X_n)\) 的概率密度为

\[ f^{\ast}(x_1, x_2, \cdots, x_n) = \prod_{i = 1}^{n} f(x_i) \]

样本分位数

设有容量为 \(n\) 的样本观察值 \(x_1\)\(x_2\)\(\cdots\)\(x_n\),样本 \(p(1 > p > 0)\) 分位数记为 \(x_p\),它具有以下性质:

  1. 至少有 \(np\) 个观察值小于等于 \(x_p\)
  2. 至少有 \(n(1 - p)\) 个观察值大于或等于 \(x_p\)

样本 \(p\) 分位数可按以下法则求得,将 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 按自小到大的次序排序。若 \(np\) 不是整数,则取 \(\lceil np \rceil\);若 \(np\) 是整数,则取 \(\overline{np + np + 1}\)

统计量

\(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自总体 \(X\) 的一个样本,\(g(X_1, X_2, \cdots, X_n)\)\(X_1\)\(X_2\)\(\cdots\)\(X_n\) 的函数,若 \(g\) 中不含未知参数,则称 \(g(X_1, X_2, \cdots, X_n)\) 是一统计量。

因为 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 都是随机变量,而统计量 \(g(X_1, X_2, \cdots, X_n)\) 是随机变量的函数,因此统计量是一个随机变量。设 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 是相应于样本 \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 的样本值,则称 \(g(x_1, x_2, \cdots, x_n)\)\(g(X_1, X_2, \cdots, X_n)\) 的观察值。

常用的统计量

  1. 样本均值

    \[ \overline{X} = \frac{1}{n} \sum_{i = 1}^{n} X_i \]

  2. 样本方差

    \[ S^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_i - \overline{X})^2 = \frac{1}{n - 1} \bigg(\sum_{i = 1}^{n} X_{i}^2 - n\overline{X}^2\bigg) \]

  3. 样本标准差

    \[ S = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n}(X_i - \overline{X}^2)} \]

  4. 样本 \(k\) 阶原点矩

    \[ A_n = \frac{1}{n} \sum_{i = 1}^{n} X_i^k, \quad k = 1, 2, \cdots \]

  5. 样本 \(k\) 阶中心矩

    \[ B_k = \frac{1}{n} \sum_{i = 1}^{n} (X_i - \overline{X})^k, \quad k = 2, 3, \cdots \]

经验分布函数

\(x_1\)\(x_2\)\(\cdots\)\(x_n\) 是来自分布函数为 \(F(x)\) 的总体 \(X\) 的样本观察值。\(X\) 的经验分布函数,记为 \(F_n(x)\),定义为样本观察值 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 中小于或等于指定值 \(x\) 所占的比率,即

\[ F_n(x) = \frac{\# (x_i \leq x)}{n}, \quad -\infty < x < \infty \]

其中 \(\# (x_i \leq x)\) 表示 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 中小于或等于 \(x\) 的个数。

按定义,当给定样本观察值 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 时,\(F_n(x)\) 是自变量 \(x\) 的函数,它具有分布函数的三个条件:(1). \(F_n(x)\)\(x\) 的不减函数;(2). \(0 \leq F_n(x) \leq 1\),且 \(F(-\infty) = 0\),且 \(F(\infty) = 1\);(3). \(F(x)\) 是一个右连续函数。由此知 \(F_n(x)\) 是一个分布函数,当 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 各不相同时,\(F_n(x)\) 是以等概率 \(1/n\)\(x_1\)\(x_2\)\(\cdots\)\(x_n\) 的离散型随机变量的分布函数。

格里汶科定理

\(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自以 \(F(x)\) 为分布函数的总体 \(X\) 的样本,\(F(x)\) 是经验分布函数,则有

\[ P\bigg\{\lim_{n \to \infty} \sup_{-\infty < x < \infty} |F_n(x) - F(x)| = 0\bigg\} = 1 \]

此定理的含义是 \(F_n(x)\) 在整个实轴上以概率 1 均匀收敛于 \(F(x)\),于是当样本容量 \(n\) 充分大时,\(F_n(x)\) 能够良好地逼近总体分布函数 \(F(x)\),这是在概率统计学中以样本推断总体的依据。

集中统计量

卡方分布

\(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自总体 \(N(0, 1)\) 的样本,则称统计量

\[ \chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2 \]

服从自由度为 \(n\)\(\chi^2\) 分布,记为 \(\chi^2 \sim \chi^2(n)\)

\(\chi^2(n)\) 分布的概率密度为

\[ f(y) = \begin{cases} \frac{1}{2^{n/2} \Gamma(n/2)} y^{n/2 - 1} \text{e}^{-y/2}, &y > 0 \\ 0, &\text{otherwise} \end{cases} \]

根据 \(\Gamma\) 分布的可加性得:

  1. \(\chi_{1}^2 \sim \chi^2(n_1)\)\(\chi_{2}^2 \sim \chi^2(n_2)\),并且 \(\chi_1^2\)\(\chi_2^2\) 相互独立,则有

    \[ \chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2) \]

  2. \(\chi^2 \sim \chi^2(n)\),则有

    \[ E(\chi^2) = n, \quad D(\chi^2) = 2n \]

  3. 对于给定的正数 \(\alpha\)\(0 < \alpha < 1\),满足条件

    \[ P\{\chi^2 > \chi_\alpha^2(n)\} = \int_{\chi_\alpha^2(n)}^{\infty} f(y) \text{d}y = \alpha \]

    \(\chi_\alpha^2(n)\) 就是 \(\chi^2(n)\) 分布上的 \(\alpha\) 分位数。

    \(n\) 充分大时,近似地有

    \[ \chi_\alpha^2(n) \approx \frac{1}{2} (z_\alpha + \sqrt{2n - 1})^2 \]

    其中,\(z_\alpha\) 是标准正态分布的上 \(\alpha\) 分位数。

学生氏分布

\(X \sim N(0, 1)\)\(Y \sim \chi^2(n)\),且 \(X\)\(Y\) 相互独立,则称随机变量

\[ t = \frac{X}{\sqrt{Y/n}} \]

服从自由度为 \(n\)\(t\) 分布,记为 \(t \sim t(n)\)

\(t\) 分布又称为学生氏分布,\(t(n)\) 分布的概率密度函数为

\[ h(t) = \frac{\Gamma[(n + 1)/2]}{\sqrt{n\pi}\Gamma(n/2)} \bigg(1 + \frac{t^2}{n}\bigg)^{-(n + 1)/2}, \quad -\infty < t < \infty \]

实际上,由 \(\Gamma\) 函数的性质可得

\[ \lim_{n \to \infty} h(t) = \frac{1}{\sqrt{2\pi}} \text{e}^{-t^2/2} \]

同样,给出 \(t\) 分布上分位数,对于给定的 \(0 < \alpha < 1\),满足条件

\[ P\{t > t_{\alpha}(n)\} = \int_{t_{\alpha}(n)}^{\infty} h(t) \text{d}t = \alpha \]

\(t_{\alpha}(n)\) 就是 \(t(n)\) 分布的上 \(\alpha\) 分位数。

由概率密度函数的对称性知

\[ t_{1 - \alpha}(n) = -t_{\alpha} \]

此外,当 \(n > 45\) 时,对于常用的 \(\alpha\),可以用正态近似 \(t_{\alpha}(n) \approx z_{\alpha}\)

F 分布

\(U \sim \chi^2(n_1)\)\(V \sim \chi^2(n_2)\),且 \(U\)\(V\) 相互独立,则称随机变量

\[ F = \frac{U/n_1}{V/n_2} \]

服从自由度为 \((n_1, n_2)\)\(F\) 分布,记为 \(F \sim F(n_1, n_2)\),其概率密度函数为:

\[ \phi(y) = \begin{cases} \frac{\Gamma[(n_1 + n_2)/2](n_1 / n_2)^{n_1/2}y^{(n_1/2) - 1}}{\Gamma(n_1 / 2) \Gamma(n_2 / 2) [1 + (n_1 y / n_2)]^{(n_1 + n_2) / 2}}, & y > 0 \\ 0, & \text{otherwise} \end{cases} \]

由定义可得 \(\frac{1}{F} \sim F(n_2, n_1)\)

同样,给出 \(F\) 分布的上 \(\alpha\) 分位数,对于给定的 \(0 < \alpha < 1\),满足条件

\[ P\{F > F_{\alpha}(n_1, n_2)\} = \int_{F_{\alpha}(n_1, n_2)}^{\infty} \phi(y) \text{d}y = \alpha \]

\[ F_{1 - \alpha} (n_1, n_2) = \frac{1}{F_{\alpha}(n_2, n_1)} \]

正态总体的样本均值与样本方差分布

设总体 \(X\)(不管服从什么分布,只要均值和方差存在)的均值为 \(\mu\),方差为 \(\sigma^2\)\(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自 \(X\) 的一个样本,\(\overline{X}\)\(S^2\) 分别是样本均值和样本方差,则有

\[ E(\overline{X}) = \mu, \quad D(\overline{X}) = \sigma^2 / n \]

\[ E(S^2) = E\bigg[\frac{1}{n - 1} \bigg(\sum_{i = 1}^{n} X_i^2 - n\overline{X}^2\bigg)\bigg] = \frac{1}{n - 1} \bigg[\sum_{i = 1}^{n} E(X_i^2) - nE(\overline{X}^2)\bigg] \\ = \frac{1}{n - 1}\bigg[\sum_{i = 1}^{n}(\sigma^2 + \mu^2) - n(\sigma^2 / n + \mu^2)\bigg] = \sigma^2 \]

进而,设总体 \(X \sim N(\mu, \sigma^2)\),知 \(\overline{X} = \frac{1}{n} \sum\limits_{i = 1}^{n} X_i\),也服从正态分布,于是得到下述结论:

  1. \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,\(\overline{X}\) 是样本均值,则有

    \[ \overline{X} \sim N(\mu, \sigma^2 / n) \]

  2. \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,\(\overline{X}\)\(S^2\) 分别是样本均值和样本方差,则有

    1. \(\frac{(n - 1) S^2}{\sigma^2} \sim \chi^2(n - 1)\)
    2. \(\overline{X}\)\(S^2\) 相互独立
  3. \(X_1\)\(X_2\)\(\cdots\)\(X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,\(\overline{X}\)\(S^2\) 分别是样本均值和样本方差,则有

    \[ \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t(n - 1) \]

  4. \(X_1\)\(X_2\)\(\cdots\)\(X_n\)\(Y_1\)\(Y_2\)\(\cdots\)\(Y_n\) 分别是来自正态总体 \(N(\mu_1, \sigma_1^2)\)\(N(\mu_2, \sigma_2^2)\) 的样本,且这两个样本相互独立,设 \(\overline{X} = \frac{1}{n_1} \sum\limits_{i = 1}^{n_1} X_{i}\)\(\overline{Y} = \frac{1}{n_2} \sum\limits_{i = 1}^{n_2} Y_{i}\) 分别是这两个样本的样本均值;\(S_1^2 = \frac{1}{n_{1} - 1} \sum\limits_{i = 1}^{n_1} (X_i - \overline{X})^2\)\(S_2^2 = \frac{1}{n_2 - 1} \sum\limits_{i = 1}^{n_2} (Y_i - \overline{Y})^2\) 分别是这两个样本的样本方差,则有

    1. \(\frac{S_1^2 / S_2^2}{\sigma_1^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)

    2. \(\sigma_1^2 = \sigma_2^2 = \sigma^2\)

      \[ \frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_W \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2) \]

      其中,

      \[ S_W^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2} \]


样本及抽样分布
https://ddccffq.github.io/2025/11/14/概率论与数理统计/样本及抽样分布/
作者
ddccffq
发布于
2025年11月14日
许可协议