样本及抽样分布
总体个体容量
在数理统计中,我们往往研究有关对象的某一项数量指标,为此,考虑与这一数量指标相联系的随机试验,对这一数量指标进行试验或观察,我们将试验的全部可能的观察值称为总体,这些值不一定都不相同,数目上也不一定是有限的,每一个可能观察值称为个体,总体中所包含的个体的个数称为总体的容量。
样本和样本值
设 \(X\) 是具有分布函数 \(F\) 的随机变量,若 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 是具有同一分布函数 \(F\) 的、相互独立的随机变量,则称 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 为从分布函数 \(F\)(或总体 \(F\)、或总体 \(X\))得到的容量为 \(n\) 的简单随机样本,简称样本,它们的观察值 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 称为样本值,又称为 \(X\) 的 \(n\) 个独立的观察值
有定义得:若 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 为 \(F\) 的一个样本,则 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 相互独立,其它们的分布函数都是 \(F\),所以 \((X_1, X_2, \cdots, X_n)\) 的分布函数为
\[ F^{\ast} (x_1, x_2, \cdots, x_n) = \prod_{i = 1}^{n} F(x_i) \]
又若 \(X\) 具有概率密度 \(f\),则 \((X_1, X_2, \cdots, X_n)\) 的概率密度为
\[ f^{\ast}(x_1, x_2, \cdots, x_n) = \prod_{i = 1}^{n} f(x_i) \]
样本分位数
设有容量为 \(n\) 的样本观察值 \(x_1\),\(x_2\),\(\cdots\),\(x_n\),样本 \(p(1 > p > 0)\) 分位数记为 \(x_p\),它具有以下性质:
- 至少有 \(np\) 个观察值小于等于 \(x_p\);
- 至少有 \(n(1 - p)\) 个观察值大于或等于 \(x_p\)。
样本 \(p\) 分位数可按以下法则求得,将 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 按自小到大的次序排序。若 \(np\) 不是整数,则取 \(\lceil np \rceil\);若 \(np\) 是整数,则取 \(\overline{np + np + 1}\)
统计量
设 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 是来自总体 \(X\) 的一个样本,\(g(X_1, X_2, \cdots, X_n)\) 是 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 的函数,若 \(g\) 中不含未知参数,则称 \(g(X_1, X_2, \cdots, X_n)\) 是一统计量。
因为 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 都是随机变量,而统计量 \(g(X_1, X_2, \cdots, X_n)\) 是随机变量的函数,因此统计量是一个随机变量。设 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 是相应于样本 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 的样本值,则称 \(g(x_1, x_2, \cdots, x_n)\) 是 \(g(X_1, X_2, \cdots, X_n)\) 的观察值。
常用的统计量
样本均值
\[ \overline{X} = \frac{1}{n} \sum_{i = 1}^{n} X_i \]
样本方差
\[ S^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_i - \overline{X})^2 = \frac{1}{n - 1} \bigg(\sum_{i = 1}^{n} X_{i}^2 - n\overline{X}^2\bigg) \]
样本标准差
\[ S = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n}(X_i - \overline{X}^2)} \]
样本 \(k\) 阶原点矩
\[ A_n = \frac{1}{n} \sum_{i = 1}^{n} X_i^k, \quad k = 1, 2, \cdots \]
样本 \(k\) 阶中心矩
\[ B_k = \frac{1}{n} \sum_{i = 1}^{n} (X_i - \overline{X})^k, \quad k = 2, 3, \cdots \]
经验分布函数
设 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 是来自分布函数为 \(F(x)\) 的总体 \(X\) 的样本观察值。\(X\) 的经验分布函数,记为 \(F_n(x)\),定义为样本观察值 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 中小于或等于指定值 \(x\) 所占的比率,即
\[ F_n(x) = \frac{\# (x_i \leq x)}{n}, \quad -\infty < x < \infty \]
其中 \(\# (x_i \leq x)\) 表示 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 中小于或等于 \(x\) 的个数。
按定义,当给定样本观察值 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 时,\(F_n(x)\) 是自变量 \(x\) 的函数,它具有分布函数的三个条件:(1). \(F_n(x)\) 是 \(x\) 的不减函数;(2). \(0 \leq F_n(x) \leq 1\),且 \(F(-\infty) = 0\),且 \(F(\infty) = 1\);(3). \(F(x)\) 是一个右连续函数。由此知 \(F_n(x)\) 是一个分布函数,当 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 各不相同时,\(F_n(x)\) 是以等概率 \(1/n\) 取 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 的离散型随机变量的分布函数。
格里汶科定理
设 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 是来自以 \(F(x)\) 为分布函数的总体 \(X\) 的样本,\(F(x)\) 是经验分布函数,则有
\[ P\bigg\{\lim_{n \to \infty} \sup_{-\infty < x < \infty} |F_n(x) - F(x)| = 0\bigg\} = 1 \]
此定理的含义是 \(F_n(x)\) 在整个实轴上以概率 1 均匀收敛于 \(F(x)\),于是当样本容量 \(n\) 充分大时,\(F_n(x)\) 能够良好地逼近总体分布函数 \(F(x)\),这是在概率统计学中以样本推断总体的依据。
集中统计量
卡方分布
设 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 是来自总体 \(N(0, 1)\) 的样本,则称统计量
\[ \chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2 \]
服从自由度为 \(n\) 的 \(\chi^2\) 分布,记为 \(\chi^2 \sim \chi^2(n)\)。
\(\chi^2(n)\) 分布的概率密度为
\[ f(y) = \begin{cases} \frac{1}{2^{n/2} \Gamma(n/2)} y^{n/2 - 1} \text{e}^{-y/2}, &y > 0 \\ 0, &\text{otherwise} \end{cases} \]
根据 \(\Gamma\) 分布的可加性得:
设 \(\chi_{1}^2 \sim \chi^2(n_1)\),\(\chi_{2}^2 \sim \chi^2(n_2)\),并且 \(\chi_1^2\),\(\chi_2^2\) 相互独立,则有
\[ \chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2) \]。
若 \(\chi^2 \sim \chi^2(n)\),则有
\[ E(\chi^2) = n, \quad D(\chi^2) = 2n \]
对于给定的正数 \(\alpha\),\(0 < \alpha < 1\),满足条件
\[ P\{\chi^2 > \chi_\alpha^2(n)\} = \int_{\chi_\alpha^2(n)}^{\infty} f(y) \text{d}y = \alpha \]
的 \(\chi_\alpha^2(n)\) 就是 \(\chi^2(n)\) 分布上的 \(\alpha\) 分位数。
当 \(n\) 充分大时,近似地有
\[ \chi_\alpha^2(n) \approx \frac{1}{2} (z_\alpha + \sqrt{2n - 1})^2 \]
其中,\(z_\alpha\) 是标准正态分布的上 \(\alpha\) 分位数。
学生氏分布
设 \(X \sim N(0, 1)\),\(Y \sim \chi^2(n)\),且 \(X\),\(Y\) 相互独立,则称随机变量
\[ t = \frac{X}{\sqrt{Y/n}} \]
服从自由度为 \(n\) 的 \(t\) 分布,记为 \(t \sim t(n)\)。
\(t\) 分布又称为学生氏分布,\(t(n)\) 分布的概率密度函数为
\[ h(t) = \frac{\Gamma[(n + 1)/2]}{\sqrt{n\pi}\Gamma(n/2)} \bigg(1 + \frac{t^2}{n}\bigg)^{-(n + 1)/2}, \quad -\infty < t < \infty \]
实际上,由 \(\Gamma\) 函数的性质可得
\[ \lim_{n \to \infty} h(t) = \frac{1}{\sqrt{2\pi}} \text{e}^{-t^2/2} \]
同样,给出 \(t\) 分布上分位数,对于给定的 \(0 < \alpha < 1\),满足条件
\[ P\{t > t_{\alpha}(n)\} = \int_{t_{\alpha}(n)}^{\infty} h(t) \text{d}t = \alpha \]
的 \(t_{\alpha}(n)\) 就是 \(t(n)\) 分布的上 \(\alpha\) 分位数。
由概率密度函数的对称性知
\[ t_{1 - \alpha}(n) = -t_{\alpha} \]
此外,当 \(n > 45\) 时,对于常用的 \(\alpha\),可以用正态近似 \(t_{\alpha}(n) \approx z_{\alpha}\)。
F 分布
设 \(U \sim \chi^2(n_1)\),\(V \sim \chi^2(n_2)\),且 \(U\),\(V\) 相互独立,则称随机变量
\[ F = \frac{U/n_1}{V/n_2} \]
服从自由度为 \((n_1, n_2)\) 的 \(F\) 分布,记为 \(F \sim F(n_1, n_2)\),其概率密度函数为:
\[ \phi(y) = \begin{cases} \frac{\Gamma[(n_1 + n_2)/2](n_1 / n_2)^{n_1/2}y^{(n_1/2) - 1}}{\Gamma(n_1 / 2) \Gamma(n_2 / 2) [1 + (n_1 y / n_2)]^{(n_1 + n_2) / 2}}, & y > 0 \\ 0, & \text{otherwise} \end{cases} \]
由定义可得 \(\frac{1}{F} \sim F(n_2, n_1)\)。
同样,给出 \(F\) 分布的上 \(\alpha\) 分位数,对于给定的 \(0 < \alpha < 1\),满足条件
\[ P\{F > F_{\alpha}(n_1, n_2)\} = \int_{F_{\alpha}(n_1, n_2)}^{\infty} \phi(y) \text{d}y = \alpha \]
\[ F_{1 - \alpha} (n_1, n_2) = \frac{1}{F_{\alpha}(n_2, n_1)} \]
正态总体的样本均值与样本方差分布
设总体 \(X\)(不管服从什么分布,只要均值和方差存在)的均值为 \(\mu\),方差为 \(\sigma^2\),\(X_1\),\(X_2\),\(\cdots\),\(X_n\) 是来自 \(X\) 的一个样本,\(\overline{X}\),\(S^2\) 分别是样本均值和样本方差,则有
\[ E(\overline{X}) = \mu, \quad D(\overline{X}) = \sigma^2 / n \]
而
\[ E(S^2) = E\bigg[\frac{1}{n - 1} \bigg(\sum_{i = 1}^{n} X_i^2 - n\overline{X}^2\bigg)\bigg] = \frac{1}{n - 1} \bigg[\sum_{i = 1}^{n} E(X_i^2) - nE(\overline{X}^2)\bigg] \\ = \frac{1}{n - 1}\bigg[\sum_{i = 1}^{n}(\sigma^2 + \mu^2) - n(\sigma^2 / n + \mu^2)\bigg] = \sigma^2 \]
进而,设总体 \(X \sim N(\mu, \sigma^2)\),知 \(\overline{X} = \frac{1}{n} \sum\limits_{i = 1}^{n} X_i\),也服从正态分布,于是得到下述结论:
设 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,\(\overline{X}\) 是样本均值,则有
\[ \overline{X} \sim N(\mu, \sigma^2 / n) \]
设 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,\(\overline{X}\),\(S^2\) 分别是样本均值和样本方差,则有
- \(\frac{(n - 1) S^2}{\sigma^2} \sim \chi^2(n - 1)\)
- \(\overline{X}\) 与 \(S^2\) 相互独立
设 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,\(\overline{X}\),\(S^2\) 分别是样本均值和样本方差,则有
\[ \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t(n - 1) \]
设 \(X_1\),\(X_2\),\(\cdots\),\(X_n\) 和 \(Y_1\),\(Y_2\),\(\cdots\),\(Y_n\) 分别是来自正态总体 \(N(\mu_1, \sigma_1^2)\) 和 \(N(\mu_2, \sigma_2^2)\) 的样本,且这两个样本相互独立,设 \(\overline{X} = \frac{1}{n_1} \sum\limits_{i = 1}^{n_1} X_{i}\),\(\overline{Y} = \frac{1}{n_2} \sum\limits_{i = 1}^{n_2} Y_{i}\) 分别是这两个样本的样本均值;\(S_1^2 = \frac{1}{n_{1} - 1} \sum\limits_{i = 1}^{n_1} (X_i - \overline{X})^2\),\(S_2^2 = \frac{1}{n_2 - 1} \sum\limits_{i = 1}^{n_2} (Y_i - \overline{Y})^2\) 分别是这两个样本的样本方差,则有
\(\frac{S_1^2 / S_2^2}{\sigma_1^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)
当 \(\sigma_1^2 = \sigma_2^2 = \sigma^2\) 时
\[ \frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_W \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2) \]
其中,
\[ S_W^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2} \]