20.19 比例检验 prop.test

函数 prop.test 用来检验两组或多组二项分布的成功概率(比例)是否相等,或等于给定的值。近似检验

usage(prop.test)
prop.test(x, n, p = NULL, alternative = c("two.sided", "less", "greater"),
    conf.level = 0.95, correct = TRUE)

设随机变量 X 服从参数为 \(p\) 的二项分布 \(b(n, p)\)\(Y\) 服从参数为 \(\theta\) 的二项分布 \(b(m,\theta)\)\(m,n\) 都假定为较大的正整数,检验如下问题

\[ H_0: P_A \geq P_B \quad vs. \quad H_1: P_A < P_B \]

根据中心极限定理

\[ \frac{\bar{X} - \bar{Y}}{\sqrt{\frac{p(1-p)}{n} + \frac{\theta(1-\theta)}{m}}} \] 近似服从标准正态分布 \(N(0,1)\)。如果用矩估计 \(\bar{X}\)\(\bar{Y}\) 分别替代总体参数 \(p\)\(\theta\),构造检验统计量

\[ T = \frac{\bar{X} - \bar{Y}}{\sqrt{\frac{\bar{X}(1-\bar{X})}{n} + \frac{\bar{Y}(1-\bar{Y})}{m}}} \] 根据 Slutsky 定理,检验统计量 \(T\) 近似服从标准正态分布,当 \(T\) 偏大时,拒绝 \(H_0\)。该方法的优势在于当 \(n,m\) 比较大时,二项分布比较复杂,无法建立统计表,利用标准正态分布表来给出检验所需要的临界值,简便易行!

\(p\)\(\theta\) 都比较小,上述方法检验效果不好,原因在于由中心极限定理对 \(\bar{X}\)\(\bar{Y}\) 的正态分布近似效果不好,或者间接地导致 \(\bar{X}-\bar{Y}\) 的方差偏小,进而 \(T\) 的分辨都不好,而且当 \(p,\theta\) 很接近 1 时,上述现象也会产生!

下面介绍新的解决办法

上面的检验问题等价于

\[ H_0: \frac{P_A}{P_B} \geq 1 \quad vs. \quad H_1: \frac{P_A}{P_B} < 1 \]

引入检验统计量

\[ T^{\star} = \frac{\bar{X}}{\bar{Y}} \] 同样由 Slutsky 定理和中心极限定理可知, \(\bar{X}/\bar{Y}\) 近似服从 正态分布\(N(1,\frac{1-\theta}{m\theta})\)

\((T^\star - 1)/\hat\sigma\) 偏大时接受 \(H_0\),临界值可通过 \(N(0, \hat\sigma^2)\) 分布表计算得到, \(\hat\sigma^2\) 是对 \(\frac{1-\theta}{m\theta}\) 的估计,比如取 \(\hat\sigma^2 = \frac{1-\bar{Y}}{m}\cdot \frac{1}{\bar{Y}}\) 或取 \(\hat\sigma^2 = \frac{1-\bar{Y}}{m}\cdot \frac{1}{\bar{X}}\)

由于渐近方差形如 \(\frac{1-\theta}{m\theta}\),因而在 \(\theta\) 较小,渐近方差较大,克服了之前 \(\bar{X} - \bar{Y}\)的方差较小的问题

\(p,\theta\) 很接近 1 时,我们取检验统计量

\[ T^{\star\star} = \frac{1-\bar{Y}}{1-\bar{X}} \] 结论和 \(T^\star\) 类似,当 \(T^{\star\star}\) 偏大时,拒绝 \(H_0\)

两个二项总体成功概率的比较 (宋泽熙 2011)

20.19.1 两个独立二项总体等价性检验

关于比例的检验问题

\[\begin{align} H_0: P_A = P_B \quad vs. \quad H_1: P_A > P_B \\ H_0: P_A = P_B \quad vs. \quad H_1: P_A < P_B \end{align}\]

\(H_0\) 成立的情况下,暗示着两个样本来自同一总体。在这种假设设置下,拒绝原假设是不是意味着接受备择假设?如何判断样本点会落在哪个拒绝域内呢?

2009 年东南大学韦博成教授将两个独立二项总体的等价性检验应用于《红楼梦》前80回与后40回某些文风差异的统计分析 (韦博成 2009)

20.19.2 不同页面的点击率问题

CTR:点击率 Click Ratio

矩阵 x 第一行表示页面 A 的点击情况,即 1000 次展示有 500 次点击,第二行表示页面 B 的点击情况,即 100 次展示有 80 次点击。通过统计检验的方式比较页面 A 和 B 的点击率哪个更好?

S F
A 500 500
B 80 20
(x <- matrix(c(500, 80, 500, 20), nrow = 2, ncol = 2, byrow = FALSE))
##      [,1] [,2]
## [1,]  500  500
## [2,]   80   20
# 等价于 prop.test(x, alternative = "two.sided", correct = TRUE)
prop.test(x) # 默认参数设置情形是双边检验
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  x
## X-squared = 31.632, df = 1, p-value = 1.863e-08
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3898012 -0.2101988
## sample estimates:
## prop 1 prop 2 
##    0.5    0.8

默认的假设检验问题

\[ H_0: P_A = P_B \quad vs. \quad H_1: P_A \ne P_B \]

输出结果中 alternative hypothesis 表示备择假设,参数 alternative 指定备择假设的形式

备择假设 \(P_A < P_B\) 对应

prop.test(x, alternative = "less")
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  x
## X-squared = 31.632, df = 1, p-value = 9.315e-09
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.0000000 -0.2237522
## sample estimates:
## prop 1 prop 2 
##    0.5    0.8

P 值 \(9.315\times 10^{-09}\) 结论是拒绝原假设,并且接受备择假设,即 \(P_A < P_B\),在原假设成立的情况下,样本落入拒绝域的概率很小,小于 0.05,即在一次实验中,样本不可能落入拒绝域,应当接受原假设,因为将备择假设设为

备择假设 \(P_A > P_B\)

prop.test(x, alternative = "greater")
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  x
## X-squared = 31.632, df = 1, p-value = 1
## alternative hypothesis: greater
## 95 percent confidence interval:
##  -0.3762478  1.0000000
## sample estimates:
## prop 1 prop 2 
##    0.5    0.8

P 值为 1 不能拒绝原假设,在原假设成立的情况下,样本落入拒绝域的概率是 1

备择假设和原假设在这里是对立的关系

页面 A 观测到的点击率为 \(50\%\) 页面 B 观测到的点击率为 \(80\%\),设置检验问题

\[ H_0: P_A = P_B \quad vs. \quad H_1: P_A \leq P_B \]

页面点击率 A 等于 B,则备择假设页面点击率 A 不大于 B

默认启用 Yates’ 连续性校正 (continuity correction, 简称 CC)

20.19.3 比例齐性检验

原假设四个组里面病人中吸烟的比例是相同的,备择假设是四个组里面至少有一个组的吸烟比例是不同的

## Data from Fleiss (1981), p. 139.
## H0: The null hypothesis is that the four populations from which
##     the patients were drawn have the same true proportion of smokers.
## A:  The alternative is that this proportion is different in at
##     least one of the populations.

smokers <- c(83, 90, 129, 70)
patients <- c(86, 93, 136, 82)
prop.test(smokers, patients)
## 
##  4-sample test for equality of proportions without continuity
##  correction
## 
## data:  smokers out of patients
## X-squared = 12.6, df = 3, p-value = 0.005585
## alternative hypothesis: two.sided
## sample estimates:
##    prop 1    prop 2    prop 3    prop 4 
## 0.9651163 0.9677419 0.9485294 0.8536585

Wilson 检验统计量 (Wilson 1927) 考虑单样本比例 \(p\) 的区间估计问题,

Probable Inference (Usual): 可能的推断,或然推断,概率推断

在某个总体中抽取 n 个样本,观测到某个比率/频率 \(p_0\),相应的标准差 \(\sigma_0 = (p_0q_0/n)^{1/2}\),常见的概率推断表述是说:比率 \(p\) 的真值落在区间 \([p_0 - \lambda\sigma_0, p_0 + \lambda\sigma_0]\) 外的概率小于等于 \(P_\lambda\),并且随着 \(\lambda\) 增大, \(P_\lambda\) 减小。

如果使用 Tchebysheff 切比雪夫准则,我们知道 \(P_\lambda\) 本身小于 \(1/\lambda^2\),但是如果使用概率表 \(P_\lambda\) 是概率密度曲线与坐标 \(\pm\lambda\sigma_0\) 之外的部分围成的面积。尽管切比雪夫准则在估计 \(P_\lambda\) 的时候过于保守,但是概率表给出了一个本质的估计。

严格来说,上面给出的概率推断的表述是简略的。真实概率\(p\)落在指定范围之外的机会要么是 0 要么是 1,就是说 \(p\) 要么在那个范围要么不在那个范围。观测的比率 \(p_0\) 有更大或更小的机会落在真实比率 \(p\) 的某个区间。观测者运气不好,观测到一个相对罕见的事件发生了,基于已有的推断理论,他会获得一个相当宽的标记。

Probable Inference (Improved):

一个更好的方式来阐述推理过程:

有某个比率 \(p\) 它的标准差是 \((pq/n)^{1/2} = \sigma\),一个观测糟糕如 \(p_0\) 发生的可能性,即 \(p_0\) 落在区间 \([p - \lambda\sigma,p + \lambda\sigma]\) 是小于等于 \(P_\lambda\)

这个表述强调了特殊观测相对于一般典型情况更容易犯的错误。

两样本比例 \(p\) 的检验问题。

思路需要推导,考虑如下检验问题

\[ H_0: P_A \geq P_B \quad vs. \quad H_1: P_A < P_B \]

比例检验,未知 p 的情况下,且样本量有限,是 t 分布 多种二项检验的办法 (Newcombe 1998)

切比雪夫不等式 Chebyshev, 1821-1894

设随机变量 \(X\) 的数学期望和方差都存在,则对任意常数 \(\epsilon > 0\),有

\[\begin{align} P(|X - EX| \geq \epsilon) & \leq \frac{Var(X)}{\epsilon^2} \\ P(|X - EX| \leq \epsilon) & \geq 1 - \frac{Var(X)}{\epsilon^2} \end{align}\]

参考文献

Newcombe, Robert G. 1998. “Interval Estimation for the Difference Between Independent Proportions: Comparison of Eleven Methods.” Statistics in Medicine 17 (8): 873–90. https://doi.org/10.1002/(SICI)1097-0258(19980430)17:8<873::AID-SIM779>3.0.CO;2-I.
Wilson, Edwin B. 1927. “Probable Inference, the Law of Succession, and Statistical Inference.” Journal of the American Statistical Association 22 (158): 209–12. https://doi.org/10.1080/01621459.1927.10502953.
宋泽熙. 2011. “两个二项总体成功概率的比较.” 中国校外教育(理论) z1: 81. https://doi.org/10.3969/j.issn.1004-8502-B.2011.z1.0919.
韦博成. 2009. “《红楼梦》前80回与后40回某些文风差异的统计分析(两个独立二项总体等价性检验的一个应用).” 应用概率统计 25 (4): 441–48. https://doi.org/10.3969/j.issn.1001-4268.2009.04.012.