统计学:T检验、F检验、卡方检验
T检验、F检验、卡方检验是统计学中常见的假设检验,今天记录下这几个假设检验的原理和应用场景。
检验方法 | 应用场景 |
---|---|
T检验 | 比较两个样本均值是否有差异 |
F检验 | 比较两个及两个以上样本均值是否有差异 |
卡方检验 | 比较两组或者多组之间的分类型变量是否差异 |
T检验
T检验又称学生T检验,用于统计量服从正态分布,总体方差未知且样本量较小(n<30)的情况下,用来比较两个均值的差异是否显著。可分为配对样本T检验、单样本T检验和两独立样本T检验 3 种类型。
配对样本T检验
用于检验两个配对样本均值的差是否等于零。如比较一个受试者在不同治疗方式后的指标差异,或不能在同一个受试者上开展实验,把接受 A 治疗的人和接受 B 治疗的人配对,通常会基于年龄、性别或其他我们认为重要的变量进行配对,配对的目的是使 A 组和 B 组的人尽可能相同。
单样本T检验
检验单个样本的均值是否与已知的总体均值相等,比如:某大学生的身高是否大于全国平均身高。
两独立样本T检验
检验两独立样本的均值是否相等,如 A/B Test,不同的按钮颜色,对于访问量是否有显著差异。
F检验
方差分析就是对试验数据进行分析,检验方差相等的多个因素均值是否相等,来判断各因素对试验指标的影响是否显著。其原理是从差异的源头入手,一类是组内随机差异造成的,一类是不同组的组间差异造成的。可拆解为总平方和SST = 组内残差平方和 SSE(不可解释的差异) + 组间因素平方和 SSTR(可解释的差异),F统计量是组间均方与组内均方的比值。其计算公式如下:
组间因素平均平方和 MSTR,K-1 代表自由度,K 代表有多少组:
组内残差平均平方和 MSE,n 代表观测值的个数:
根据求得的F统计量,查F表,如果大于临界值则拒绝原假设,就意味着差异的主要来源是由于组与组的不同而造成的,即组间具有显著性的差异。相反,如果F值小于临界值则接受原假设,说明组内的均方 MSE 比较大,差异的主要来源并不是组与组的不同,而是组内随机变化的结果,组间无显著性差异。
卡方检验
卡方检验主要是统计样本的实际观测值与理论推断值之间的偏离程度,来判断变量之间是否有相关关系。适用于比较两组或者多组之间的分类型变量之间是否有显著的差异。卡方值计算公式如下:
根据自由度((行-1)*(列-1)),结合我们定义的置信水平,查卡方分布临界表,卡方值大于临界值,则拒绝原假设,可判断有显著差异。详细案例介绍大家可参考这篇文章《卡方检验的理解》。另外更正一下,这篇文章中最后的自由度的乘号写成了减号。