统计学:参数估计
统计学方法分为两类,一类叫描述统计,是对已知的数据进行描述分析;一类叫推理统计,推测未知的数据或预测未发生的事件。推断统计由参数估计和假设检验组成的,今天来说下参数估计。
一般情况下,没有办法搜集到总体的数据,或者由于时间周期长,花费昂贵,因此会用样本估计总体。参数估计分为点估计和样本估计。
点估计
以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。也就是说,用样本的均值估计总体的均值,用样本的标准差估计总体的标准差。
比如说要知道一批产品的合格率,如果产品太多,工作量太大,那怎么办?那就是随机抽取一部分产品,测出这部分产品的合格率99%,将99%直接作为这批产品合格率的估计值。
区间估计
由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体均值,因此采用区间估计给出一个区间范围来度量,它是在点估计的基础上,给出总体参数估计的一个区间范围,该区间由统计样本量加减抽样误差。
如何计算置信区间
用样本推导总体,总是存在限制,而且很难被克服,因此我们只能假设总体服从于正态分布,我们的置信区间是基于总体服从正态分布的假设,计算置信区间可参考以下公式。
- n :样本个数
- :样本均值
- :置信水平(置信区间包含总体参数真值的次数所占的比例),常用的置信水平值有 99%, 95%, 90%,相应的 为0.01,0.05,0.10。
- 标准差:反映样本中的元素对样本均值的离散程度,衡量个体间变异大小。
- 标准误差:反映样本均值对总体均值的变异程度,从而衡量抽样误差的大小。
案例
在某大学的一次抽样调查中共调查了64名老师,调查后得知,他们每年的平均生病天数是7天,其标准差是2.5天,该大学所有老师平均生病天数的95%置信区间是多少呢?
- 明确问题,通过样本估计该大学老师的平均生病天数的置信区间
- 已知标准差为2.5,样本数为64,求的标准误差为 2.5/$$\sqrt{64}$$=0.3125
- 置信水平为95%,表示有95%的区间包含真值,5%的区间不包含真值
- 在95%置信区间内,查Z表,Z𝑎/2 =1.96
- 计算置信区间,置信上限为7+1.960.3125=7.6125,置信下限为7-1.960.3125=6.3875
- 最终置信区间为(6.3875,7.6125)