什么是自由度？为什么总体方差和样本方差的公式不一样？

图片

上一篇文章中，我们在讲方差和标准差时，用到的公式分母是 n。可是，如果你去翻现在的统计学教材，就会发现样本方差和样本标准差的分母写成了 n−1。这到底是为什么？难道以前的公式错了吗？

【一】从 n 到 n−1：历史的演变

在统计学的发展早期，很多教材中的样本方差写法是：

图片

这样写很自然：它和总体方差的形式一模一样，也更容易记忆。

如果我们有一个总体（比如全校所有学生成绩），均值 μ 是已知的常数，当然可以除以 N。

但是在现实中，我们几乎从来拿不到整个总体的数据。我们只能通过抽样得到一部分数据（样本），再用样本均值来代替总体均值。

问题就出在这里。样本均值本身是一个估计量，它依赖于样本数据，因此会让计算出的方差偏小。换句话说，这样的样本方差（分母 n）是有偏的，不能准确地反映总体的真实波动。

到了 20 世纪以后，统计学家们（如 Fisher、Neyman 等）提出修正方案：

把分母改成 n−1，得到新的公式：

图片

这样计算的结果，平均而言，正好等于总体方差。它就是所谓的无偏估计。因此，现代教材普遍采用分母 n−1 的写法，逐渐形成了国际标准。【二】自由度的通俗解释

很多同学还会问：为什么一定是 n−1，而不是 n−2、n−3？

要回答这个问题，就得先理解“自由度”是什么。

所谓自由度，可以理解为：数据里真正能自由变化的数量。

举个例子：

假设你有 5 个同学的分数，平均分已经算出来是 70。

前 4 个同学的分数，你可以随意决定；

但第 5 个同学的分数就不能随便了，因为它必须保证平均分仍然是 70。

所以，虽然你有 5 个数据点，但实际上只有 4 个是真正自由的。

这就是 n−1 的由来。

换句话说：在计算样本方差时，我们已经“用掉”了一个自由度去计算样本均值，因此在计算分散程度时，只剩下 n−1 个自由度。

【三】一个简单的例子

让我们用一个更直观的小例子：

假设有 3 个学生的成绩：60 分、70 分、80 分。样本均值是：

图片

如果用分母 n=3 计算方差：

图片

如果用分母 n−1=2 计算方差：

图片

哪一个更接近总体方差？

如果这 3 个学生是从一个大班级里随机抽样的，那么用 n−1 得到的结果才是总体方差的“无偏估计”。

这就是为什么现代统计学坚持使用 n−1。

【四】小结

总体方差：分母是 N，因为均值是已知的常数。

样本方差：分母是 n−1，因为样本均值消耗了一个自由度。

历史原因：早期教材直接用分母 n，但统计学发展后发现这样会低估总体方差，因此改为 n−1，并成为今天的标准。

自由度的直观理解：就是“真正能自由变化的数据个数”。

📌 所以，今天我们在教材里看到的样本方差公式，并不是“突然改了”，而是统计学经过几十年的发展，逐渐形成的科学共识。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

新闻动态