方差和标准差的区别-统计学中标准差和方差的区别
标准差的直观解释
统计学中的关键概念之一便是标准差,其与其他统计量(如方差和均值)之间存在着密切的关系。为了更直观地解释这一概念,本文将通过具体的例子进行说明。
设想我们有一份成绩单,这即是现实测量数据的体现。面对大量的数据,我们希望将其简化,以便于对比不同班级或不同年份的成绩。由于我们的认知能力有限,无法逐一查看每个分数来找出平均分更高的班级。这时,描述统计学就派上了用场。
在描述统计中,我们通常通过两种方式来总结数字:量化其相似性或差异。量化数字的相似性即为“集中趋势量数”,包括平均数、中位数和众数;而量化数字的差异则是“差异量数”,标准差便是其中之一。
标准差能够揭示一组数字中个体之间的差异,以及数字与平均值之间的差异。为了更好地理解这一概念,我们以一组学生分数为例进行说明。
我们在简单的散点图中绘制这些数字,并找出这些数字的中心,即平均值,用一条线表示。接下来,我们要计算每个点和平均值之间的距离,并对得到的数值求平方。这样做的目的是计算数字之间的差异,以及数字与平均值之间的差异。我们可以通过数学或图表的方式来完成这一操作。
上图中,我们可以看到对差异进行求平方的操作实际上就是在画一个方框。需要注意的是,我们不能简单地将所有差异相加。因为一些差异是正值,一些是负值,相加后会相互抵消得到0。我们对差异取平方。
然后,我们计算这些平方差异的总和,即平方和。这一总和高效地反映了分数的总变异程度。理解变异与差异之间的关系是理解多个统计估计和推断检验的关键。
现在我们已经得到了总变异,但更关心的是平均变异。要计算平均变异,我们将总平方和除以方框的数量。在实用场合中,有时会除以N-1而不是N,以便基于一个样本而非总体来估计平均变异。但在此假设我们已经拥有总体数据。
重点在于,我们想要计算所有小方框的均方值,这就是方差的定义,即平均变异或差异平方的平均值。
为什么我们不直接使用方差来表示分数的差异呢?问题在于,我们不能直接比较方差和原始分数,因为方差是“平方”值,表示的是面积而非长度。其单位是points^2,与原始分数的单位points不同。那么如何将这种“平方”的关系去掉呢?答案就是方根。
最终,我们得到了标准差,即变异的平方根。以本例中的成绩单为例,我们得到的最终标准差值为2.91points。
这就是标准差的核心概念。通过对标准差进行基础直观的解释,有助于大家理解为什么在处理z分数、正态分布、标准误差和方差分析时需要使用标准差的单位。标准差在数学、统计学以及机器学习等领域中都有着广泛的应用。
关于为何选择差异平方而非绝对值的问题,虽然使用差异的平均绝对值是可行的,但差异平方为距离平均值较远的数字提供了更多权重。这在数学理论和实际应用中常被采用。通过具体的例子比较,我们可以更清楚地看到差异平方在衡量数据分散程度时的优越性。