2.1 计量资料的数据分布与正态性检验

最后更新：2022/04/18

【例2-1】计量资料的数据分布

对数据进行统计分析，统计描述是第一步。

对于计量资料，描述其数据分布，即集中趋势（平均数）和离散趋势（数据的变异程度），通过直方图观察其频数分布，根据其分布特征选择合适的描述性统计量，是统计描述的主要工作。

以体重指数（Body Mass Index，BMI）为例，根据心理学教授Davis（1990）公开的研究数据，使用SPSS 23对该数据进行统计描述的具体过程如下：

1. 建立数据集

本数据可以通过读入的方式，在SPSS中直接打开Excel文件（参见：1.2 SPSS的一般操作与数据集的建立），也可以通过复制等其它方式建立新的SPSS数据集。

数据列表（数据视图）如下所示：

图2-1-1

变量视图如下：

图2-1-2

2. 计算并生成新变量BMI

上述数据集中并不含体重指数BMI，因此要通过已有变量进行计算获得BMI。

BMI的计算公式：$BMI~=~\frac{体重}{身高^2}$，其中，体重的单位为公斤，身高的单位为米。

由于数据集中的身高单位为厘米，所以实际的计算公式为：$BMI=weight/(height/100)^2$，计算过程在SPSS中的操作如下：

点击菜单：Transform => Compute Variable

图2-1-3

对话框左上角的Target Variable是将计算结果作为新变量保存时，设置的变量名；

对话框右侧的计算公式中，必须使用已有变量的变量名，公式写书好之后，点击OK就可以在数据集中生成一列新的变量BMI：

图2-1-4

3. 数据分布的描述性统计量

点击菜单：Analyze => Descriptive Statistics => Frequencies

图2-1-5

在Frequencies对话框中，可以将多个需要计算的变量放入Variable(s)（变量列表）中，因本例仅对BMI进行统计描述，故仅放入BMI。

在Frequencies: Statistics对话框中，根据需要选择相应的统计量，其含义如下：

（1）右上角的Central Tendency是集中趋势统计量，包括：

Mean：算术均数

Median：中位数

Mode（众数）和Sum（和）在统计描述中一般不用。

（2）左下角的Dispersion是离散趋势统计量，包括：

Std. deviation：标准差

Variance：方差

Minimum：最小值

Maximum：最大值

Range（极差）和S.E. mean（标准误）在统计描述中一般不用。可能有的国外学术期刊在统计分析时明确要求提供标准误，用于评价样本的抽样误差。

（3）左上角的Percentile Values是百分位数：

Quartiles：四分位数，包括下四分位数Q1（即第25百分位数，P25）、中位数（即第50百分含位数，P50）和上四分位数Q3（即第75百分位数，P75）；

如果想计算其它百分位数，可以点击Quartiles下面的Percentile(s)选择，输入需要计算的百分位数并点击【Add】按钮添加（如上图所示）。

全部设置好后，点击【Continue】按钮关闭Frequencies: Statistics对话框，再点击Frequencies对话框的【OK】按钮，即可输出统计结果，如下所示：

图2-1-6

在Statistics（统计量）表中，就是我们选择的各个统计量的计算结果了。

4. 通过直方图与正态性检验进一步了解数据的分布特征

计量数据的直方图，在SPSS中有多种方法可以获得，比如在图2-1-3中，点击Frequencies对话框中的【Charts】按钮，就可以选择输出直方图：

图2-1-7

也可以在进行正态性检验时，一并输出直方图，操作如下：

点击菜单：Analyze => Descriptive Statistics => Explore

图2-1-8

设置变量及分组因素（本例中为sex，将分别输出男性与女性的正态性检验结果），点击【Plots】按钮，在Expore: Plots对话框中，勾选直方图和正态性检验两个选项（如上图），点击【Continue】=>【OK】，就能输出结果，因为Expore的默认选项我们没有去除，所以输出的结果中内容非常多，截取我们需要的信息如下：