最后更新:2024-04-26

三、利用SPSS的绘图操作绘制箱线图

说明:

例2-6所用数据,来自英国谢菲尔德大学网站:数据说明

【例2-6】计量资料的箱线图

计量资料的箱线图,也是一种直观呈现数据分布的统计图,若数据中存在离群值,在箱线图中还将标示出这些离群值。

生成箱线图的操作不只一种,可以通过Analyze => Descriptive => Statistics Explore生成,也可以通过绘图菜单进行操作,如下所示:

菜单:Graphs => Legacy Dialogs => Boxplot,选择Simple箱线图进行设置:

image-20220427081459068
图2-3-11

因为选择了分组输出模式(如果没有分组变量,则应点选Summaries of separate variable选项再进行设置),需要定义分组变量(将smoker设置为本图的分类变量),点击【OK】即可输出箱线图:

image-20220427082110070
图2-3-12

在上图中,新生儿体重的箱线图分为2组输出:母亲吸烟组和母亲不吸烟组。

1)没有离群值的箱线图

正常情况下,箱线图中展示了5个统计量,从上到下依次为:最大值、上四分位数(Q3或P75)、中位数、下四分位数(Q1或P25)和最小值,分别对应顶部的横须、箱体的上边界、箱体内的粗横线、箱体的下边界和底部的横须。

(需要注意的是,根据SPSS的算法说明,"the upper and lower limits of the box are the Tukey hinges H1 and H2",就是说箱子的上下限采用的是Tukey构造的统计量H1和H2,而这两个值,多数情况下与SPSS计算的Q1与Q3并不完全相同,因为算法不同,也就是说:SPSS中的箱线图,箱体的上边界、下边界对应的值,并不完全等于SPSS的Q3与Q1)

如果箱体中的粗横线位于箱体中间位置,而由箱体伸出的上下须线长度大体相当,说明这个数据的分布应该是对称的

2)有离群值的箱线图

有时我们得到的箱线图是这样的:

image-20220427090722660
图2-3-13

在箱体伸出的T须线之外,还有一些用圆圈和星号标示的点,这些点旁边的数字是记录号(行号),按照SPSS的对离群值的定义:

$IQR=Q_3 - Q_1$,$STEP=1.5 \cdot IQR$,值$y_i$如果:

$Q_3+STEP \le y_i \lt Q_3+2 \cdot STEP$,或$Q_1-2 \cdot STEP \lt y_i \le Q_1 - STEP$,则$y_i$为离群值,在箱线图中用圆圈标示;

如果 $y_i \ge Q_3+2 \cdot STEP$ 或 $y_i \le Q_1-2 \cdot STEP$,则$y_i$为极值,用星号标示。

SPSS输出的箱线图,如果有离群值,则上下横须对应的值,是比离群值(在横须上部的,包括极值)小的第一个样本值,或比离群值大(在横须下部的,包括极值)的第一个样本值

s