最后更新:2021-10-18

【例】皮肤癌导致的死亡率与纬度的线性关系

上世纪50年代收集的美国 49 个州中心位置的经、纬度,以及各州因皮肤癌导致的死亡率(每 1000 万人的死亡人数)等数据,如下表所示:

img
(注:1. 本例数据引自宾夕法尼亚州立大学埃伯利科学学院统计系网络课程STAT 462:2.1 - What is Simple Linear Regression? ;2. 本数据不是随机抽样取得,不是真正的样本数据,进行统计推断不是十分合适,此处仅用于演示目的)

试分析皮肤癌的死亡率与纬度之间的关系。


对于本例,皮肤癌导致的死亡率与纬度的关系,可以先绘制一个散点图,观察两者在数量上的趋势特征,然后再根据情况进行下一步操作。

1. 建立数据集

下载的数据中有对应变量的名称(第1行),我们予以保留,所建SPSS数据集如下图所示:

img

变量视图如下:

image-20211118070530300

当然,对于本例,实际只需Lat(纬度)和Mort(皮肤癌死亡率)这两个数据。

2. 绘制散点图

绘制散点图的操作参见:用SPSS绘制常用的统计图

以皮肤癌死亡率(每 1000 万人的死亡数)为纵坐标,纬度为横坐标,绘制的散点图如下:

image-20211118155912873

可以看出,皮肤癌死亡率与纬度之间具有明显的线性趋势,基于不同纬度地区常年的阳光、紫外线等因素,可能对皮肤癌的发生产生影响,以皮肤癌死亡率为应变量,纬度为自变量,进行简单线性回归分析

3. 简单线性回归分析操作

选择分析菜单中的回归分析【Regression】中的【Linear】,

img

定义线性回归模型,将应变量皮肤癌死亡率(Mort变量)放入Dependent框中,将自变量纬度(Lat变量)放在Independent列表中,

img

设置好线性模型的应变量与自变量后,上图中的【OK】即被激活,其它设置均保持默认(不做其它设置的操作)的情况下,点击【OK】即可输出统计结果。

4. 结果解读

线性回归分析,主要的工作包括:线性回归方程的求解、回归模型与参数的假设检验、回归模型的拟合优度评价、回归模型的诊断等工作。

本例,(SPSS 23 64位)输出的统计结果中共包含4个表格,后3个是我们所需要的,按照上述线性回归分析主要工作的顺序,分述如下:

  • 线性回归方程的求解

    根据Coefficients表

    image-20211118163532353

    可得到线性回归方程

    $\hat{Mart} = 389.189~-~5.978\times Lat$

  • 回归模型与参数的假设检验

    根据ANOVA表

    image-20211118164618147

    由模型的方差分析结果:$F=99.797~,~P=.000$,可推断上述线性回归模型有统计学意义,说明不同地区皮肤癌导致的死亡率与纬度之间存在着线性回归关系

    根据Coefficients表

    image-20211118164515150

    由模型回归系数的t检验结果:$t=-9.990~,~P=.000$,可推断模型的回归系数不应为0,说明不同地区皮肤癌导致的死亡率与纬度之间存在着线性回归关系

    注意:在两个变量的简单线性回归分析中,方差分析结果与t检验结果是完全等价的,即P值完全相同。

  • 模型的拟合优度

    根据Model Summary表

    image-20211118170212920

    决定系数$R^{2}=0.680$,(因模型有统计学意义)可认为美国不同地区皮肤癌死亡率的差异,68%源于各地区中心位置的纬度不同。

简单线性回归模型的诊断

两变量进行简单线性回归分析的前提条件,是满足LINE假定:

  • L (Linear):应变量与自变量间应存在线性关系
  • I (Independent):个体观察值之间相互独立
  • N (Normality):Y服从总体均数为$\mu_{Y|X}$、方差为$\sigma^{2}$的正态分布
  • E (Equality):不同X所对应的Y的总体等方差(各总体的方差$\sigma^{2}$相等)

是否满足LINE假定,可通过绘制残差($\epsilon=Y-\hat{Y}$)图的方法验证。

SPSS中的操作如下:

在线性回归分析的对话框中,点击【Plots】按钮,将标准化的预测值*ZPRED(即$\hat{Y}$)放到X坐标,将标准化的残差*ZRESID放到Y坐标,如果想查看残差的分布情况,可把左下角的Histogram也点选上:

image-20211118171923163

设置好【Plots】选项后,点击【Continue】按钮,再点击回归对话框中的【OK】按钮,生成残差的直方图以及残差图:

image-20211118172854017

直方图显示,标准化之后的残差呈近似的正态分布,分布位置在0附近,符合线性回归对残差的要求。

image-20211118173238887

上图为残差图,残差比较均匀地分布在参考线 $Y=0$ 上下两侧,且未呈现任何特定的趋势,故可判定本例数据满足线性回归分析的条件。

s