最后更新:2021-10-18
上世纪50年代收集的美国 49 个州中心位置的经、纬度,以及各州因皮肤癌导致的死亡率(每 1000 万人的死亡人数)等数据,如下表所示:
(注:1. 本例数据引自宾夕法尼亚州立大学埃伯利科学学院统计系网络课程STAT 462:2.1 - What is Simple Linear Regression? ;2. 本数据不是随机抽样取得,不是真正的样本数据,进行统计推断不是十分合适,此处仅用于演示目的)
试分析皮肤癌的死亡率与纬度之间的关系。
对于本例,皮肤癌导致的死亡率与纬度的关系,可以==先绘制一个散点图==,观察两者在数量上的趋势特征,然后再根据情况进行下一步操作。
下载的数据中有对应变量的名称(第1行),我们予以保留,所建SPSS数据集如下图所示:
变量视图如下:
当然,对于本例,实际只需Lat(纬度)和Mort(皮肤癌死亡率)这两个数据。
绘制散点图的操作参见:用SPSS绘制常用的统计图。
以皮肤癌死亡率(每 1000 万人的死亡数)为纵坐标,纬度为横坐标,绘制的散点图如下:
可以看出,皮肤癌死亡率与纬度之间具有明显的线性趋势,基于不同纬度地区常年的阳光、紫外线等因素,可能对皮肤癌的发生产生影响,以皮肤癌死亡率为应变量,纬度为自变量,进行简单线性回归分析。
选择分析菜单中的回归分析【Regression】中的【Linear】,
定义线性回归模型,将应变量皮肤癌死亡率(Mort变量)放入Dependent框中,将自变量纬度(Lat变量)放在Independent列表中,
设置好线性模型的应变量与自变量后,上图中的【OK】即被激活,其它设置均保持默认(不做其它设置的操作)的情况下,点击【OK】即可输出统计结果。
线性回归分析,主要的工作包括:线性回归方程的求解、回归模型与参数的假设检验、回归模型的拟合优度评价、回归模型的诊断等工作。
本例,(SPSS 23 64位)输出的统计结果中共包含4个表格,后3个是我们所需要的,按照上述线性回归分析主要工作的顺序,分述如下:
线性回归方程的求解
根据Coefficients表:
可得到线性回归方程:
$\hat{Mart} = 389.189~-~5.978\times Lat$
回归模型与参数的假设检验
根据ANOVA表:
由模型的方差分析结果:$F=99.797~,~P=.000$,可推断上述线性回归模型有统计学意义,说明不同地区皮肤癌导致的死亡率与纬度之间存在着线性回归关系。
根据Coefficients表:
由模型回归系数的t检验结果:$t=-9.990~,~P=.000$,可推断模型的回归系数不应为0,说明不同地区皮肤癌导致的死亡率与纬度之间存在着线性回归关系。
注意:在两个变量的简单线性回归分析中,方差分析结果与t检验结果是完全等价的,即P值完全相同。
模型的拟合优度
根据Model Summary表:
决定系数$R^{2}=0.680$,(因模型有统计学意义)可认为美国不同地区皮肤癌死亡率的差异,68%源于各地区中心位置的纬度不同。
两变量进行简单线性回归分析的前提条件,是满足LINE假定:
是否满足LINE假定,可通过绘制残差($\epsilon=Y-\hat{Y}$)图的方法验证。
SPSS中的操作如下:
在线性回归分析的对话框中,点击【Plots】按钮,将标准化的预测值*ZPRED(即$\hat{Y}$)放到X坐标,将标准化的残差*ZRESID放到Y坐标,如果想查看残差的分布情况,可把左下角的Histogram也点选上:
设置好【Plots】选项后,点击【Continue】按钮,再点击回归对话框中的【OK】按钮,生成残差的直方图以及残差图:
直方图显示,标准化之后的残差呈近似的正态分布,分布位置在0附近,符合线性回归对残差的要求。
上图为残差图,残差比较均匀地分布在参考线 $Y=0$ 上下两侧,且未呈现任何特定的趋势,故可判定本例数据满足线性回归分析的条件。
© By StatX..