关于【spss线性回归】,spss怎么进行多元回归预测,今天小编给您分享一下,如果对您有所帮助别忘了关注本站哦。
- 内容导航:
- 1、spss线性回归:回归分析 之 一元线性回归
- 2、spss线性回归,spss怎么进行多元回归预测
1、spss线性回归:回归分析 之 一元线性回归
序曲
咏牡丹
【宋】陈与义
一自胡尘入汉关,十年伊洛路漫漫。
青墩溪畔龙钟客,独立东风看牡丹。
作者陈与义是南北宋相交时的著名诗人。这首诗是作者南渡后于绍兴六年(1136年)居住在青墩(今浙江桐乡县北,与乌镇隔水相望)时所作,距靖康二年(1127年)金兵攻陷汴京正好十年。"十年伊洛路漫漫"中"路漫漫"既是说离自己的家乡洛阳(伊水、洛水)是路途遥远,也是说家乡被金兵占领的时间也已经很长久了(十年)。
在这首诗里,作者表面说的是面对春日盛开的青墩牡丹,自己独自一个在观赏,实际上想说的是什么时间我才能再回到故乡去观赏天下驰名的洛阳牡丹。但想到眼前的景况,时间在无情地流逝,自己已变得老态龙钟,然而家国破碎故土依然难回时,作者通过牡丹而强烈地表达出了对故乡深切无尽的思念及对前景的无望与悲苦万千的愁绪!
一元线性回归分析简介
在前面章节提到线性回归分析的条件是:LINE,即为 线性、独立、正态、方差齐性。其具体分析步骤如下:
(1)绘制散点图,考察数据是否满足线性趋势
- 若在散点图中发现有明显远离主体数据的观测值,则称之为异常点,异常点可能对正确评价两变量间的关系有较大影响,对异常点的识别与处理需要从专业知识和数据特征两方面进行考虑。需要强调的是,实践中不能通过简单提出异常数据的方式来得到拟合效果较好的模型,只有认真核对原始数据并检查其产生过程认定是过失误差,或通过重复测定确定是抽样误差造成的偶然结果,才可以提出或采用其他估计方法。
(2)观察数据的分布
- 分析因变量的正态性、方差齐性,确定是否可以进行线性回归分析,模型拟合完毕,通过残差分析结果来考察模型是否可靠。如变量进行了变换,则应重新绘制散点图并观察数据分布。
(3)拟合回归曲线
(4)残差分析
考察数据是否符合模型假设条件,主要包括以下方面:
a.残差是否独立:实际上就是考察因变量取值是否相互独立,采用Durbin-Watson残差序列相关性检验进行分析。
b.残差分布是否正态:实际上就是考察因变量取值是否服从正态分布,可以用残差列表及一些相关指标来分析,直观方法为图示法。
(5)结果解释
- 反映两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间直线关系的存在,而不能说关系越密切或越"显著"。另外,线性回归用于预测时,其使用范围一般不应超过样本中自变量的取值范围,此时求得的预测值成为内插,而超过自变量取值范围所得的预测值称为外延。若无重复理由说明现有自变量范围以外的两变量间仍然是直线关系,则应尽量不合理的外延。
SPSS实现一元线性回归
示例:某课题组随机抽取30名成年男性,收集其年龄X和收缩血压Y(mmHg)。分析收缩压对年龄的直线回归方程。
1.线性关系验证
- 从上图可看出,年龄与收缩压之间之间具有一定的直线关系,同时,从散点图也可看出,有一个点,游离于其他点之外,可能为异常值,后续可进行判断
2.正态性判断
(1)打开 分析—描述—探索
- 由上图可知,收缩压与年龄的P值均大于0.05,所以呈正态分布
3. 打开 分析—回归—线性
4.参数说明
(1)主页面说明
- 因变量:定义会分析的因变量,只能选择一个;
- 自变量:可以定义一个或多个
- 方法:自变量的选择方式,默认为Enter(输入,即强行进入法),本例只有1个自变量,选择Enter法
a.输入:将自变量列表中的自变量全部选入回归模型
b.逐步:先选择对因变量贡献最大,并满足判断条件的自变量进入回归方程,然后将模型中符合剔除数据的变量移出模型,重复进行到没有变量被引入或剔除,得到回归方程
c.删除:先建立全模型,然后根据设定的条件一部就剔除部分自变量
d.后退:先建立全模型,根据选项对话框中设定的判定条件,每次讲一个不符合条件的变量模型删除,重复进行到没有变量被删除,得到回归方程
e.前进:模型从无自变量开始,根据选项对话框中设定的判定条件,每次将一个最符合条件的变量引入模型,直到所有符合判定条件的变量进入模型
- 选择变量:在分析某变量符合一定条件的记录时,选择该变量,并通过右侧的 规则 按钮Ian里选择条件,跟之前章节中讲到的 样本选择 的功能相同。
- 个案标签:选择一个变量,其取值作为每条记录的标签
- WLS权重:进行加权最小二乘法的回归分析
(2)"统计"页面
a.回归系数
- ·估计:输出回归系数、标准误差、标准化回归系数、t检验以及显著性概率p值
- ·置信区间:输出回归系数的95%置信区间
- ·协方差矩阵:输出回归系数的协方差矩阵和相关系数矩阵
b.其他指标
- ·模型拟合:对所有自变量进行统计输出,包括复相关系数R、R2及其修真值、估计值的标准误差以及ANOVA方差分析表
- ·R方变化量:输出模型中引入或剔除一个自变量所产生的R2该变量,R2该变量越大,表明该自变量对模型的贡献越大,说明其可能是一个较好的回归自变量。
- · 描述:输出描述性统计量,包括分析中每个变量的有效个案例数、平均数、相关系数注重以及单侧显著性水平
- · 部分相关性和偏相关性:输出部分相关系数和偏相关系数
- ·共线性诊断:由于一个自变量是其他自变量的线性函数时所引起的共线性是不被期望的。输出共线性诊断结果,包括特征根、条件指数、方差-分解比例等
c.残差
- Durbin-Watson:用于检测回归分析中的残差项是否存在自相关线性,同时输出可能是异常值的诊断表。D-W统计量的取值范围为0-4,当残差一阶正相关时D-W接近0,当残差一阶负相关时D-W接近4,D-W接近2时残差独立。
- 个案诊断:
--离群值:设置异常值的判断依据,默认是3倍标准差
--所有个案:输出所有观测变量的残差值
(3)"图"页面
a.左侧的变量列表:显示的是可做散点图的做图元素:dependent—因变量、ZPRED—标准化预测值、ZRESID—标准化残差、*DRESID—剔除残差、*ADJPRED—调整的预测值、*SRESID—学生化残差、*SDRESID—学生化剔除残差
b.标准化残差图:
- ·直方图:输出带有正态曲线的标准化残差的直方图
- ·正态概率图:输入P-P图,用来检查残差的正态性
- ·产生所有部分图:输出每个自变量的残差相对于因变量的残差分布图,要生成部分图,至少要有2个自变量
(4)"保存"页面
a.预测值:回归模型对每个个案的预测值
- ·未标准化:输出为标准化的预测值
- ·标准化:输出标准化的预测值,预测值减去平均值预测值,得到的差除以预测值的标准差
- ·调节:调整预测值,当一个观测值被排除在回归方程之外,得到的回归方程对这个观测值的预测值
- ·平均值预测值:预测值的标准误差。
b.残差:设置残差选项,用于模型诊断
- ·未标准化:原始残差
- ·标准化:标准化后残差,均数为0,标准差为1
- ·学生化:采用T变换产生的残差
- ·删除后:不考虑当前记录,当前模型对该记录因变量的预测值对观察值的原始残差,即剔除残差,可发现可疑的强影响点
- ·学生化删除后:学生化提出残差
c.距离
- ·马氏距离:计算自变量个案值与所有个案平均值的距离,当马氏距离过大时,表明该个案的一个或多个自变量的取值有异常。
- ·库克距离:计算Cook距离,表示把一个个案从计算回归系数的样本中去除时,所引起的残差变化的大小。Cook值越大,表明该个案对回归系数的影响也越大。一般而言,多大于1,则该记录则可能为影响点。
- ·杠杆值:用以测量单个观测对拟合效果的影响程度,若值大于2*P/N(P-变量数,N-样本量)则该记录则可能为影响点。0表示此样本对拟合无影响。
d.预测区间
- ·平均值:平均预测响应的预测区间的下限和上限
- ·单值:单个个案的因变量预测区间的下限和上限
- ·置信区间:可输入1-99.99的数值,默认为95,,输出两个区间的置信度
e.影响统计:设施诊断影响点的统计量选项
- · DfBeta:表示不考虑观察值后回归系数的变化值
- · 标准化DfBeta:当大于2/sqrt(N)时,该点可能是强影响点
- · DfFit:表示不考虑该观察值后预测值的变化值
- · 标准化DfFit:当大于2/sqrt(N)时,该点可能是强影响点
- · 协方差比率:在多重回归中,表示不考虑该观察值后协方差矩阵与含该观察值协方差矩阵的比率。绝对值大于3*P/N时,该点可能为强影响点
(5)"选项"页面
- ·使用F的概率:1个自变量F检验的显著性水平小于等于进入值,该变量进入回归方程;当值大于删除值时,则删除。系统默认是进入0.05,删除0.1。
- ·使用F值:使用F值作为依据,F值大于等于进入值,该变量进入回归方程,F值小于删除值,则删除。
5.结果输出与解释:
(1)描述性统计
- · 图A给出因变量与自变量的平均值、标准偏差,以及样本数
- · 图B给出因变量与自变量的相关系数,可看出年龄与收缩压的相关系数为0.658。
(2)模型输入/除去的变量
- · 下图显示了拟合过程中变量进入/退出模型的情况,本例中只有一个自变量,并且采取强行进入方法,所以只出现一个模型。
(3)模型摘要表
- ·R2:决定系数,反映模型的解释度,或模型准确性;R2=0.432,即年龄仅可解释收缩压的43.2%的变异;
- · 但R2会受自变量数量的影响,自变量越多,R2越大,为校正自变量个数的影响,一般采用调后的R2
- ·徳宾-沃森(D-W)检验:一般取值0~4,一般认为1.8~2.2,数据间相互独立,本例中D-W=1.692,可认为数据间近似独立
(4)方差分析表
- · 方差分析反映了模型整体的显著性,由下表可知,P=0.000<0.05,构建的回归模型有统计学意义
(5)回归系数
- · 依据回归系数表可建立回归方程:Y=98.715+0.971*X,表示说明年龄增长一岁,收缩压增加0.971。
- · 经过t检验,常数项与年龄的显著性小于0.01,具有显著性意义。
(6)个案诊断
- · 发现1个异常点,个案号为2号,其标准化残差绝对值超过3个标准差。可对上述2号个案进行检查,看数据是否有误。有误更改,无误可以考虑删除。
以下为删除个案为2号的相应分析结果。
(1)描述统计
- 从图A与图B中均可看出,平均值、标准偏差、相关系数均有改变,其中相关系数有所增加,相关性更强
(2)分析结果
- 从下表可看出,删除异常值后,R2=0.702,增加较多,表明年龄仅可解释收缩压的70.2%的变异
- 回归方程为:Y=97.077+0.99*X,表示说明年龄增长一岁,收缩压增加0.949。
(3)标准化残差图
- 可见总体上残差符合正态分布。说明符合线性回归的正态性的条件
(4)残差散点图
- 为回归标准化残差与标准化预测值的散点图,基本在+3个标准差以内,说明总体效果较好,满足等方差性。
6.语法
********************散点图******************.GRAPH/SCATTERPLOT(BIVAR)=X WITH Y/MISSING=LISTWISE.********************回归分析******************.REGRESSION/DESCRIPTIVES MEAN STDDEV CORR SIG N/MISSING LISTWISE/STATISTICS COEFF OUTS R ANOVA/CRITERIA=PIN(.05) POUT(.10) CIN(95)/NOORIGIN/DEPENDENT Y/METHOD=ENTER X/SCATTERPLOT=(*ZRESID ,*ZPRED) (*SDRESID ,*ZPRED)/RESIDUALS DURBIN HISTOGRAM(ZRESID) NORMPROB(ZRESID)/CASEWISE PLOT(ZRESID) OUTLIERS(3)/SAVE COOK LEVER MCIN ICIN.
2、spss线性回归,spss怎么进行多元回归预测
之前我们详细讲解了因变量为二分类的变量的影响因素的分析,采用二元Logistic回归分析。
但是在实际情况中,有些因变量的数据类型为连续数值型变量,并无特定的分类,这时候要分析他的影响因素,就无法采用logistics回归,由于变量数据为线性数值,这里就要采用线性回归模型来分析。
本次我们就来详细讲解SPSS多元线性回归在医学统计分析中的应用操作。
先来看今天的案例,我们采集了80位患者的骨吸收的数值数据,临床上可能对其造成影响的因素有吸烟、牙周炎、CA、固位方式、性别、年龄、固定支架直径、长度、修复类型、位置这些因素。如下图1:
(图1)
我们要分析吸烟、牙周炎、CA、固位方式、性别、年龄、固定支架直径、长度、修复类型、位置这些因素这些因素中,哪些确实是对骨吸收有显著的影响。就要以骨吸收为因变量,以吸烟、牙周炎、CA、固位方式、性别、年龄、固定支架直径、长度、修复类型、位置为自变量,采用多元线性回归模型分析。这里要注意的是,CA、年龄、为线性变量,可以直接作为自变量,但是吸烟、牙周炎这些属于分类变量,本应先对其进行虚拟化,才能作为自变量,但是由于这里的分类变量全部为二分类,因此虚拟化操作和当前实际一致,因此可直接作为自变量。关于如何做多分类自变量虚拟化的线性回归,我们将在今后的文章中再另行详解。
下面进行SPSS多元线性回归的操作步骤
①点击“分析”--“回归”--“线性”,在弹出的回归对话框中,将骨吸收选入因变量框中,将其他变量选入自变量框中。
(图2)
(图3)
②进行相关的输出和参数设置,点击右侧“自助抽样”按钮,在弹出的对话框中勾选“执行自助抽样”,“置信区间”级别填写95。然后点击继续,确定按钮。
(图4)
③得到输出结果,并进行分析。这里我们只对重要的表格进行详细讲解分析。
(图5)
模型摘要这张表,主要看R方为52.6%,大于50%,说明数据与模型拟合程度较好。
(图6)
ANOVA这张表,F=7.653,P<0.05,本次数据代入进回归模型,回归方程显著。所有自变量中,至少有一个自变量能显著影响因变量。如果全部没意义那本次的回归分析就没有统计意义了。
(图7)
系数表这张表就是我们分析的主要结果,反应了自变量与因变量之间的具体影响关系。首先看显著性水平,在0.05的显著性水平下,可以看到。吸烟、CA是P<0.05,能显著影响骨吸收的,回归系数B分别为0.387和0.07都大于0,说明CA值越高,骨吸收的值就随之越高。吸烟这里由于参考类别为0(不吸烟),因此就是吸烟患者的骨吸收比不吸烟的显著要高。而其余自变量则不能显著影响骨吸收,他们的P>0.05。
(图8)
上图为95%置信区间,一般如果在分析报告中需要置信区间,则将上表红框标注的部分添加到图7表格后面,这里不再赘述。
以上就是今天我们讲到的SPSS多元线性回归在医学统计分析中的应用操作及分析,
回顾一下知识点:1,因变量为连续数值型变量 2,自变量可以为数值型,也可以为分类型,但是多分类自变量需要虚拟化 3,回归结果主要看3张表,模型摘要、ANOVA、系数表。至于如何操作与使用虚拟线性回归,将在下一讲中详细讲解,敬请大家的关注!
本期课程就到这里哦,感谢大家耐心观看!每日更新,敬请关注!
【杏花开生物医药统计】微信公众号(xhkdata)
【杏花开生物医药统计】相关文章:
·SPSS中对问卷数据进行探索因子分析的详细操作与结果解读
·SPSS问卷数据统计分析之项目分析
·Excel进行线性回归模型分析的操作
·SPSS中常用的参数和非参数检验方法
·ROC曲线在SPSS中的操作及应用
·一文读懂R语言如何实现逐步回归分析
·R语言中如何绘制散点图和箱线图?
·SPSS中的Variable数据变量类型介绍
·相关性分析在SPSS中的操作,相关系数含义
·一文读懂SPSS单因素方差分析及方差分析
·线性回归决定系数R方的计算方法及具体意义
·医学和生物统计全过程
·生物和医学统计中的假设检验
·GraphPad Prism绘制生存曲线详细教程
本文关键词:spss线性回归常量大于0.05,spss线性回归排除的变量是什么意思,spss线性回归结果怎么看,spss线性回归分析结果怎么看,spss线性回归控制变量怎么放。这就是关于《spss线性回归,spss怎么进行多元回归预测(回归分析 之 一元线性回归)》的所有内容,希望对您能有所帮助!