找回密码
 立即注册

二项logistic回归案例分析(附操作数据)

匿名  发表于 2022-9-23 13:29:58 阅读模式 打印 上一主题 下一主题
当因变量数据范例为分类变量时,线性回归不再适用,该当做logistic回归。按照因变量分类水平的分歧,具体包括二项logistic回归、多项logistic回归和有序logistic回归。
1.案例布景与分析战略

1.1 案例布景先容

现收集到银行存款客户的小我、欠债信息,以及已经能否有过还贷违约的记录,试分析能否违约的相关身分,并构建模子用于存款违约风险猜测。(数据来历:SPSS自带案例数据集)
数据上传SPSSAU后,在 “我的数据”中检察阅读原始数据,前5行数据以下:

二项logistic回归案例分析(附操纵数据)-1.jpg

图1 “我的数据”检察阅读数据集

1.2 明白目标与分析战略

经过SPSSAU“数据处置”栏目下的【数据标签】功用,可以直观观察变量数据范例,明显,“违约”、“教育水平”为分类数据,其他为持续型数据。其中本案例关注的方针变量“违约”数据为两种终局的二分类数据。具体见下图。

二项logistic回归案例分析(附操纵数据)-2.jpg

图2 SPSSAU的【数据标签】界面

欲研讨“能否违约”与哪些身分有关,或哪些变量对“能否违约”有猜测感化,斟酌以“能否违约”为因变量,其他潜伏的身分作为自变量停止回归分析。
由于“能否违约”为二分类变量,是以选用构建二项logistic回归模子。既可以考查影响身分,也可以用于风险猜测。
2.数据预处置

SPSSAU做二项logistic回归,要求因变量须是“0-1”数据编码。
2.1 因变量重新数据编码

翻开“数据处置”栏目下的【数据编码】,按图3所示的操纵,将数据重新编码,本来的数字编码1暗示违约“是”,连结稳定,而将本来的编码2点窜成0,暗示未违约“否”。

二项logistic回归案例分析(附操纵数据)-3.jpg

图3 SPSSAU的【数据编码】操纵

2.2 分类自变量哑变量转换

Logistic回归的自变量,可所以持续型数据也可以是分范例数据。对于分范例自变量,应酌情斟酌先以哑变量形式停止回归分析。
本案例中,拟对“受教育水平”停止哑变量处置,以第一个水平作为参照水平。
翻开“数据处置”栏目下的【数据编码】,选中“教育水平”,然后在保存变量框里面挑选【虚拟哑变量】,点“确认处置”,此时原始数据中会新增加5个“0-1”编码的虚拟变量。具体操纵见图4。

二项logistic回归案例分析(附操纵数据)-4.jpg

图4 SPSSAU的【天生变量】操纵

3.单身分分析

为尽能够领会单个身分对“能否违约”的影响,同时避免在多身分分析时遗漏某些重要身分,在摸干脆分析目标下,可以先就单个身分的猜测感化停止分析(非必须步调)。
按照因变量、自变量的数据范例分歧,可以斟酌停止穿插表卡方检验、单身分方差分析(t检验)或单身分的logistic回归。
3.1 针对分类自变量的卡方检验

针对“教育水平”分类数据,以穿插表卡方检验考量其与“能否违约”的关系。
翻开“通用方式”栏目下的【穿插卡方】,将“违约”拖拽之【定类X】,将“教育水平”拖拽至【定类Y】。
SPSSAU间接输出的是科研论文三线表,可以间接解读和利用。

二项logistic回归案例分析(附操纵数据)-5.jpg

图5 穿插表卡方检验成果

由上表可知,分歧的学历客户的违约率差别有统计学意义(χ=11.49,P=0.02<0.05)。
3.2 针对持续自变量的t检验

年龄、工作年、居住年、支出、欠债率等其他能够的身分,均为持续型数据。考查他们与“能否违约”的关系,可以采用自力样本t检验或单身分方差分析。
本例利用t检验。翻开“通用方式”栏目下的【t检验】,将“违约”拖拽之【定类X】,将年龄、工作年等持续型自变量拖拽至【定量Y】。

二项logistic回归案例分析(附操纵数据)-6.jpg

图6 自力样本t检验成果

由上表可知,违约及未违约客户的支出差别无统计学意义(t=-1.88,P=0.06>0.05)。在其他自变量上均值差别有统计学意义(均P值<0.05)。
理论中,为避免遗漏重要自变量,单身分分析阶段的统计学明显性水平a可适当放宽至0.1甚至0.2。在a=0.1水平下,持续型自变量、分范例自变量与“能否违约”的关联关系均有统计学意义(均P值<0.1)。
4.多身分logistic回归模子

在单身分分析中有统计学意义的变量(本例为一切自变量)继续停止多身分logistic回归分析。
4.1 慢慢回归

翻开“进阶方式”栏目下的【二元logistic】,将此前已重新数据编码为“0-1”数据的“能否违约”拖拽至【定量Y】框内,其他变量拖拽至【定量/定类X】框内。

二项logistic回归案例分析(附操纵数据)-7.jpg

图7 二项logistic回归操纵

“教育水平”的5个虚拟变量,本例以第一个水平作为参考,是以是把其他4个“教育水平”虚拟变量作为自变量。具体操纵见图7。
身分较多时,可斟酌采用慢慢回归的方式,由模子自动挑选对因变量有猜测感化的自变量构建模子。本案例挑选【慢慢法】,不勾选【保存残差和猜测值】。
4.2 模子拟合评价

首先看模子拟合情况。

二项logistic回归案例分析(附操纵数据)-8.jpg

图8二元Logit回归模子似然比检验成果

看上表“终极模子”这一行的成果。似然比卡方检验P值<0.05,说明模子整体上有统计学意义,即最少有一个自变量是有猜测感化的。
AIC和BIC值用于屡次分析时所很多个模子间的对照,此两值越低越好,理论中,两值更低的模子较优。
模子整体有用后,继续看哪些自变量对因变量的影响是明显的。



图9二元Logit回归系数表

上表底部的3个R方,类似于线性回归的决议系数R平方,解读方式也类似。大师看SPSSAU智能分析给出的解读:
从上表可以看出,工作年, 居住年, 欠债率, 信誉卡欠债可以诠释违约的0.31变化缘由。
7个持续型自变量,“教育水平”的4个哑变量(1水平为参照),进入模子及回归系数如上表所示。“工作年”、“居住年”、“欠债率”、“信誉卡欠债”对“能否违约”的影响有统计学意义(均P值<0.01)。
年龄、支出、其他欠债在慢慢回归进程中被剔出模子,即他们对“能否违约”的影响无统计学意义。唯一的分类自变量“教育水平”,哑变量均无统计学意义。
“工作年”、“居住年”对“能否违约”有负向猜测感化;“欠债率”、“信誉卡欠债”对“能否违约”有正向猜测感化。
各自变量影响因变量的偏向,倡议连系专业经历停止判定,假如发现与专业经历不符合的影响关系,该当重视,重点考查能否存在共线性题目,样本量能否充足等题目。
SPSSAU供给成果智能分析,可以帮助用户快速解读相关成果。比如本例中,对“信誉卡欠债”对“能否违约”影响的解读:
信誉卡欠债的回归系数值为0.573,而且显现出0.01水平的明显性(z=6.566,p=0.000<0.01),意味着信誉卡欠债会对违约发生明显的正向影响关系。以及上风比(OR值)为1.774,意味着信誉卡欠债增加一个单元时,违约的变化(增加)幅度为1.774倍。
智能分析是SPSSAU的上风,对初学者来说会有很大帮助。
对本案例影响身分做个小结:二项logistic回归表白,模子有用,“工作年”、“居住年”、“欠债率”、“信誉卡欠债”是“能否违约”的自力影响身分,前两个具有负向猜测感化,后两个具有正向猜测感化。
4.3 模子猜测才能

回归分析除了影响身分分析外,还可以实现猜测。在本例中,我们的目标之一就是要猜测存款违约风险。
SPSSAU的智能分析可以间接写出logistic回归表达式,本例以下:
ln(p/1-p)=-0.791-0.243*工作年-0.081*居住年 + 0.088*欠债率 + 0.573*信誉卡欠债
(其中p代表违约为1 的几率,1-p代表违约为0的几率)。
按照该表达式,我们代入新的客户数据,即可猜测该客户违约风险。留意,假如所得P值>0.5(SPSSAU默许的猜测0或1的界值)则猜测为“违约=1”,反之猜测为“违约=0”。

二项logistic回归案例分析(附操纵数据)-10.jpg

图10 SPSSAU的模子猜测功用

SPSSAU供给了“模子猜测”功用,代入新数据即可实现单个个案的风险猜测。
假定某客户工作年16、居住年13、欠债率10.9、信誉卡欠债0.54,具体见图10。模子猜测几率P=0.011<0.5,猜测该客户“违约=1”的几率为0.011,反过来猜测其“违约=0”几率为1-0.011=0.989,即该客户未来会违约是低风险事务。
我们构建的二项logistic回归模子,它的猜测才能到底若何呢?SPSSAU基于练习集数据,对猜测正确率停止回归,供给下表:

二项logistic回归案例分析(附操纵数据)-11.jpg

图11 二项logistic回归模子猜测正确率评价

由上表可知,模子猜测“违约=0”的正确率为92.46%,猜测“违约=1”的正确率为50.27%,整体正确率为81.43%。
理论中,我们更关注猜测“违约=1”的正确率,就本例而言,银行放贷更关注未来发生违约的风险。本例50.27的正确率,是偏低的。
所以,本例所构建的模子照旧有待进一步研讨以提升其猜测才能。
5.小结

二项logistic回归对样本量有一定要求,一般经历以为(0-1终局)终局为1的样本量应是自变量个数的10~20倍。
此外还需要重视自变量间多重共线性的影响,异常数据的影响。
PS:案例数据以下:
<hr/>更多干货请登录SPSSAU官网停止检察。
回复

使用道具

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐阅读
站长姓名:王殿武 杭州共生网络科技 创始人 云裂变新零售系统 创始人 飞商人脉对接平台 创始人 同城交友聚会平台 创始人 生活经验分享社区 创始人 站长微信:15924191378(欢迎添加)