logistic
回归分析影响公共交通工具的因素
一.绪论
鉴于交通工具是我们出行中必不可少的一部分,而随着科技的发展与进步,交通方式愈加趋向于多元化,人们可以选择的交通工具也多种多样,新的交通工具带来便利的同时,也不可避免的给我们带来了一些问题。不同社会地位的人所选择的交通工具的原因与其本身的内在因素以及外部条件相关。不同的年龄,性别,收入都是影响人们交通方式的重要因素。
应用Logistic回归的原理和计算方法,并利用在公共交通调查数据在一次关于公共交通的社会调查中,年龄,月收入,性别与是乘公共汽车上下班还是骑自行车上下班的资料,采用Logistic回归方法,进行假设检验,对影响的因素进行分析。建立Logistic回归模型,更加明确因变量与自变量之间的关系。
二.Logistic回归理论
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更
为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。
由于Y取值非0即1,如设Y取1的概率为P,则它取0的概率为Q=1-P。
第i个观察对象的发生概率比数(odds)为Pi/Qi称为发生比,是发生概率与不发生概率的比。发生概率取对数称为LOGIT变换。
.
.
logitplog0logp01x12x2kxk 1p回归系数的解释,β,i表示xi改变一个单位时,logitP的平均变化量。 相对危险度:RR=P1/P2 比数 :Odds=P/(1-P)
比数比 :OR=P1/1P1/P2/1P2 对比数比取自然对数得到关系式:
P/Q lnii1(xi1xl1)k(xikxlk)
Pi/Qiβ的意义是在其他自变量固定不变的情况下,自变量X的水平没改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量X的水平每增加一个测量单位时所引起的比数比为增加前的
e倍。
Logit回归模型实质是求一种概率的估计,将某种概率与一个线性模型联系起来。
三.实例 3.1原始数据
因变量y=1表示乘坐公共汽车,y=0表示骑自行车。自变量x1是年龄,作为连续变量;x2是月收入,x3是性别,x3=1表示男性,x3=0表示女性,调查对象为工薪族群体。
表1 公共交通社会调查
序号 年龄x1 月收入x2 性别x3 交通y 1 18 850 0 0 2 21 1200 0 0 3 23 850 0 1 4 23 950 0 1 5 28 1200 0 1 6 31 850 0 0 7 36 1500 0 1 8 42 1000 0 1 9 46 950 0 1 10 48 1200 0 0 11 55 1800 0 1 12 56 2100 0 1 13 58 1800 0 1 14 18 850 1 0 15 20 1000 1 0
.
.
16 17 18 19 20 21 22 23 34 25 26 27 28 25 27 28 30 32 33 33 38 41 45 48 52 56
1200 1300 1500 950 1000 1800 1000 1200 1500 1800 1000 1500 1800
1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 1 0 0 0 0 0 1 0 1 1
3.2程序与分析
3.2.1程序 data sasa;
input n x1 x2 x3 y; datalines; 1 18 850 0 0 2 21 1200 0 0 3 23 850 0 1 4 23 950 0 1 5 28 1200 0 1 6 31 850 0 0 7 36 1500 0 1 8 42 1000 0 1 9 46 950 0 1 10 48 1200 0 0 11 55 1800 0 1 12 56 2100 0 1 13 58 1800 0 1 14 18 850 1 0 15 20 1000 1 0 16 25 1200 1 0 17 27 1300 1 0 18 28 1500 1 0 19 30 950 1 1 20 32 1000 1 0 21 33 1800 1 0
.
.
22 33 1000 1 0 23 38 1200 1 0 24 41 1500 1 0 25 45 1800 1 1 26 48 1000 1 0 27 52 1500 1 1 28 56 1800 1 1 ;
proc logistic data=sasa desending; model y=x1 x2 x3/selection=stepwise; Run;
3.2.2 运行结果分析 3.2.2.1输入数据信息
Logistic 回归方程log(odds) 默认的形式是处理那个变量值比较小的,由运行
结果可以看得出,因变量y取值的排列顺序是从大到小,所以第一个可能概率模型为y=1。
3.2.2.2引入变量
.
.
.
.
给出了自变量进入模型的次序。先是截距项 Step 0 了,step 1 x3第一个进入模型,附带了很多评估它对因变量预测能力的指标。-2 Log L 和 Score 用来检测自变量是否显著。-2 Log L 中的L 就是 Likelihood Ratio, 它的 p 值是 0.0108,Score 的p 值是 0.0125,wald的p值为0.0173,都小于0.05,故x3是 一个很显著的解释变量。AIC和SC两个信息量标准用来比较不同的模型,它们数值越小, 模型变现就越好,step2 x1变量进入模型后的情况,模型的情况变化不大,step2 x1变量移除模型后的情况比step2的情况好,AIC 和 SC 的值变小了,-2 Log L 和 Score 对应的 p 值也更小。 3.2.2.3模型的总体检验
.
.
由运行结果可以看出,p<0.05,所以模型有较好的拟合效果。
3.2.2.4参数检验以及几个描述性统计量、参数OR值,以及95%置信区间
给出了模型参数的估计,据此可以写出改回归方程的形式是
log(p/(1-p))=0.8109-2.1102*x3。 概率为 pexp(0.81092.1102x3)
1exp(0.81092.1102x3)X3为性别,结果显示其回归系数b=-2.1102,P值为0.0173,表明在控制其他因素不变的情况下,性别对使用公共交通工具有负面影响。
OR(X3)=0.121,表示消除其他影响后,男性乘坐公共汽车是女性的0.121倍,女性乘坐公共汽车的人多
95%置信区间为[0.021,0.688]
四.结论
二分类logistic回归法分析公共交通社会调查,我们发现乘坐公共汽车与
年龄,月收入关系不显著,女性乘坐公共汽车的人数多于男性,男性骑自行车的人数多于女性,于此看出,男性群体普遍热爱运动,女性大众也应多骑自行车,有利于身体健康。
.
因篇幅问题不能全部显示,请点此查看更多更全内容