为什么我不建议随便用逐步回归法构建回归模型?
先说一下我的建议(1)如果建立预测模型,可以使用逐步回归的方法。(2)如果只是讨论影响因素,尽量不要使用逐步回归)方法。你觉得自变量太多了,那就局限在单变量分析中(P值较小的包含在多元回归中),而不是逐步回归控制。
原因如下:
现在很多人都知道,回归分析既可以用来探索影响因素,也可以用来建立预测模型。但是,关于构建预测模型的文章很少,而且大多只是探讨影响因素。
目前,无论出于什么目的,国内很多人都进行统计分析,建立回归模型来筛选自变量,并且喜欢使用逐步回归(前向、后向、双向)。不知道统计教育出了什么问题,还是统计老师自己搞不清楚?
实际上,逐步回归的方法是用来建立预测模型的,而不是探索影响因素的。其目的是用最少的因子成功建立一个不比全变量模型差的模型(通过使用R^2、-2倍的对数似然值或AIC等指标来评价拟合效果),即通过软件过滤掉有用的自变量的方法,其拟合效果并不比将所有自变量都放入模型中差,少量的自变量有利于模型的构建(回归模型的样本量对自变量的数量有限制)。
但是,当只谈论影响因素而不是建立预测模型时,逐步回归的优势是什么?
(1)有人说逐步回归可以减少多余的自变量
实际上,这不是一个好的解决方案。冗余自变量有两种解决方案。首先,当我们构建回归时,我们应该仔细考虑考虑了哪些可能的影响因素。并不是所有的狗和猫都作为候选自变量进行回归分析,即与结果变量“拉朗匹配”。
回归分析仅推荐用于可能与结果变量有因果关系的变量。这是需要专业考虑的事情。
其次,在统计分析中,如果自变量个数很大,就会卡在单变量分析中,自变量不会被随机纳入最终的多元回归模型中。一般来说,单变量分析的P值较小的被纳入回归模型。
(2)逐步回归可以剔除统计上不显着的自变量,它们不应该留在模型中
这种理解是错误的!多元回归能否让p值大于0.05的自变量留在模型中并被报告?当然。还建议在最终报告中显示哪些具有统计意义,哪些不具有统计意义。
(3)逐步回归法的效果不一定更好。逐步回归法的优点是,它消除了所有对因变量影响较小的那些,减少了自变量的数量,所以模型中保留的自变量的效果会增强!看起来更好。
这个前提是你有太多的自变量。但是,这种情况很少见。如果回归分析放了太多的自变量,那么逐步回归就救不了你了。
(4)有人说逐步回归可以处理多重共线性
很多时候,由于自变量之间存在高度相关性。这时候连教科书都推荐尝试逐步回归的方法!
这种方法实际上是致命的!这是一种完全忽略数据特征,强行进行自变量筛选的方法。
为什么会有多重共线性?多重共线性往往是由于变量之间存在相关性。这种相关性有几种情况:
首先,这个变量是一个混杂变量。由于混杂变量与自变量相关,因此会导致部分共线性。
其次为什么我不建议随便用逐步回归法构建回归模型?,这个变量是一个中间变量,中间变量也会导致自变量相关。第三,变量是一样的东西。比如年龄的定量变量和按年龄分组的年龄层次变量,那么年龄的原始定量数据和层次变量的年龄是高度相关的。如果它们一起包含在模型中,会导致共线性 身高和坐高等属性高度相关,如果它们一起包含在模型中,则会导致共线性
事实上,除了第一点,当我们处理多重共线性时,典型的做法是排除导致它的变量。例如,身高、坐姿、身高在回归分析中应二选一,定量年龄和分类年龄二选一,模型中不能包含中介变量。
逐步回归不会解决真正复杂的多重共线性,但它会给你一种错觉:我使用了逐步回归,所以我的结果是可靠的!事实上,当你忽略自变量之间的关系回归模型,直接应用逐步回归时,统计分析的结果看起来并不好。
因此,逐步回归法不是探索回归模型影响因素过程中的主要策略。
(1)建立的回归模型必须能够构建成功,不能因为自变量太多而失败(逐步法不是主要策略)(2)建立的回归模型不需要统计所有自变量)学习显着性,因为这不是预测模型(不需要逐步方法)(3)在建立的回归模型中,关键指标是否统计显着,应该在模型(不宜使用逐步法)。(4)建立的模型要注意中间变量的影响,可能会排除中间变量(中间变量要人为去除,或者使用中介分析) ). (5)建立的模型应尽量避免多重共线性(更建议人为消除引起多重共线性的变量)。
另外,由于逐步回归法将自变量过滤到模型中,所以不是P值小于0.05才能留在统计模型中,而是R^2、-2倍log-likelihood value 或者 AIC 等指标的变化是用来做决策的,所以有时候P值大于0.05,还留在回归模型中,不尴尬也不尴尬。
这是正确的!在逐步回归方法之后,P值大于0.05的自变量可能仍然保留在模型中。您认为这个自变量最终会保留吗?P值大于0.05的自变量是否应该写在报告中?显然没有统计学意义。
所以为什么我不建议随便用逐步回归法构建回归模型?,我的建议是:(1)如果你建立一个预测模型回归模型,可以使用逐步回归。(2)如果你在探索影响因素,尽量不要使用逐步回归。你觉得独立变量太大,如果更多,则在单变量分析中会受到限制(较小的P值包含在多元回归中)。
如果普通回归不能给你想要的东西,那么逐步回归也不会给你想要的东西!
更多实践课程
2022年,我们将召集一批经验丰富的大学专业团队举办短期统计培训课程,包括R语言、荟萃分析、临床预测模型、真实世界临床研究、问卷和量表分析、医学统计学和SPSS,临床试验数据分析、重复测量数据分析、结构方程建模等9门课程。如果您需要,请点击查看:
更多信息
本公众号作为医学数据分析公众号,提供部分医学统计学习资源免费下载,请点击下载。1.2.
4.5.6.7.8.特别提醒:以上资源限分享1次,每日下载
评论前必须登录!
注册