自变量选择与逐步回归(I)

自变量选择与逐步回归(I)

ID:40794899

大小:561.60 KB

页数:64页

时间:2019-08-07

自变量选择与逐步回归(I)_第1页
自变量选择与逐步回归(I)_第2页
自变量选择与逐步回归(I)_第3页
自变量选择与逐步回归(I)_第4页
自变量选择与逐步回归(I)_第5页
资源描述:

《自变量选择与逐步回归(I)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第七章自变量选择与逐步回归多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。选择自变量的基本思路是:尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。第七章第一节机动目录上页下页返回结束自变量选择对估计和预测的影响在多元线性回归模型中,自变量的选择实质上就是模型的选择。其中

2、:Y是nx1的观测值,X是nxm结构矩阵,并假定X的秩为m。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记m=t+1)是mx1未知参数向量,下面的回归模型称为选模型:现从这t个变量中选t’变量,不妨设矩阵X可作如下的分块(记:),那么对全模型中的参数和结构自变量的选择问题可以看成是这样二个问题:究竟应用全模型还是用选模型;若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,

3、下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。为了讨论方便起见,先引入几个记号:全模型中参数的估计:其中:R(X)为矩阵X的秩。在选模型中参数的估计:在上的预测值分块矩阵求逆公式:均方误差的概念对无偏估计常用来衡量估计量的好坏,而对有偏估计则相应采用均方误差注:由上述定理说明,若全模型为真的而误用选模型作为y值的预测的话,所得的估计是有偏的.但预测方差会有所下降。而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误差也是会下降。所以删去一些影响不大,但回归系数方差过大的变量(用

4、为非负定矩阵来表示),对预测精度的提高是有利的.综合以上所述,一般我们尽可能使模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利.第七章第二节机动目录上页下页返回结束自变量选择方法自变量选择准则若一个多元回归的问题中有t可供选择的自变量,那么所有可能的回归方程有2t-1个,下面给出一些自变量选择的准则,希望能从2t-1个回归方程中选择一个最合理的方程.对全模型,记:对选模型,记:准则1平均残差平方和达到最小.准则3预测偏差的方差准则4平均预测均方误差Sp达到最小。准则

5、5Cp统计量其中三s2是全模型中的无偏估计.准则7AIC准则AIC准则的定义:AIC=-2(模型的对数似然估计函数的极大值)+2(模型中独立参数的个数)第七章第三节机动目录上页下页返回结束逐步回归一、全局选择法对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。R2可用来评价回归方程优劣。随着自变量增加,R2不断增大,对两个不同个数自变量回归方程比较,须考虑方程包含自变量个数影响,应对R2进行校正。所谓“最优”回归方程指最大者。1.校正决定系数选择法2.选择法P为方程中自变量个数。最优方

6、程的Cp期望值是p+1。应选择Cp最接近P+1的回归方程为最优。是由个自变量作回归的误差平方和,是从全部m个自变量的回归模型中得到的残差均方。27名糖尿病人的血糖及有关变量的测量结果全局择优法的局限性如果自变量个数为4,则所有的回归模型有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。二、逐步选择法全局选择计算量很大:6个变量,计算26-1=63个方程;10个变量,计算210-1=1023个方程。按选入变量顺序不同分前进

7、法、后退法与逐步回归法,共同特点是每一步只引入或剔除一个自变量Xj。对Xj的取舍要进行F检验:计算进行到第l步时:p:方程中自变量个数SS回:Xj的偏回归平方和SS残:残差平方和缺点:后续变量的引入可能使先前引入的变量变的不重要。Xj入选1.前进法(只选不剔)自变量从无到有、从少到多Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…2.后退法(只剔不选)开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自

8、变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。缺点:当某些自变量高度相关时,可能得不出正确结果。Xj剔除3.逐步回归法(先选后剔,双向筛选)开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程;每引一个自变量进入方程后,从方程中选取偏回归平方和最小的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。