lars诊断回归树

lars诊断回归树

ID:33105141

大小:1.34 MB

页数:38页

时间:2019-02-20

lars诊断回归树_第1页
lars诊断回归树_第2页
lars诊断回归树_第3页
lars诊断回归树_第4页
lars诊断回归树_第5页
资源描述:

《lars诊断回归树》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学硕士学位论文LARS诊断回归树姓名:王彪申请学位级别:硕士专业:概率论与数理统计指导教师:方兆本20090501摘要线性模型和决策树是目前各个领域应用最多的分类和回归方法。线性统计模型能够很好的拟合和解释变量之间的线性关系,并且模型结果易于解释,但是根据传统统计回归方法的特点,现实数据的分布与传统统计分析方法要求往往不符,真实数据服从理论上的正态分布或者其它分布,是很少见的,也是无法求证的;另一方面,传统线性回归算法很难对共线性,非线性数据,以及变量之前的复杂交互性进行很好的解释。而决策树算法的简单树结构对属性数据和非线性的交互数据有很好的解

2、释能力,并且计算复杂度相对于统计回归算法大大减少,所以能够很好的克服上述缺点,因此将决策树和统计回归算法结合起来处理现实数据就是一种很自然的想法。这种就结合实际上是有效的结合了树结构和线性结构,这样使模型就能够很好的拟合和解释复杂数据。本文提出LARS诊断回归树(LDI玎)的方法。首先LDRT算法基于树结构诊断自变量与目标变量的线性关系,并依据结果把自变量分为四类n.variable,f-variable,s.v撕able和c.variable。然后LDRT运用GUIDE的生长初始树的方法建立初始树。GUIDE建树的方法能够无偏的选择变量,但是其剪枝和最优树

3、选择的过程很繁琐并且会导致树不稳定。LDRT运用LARS算法估计原始树的内节点的目标效应,如果其效应被收缩到0就剪除其对应的树枝。这种方法能够同时完成剪枝和最优树选择,因此相对比较稳定。并且由于LARS算法的运行的高效性,LDRT大大的提高了训练的计算效率。最后本文进行作了多个模拟数据实验,研究了LDRT的诊断能力的同时比较比较了LARS回归树和CART,GUIDE回归树的表现,发现不管从模型稳定性,预测精度还是运行效率LARS回归诊断树都比CART,GUIDE回归树算法要好。关键词:线性回归,回归树,GUIDE,LARS,LARS诊断回归树ABSTRACT

4、Twopopularmethodsforclassificationandregressionarelinearregressionandtreeinduction,whichhavesomewhatcomplementaryadvantagesanddisadvantages.LinearregressioniSapowerfultechniqueforfittingasimplemodeltothedata,andtheprocessofmodelfittingisquitestable,resultinginlowvariancebutpotentia

5、llyhighbias.Butlinearregressionmodelsaredifficulttointerpretifcollinearity,nonlinearity,orinteractionsarepresent.Ontheotherhand,Treemethodsexhibitslowbiasbutoftenhighvariance.Itsearchesalessrestrictedspaceofmodelsandcapturesnonlinearpatternsinthedate,butit'sleSSstableandpronetoover

6、fitting.Sothisarticleproposestofitapiecewiselinearregressionmodelbyrecursivelyportioningthedataandfittingadifferentlinearregressionineachpartition,namedLARSDiagnosticsRegressionTree(LDRT).FirstlyLDRTproposebinarytree.basedprocedurestochecktheadequacyoflinearfunctionbetweenpredictor

7、sandthetargetvariableandgroupthepredictorsintofourtypes:n—variable,f-variable,s-variableandc-variable.ThenLDRTemploysthegrowingtreemethodoftheGUIDEleastregressiontreealgorithmavoidsthevariableselectionbiasemployingatwo—stepapproachtosplitselection.LDRTobtainsestimatesandpredictions

8、ubjecttoconstraintsontheco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。