华泰人工智能系列之十二:人工智能选股之特征选择

华泰人工智能系列之十二:人工智能选股之特征选择

ID:14994974

大小:383.43 KB

页数:24页

时间:2018-07-31

华泰人工智能系列之十二:人工智能选股之特征选择_第1页
华泰人工智能系列之十二:人工智能选股之特征选择_第2页
华泰人工智能系列之十二:人工智能选股之特征选择_第3页
华泰人工智能系列之十二:人工智能选股之特征选择_第4页
华泰人工智能系列之十二:人工智能选股之特征选择_第5页
资源描述:

《华泰人工智能系列之十二:人工智能选股之特征选择》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、正文目录本文研究导读4特征选择方法简介5非监督式特征选择5单变量特征选择的统计指标6分类模型的F值6回归模型的F值7分类和回归模型的互信息8分类模型的卡方9单变量特征选择的筛选标准9选择固定数量或比例的特征9根据FPR/FDR/FWE选择9基于模型的特征选择11基于L1正则化的方法11基于树模型的方法12特征选择方法测试流程13测试流程13特征预处理15特征选择方法测试结果16选择特征个数和入选频次分析16对比测试18模型AUC对比分析18构建策略组合及回测对比分析19选股策略表现对比分析21总结与展望23风险提示24若出现排版错位

2、,可加微信535600147,获取PDF版本图表目录图表1:特征选择主要方法5图表2:非监督式特征选择方法应用于模拟数据集6图表3:根据分类模型的F值对模拟数据集进行特征选择7图表4:根据回归模型的F值对模拟数据集进行特征选择7图表5:根据分类问题的互信息对模拟数据集进行特征选择8图表6:根据回归问题的互信息对模拟数据集进行特征选择9图表7:单个假设检验的输出结果9图表8:多重假设检验的输出结果10图表9:根据FPR/FDR/FWE进行特征选择的依据及严格程度10图表10:根据FPR/FDR/FEW对模拟数据进行特征选择11图表11

3、:基于L1正则化的SVM对模拟数据集进行特征选择11图表12:基于随机森林模型对模拟数据集进行特征选择12图表13:特征选择方法测试流程示意图13图表14:选股模型中涉及的全部因子及其描述14图表15:特征选择方法的参数15图表16:测试集AUC随特征个数的变化情况16图表17:特征入选月份频次排名(前40名)17图表18:特征入选月份频次排名(后30名)18图表19:模型AUC和特征个数比较18图表20:回测指标对比(逻辑回归_6m为基学习器)19图表21:回测指标对比(XGBoost_6m为基学习器)20图表22:回测指标对比(

4、XGBoost_72m为基学习器)21图表23:XGBoost_72m及其改进模型全A选股策略表现(个股权重偏离上限2%,基准为沪深300)22图表24:XGBoost_72m及其改进模型全A选股策略表现(个股权重偏离上限2%,基准为中证500)22若出现排版错位,可加微信535600147,获取PDF版本本文研究导读构建机器学习模型的最终目的是希望通过机器从输入的训练集中“学习”出某种客观存在的规律,学习的效果主要取决于两个因素:1)机器学习模型的优劣,2)输入训练集的质量。在华泰人工智能选股系列的过往报告中,我们主要围绕第一个因

5、素,探讨不同的机器学习模型及其选股效果。而后者,即如何从全体特征中选择一组优质的子集作为输入训练集,则是本文探究的出发点。通常来说,对于给定数量的训练样本,分类或回归模型的预测能力随着特征数量的增加呈现先增强后减弱的趋势,这主要是由于:随着特征数量(维度)的增加,样本将变得更加稀疏,因而更容易找到一种理想的分类或回归方式;但当特征数量超过一定量后,过多的特征将导致模型在训练集上表现良好,而对新数据的泛化能力较差,导致过拟合的发生;同时过多的特征将大幅增加模型的时间开销,造成维数灾难。降维方法主要分为两类:特征提取和特征选择。前者经过

6、某种映射从原始特征中提取出新特征,改变了原始的特征空间;而后者通过某种评价准则从原始特征中选出部分特征,没有改变原始的特征空间。本篇报告中,我们将着重探讨基于特征选择的降维方法,并分别应用于不同基学习器,对模型的预测能力和构建的选股策略进行测试和对比。简单来说,特征选择是从已有的原始特征集合中选取一个用于构建后续模型的特征子集的过程,它是一个重要的数据预处理过程。有效的特征选择将会减轻过拟合问题,提高模型的泛化能力和预测准确性;同时,降维后的模型具有更低的时间成本,也更容易被理解和解释。我们的报告主要关注如下几个方面的问题:1)常用

7、的特征选择方法有哪些,原理是什么?2)在多因子选股问题的背景下,模型的预测能力随着因子数量的增加会发生怎样的变化?3)特征选择方法选出的是哪些因子?4)如何根据模型的预测结果构建策略组合进行回测?全部A股票池内选股效果如何,相比单一的基学习器有哪些方面的提升?若出现排版错位,可加微信535600147,获取PDF版本特征选择方法简介特征选择(FeatureSelection)作为一种数据降维方式,是机器学习算法的重要步骤之一,在工程领域有着广泛的应用,但在量化领域受到的关注有限。本质上,特征选择从原始的特征集合中选择部分特征作为子集

8、,其目的是为了节省算法的时间开销,同时提升学习算法性能。作为特征选择的奠基性论文之一,Guyon和Elisseeff在2003年提出,依据特征选择是否独立于基学习器,可将特征选择方法大致分为过滤式(Filter)、包裹式(Wrappe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。