数据模式探索,无监督学习案例.docx

数据模式探索,无监督学习案例.docx

ID:56779960

大小:4.18 MB

页数:18页

时间:2020-07-09

数据模式探索,无监督学习案例.docx_第1页
数据模式探索,无监督学习案例.docx_第2页
数据模式探索,无监督学习案例.docx_第3页
数据模式探索,无监督学习案例.docx_第4页
数据模式探索,无监督学习案例.docx_第5页
资源描述:

《数据模式探索,无监督学习案例.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、正文目录无监督学习3流形学习4流形学习简介4流形学习案例一:S型三维数据降维5流形学习案例二:手写体数字降维5流形学习案例三:使用t-SNE进行基金收益率降维和可视化7聚类9聚类算法简介9聚类算法案例:基于股票产业概念的聚类10无监督学习应用于因子投资——PCA算法准确估计因子溢价15论文:AssetPricingwithOmittedFactors15总结18风险提示18附录:聚类评价指标原理19图表目录图表1:无监督学习及其应用案例3图表2:三维空间中的瑞士卷4图表3:S型三维数据降维图5图表4:手写数字数据集6图表5:手

2、写数字降维图16图表6:手写数字降维图27图表7:偏股混合型基金收益率降维图8图表8:偏股混合型基金组1净值8图表9:偏股混合型基金组2净值8图表10:聚类算法对比9图表11:球形簇和非球形簇的聚类结果10图表12:沪深300成分股聚类评价指标11图表13:中证500成分股聚类评价指标11图表14:沪深300成分股层次聚类图11图表15:中证500成分股层次聚类图12图表16:沪深300成分股层次聚类簇概念词云(聚成9类)12图表17:中证500成分股层次聚类簇概念词云(聚成9类)13图表18:沪深300层次聚类13图表19:

3、中证500层次聚类14图表20:因子溢价估计结果16无监督学习机器学习模型可分为监督学习和无监督学习,二者的主要区别在于模型训练过程中是否需要标注数据(标签)。华泰金工人工智能系列的前期报告(系列2~系列29,20170622~20200319)介绍了大量和监督学习相关的内容。在实际应用中,也可能会存在以下情况导致我们无法使用监督学习模型:1.标签难以获取。2.问题关注的是数据本身内部的结构,不需要标签的参与。此时无监督学习模型就会有用武之地。如图表1所示,按照sklearn的分类,无监督学习可以分为以下三个领域:1.流形学习

4、:通过非线性降维的手段将复杂的高维数据映射到低维,对于可视化数据内部结构很有帮助。本文将介绍使用流形学习对基金收益率降维和可视化的案例。2.聚类:通过给定样本的特征或相似度来挖掘样本之间的内在联系。本文将介绍对股票产业概念进行聚类的案例。3.矩阵分解:将矩阵拆解为数个矩阵的乘积从而提取矩阵内部隐含的信息,被用于数据降维、推荐算法中。本文将介绍借助PCA准确估计因子溢价的案例。图表1:无监督学习及其应用案例资料来源:流形学习流形学习简介流形学习(manifoldlearning)是一类借鉴了拓扑流形概念的降维方法。流形学习的思想

5、认为,我们所能够观察到的数据是由一个低维流形映射到高维空间上去的。由于数据内部特征的限制,一些高维空间中的数据存在冗余,实际上只需要用更低的维度就能唯一地表示。一个经典的说明流形学习思想的例子是三维空间中的瑞士卷。图表2:三维空间中的瑞士卷资料来源:如上图所示,瑞士卷曲面上的点能用三维坐标P(x,y,z)来确定,但实际上瑞士卷可以在二维平面展开,得到一个维度更低的流形空间,这说明使用三维空间刻画瑞士卷存在冗余。高维空间中的冗余可能会造成两个后果:1.维度灾难:维度灾难使得要研究的问题变得复杂,也会消耗更多计算资源。2.测量误差

6、:以瑞士卷曲面上圈出的两个点为例,在流形空间(把瑞士卷展开)上两个点的距离(红色的线)很远,但是用三维空间的欧氏距离来计算它们的距离则要近得多。可见,如果我们观察到的数据本质是一个二维流形,却使用三维空间来刻画,那么采用欧氏距离可能会有测量误差。流形空间上点之间距离可以用欧氏距离测量,不代表低维流形所展开的高维空间中也可以使用欧氏距离测量,只有在流形空间中使用欧氏距离才有意义。流形学习被设计来解决以上问题。流形空间中的“流形”是在局部与欧氏空间同胚的空间,换言之,流形在局部具有欧氏空间的性质,能用欧氏距离来进行距离计算。若将低

7、维流形嵌入到高维空间中,数据样本在高维空间的分布虽然看上去非常复杂,但在局部仍具备欧氏空间的性质。如图表2中圈出两点的距离,可以近似等于红线上的点构成的折线的长度,即多段欧氏距离的总和。可以说,流形学习的思想是在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。因此流形学习的主要应用之一是非线性降维,在降维的空间中不仅考虑到了距离,更考虑到了生成数据的拓扑结构。相比于PCA这样的线性降维,流形学习往往可以提供更好的降维效果。流形学习常用来数据降维并可视化。常用的模型如下:1.LLE(LocallyLinearEmbed

8、ding):局部线性嵌入模型,目标为保持邻域内样本之间的线性关系。2.LTSA(LocalTangentSpaceAlignment):局部切空间对齐模型,其基本思想是将流形的局部几何先用切坐标表示,那么流形中的每一个点处的切空间可以和欧式空间中的一个开子集建立同构,也就是切

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。