金融数据挖掘.ppt

金融数据挖掘.ppt

ID:56420370

大小:195.00 KB

页数:28页

时间:2020-06-17

金融数据挖掘.ppt_第1页
金融数据挖掘.ppt_第2页
金融数据挖掘.ppt_第3页
金融数据挖掘.ppt_第4页
金融数据挖掘.ppt_第5页
资源描述:

《金融数据挖掘.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、第一章:概论一、何为数据挖掘(datamining)现代信息社会的特征:信息(数据)泛滥、知识缺乏,如何从海量数据(广义的概念)中挖掘出决策有用信息?数据挖掘是结合现代数学、统计学,机器学习、人工智能、数据库管理、计算机图形学、软件工程等各领域的技术和知识,1990年代在西方国家出现的一种高新技术——从海量数据中挖掘出决策有用信息的技术。1990年代末,在对100名美国著名科学家的问卷调查中,数据挖掘被列为21世纪对人类发展影响最大、最有前途的10大技术的第三位。我国对数据挖掘技术的重视(开发与应用)1、863、963项目;2、国家及省重

2、点科学领域;3、国家统计局在全国组织数据挖掘培训(2000);4、企业特别是银行对数据挖掘技术的重视;5、人民大学数据挖掘研究与应用中心。海量数据——沙漠,隐含的知识——金子,数据挖掘——从沙漠中挖掘金子的技术。二、不同学科对数据挖掘技术的研究与开发1、理论研究——各种数据挖掘技术的理论基础、理论依据研究,从数学、统计学、人工智能、计算机图形学等不同领域;2、挖掘技术研究,从统计学、人工智能、机器学习、计算机图形学、软件工程等领域;3、数据管理策略研究,从数据库管理技术等领域;4、数据挖掘技术的应用研究,其中数据挖掘技术在金融领域的应用是

3、一个重要方面。三、几种相对比较成熟的数据挖掘技术数据挖掘是一门新兴的、正在不断发展中的技术,近年来,几类十分重要、且相对比较成熟的数据挖掘技术是:1、分类与预测2、特征化、比较与关联规则挖掘3、聚类分析4、序列发现本课程主要内容:几类数据挖掘技术的基本原理、数据挖掘方法、及这些挖掘技术在金融领域的应用。第二章:分类与预测一、分类与预测的概念1、分类已知离散的、有限的几个类,判断或预测样本属于那个类。*某人否具有某种疾病*上市公司是否会陷入财务困境、是否会被外资并购*借款人是否会违约*这个客户是否为银行的潜在优质客户、是否会转向其他银行用y

4、表示类变量,y取离散的几个值,分类就是判断或预测样本的y究竟取什么值2、预测预测是指对连续性变量的取值进行预测,如:*某个借款人的违约概率是多少*银行资产组合明天在99%置信度下的最大损失(VaR)有多大*如果某开放式基金因面临巨额赎回申请而不得不大量抛售某种证券,这种证券的价格会下跌多少分类——对离散型变量进行预测预测——对连续型变量进行预测二、分类案例教学——上市公司财务困境预测模型构建1、要求:将因财务状况异常而被特别处理的ST公司界定为财务困境公司、非ST公司界定为财务正常公司,利用上市公司的财务报表数据,建立上市公司财务困境预测

5、模型(提前一年预测,即用第t-2年的数据预测企业在第t年是否会陷入财务困境)。分类变量y的取值y=0如果公司为财务困境公司y=1如果公司为财务正常公司2、类似案例:*外资并购目标公司预测*防信用卡诈骗预警系统*银行客户关系管理*税务稽核3、数据来源:CSMAR数据库1990-2004资产负债表、损益表,1990-1997财务状况变动表1998-2004现金流量表4、报表变动情况:1994年合并会计报表1998年资产减值准备5、研究所需数据①、预测变量选取——实践经验、其他文献使用的预测变量、采用技术手段(统计技术、数据挖掘技术)选取预测变

6、量、在一定理论指导下构造新的预测变量;②、样本数据的结构形式③、采集样本数据时应注意的问题*尽量采用跨年度数据*需要删除的数据*尽量不采用配对抽样④、随机构造的训练样本组与检验样本组(过度拟合现象)⑤、本案例的数据说明(sj0):*1995年底前上市的公司;*删除其他原因被特别处理的公司;*数据跨期1996-2001,分别预测1998-2003;*删除在预测年度已陷入财务困境的公司;*共有非ST公司数据1008个,ST公司数据111个;*采用的6个预测变量为(第一种方法):总负债/总资产、主营业务收入/总资产、总利润/总资产、(货币资金+

7、短期投资净额)/流动资产、留存盈余/总资产、总资产的自然对数。⑥、随机抽样构造训练样本组、检验样本组的SAS方法:*将EXCEL数据库转为SAS数据库;*SAS随机数函数——uniform(seed),随机种子数seed取奇数,产生[0,1]区间上的一个随机数*随机建立训练样本组、检验样本组的SAS程序#dataa;setsasuser.sj0;k=uniform(15);run;#对已进行k排序的数据库adatab;seta;m=int(_n_/2);run;(sj1,sj2)二、构造分类预测模型的方法1、判别分析法①、判别分析方法的统

8、计学原理假设有两个总体——财务困境公司与财务正常公司,每个总体都可以用一个六维随机变量表示,不同的总体分布不同。预测上市公司是否会陷入财务困境,就是判断这个公司所对应的样本属于哪个总体。判别分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。