广工数据挖掘复习要点

广工数据挖掘复习要点

ID:47507543

大小:262.50 KB

页数:14页

时间:2020-01-12

广工数据挖掘复习要点_第1页
广工数据挖掘复习要点_第2页
广工数据挖掘复习要点_第3页
广工数据挖掘复习要点_第4页
广工数据挖掘复习要点_第5页
资源描述:

《广工数据挖掘复习要点》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、..第一章绪论1.数据挖掘要解决的问题:面对高维,复杂,异构的海量数据,如何集中获取有用的信息和知识。2.数据挖掘定义:·技术层面上:数据挖掘就是从大量数据提取有用信息的过程;·商业层面上:数据挖掘就是对大量业务数据进行抽取,转换和分析以及建模处理,从中提取辅助商业决策的关键性数据。3.数据挖掘的特征:先前未知,有效和实用。4.数据挖掘对象:·关系数据库(借助集合代数等概念和方法来处理数据库中的数据)·数据仓库(数据集合,用于支持管理决策)·事务数据库(每个记录代表一个事务)·空间数据库·事态数据库和时间序列数据库·流数据·

2、多媒体数据库·文本数据库·万维数据库5.数据挖掘任务:分类分析(按照某种规则),聚类分析(具有共性),回归分析,关联分析(具有关联规则),离群点检测(发现与众不同的数据),演化分析(随时间变化的数据对象的趋势),序列模式挖掘(分析前后序列模式)6.数据挖掘过程:数据清洗,数据集成(考虑数据一致性和冗余),数据选择,数据转换,数据挖掘,模式评估,知识表示。例题:1.1数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可

3、以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。

4、④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。1.5定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。答:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]其中,X是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的

5、学生所占比例为12%,同时,主修计算机专业的学生有98%拥有个人计算机。分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到word教育资料..一个预测模型,预测新客户是否可能会流失。聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为低值客户、高值客户以及普通客户等。数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包

6、括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。第二章数据处理基础1.数据及数据类型:数据是数据库存储的基本对象,数据类型:标称属性,序数属性,区间属性,比率属性。2.数据集分为三类:记录数据,基于图形的数据和有序的数据集。补充:数据统计特征:均值,中位数,中列数(数据集中最大和最小值的平均值),众数(出现频率最高的值),截断均值(指定0~10间的百分位数p,丢弃高端

7、的和低端的(p/2)%的数据,然后按照计算均值那样计算)3.数据挖掘的效果直接受到数据源的影响。4.数据清理的目的:试图填充缺失数据,去除噪声并识别离群点,纠正数据中的不一致值。5.缺失值的处理方法:(分析时)忽略元组,(分析时)忽略属性列,(估计缺失值)人工填写缺失数据,(估计缺失值)自动填充缺失数据。6.噪声平滑方法:分箱,聚类。7.数据聚合的目的:将两个或多个数据源中的数据,存放在一个一致的数据存储设备中。8.数据变换的内容:数据泛化(把学科分为理学和工学,忽略细节),规范化,特征构造(集中数据特征构造新的特征,减少特

8、征维数),数据离散化(出现了熵计算)。9.数据归约:·维度归约和特征变换:维度归约可以删除不相关的特征并降低噪声,降低维度灾难风险,降低数据挖掘的时间复杂度和空间复杂度,特征变幻可以反应出数据的不同视角的不同特征。·抽样:长期用于数据的事先调查和最终的数据分析,在数据挖掘中,抽样是选择数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。