基于神经网络的不平衡数据分类方法研究

基于神经网络的不平衡数据分类方法研究

ID:25632211

大小:57.00 KB

页数:9页

时间:2018-11-21

基于神经网络的不平衡数据分类方法研究_第1页
基于神经网络的不平衡数据分类方法研究_第2页
基于神经网络的不平衡数据分类方法研究_第3页
基于神经网络的不平衡数据分类方法研究_第4页
基于神经网络的不平衡数据分类方法研究_第5页
资源描述:

《基于神经网络的不平衡数据分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于神经网络的不平衡数据分类方法研究-->第1章绪论1.1研究背景与意义分类是机器学习、数据挖掘等领域内非常重要的一个研究内容,在现实生活中有着广泛的应用:基因表达数据分析、医疗诊断、图像识别和故障检测等。如何通过对己知经验数据进行分析从而精准预测未知数据成为研究的重点。目前,已经有了一些相对成熟的分类方法,比如:k-近邻、神经网络、支持向量机等方法,这些方法对分布均勾的数据集显示出很好的效果,并获得了广泛的应用。但是,在现实生活中,所获取到的数据集往往出现类别间样本数不平衡、严重重叠和噪声干扰等特点,使传统的分类器

2、及其学习算法无法达到预期效果。数据集中各类之间的不平衡通常伴随着各类在样本空间上的重叠,研究表明,数据集的各类之间样本的不平衡不是造成分类器分类准确率不高的唯一因素,类之间的样本在样本空间上的重叠也是影响分类器性能的原因之一。有些学者甚至认为:不管在数据集中各类之间的样本平衡与否,数据集的类之间样本重叠现象都会给分类器的性能带来很大的影响。因此,在研究不平衡数据集学习问题时,也应该考虑到各类在样本空间上的重叠问题。如何缓解甚至消除各类在样本空间上的重叠给传统分类器性能带来的影响,也是亟需解决的问题。1.2论文的主要工

3、作本文针对不平衡学习问题,从数据集和算法两个层面入手,分析了不平衡数据集对现有分类器的影响,特别是对神经网络性能的影响,重点研究了基于神经网络的不平衡数据分类技术。论文的主要研究工作有以下几个方面:(1)分析不平衡数据集对传统分类器特别是神经网络泛化能力的影响。传统的下采样方法不能有效地选择具有代表性的大类样本,从而使一些重要的信息丢失。本文从数据集层面给出了一种面向不平衡数据集的主动下采样方法,该方法可以自动有效的去除远离边界的大类样本,而且能够保持数据集整体的分布特性,从而改善整个训练数据集的不平衡度,使之更适合

4、传统的分类学习算法。以BF算法为准分类器的实验证明,与其他采样算法相比,该方法能够有效地提高小类的识别率,同时兼顾大类的准确率。(2)数据清理技术经常用以解决由釆样方法而引入的类之间样本的重叠问题,但现有的数据清理方法虽然能够减少类之间样本的重叠问题对分类器的影响,但也导致误删除了一些不在重叠区域的样本,并且一些边界噪声由于现有数据清理方法过于苟刻的规则而没有被删除。本文借鉴离群点检测算法的思想,提出边界噪声因子(的概念,以此来表示样本成为边界噪声的程度,继而给出基于的数据清理算法,结合采样方法来解决不平衡和类之间样

5、本的重叠问题。通过和传统采样方法、数据清理方法的实验比较证明该方法的有效性。(3)分析了基因表达数据的特点,将面向不平衡数据集的智能极限学习机和剪枝加权极限学习机应用于基因表达数据的分析中,通过对急性白血病数据集、结肠癌数据集、小圆蓝细胞肿瘤数据集和蛋白质数据集的分类分析,验证了这些方法的有效性。第2章面向不平衡数据集的主动下采样算法设计与实现2.1引言机器学习研宄的实质就是如何使算法能够根据已经学习过的事物进行分析总结,以便对未知的事物进行判断。对于有监督学习来说,其中很重要的一个步骤就是选择合适的训练数据集,在训

6、练数据集上训练学习算法,使其掌握规律以便对未知的样本进行预测或者分类。传统的分类算法通常假设训练数据集中的各类样本之间的分布是均衡的,因此设计的算法在平衡数据集上的性能是非常好的。但是,事实上数据集并不总是均衡的,在现实中得到的数据总是因为一些其他因素而导致在数量和分布上不均衡,不平衡的训练数据集影响了传统分类器的性能。针对两类问题来说,正如第章指出的,不平衡数据的涵义包括两个方面:(1)数量的不平衡:一类拥有的样本数量非常多,称之为多数类或者大类;另一类所拥有的样本数相对比较少,称之为少数类或者小类;(2)分布的不

7、平衡:两类拥有相同的样本数,其中一类拥有的样本空间分布集中,称之为大类;而另一类的样本空间分布相对比较分散,称之为小类。由于传统的分类器是以整体准确率为准则来进行分类的,在各类样本分布均匀的数据集上效果很好,但是在处理不平衡数据集时,仍然使用整体准确率作为评价指标的话,就使得分类器为了达到高的整体准确率,被大类的识别率所影响,分类性能大大下降,一些属于小类的样本数据被错分为大类。近年来,在不平衡学习问题上涌现了大量的研宄,并给出了很多解决方法;这些方法概括起来,可以分为三类:(1)改进训练数据集的不平衡分布,例如:上

8、采样方法、下釆样方法、混合采样等;(2)改进经典算法:对当前比较成熟的分类器算法,采用优化参数、对各类样本赋不同的错分代价、设计面向不平衡数据集的新算法等;(3)改进评价体系。本章提出一种新的主动下采样算法来改善训练数据集类样本之间的不平衡,实验证明该算法有利于提高小类的识别率,同时也保持了较高的整体识别率。第4、5章则是从算法层面来解决类不平

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。