非平衡数据集分类算法的改进和并行化研究

ID：17695802

大小：3.72 MB

页数：71页

时间：2018-09-04

资源描述：

《非平衡数据集分类算法的改进和并行化研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、论文题目:非平衡数据集分类算法的改进和并行化研究学位类别：工程硕士学科专业：计算机技术年级：2015研究生：王莉指导教师：陈红梅二零一八年六月国内图书分类号：TP301.6密级：公开国际图书分类号：004西南交通大学研究生学位论文非平衡数据集分类算法的改进和并行化研究年级2015级姓名王莉申请学位级别工程硕士专业计算机技术指导老师陈红梅二零一八年六月ClassifiedIndex:TP301.6U.D.C:004SouthwestJiaotongUniversityMasterDegreeThesisResearchonimprovementandparallel

2、izationofclassificationalgorithmsinimbalanceddatasetsGrade:2015Candidate:LiWangAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologySupervisor:HongmeiChenJune,2018西南交通大学硕士学位论文主要工作（贡献）声明本人在学位论文中所做的主要工作或贡献如下：1.针对SMOTE算法对所有的少数类样本同等对待，没有注意到不同少数类样本对分类算法的影响程度并不相同，而且SMOTE

3、算法在对少数类样本求其K近邻时只是在少数类样本集中计算，没有充分利用多数类样本的信息，NKSMOTE算法的基本思想是在核空间中把少数类分成不同的类别，根据其类别不同，赋予不同的向上采样倍率，然后按照不同的样本合成规则合成新的少数类样本。实验采用三种不同的分类算法，分别为决策树（DecisionTree，简称DT）、误差逆传播算法（errorBackPropagation，简称BP）、随机森林（RandomForest，简称RF）。并将几类不同的过采样方法和文中提出的NKSMOTE过采样方法进行多组对比实验。从实验结果，可以看出NKSMOTE算法能在一定程度上提升分

4、类性能。2.结合RareBoost算法和GMboost算法的思想，给出一种将代价敏感思想与过采样技术相结合的非平衡数据分类算法—NIBoost算法。首先将分类器的评价标准由错误率改为多数类样本错误率与少数类样本错误率的几何均值。其次在每次迭代中融入过采样算法（NKSMOTE），即通过不断增加少数类样本的个数以平衡数据集；然后在加入新增少数类样本的数据集上训练分类器，最后根据TP/FP与TN/FN的比值分别为预测为正类的样本和预测为负类的样本进行权值更新，使的被错分的样本可以在下一次训练分类器时得到较高的关注度。通过对UCI数据集上的实验结果的观察，可以看出NIBo

5、ost算法能在一定程度上提升分类性能。3.大数据中存在一定数量的非平衡数据集，利用MapReduce框架，基于NIBoost算法设计并行非平衡数据处理算法PNIBoost，使其在大数据环境下可以较好的对非平衡数据集进行处理。通过在UCI数据集上进行实验，分析了该并行算法的加速比、规模增长比、扩展比。实验结论为该算法在大数据环境下处理非平衡数据集具有良好的并行性。4.构建了基于B/S结构的非平衡数据集分类系统，该系统将本文所用到的算法进行了集成，以及为了方便用户对集群的管理，同时提供了集群管理界面。用户将训练集和测试集分别上传，然后选择任意的过采样算法或者分类算法即

6、可得到非平衡数据集评价标准Fvalue、Gmean、AUC值。本人郑重声明：所呈交的学位论文，是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中作了明确说明。西南交通大学硕士研究生学位论文第V页摘要非平衡数据集分类是指在数据集中各类样本数目不相等的分类问题。传统的分类算法大多是建立在样本分布均等或者样本错分代价相同的基础之上，因此在处理非平衡数据时较容易出现少数类样本的错分现象。随着互联网的广泛应用，网络中储存的信息量变得相当庞大，同时这些

7、大数据中含有非平衡数据集，为提取信息带来了巨大的挑战。1.SMOTE（SyntheticMinorityOver-samplingTechnique）在进行样本合成时只在少数类中求其K近邻，这会导致过采样之后少数类样本的密集程度不变的问题。鉴于此，提出一种新的过采样算法NKSMOTE(NewKernelSyntheticMinorityOver-SamplingTechnique)。该算法首先利用一个非线性映射函数将样本映射到一个高维的核空间，在核空间上计算少数类样本在所有样本中的K个近邻，然后根据少数类样本的分布对算法分类性能的影响程度，赋予少数类样本不同的向上

8、采样倍率，

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 71



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

非平衡数据集分类算法的改进和并行化研究

非平衡数据集分类算法的改进和并行化研究

相关文章

相关标签