基于spark 云计算平台的改进k近邻算法研究

基于spark 云计算平台的改进k近邻算法研究

ID:35058689

大小:6.73 MB

页数:61页

时间:2019-03-17

基于spark 云计算平台的改进k近邻算法研究_第1页
基于spark 云计算平台的改进k近邻算法研究_第2页
基于spark 云计算平台的改进k近邻算法研究_第3页
基于spark 云计算平台的改进k近邻算法研究_第4页
基于spark 云计算平台的改进k近邻算法研究_第5页
资源描述:

《基于spark 云计算平台的改进k近邻算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、■-)??广东工业大学硕女学位论文(工程硕±)*?.,...、..-',.??.、V:■'./基于Spark云计算平台的改进K近邻算法硏究'->T:.陈晓康—?哨}?巧.々’V,碱...―'‘一';一'-I‘'h‘.Ay.I.-'-■*--■:-.(■/..'一y*’’.,V‘;■.、'-、■I,,'■.I人'V、—..二o六年五月、.,分类号:学校代号:"

2、845UDC;密级;学号:2。1305093广东工业大学硕击学位论文(工程硕±)基于Spark云计算平台的改进K近邻算法研究陈晓康校内导师姓名、职称:刘竹松副教授校外导师姓名、职称:邓家震工程师学科(专业:计算机技术)或领域名称学生所属学院:计算机学院—论文答辩日期:二〇六年五月HADissertationSubmitedtoGuangdongUniversitofyTech打ologyfor也eDegreeofMas化r(MasterofEngineering)Re

3、searchonimprovedKnearestneighboralgorithmbasedonSparkcloudcomputingplatformCandidate:ChenXiaokangSuervisor;Prof.LiuZhusongp?iMay2016SchoolofComputerScience&TechnologyGuangdongUniversityofTechnologyGuanzhouGuandon..RChina510006g,gg,P,摘要

4、摘要随着现今时代信息的飞速发展,互联网已经步入大数据时代,。在面对海量的数据用户如何快速找到满足自己需求的信息成为学术界急需研究的热点难题。互联网海量数据导致数据挖掘技术要求变得越来越迫切。通过数据挖掘方法,系统可W实现从海量数据高效挖掘出精准数据。数据挖掘中的分类算法是预测数据趋势、推荐迎合用户意愿数据的有效手段。K近邻分类算法又是查询大规模空间数据的常用数据挖掘分类一一算法之。算法在云计算平台运行,可进步提高数据挖掘算法的运算速率。Spark一云计算平台是基于Hadoop云平台的进步优化,不同于Hadoop的完全依赖HDFS文

5、一件系统,Sark实现了在内存中处理数据集,进步提高了云平台的数据处理速度p。针对用户快速获取信息的需求,本文在坤ark云计算平台上,使用并行化的改进K一近邻分类算法实现为用户快速提供推荐数据的目标。本文提出两个优化点:第,本文对K近邻分类算法索引创建技术进行改进,提高算法查找最近邻数据点的效率。传统的K近邻分类算法主要制约因素是查找最近邻数据点效率低,KdTree是应用于K近邻分类算法索引创建的查找效率较高的数据结构。影响KdTree的运行效率主要在于算法运行过程最近邻节点查找中对非叶子节点的回溯。本文通过优化KdTree中待

6、分类数据点范围与分割平面线的相交概率,减少K近邻分类算法在查找最近邻数据点时回溯节点的数目,实现提高K近邻分类算法的分类效率。第二,本文优化算法运行的环境,实现了提高算法分类效率的效果。本文对改进的K近邻分类算法实行并行化,使算法能很好的适应云计算平台的数据处理模型。本文使用Spark云计算平台环境实现并行化的改进K近邻分类算法,在保证算法准确度的前提下,提升了算法的分类速度。在实验数据选取上,本文选用了UCI机器学习数据集。实验对比单机情况下传统K近邻分类算法和改进K近邻分类算法的效率和准确率、Spark云平台上改进K近邻分类

7、算法和单机上改进K近邻分类算法的算法处理效率,得到在Spark云平台运行的改进K近邻分类算法,在保证算法分类准确率的前提,较大的提高了算法效率的结论。关键词:却ark;云平台;分类;数据挖掘;K近邻IAbstractAbstractWiththeraiddevelomentofthemodemeraoftheIiUeraeteolehaveraduallpp,ppgyenteredtheeraofbigdata.Inthefaceofanarrayofdata,theuserhow

8、touicklfind

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。