基于Spark的日志分析工具的设计与实现

基于Spark的日志分析工具的设计与实现

ID:35121614

大小:4.09 MB

页数:91页

时间:2019-03-19

基于Spark的日志分析工具的设计与实现_第1页
基于Spark的日志分析工具的设计与实现_第2页
基于Spark的日志分析工具的设计与实现_第3页
基于Spark的日志分析工具的设计与实现_第4页
基于Spark的日志分析工具的设计与实现_第5页
资源描述:

《基于Spark的日志分析工具的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Spark的日志分析工具的设计与实现作者姓名马志亨学校导师姓名、职称刘惠副教授企业导师姓名、职称刘跃高工___申请学位类别工程硕士万方数据万方数据学校代码10701学号1410122577分类号TP311.52密级公开西安电子科技大学硕士学位论文基于Spark的日志分析工具的设计与实现作者姓名:马志亨领域:软件工程学位类别:工程硕士学校导师姓名、职称:刘惠副教授企业导师姓名、职称:刘跃高工学院:软件学院提交日期:2017年5月万方数据万方数据DesignandimplementationofLogAnalysisToolsBas

2、edonSparkAthesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinSoftwareEngineeringByMaZhihengSupervisor:LiuHuiTitle:AssociateProfessorSupervisor:LiuYueTitle:SeniorEngineerMay2017万方数据万方数据西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声

3、明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权属于西安电子科技大

4、学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,结合学位论文研究成果完成的论文、发明专利等成果,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:万方数据万方数据摘要摘要近年来,随着计算机科学技术的飞速发展,各大互联网公司纷纷推出各种产品以满足人们衣食住行方方面面的需求,这些产品每天都会产生海量的数据,为了满足数据的存储和处理的需求,大数据产业应用而生。单一的计算机已经无法完成如此大量的数据

5、的存储和计算工作,需要由大量分布在不同区域的服务器组成分布式计算机集群,从而提供的强大的分布式计算能力,来完成大数据的处理。目前,Spark作为分布式计算框架,已经被广泛运用于企业业务中。但是Spark过程过于复杂,普通的用户并不了解底层的运行原理,进行性能调优更是需要一定的专业知识,生产环境中还没有从Spark日志出发进行分析和调优的工具。开发者希望从Spark的日志中了解Spark作业程序运行时集群底层的性能数据,从而掌握整个Spark集群的运行情况,找到系统运行中可能存在的问题,从而进行性能调优,提高计算效率,减少任务运行时间

6、。所以,开发一套Spark日志分析系统对于Spark用户甚至是Spark开发者进行性能优化显得意义重大。本文针对生产环境中Spark日志分析存在的空缺,研究了基于Spark的日志分析工具的设计与实现。论文在阐述了Spark的生态系统以及EGO集群的基本概念的基础上,调查了国内外对于Spark日志分析以及Spark性能调优的现状。从Spark源码的角度介绍一个SparkAPP的生命周期,描述一个任务在提交后是如何划分并执行的。介绍了IBM的CwS技术,并详述了基于订阅发布的设计模式这一Spark用来分发和记录event的设计模式,介绍

7、了SparkeventLog的格式和内容。分析了日志分析系统的业务需求和功能及性能需求,从调度性能和任务执行性能两方面分析了影响Spark作业执行的各项因素,选取了影响Spark系统性能的指标。对Spark作业的数据本地性做了调研,并设计了数据本地性的评价办法,将这两项作为日志分析系统的基础。给出了系统的应用架构设计,并通过对各模块的详细设计进一步论述和支持应用架构设计,实现了日志收集和预处理的功能,数据持久化功能,分别从application、job、stage粒度进行了数据分析,并将不同粒度的分析结果通过不同类型的统计图表进行输

8、出展示。论文最后通过搭建实验环境、设计实验方案验证该日志分析系统的功能。本文的主要成果是Spark日志分析工具。分析工具目前运行稳定,成功收集了日志数据,进行了性能分析并将Spark作业的运行情况通过图表直观的展现给Spark用户和开

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。