hbase查询及索引机制研究

hbase查询及索引机制研究

ID:35032174

大小:3.69 MB

页数:66页

时间:2019-03-16

hbase查询及索引机制研究_第1页
hbase查询及索引机制研究_第2页
hbase查询及索引机制研究_第3页
hbase查询及索引机制研究_第4页
hbase查询及索引机制研究_第5页
资源描述:

《hbase查询及索引机制研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP311密级公开UDC004学位论文编号D-10617-308-(2016)-02054重庆邮电大学硕士学位论文中文题目HBase查询及索引机制研究英文题目ResearchonHBaseQueryandIndexMechanism学号S130201057姓名秦恒学位类别工学硕士学科专业计算机科学与技术指导教师熊安萍教授完成日期2016年6月1日独创性声明本人声明所呈交的学位论文是本人在导帅指导下进行的研究工作及取得的研巧成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含他人已经发表或撰鸟过的研究成果,也不包含为获得軍巧邮巧大举或忠化单

2、化的学位或证书而使用过的材料一。与我同工作的人员对本文研究做出的贡献均已在论文中作了明确的说明并致W谢意。作者签名;日期;年^月/日学位论文版权使用授权书本人完全了解重庆邮电大学有权保廣、巧用学位论文纸质版和电子版的规定,即学校有权向国家有关部口或机构送交论文,允许论文被查阅和借阅等。本人授权重庆邮电大学可公布本学位论丈的令部或部内滋.可编入有关数据库或信息系统进行检索、分析或评价,可t^Jl采用影印、缩印、扫描或拷巧等复制手段保存、汇编本学位论文。(注:保密的学位论文在解密后适用本授权书。)L心-作者签名,:知

3、导师签名:J日期:么年b月日日期;年月(日I重庆邮电大学硕士学位论文摘要摘要HBase作为一种非关系数据库,能比较好地应对海量非结构化数据所带来的挑战。HBase的底层文件系统是并发能力强、易拓展、高可靠的HDFS,HBase在HDFS的支持下,其并行处理、数据压缩、海量信息存储方面的性能已经远远超出了传统关系数据库,得到了广泛的应用。然而HBase在索引设计方面还存在明显的局限性。其中重要的一点就是HBase本身的索引设计只支持基于RowKey检索,导致了客户端应用常常会为了实现一些简单的任务而执行全表扫描。华为基于HBase的二级索引方案Hindex较好地

4、解决了这一问题,但Hindex本身在面对一些局部频繁访问数据时并不高效。另外,HBase本身的扫描队列管理策略并没有考虑大量用户可能对于部分StoreFile有较多扫描的实际情况。针对这些问题,国内外学者对于HBase提出了许多改进方案,但这些方案在适用性、稳定性、高效性等方面都还有进一步改善的空间。因此,有必要深入研究HBase的查询及索引机制,进一步提高HBase检索效率。论文以HBase作为研究对象,对HBase的查询、索引机制和华为基于HBase的二级索引方案Hindex进行了深入的研究。通过分析HBase存储及索引机制部分源码,针对现有的机制存在的不足,提出

5、了优化机制,主要工作内容如下:第一,通过分析学习华为基于HBase二级索引Hindex的实现细节,针对当大量用户局部频繁访问数据时查询效率不高的问题,通过标记热数据索引,提出了基于热度值的二级索引机制,并采用基于热索引的缓存策略,来存储热数据的二级索引,提高了查询效率。实验结果表明,在热数据较为集中时,优化后的查询机制可以有效地缩短查询响应时间、提高索引缓存命中率。第二,HBase在访问数据时需要首先定位到具体的StoreFile,再将该StoreFile加载到扫描队列。根据用户访问数据的局部性特征,可能对部分StoreFile有较大扫描需求。针对该问题,重新构造了优

6、先级扫描队列,提出了基于动态优先级的scanner策略。实验结果表明,改进的扫描加载队列策略可以在单位时间内降低用户平均响应时间。论文研究工作表明,在热数据较为集中时,基于Hindex的热索引策略以及基I重庆邮电大学硕士学位论文摘要于热索引的缓存策略可以有效提升数据查询效率。当用户在短时间内进行多次查询时,改进的扫描加载队列策略可以在单位时间内满足更多的查询需求。关键词:HBase,二级索引,热度值,缓存策略,扫描队列II重庆邮电大学硕士学位论文AbstractAbstractHBasecanbetterdealwiththechallengesbroughtbyth

7、emassofunstructureddataasanon-relationaldatabase.TheunderlyingfilesystemofitisHDFSwhichhasstrongconcurrency,easyscalabilityandhighreliability.UnderthesupportofHDFS,theperformanceofHBaseonparallelprocessingcapabilities,datacompression,storageofmassinformationisfarbeyondthetradit

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。