海量图片去重算法研究

海量图片去重算法研究

ID:35089182

大小:3.05 MB

页数:84页

时间:2019-03-17

海量图片去重算法研究_第1页
海量图片去重算法研究_第2页
海量图片去重算法研究_第3页
海量图片去重算法研究_第4页
海量图片去重算法研究_第5页
资源描述:

《海量图片去重算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP301.6单位代码10618密级公开学号2130070007硕士学位论文海量图片去重算法研究研究生姓名:宋志坚导师姓名及职称:韩逢庆教授申请学位类别工学学位学位授予单位重庆交通大学一级学科名称计算机科学与技术论文提交日期2016年04月07日二级学科名称论文答辩日期2016年05月27日2016年05月27日ResearchonthealgorithmofmassiveimagededuplicationADissertationSubmittedfortheDegreeofMasterCandidate:SongZhijianSupervisor:Prof.HanFe

2、ngqingChongqingJiaotongUniversity,Chongqing,China重庆交通大学学位论文原创性声明本人郑重声明!所呈交的学位论文,是本人在导师的指导下,独立进行研巧工作所取得的成果。除文中己经注明引用的内容外I本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体|^^明确方式标明。本人完全意识到本声明的法律结果由本人承,均已在文中担。"r心学位论文作者签名:日期:年^月/日譯、秦复重庆交通大学学位论文化权使用授权书、使用学位论文的规定本学位论文作者完全了解学校有关保留,同意学

3、校保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文被査阅和借阅。本人授权重庆交通大学可将本学位论文的全部内容编入有关数据库进行检。索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文同时授权中国科学技术信息研究所将本人学位论文收录到《中国学位论文全文数据库》,并进行信息服务(包括但不限于汇编、复制、发行、信息网络传播等),同时本人保留在其他媒体发表论文的权利。学位论文作者签名;指导教师签名节曰斯:>4年6月V曰曰期:年f曰I^月本人同意将本学位论文提交至中国学术期刊(光盘版)电子杂志社CNKI系列数据库中全文发布,并按《中

4、国优秀博硕±学位论文全文数据库出版章程》规定享受相关权益。;指导教师签;学位论文作者签名名V曰期:4年若月IV曰曰期年^月f曰>摘要随着网络时代的发展,人们对信息资源掌握的增多,导致需要存储的数据量以几何级数在增长,网络带宽的不足、存储资源的紧缺以及等等诸多问题随之而来。解决这些问题的有效手段是清除重复数据,保证数据不存在冗余。而图片作为众多数据中的一种,经常出现在手机、网页这些人们日常使用的工具当中,其量级之大给存储设备带来极大的困扰。常用的清除重复数据的方法有文件级去重技术和块级去重技术,但是由于图片存在不易修改的特性,若采用文件级进行去重,耗时长、对系统性

5、能损耗严重;又因为图片具有任意性,若采用块级进行去重,块的大小无法准确的适应每种图片,容易出现删除错误等严重问题。所以建立一种简单有效的图片重复删除技术成为科研人员的研究重点。本文提出了一种能够高效对海量图片进行去重的算法,该算法主要利用图片本身固有特征判断重复。利用图片本身特征能够克服块级去重时由于块大小无法适应所有图片导致其删除错误等问题,同时采用并行化计算及快速定位重复方法能够克服文件级去重时耗时长等问题。本论文首先介绍了清除重复数据的研究背景及意义,对常用的清除重复数据的技术进行了简介。由于这些方法对重复图片删除有一定的局限性,而本论文提出的方法主要利用图片本身特征,为了

6、准确、高效的提取图片特征,对常用的图片特征进行了描述。其次,根据提取的特征,建立了多特征综合图片离线去重算法,通过对该算法的两次改进,使得其在单机i5处理器条件下处理500万级图片量时仅需要10分钟左右。然后,根据多特征综合离线去重算法的思路,提出了多特征综合图片在线去重算法。该算法利用对原始图片集进行分组从而能够降低新图片匹配等计算量的思路,实现了在新图片集为50万时,处理时间在25分钟左右,该算法为图片在线去重提供了解决思路。最后,将海量图片并行化去重算法思路进行了推广,将其应用在海量无声短视频去重研究中,经实验发现,对20万无声短视频进行去重时仅需要7-8分钟,去重时效性大

7、大提高。关键词:重复图片去重;海量图片;图片特征;IABSTRACTWiththedevelopmentofCyberTime,peoplecanhavemoreinformation.Itcausestheamountofdatathatneedstobestoredisgrowingingeometricprogression.So,therearealotofproblemsthatneedtobesolved,suchastheshortageofnetworkbandw

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。