频繁子树优化查询策略

频繁子树优化查询策略

ID:77979776

大小:4.44 MB

页数:56页

时间:2022-01-30

频繁子树优化查询策略_第1页
频繁子树优化查询策略_第2页
频繁子树优化查询策略_第3页
频繁子树优化查询策略_第4页
频繁子树优化查询策略_第5页
频繁子树优化查询策略_第6页
频繁子树优化查询策略_第7页
频繁子树优化查询策略_第8页
频繁子树优化查询策略_第9页
频繁子树优化查询策略_第10页
资源描述:

《频繁子树优化查询策略》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号单位代码研究生学号密级公开吉林大学周盯士学位论文频繁子树优化查询策略作者姓名赵炎专业计算机软件与理论研究方向数据挖掘指导教师李雄飞教授培养单位计算机科学与技术学院年月频繁子树优化查询策略作者姓名赵炎专业名称计算机软件与理论指一导教师李雄飞教授学位类别工学硕士答辩日期年月日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用但纯学术性使用不在此限。否则,应承担侵权的法律责任。吉林大学硕士学位论文原创性声

2、明本人郑重声明所呈交的硕士学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名走炎日期年乡月玛日提要现阶段,数据挖掘不论是在理论上还是在应用上都得到快速的发展。所谓数据挖掘,简而一言之,就是从海量的数据中发现先前未知的、有用的信息。数据挖掘的重要性主要体现在计算机网络、亡挖掘、生物信息学、多关系数据挖掘、文档挖掘等方

3、面的大量应用上。近几年,随着数据挖掘的发展,频繁子树的挖掘己经成为一个新的研究领域,在许多方面得到很好的实际应用,频繁模式挖掘是数据挖掘中一个很重要的课题。如何快速找到频繁结构,查询访问更新频繁结构信息,并对该结构进行必要的更新操作是迫在眉睫的时代要求。在编码属于区域编码的基础之上,本文提出一种新的编码方案—编码。利用对文档树中节点进行编码,给定任何一个节点,在文档树中都可以找到从根节点到该节点的唯一的一条完整路径。该编码适用于给文档树建立索引,并继续运用到将文档转换为关系数据表之后的索引。另外将文档转换成关系数据表形式,用编码建立索

4、引表,给出任何一个节点,在索引表中都能找到该节点的所有出现,并根据该节点的编码获得节点信息,不需要从根节点开始查找。此外针对文档中自下而上频繁子树一,鉴于其格式统一,将该部分转换到关系数据表中。实验结果表明,对包含自下而上频繁子树的文档,算法可以有效地进行查询、访问、更新等操作。相关工作得到吉林省科学技术发展计划“半结构化数据库关键技术研究”项目支持。摘要摘要频繁子树优化查询策略当今是信息时代,与人们现实生活联系紧密的衣食住行等各个方面都少不了各种各样的信息。随着社会的进步、科技的发展,各种数据信息资源爆炸式增长,并进入到人们的学习、

5、生产、生活中。以至数据的存储和管理面临严峻的考验,于是具有半结构化数据特征的数据应运而生,而如何有效管理数据已成为数据库界的研究热点。数据挖掘,简而言之,就是从大量的、模糊的、不完全的、随机的、已经收集到的某类信息中,提取出有用的、潜在的、无噪声的、新颖的知识和信息、,最终能产生可理解数据模式的非平凡过程。通过对原有数据的处理分析,我们可以从这些数据集中找到需要的知识模式,用于信息处理、过程控制等方面。具有半结构化特征、自描述性质的数据的出现,使得原有的数据库技术面临一场新的变革,国内外研究学者对数据进行了深入研究,从形式到实质,其中

6、包括数据挖掘的研究,而数据挖掘工作包括频繁模式的挖掘、分类聚类、关联规则等。频繁模式的挖掘是数据库技术一个重要方面,其研究己涉及到计算机网络、信息检索、医药信息分析、亡挖掘、生物信息学等领域。频繁子树挖掘又是频繁模式的一个重要部分。随着数据挖掘的发展,频繁子树的挖掘已经成为一个新的研究领域,并在许多方面得到很好的实际应用,如何快速找到频繁结构,查询访问更新频繁结构信息,并对该结构进行必要的更新操作已成为迫在眉睫的时代要求。本文针对自下而上频繁子树的查询、访问、更新等问题,提出将频繁子树转换成关系数据库的方法,从而把对文档树的查询更新转

7、换到对关系表的查询更新上,以达到缩短查询访问时间、提高更新修改效率的目的。查询技术离不开索引知识,索引又是以编码为基础的,常用的编码类型包括区域编码、前缀编码、分树编码等。本文在编码的基础之上,提出一种新的编码方案—编码。该编码与编码相比,增添了父节点编码和层次编码,前序遍历号作为主键,根据主键信息对文档树中节点建立索引,并存储各个节点信息。给定任何一个节点,都可以找到从根节点到该节点的唯一一条路径信息,而这个过程是通过查询关系表得到的,无须遍历原文档树。在后续的对自下而上频繁子树的查询优化借用该思想,将频繁子树存储到关系表中,实现对

8、文档树的查询优化。文章的主体结构安排如下摘要第一章绪论部分简要介绍了数据挖掘、频繁子树挖掘、编码知识研究的现状及本文课题的意义,并给研究思路和文章的组织安排。第二章介绍的相关知识,通过一个简单例子,分析文档结构信息,充分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。