一种面向文档的xml的索引查询方法

一种面向文档的xml的索引查询方法

ID:5377088

大小:114.52 KB

页数:3页

时间:2017-12-08

一种面向文档的xml的索引查询方法_第1页
一种面向文档的xml的索引查询方法_第2页
一种面向文档的xml的索引查询方法_第3页
资源描述:

《一种面向文档的xml的索引查询方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第15卷第12期微机发展Vol.15No.122005年12月MicrocomputerDevelopmentDec.2005一种面向文档的XML的索引查询方法谢红侠,惠正运(中国矿业大学计算机学院,江苏徐州221008)摘要:如何高效利用网络资源一直是人们关注的焦点。XML(可扩展性标记语言)不仅支持自定义标记,还能表达语义,因而为提高网络搜索的准确性提供了可能。文章提出了现行网络环境下的XML搜索引擎模型,介绍了基于XML可扩展标记语言查询技术实现的核心部分———索引数据库的建立和查询。关键词:可扩展标记语言;索引库;

2、搜索引擎中图分类号:TP393;G354.4文献标识码:A文章编号:1005-3751(2005)12-0024-03AMethodofDocument-OrientedXMLIndexedSearchingXIEHong-xia,HUIZheng-yun(SchoolofComputerSci.andTechn.,ChinaUniversityofMiningandTechn.,Xuzhou221008,China)Abstract:HowtousetheresourceofInternetefficientlyhasb

3、eenthefocusofpeople'sattention.Theextensiblemarkuplanguage(XML)supportsthemarkthatisdefinedbyusersandcanexpresssemantics,whichmakesitpossibletoimprovetheaccuracyofsearchingontheInternet.Inthispaper,asearchmodelisgivenintheenvironmentofcurrentnetwork,andthecorepart

4、oftherealizationofXMLsearchengine,thequeryandcreationofindexdatabase,isintroduced.Keywords:extensiblemarkuplanguage;indexdatabase;searchengine0引言的局限性,返回给用户的查询结果除了用户所需的信息随着Internet的迅速发展,人们正越来越多地通过其外,还包含大量无关的信息,使用户无所适从。随着XML共享信息资源,但如果没有网络搜索引擎,人们将难以有(eXtensibleMarkup

5、Language)的兴起,基于XML的网络效地利用Internet上浩瀚的信息资源。网络搜索引擎的搜索引擎可以为用户提供更准确的查询结果。工作可分为4个部分:信息搜集、建立索引、检索和用户接XML是SGML(StandardGeneralizedMarkupLan-口。信息搜集由网络机器人自动完成,网络机器人从一组guage)的简化子集,XML1.0规范[1]于1998年2月由已知的文档出发,通过这些文档的超文本链接确定新的检W3C发布,它提供了一种在Web文件中包含元数据的方索点,它不断地从一个网页转到另一个网页,从一个

6、站点法。一个XML文件由标记和内容组成,元数据是关于数移到另一个站点,直到遍历完指定范围内的整个Web空据的信息,用标记来表示。目前对XML文件的检索方法间。索引器负责为网络机器人搜集到的信息建立索引数可分为两类:面向数据库的检索方法和面向文档的检索方据库,所采用的数据结构和存储方式对网络搜索引擎的效法。采用第一种方法的XML搜索引擎有:Xdex[2],率和准确率有着直接的影响。检索器负责接收用户提交[3][4]Tamino,Lore等,这些系统使用XML的查询语言查的查询要求,对索引数据库进行查询,并将查询到的结果询XM

7、L文档数据库来返回查询结果,因此用户必须对返回给用户。用户接口的作用是输入用户查询、显示查询XML文档模式有一定程度的了解。采用第二种方法的结果、提供用户相关性反馈机制。目前,Web上的大多数[5][6]XML搜索引擎有:GoXML,Xyleme等,这些系统从文档都是用HTML(HypertextMarkupLanguage)格式存XML文档中抽取重要的结构和上下文信息进行索引以提放和传送的,基于HTML的网络搜索引擎主要根据关键高查询的准确率。文中提出的索引查询方法是一种面向字在文本中匹配的情况和链接质量,按相关度由高到

8、低的文档的方法,它能充分利用XML文件的标记所带来的上顺序向用户提供查询结果。HTML仅仅是个陈述性的语下文信息提高查询的准确率,该方法所采用的数据结构和言,其主要目的是描述网页内容如何显示。由于HTML算法易于实现,有较小的索引冗余和较快的查询速度。收稿日期:2005-03-11作者简介:谢红侠(19

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。