智能搜索引擎理论与应用研究

智能搜索引擎理论与应用研究

ID:33359359

大小:3.80 MB

页数:123页

时间:2019-02-25

智能搜索引擎理论与应用研究_第1页
智能搜索引擎理论与应用研究_第2页
智能搜索引擎理论与应用研究_第3页
智能搜索引擎理论与应用研究_第4页
智能搜索引擎理论与应用研究_第5页
资源描述:

《智能搜索引擎理论与应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着Internet的广泛应用,Web得到了迅猛的发展,Web上的信息呈指数级增长,因此,如何对这种海量Web信息进行自动处理成为非常重要的研究课题。传统搜索引擎搜索的内容繁杂,导致查询结果中存在大量无关信息,降低了查询精度。一种新的研究趋势是结合领域知识和智能技术研究搜索引擎,即基于领域的智能搜索引擎(Domain—basedIntelligentSearchEngine)。智能搜索引擎采用机器学习的方法研究文本信息的自动搜集、抽取与分类等处理过程,由此可以减少大量人力资源的需求,并提高信息处理的效率和精度。本文深入研究了智能搜索引擎中所使用的理论、算法与实现技术

2、,采用巩固学习、隐马尔科夫模型(H埘)、朴素贝叶斯分类模型等机器学习方法在网络蜘蛛、信息抽取、文本预处理和信息检索等方面提出了若干新的算法,并建立了仿真平台和实验原型系统。理论分析和实验结果表明,这些算法具有较好的性能。网络蜘蛛是智能搜索引擎中首先需要解决的问题。本文利用Web网页分布群聚性的特点,结合巩固学习方法,提出了~种新的启发式搜索算法。算法根据网页与主题的相关程度将网页分为与主题相关的网页集群与过渡型的网页集群,利用模拟退火的算法进行评估。在与主题相关的网页集群中进行搜索时,使用立即回报加速挖掘的进度;在过渡型的网页集群中使用未来回报拓宽探测的范围以加快定位过

3、程。针对四所大学计算机系网站搜索的实验表明,算法具有较高的搜索效率。针对Web上的各种网页信息,如何有效地抽取出论文标题、作者姓名、摘要等相关内容以方便查询,是智能搜索引擎的主要任务之一。目前基于隐马尔科夫(HMM)信息抽取模型一般以单词作为基本抽取单位,考虑到文本排版格式、分隔符等信息的存在,文本实际上可以看作是由一些文本分块序列组成,同一分块内的所有单词只可能属于同一个状态,而不同分块可以属于一个或多个状态。结合这种分块的思想,本文提出了基于文本分块的HMM信息抽取算法。实验结果表明,这种方法比基于HMM模型的信息抽取算法具有更好的性能。文本信息处理通常采用向量空间

4、模型表示文本信息,需要对单词进行预处理以降低单词数量。结合对单词过滤与特征选取两类常用预处理方法的研究,本文提出了基于最小类差异的特征过滤算法。算法通过分析文本特征的分布特性以及区分类的情况,将文本特征划分为单类特征、多类特征与一般特征等三种类型,按照特征在各类之间的分布差异,将类分布差异较小的特征所对应的一般特征进行过滤,实验结果表明这种算法有效地过滤了大量的无关信息和弱相关信息,提高了分类算法的精度。信息检索是智能搜索引擎中的查询机制。本文结合Web信息表示的特点,提出了一种N层向量空间模型。模型将整个Web信息按照结构的不同划分为多个层次,根据各层次的不同作用分别

5、进行相似度计算。理论分析与实验结果表明,这种模型比传统向量空间模型具有更好的查全率与查准率。基于超链接的信息检索方法是一种新型的信息检索机制。本文针对基于超链接的HITS(Hyperlink—InducedTopicSearch)算法,结合N层向量空间模型的思想,提出了一种基于锚点信息的超链接检索排序算法。算法利用N层向量空间模型进行相似度计算,结合网页的链接信息进行排序。与HITS算法、TFIDF算法等信息检索方法的实验结果比较,新算法在信息检索的查全率与查准率方面取得了更好的效果。针对Web信息的动态性将导致搜索引擎所采集的信息失效,而~般的策略采用固定周期的信息更

6、新算法,本文提出了一种基于最高响应比算法的www索引信息库更新方法,利用索引信息的访问情况以及网页的更新频度计算网页的更新周期,按照不同更新周期的情况进行信息的有效性检查,不仅减轻了系统信息维护的工作量,而且保证了信息的有效性。最后,本文提出了一个比较完整的搜索引擎设计模型,结合本文在网络蜘蛛、信息抽取、文本分类、信息检索等方面的研究内容,在Windows操作系统平台上实现了一个简单的原型系统。关键词:搜索引擎,文本分类,信息抽取,巩固学习,隐马尔科夫模型,朴素贝叶斯分类算法儿AbstractWiththedevelopmentoftheInternet,webinfo

7、rmationincreasesexponentially.Howtoautomaticallydealwiththehugeinformationhasbecomeaveryimportantresearchtopic.Duetotheinformationreturnedbytraditionalsearchenginevaryingbroadly,theresultofuser’squerymayincludeamassofirrelevantinformation.which1eadstodegradationofthepreci

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。