网页去重策略和实现

网页去重策略和实现

ID:24656608

大小:59.50 KB

页数:4页

时间:2018-11-15

网页去重策略和实现_第1页
网页去重策略和实现_第2页
网页去重策略和实现_第3页
网页去重策略和实现_第4页
资源描述:

《网页去重策略和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、网页去重的策略和实现0引言互联M时代的到來,极大地影响了人们的日常生活,改变着人类的生活习惯。同时,也给人们带来了极大的便利。人们越来越喜欢通过搜索引擎来查找自己想要得到的内容和信息,这是搜索引擎技术的机遇,然而也足挑战,因为人们的要求也越来越苛刻。在我们用搜索引擎搜索信息的吋候,常常会遇到这样-•种情况:很多N容相同或相似的网页会被搜索引擎提交给我们。这对用户来说,是很不便利的,不仅浪费了吋间,也占用了大量的资源。同时,也降低了搜索引擎的服务效率。因而网贞去重技术也慢慢被人们重视起来。网页去重的算法有很多种,

2、本文重点介绍一种基于网贝中文字主题要素的网页去重算法。1网页去重的理论基础1.1搜索引擎搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。搜索引擎的工作原理:第一步:爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛M上爬行一样,所以被称力“蜘蛛”也被称为“机器人”。

3、搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。第二步:抓取存储搜索引擎是通过蜘蛛跟踪链接爬行到网页,丼将爬行的数据存入原始页面数据库。其屮的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。第三步:预处理搜索引擎将蜘蛛抓取冋来的页面,进行各种步骤的预处理。除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF>Word、WPS、XLS、

4、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。第四步:排名用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。1.2查全率和查准率查全率是指,查询关键词时,搜索引擎返回的相关网页数与全部相关网页数的比率。假如包含某关键词的网页实际上有N个,而搜

5、索引擎真正检索的只有M个,那么这个关键词的查全率就等于M+NX100%。查全率是衡量搜索引擎检索是否全而的度量指标。查全率越高,则表示搜索引擎的全面检索能力越强。查准率是衡tt某一检索系统的信号噪声比的一种指标,即检出的相关文献与检出的全部文献的百分比。普遍表示为:查准率=(检索出的相关信息量/检索出的信息总量)xlOO%。检索系统中的匹配,分为精确匹配和模糊匹配,在文献检索时应根据需要选用。本文在利用模糊匹配方式提高查全率的同时,还利用基于中文字主题要素的网页去重方法来提高查准率。1网页重复的原因和其他去重方

6、法2.1网页重复的原因搜索过程中产生重复的原因主要有两个,一个是由于URL本身的构造原因产生搜索结果重复。例如,虚拟主机技术可能会使得多个不同域名映射到同一个什,当搜索系统川这些域名进行搜索时,实际上搜索到的是同一个站点,导致搜索结果重复。这一类由丁-URL木身导致网页重复的问题相对来说比较容易解决,例如,可以通过建立IP与域名的对应表、比较网站前几页网页代码等方式解决。网页重复的另一个重要原因是不同网站之间对相同的内容重复引用或同一站点在不同物理位置的镜像等而导致的,这对于一些热点内容和重要站点尤其如此。对于

7、这类情况,由于大量重复网页不是直接对原有网页进行复制,而是将转载引用的内容放到自己网页的某个特定位置再提供给用户,或者在镜像时定制了网贞的内容。这样,新的网页就可能在风格、布局、代码方面与原有网页有很大的差别,因而不能使用网页的形式特征来对网页消重,消重的依据只能是根据网页的内容特征。2.2其他去重方法目前,M页去重代表性方法有3种。1)基于聚类的方法。该方法是基于网页文本内容以6763个汉字作为向量的基,文本中某组或某个汉字所山现的频率就构成了代表网页的向量,通过计算向fi的夹角确定是否是相同的网页。2)排除

8、相同URL方法。各种元搜索引擎去重主要采用此方法。它分析来自不同搜索引擎的M页URL,URL相同,即被认为是相同的网页,可将其去除。3)基于特征码的方法。这种方法利用标点符号多数出现在网页文本的特点,以句号两边各5个汉字作为特征码来唯一地表示网页。3基于文字主题要素的去重方法选择主题词就是把主题概念转换成检索语言。选词的广度和专指度对查全率和查准率起着关键作用,使用规范的主题要素可以达

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。