网页去噪研究综述

网页去噪研究综述

ID:44273250

大小:687.42 KB

页数:25页

时间:2019-10-20

网页去噪研究综述_第1页
网页去噪研究综述_第2页
网页去噪研究综述_第3页
网页去噪研究综述_第4页
网页去噪研究综述_第5页
资源描述:

《网页去噪研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、ISSN10001239CNli1777TP47(12):2025-2036,2010计算机研究与发展JournalofCoinputcrRcscarchandDcvclopmcnl网页去噪:研究综述毛先领何靖闫宏飞(北京大学计算机科学与技术系北京100871)(mx1@net.pku.edu.cn)ASurveyofWebPageCleaningResearchMaoXianling,HcJing,andYanHongfci(DepartmentofComputerScienceandTechnology,PekingUniversity,Beijing1008

2、71)AbstractTherapiddevelopmentoftheInternethasmadeavarietyofWebapplicationsandWebdata,whichbecomethemajorsourceofdataforlotsofresearch・Webpageincludesavarietyofcontent,suchasadvertising,navigationbar,relatedlinks,text,etc.However,fordifferentstudiesandapplications,notallcontentisneces

3、sary;oppositely,theunrelatedcontentwillaffecttheeffectivenessandefficiencyoftheresearchandapplications・SoWebpagecleaningisahiglilighiedtopicofinformationretrievalwithboomingsearchengines.Thusitisnecessarytosumupthefieldonthepagedenoise,inordertobettercarryoutindepthstudy.Firstly,thisp

4、apergivesabriefintroductiontothenecessityofWebpagccleaninganditsrelatedconcepts・TheauthorspresentaclassificationhierarchyoftheWebpagecleaningmethods,includingthesinglemodelbasedWebpagecleaningmethodsandthemultimodelbasedWebpagecleaningmethods.Then,thispapersummarizesallkindsofWebpagcc

5、leaningtechniquesandframcworks,includingSST,Shingle,Pagelet,DSE,etc.Thirdly,thispaperdescribestheexperimentaldatasetsandexperimentalmethodsusedinallkindsofWebpagecleaningtechniques・Finally,thispaperdiscussestheexislingproblemsandthefuturedircctionsintheWebpagecleaningfield.KeywordsWeb

6、pagecleaning;datamining;Webmining;informationretrieval;WWW摘耍互联网的快速发展已经使得网页数据成为tr而各种应用与研究的重耍数据源之一.网页数据包含各种内容,如广告、导航条、相关链接、正文等,然而对于不同的研究和应用来说,并非所冇内容都是必需的,和反地,不相关的内容反而会影响研究和应用的效果和效率,所以网页去噪是一个基础问题,且是h前热点研究的问题.因此很有必要对网页去噪领域进行总结,以便更好地进行深入研究.首先说明了网页去噪的必要性,并对网页去噪进行了定义和分类,概述了多种网页去噪的方法和框架,然后对评估

7、网页去噪算法所使用的数据集和方法进行了总结,最后讨论了该领域存在的问题和今后的研究方向.关键词网页去噪;数据挖掘;网络挖掘;信息检索;万维网中图法分类号TP393各种应用与研究的巫要数据源z—.近年来以网页数据作为対象的研究和应用大量出现,例如搜索引丸联网的快速发展已经使得网页数据成为H前擎、基于Web的数据挖掘、实体抽取、知识发现等.网页数据包含各种内容,如广告、导航条、相关链接、收稿日期:2009-02-13;修回日期:201(K02-25基金项目:国家自然科学基金项目(70903008.60933004):国家八六三高技术研究发展计划基金项0(2007AA0

8、1Z154

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。