基于信息抽取比较购物垂直搜索地研究与设计

基于信息抽取比较购物垂直搜索地研究与设计

ID:34159005

大小:2.96 MB

页数:83页

时间:2019-03-04

基于信息抽取比较购物垂直搜索地研究与设计_第1页
基于信息抽取比较购物垂直搜索地研究与设计_第2页
基于信息抽取比较购物垂直搜索地研究与设计_第3页
基于信息抽取比较购物垂直搜索地研究与设计_第4页
基于信息抽取比较购物垂直搜索地研究与设计_第5页
资源描述:

《基于信息抽取比较购物垂直搜索地研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、I.....一{lllllIlll⋯舢⋯111110嗍llllflⅢY1824696,独创性声明●本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重迭整鱼太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。警论文作者签名砸缉签字嗍唧等朔?瑁学位论文版权使用授权书,‘~本学位论文作者完全了解重庆邮电太堂有关保留、使用学位论文的规定,有权保留并向国家有关

2、部门或机构送交论文的复印件和磁盘,允许论文被查阅’和借阅。本人授权重废邮电太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。7.(保密的学位论文在解密后适用本授权书)学位论文柘者签依签字呼叼年r月2,蝈导师签名:修寿傻铆’签字日期:。2唧年j-月少阳lj}摘要随着№met的飞速发展,W

3、eb的信息量越来越大,通用搜索引擎将面临信息采集、检索等方面更大的挑战。随着电子商务的蓬勃发展,网上商品的交易越来越频繁,更多的消费者通过搜索引擎来寻找和购买在线产品,但是用户常常难以快速、准确地从海量信息

4、中找到自己所需的且可比较的信息。为解决这些问题,比较购物垂直搜索应运而生。本文旨在通过WEB信息抽取、中文分词、信息融合等相关垂直搜索技术对网页信息进行处理,使计算机能够自动完成商品信息抽取和融合,最后呈现给用户一个完整的商品信息视图,提供一个初步的比较购物垂直搜索系统模型。它有助于提高信息抽取自动化程度,监控竞争对手的市场策略,以及衍生新的商业模式。本文针对网页噪音和网页非结构化信息抽取模板生成复杂度高的问题,提出一种基于模板的快速网页文本自动抽取算法。该算法对网页噪音预处理,将其DOM树结构进行标签HASH映射,通过自动训练的阈值快速判定网页的主

5、要部分,根据数据块中的嵌套结构获取网页文本抽取模板。然后使用网页文本主题分析和正则模板匹配等技术,实现一套针对商品信息的在线抽取方法。为了增加商品垂直搜索的准确性,维护日益更新的商品名词,本文提出了基于主题的自适应的分词方法,使用候选词典和专业词库来指导分词和歧义消除,能有效地提高专业领域中分词的准确率。本文进行了系统的总体设计、数据库表结构设计;对关键模块的设计引入(Plug.i11)机制;并结合一些开源框架对部分系统模块和底层时序调度进行实现。文中介绍了主要模块的实现细节,并根据抽取的商品信息属性,提出相应的数据融合策略。最后以图书商品为例进行了

6、系统运行实验。实验运行结果表明:本文相关算法和设计是可行的,系统能够完成初步的设计目的,为进一步的扩展打下基础。关键词:信息抽取,非结构化信息,自适应,数据融合,比较购物垂直搜索Abs仃actAbstractWim恤rapiddeVelopmemofmeIntemet,也e锄。眦tinfb皿ation0fweb谢1lbel盯ger’generalsearchengine谢llf.acegreatcrc11allenges,such勰infomationcollectio玛retrieVe.Atmes锄etiIne一嬲nler蜀lpiddeVelopm

7、entofe-commerCe,o芏1line缸adingofgoodsarcmoreandmore厅equent,m砒1yconsumerstllroughsearcheI培inest0findandbuyproductSollline,butisusuallydimcuhforuserst0quicl【ly锄daccwatelyf如macomplexmassofir面姗ation丘ndcomparableinf.0mationw量lichmeyneed.Tosolvenleseissues,comparison-ShoppingVenicalse

8、arch锄eintobeing.TIlisanicleisf.0rmepl=Irposeofc龇ryingonprocessing也ewebi11】白rmation廿lrou曲W曲iIl:f加mationex臼徼tioIl,Cllinesewordsegmematio芏1,Datamsion锄d硎herrelatedvenicalsearchtechnology,enablestllecomputert0beabletocomplete廿lecommodi够informationeXtmction龇ld咖如sionautomatically,fmal

9、lypresemsfort11ellserac!ompletecommodi够iIlfomlationVie

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。