基于视觉信息的deep+web信息自动抽取技术的研究

基于视觉信息的deep+web信息自动抽取技术的研究

ID:27127518

大小:1.97 MB

页数:69页

时间:2018-12-01

基于视觉信息的deep+web信息自动抽取技术的研究_第1页
基于视觉信息的deep+web信息自动抽取技术的研究_第2页
基于视觉信息的deep+web信息自动抽取技术的研究_第3页
基于视觉信息的deep+web信息自动抽取技术的研究_第4页
基于视觉信息的deep+web信息自动抽取技术的研究_第5页
资源描述:

《基于视觉信息的deep+web信息自动抽取技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、谨以此文献给尊敬的张巍副教授以及我亲爱的朋 友和同学们!--------------谈凤真万方数据万方数据基于视觉信息的DeepWeb信息自动抽取技术的研究学位论文答辩日期:指导教师签字:答辩委员会成员签字:万方数据万方数据万方数据万方数据本论文得到山东省自然科学基金(No.ZR2012FM016)的资助。万方数据独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含未获得(注:如没有其他需要特别声明的,本栏可空

2、)或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:年月日------------------------------------------------------------------------------------------------------学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学位论文的全部

3、或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。(保密的学位论文在解密后适用本授权书)学位论文作者签名:导师签字:签字日期:年月日签字日期:年月万方数据万方数据万方数据基于视觉信息的DeepWeb信息自动抽取技术的研究摘要随着互联网技术日新月异的发展,web已经成为一个巨大的信息源,拥有着海量的重要数据。目前数据挖掘在许多领域应用广泛,如:金融、医疗保险、市场分析等。通过分析挖掘得到的数据,

4、可以获得许多有用知识,最大程度的进行辅助决策。然而,Web数据的特点是数量多,形式异构,自治的,分布存储,这使得Web数据挖掘的分析工作变得尤为困难,所以当务之急是对数据进行集成,为高质量数据分析奠定基础。根据web中所蕴含信息的“深度”,可以将web分为SurfaceWeb和DeepWeb。在数量和质量上,DeepWeb远远超过了SurfaceWeb,具有较高的应用价值。因此,如何进行抽取DeepWeb中的数据,以便于更有效的分析,具有重要的现实意义和广阔的应用前景。Internet上的各个网站的信息相互独立,DeepWeb数据收集起来

5、十分困难,在这种情况下,通常的搜索引擎发挥的作用微乎其微。虽然手工编写信息的抽取规则准确率较高,但技术门槛低,而且由于信息源的多元性和改版的潜在风险,手工方法无法满足人们对信息获取的需求。在这样的背景下,可以发现DeepWeb信息自动提取技术的实现与研究是一个非常重要的问题。针对这一问题,本文在DeepWeb信息自动抽取技术方面,包括基于网页视觉信息、机器学习训练模型、DeepWeb数据区域定位、数据项的对齐等方面,进行了深入而系统的研究,同时开发了Web信息自动抽取系统。本文具体的研究工作和研究成果如下:(1)基于页面中的视觉信息,分割

6、网页得到视觉块树,然后在视觉块树上,整合数据区域判定所需的视觉属性,得到进行实验的训练集。(2)使用机器学习的有效工具进行训练,结合人工编写的规则进行去重去噪,准确地完成了DeepWeb数据区域的查找和定位。(3)提出了有效的对齐规则,大大提高了数据项的对齐准确率。(4)在以上研究内容的基础上,设计开发了DeepWeb信息自动抽取系统,系统实现功能包括:1)网页视觉块树的转换;2)数据区域的自动定位;3)数据项的完整抽取与对齐;4)生成Wrapper;5)实现了自动翻页功能实现表明,本文提出的技术方法可以在基本无人工干预下快速、自动地抽取

7、I万方数据列表页面的丰富数据。关键字:deepweb;信息抽取;视觉信息;机器学习II万方数据ApproachonVisonbasedDeepWebDataExtractionAbstractRecently,Networktechnologyhasbecomemoreandmorepopular.Withit’s development,thewebhasbecameahugeresourceswithmassivevaluabledata.Now manyapplications,suchasmarketintelligenceana

8、lysis,areinanurgentneedtomine thesedataforobtainingusefulinformation,andthenthegreatestdegreeofa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。