web信息抽取框架技术研究

web信息抽取框架技术研究

ID:35105107

大小:7.52 MB

页数:66页

时间:2019-03-18

web信息抽取框架技术研究_第1页
web信息抽取框架技术研究_第2页
web信息抽取框架技术研究_第3页
web信息抽取框架技术研究_第4页
web信息抽取框架技术研究_第5页
资源描述:

《web信息抽取框架技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、多馨密级:公巧■‘/*.心UDC;004.6-午.巧号1:314化''心、1社'Iif;,I;;i,叩^胃!時陶I'?^TM/in‘i紙東菊大堂暫硕±学位论文Web信息抽取框架技术研究研究生姓名:滕晓程导师姓名:崇志宏副教巧申请学位类别工学硕±学位授子,单位东南大学一级学科名称计算机科学与技术论文答辩U期6年63201月日二级学科名称日期2016年月日学仿巧予答辩否贵会主席周巧宇评阅人张柏礼2016年6月3I1表兩:k嗦硕±学位论

2、文Web信息抽取框架技术硏究专业名称:计算机科学与技术研究生姓名:滕晓程导师姓名:崇志宏副教授ResearchonWebInformationExtractionFrameworkAThesisSubmited化SoutheastUniversityFortheAcademicDereeofMasterofEnineeringggBYTENG-XiaochengSuervisedbpyAssociatePro把ssorCHONG-honZhigDepartment

3、ofComputerScience&EngineeringSouthe犯tUniversityMa2016y东南大学学位论文独创性黄明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研巧成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人己经发表或撰写过。与我的研究成果I也不包含为获得东南大学或巧它教育机构的学位或证书而使用过的材料一同工作的同志对本硏究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研巧生签名:旅化4^日期:如广东南大学学位论文使用授权声明东南大学

4、、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印。件和电子文档,可W采用影印本人电子文档的内容和纸质、缩印或其他复制手段保存论文一,可W公布(包括论文的内容相致。除在保密期内的保密论文外,允许论文被查阅和借阅(W电子信息形式刊登)论文的全部内容或中、英文揃要等部分内容。论文的公布包括W电子信息形式刊登)授权东南大学研究生院办理。,又研巧生签名师签名日期:占摘要从非结构化和半结构化的互联网信息中抽取结构化信息的技术广泛应用于商业数据挖掘、社交一系列环节:设定信息抽取范围网络分析和垂直捜索引拳等领域。信息结构化包括

5、、网页爬取、网一,进步可W分力应用依赖的和应用独立的环页预处理、构建抽取规则和信息存储、定义抽取内容一节般框架,基本思想是设定信息抽取的范围和内容是框架中应用依赖的。本文提出信息结构化的一套描述方法配置应用依赖的操作,,通过将应用独立的环环节,而其他环节具有应用独立性设计节向开发人员屏蔽:,提高框架的通用性和应用开发效率?具体贡献如下一1设计并实现了个通用的Web信息抽取框架。从信息结构化流程中抽象出该框架,框架提()一一工程原则对框架进行总体设计的Wb,将信息供了个统e信息抽取模型;基于抽象和信息隐蔽的结构化过程抽象为应用依赖的信息

6、范围和内容描述与应用独立的其他环节,让开发人员配置应用依的通用性和应用开发效率。赖的操作而屏蔽应用独立的环节,提高框架一2提出并实现了种基于知识图谱的词类生成算法,并使。本文引入词类的概念分析网页主题()-,用文档词类向量对网页分类,而手工构建词类比较困难。本文基于知识图谱自动构建有效的词类降低了词类构建的难度。一(3提出并实现了种基于DOM节点分类的信息抽取方法。采用监皆学习的方法构建信息的抽),,提出了DOM节取规则,将信息抽取问题看作分类问题W信息所在的DOM节点为粒度进行分类点的样式特征。、内容特征和上下文特征(4)在文

7、献[46]的数据集上进行了网页分类实验,与基准方法进行对比,实验结果衷明本文中提出的方法在分类效果上优于基准方案。在从Amazon等网站抽取的图书信息页面数据集上进行了,实验结果表明,其中对图书的标题本文提出的信息抽取信息抽取实验、作者和价格信息进行抽取。方法能够取得较好的效果.并且具有较好的扩展性关巧词i信息结构化;Web信息抽取框架:分类;知识图谱;抽取规则:IAbstractTofanned-hetechnoloobtiistructurinformationfromsemistructuredandunstruc

8、tureddatao

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。