Web对象的信息抽取的关键技术研究

ID：38984354

大小：5.65 MB

页数：145页

时间：2019-06-23

资源描述：

《Web对象的信息抽取的关键技术研究》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、创新性声明秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其他教育机构的学位或证书而使用过的材料。与我一同工作过的同志对本研究所做的任何贡献已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：——日期关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位

2、期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后遵守此规定)本人签名：导师签名：日期摘要随着互联网的高速发展，Web已经成为世界上最大的信息来源。如何获取有用的Web信息则是大家面临的共同问题，Web信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上，对网页文本的特殊性考虑不足。另外，信

3、息抽取也很少涉及语义的理解。针对这些问题，本文以当前招聘网站上海量的招聘信息为试验数据，来进行定题Web信息挖掘和信息抽取的研究。本文围绕Web对象抽取中的关键技术展开研究。通过对Web页面特点的分析，实现Web页面的自动分割，从而获得主题文本。将主题信息抽象成Web对象，从而根据Web对象的特征来进行Web对象的命名实体以及实体关系的识别，并且通过实验说明改进的模型对于信息抽取有很好的效果，最后提出了系统的不足和未来的研究方向。具体的研究内容包括：首先，针对网页是二维的特点，根据网页的结构和文本内容特征，提出了基于网页的多重特征表示方法，

4、实现了对于网页语义层面的特征表示。为了体现网页各个区域差异，采用二维模型对其建模，将传统的HMM推广到伪二维隐马尔可夫模型，由此本文提出了基于伪二维隐马尔可夫模型的网页自动分割技术。其次，根据Web抽取信息的特点，引入Web对象的概念。将结构特点和文本特点这两种一维特征相结合，并且进一步将这种一维特征抽象为语义纹理的二维特征，从而实现了从对象本身进行抽取方法的改进，并为后文利用一维特征对Web对象实体的识别，以及二维特征对Web对象实体和属性关系的识别做准备。再次，针对Web对象的一维特征，从Web文本的结构特点和内容特点进行了分析，采用统

5、计模型和实体特征相结合的方法，提出了一种DSTCRFs模型，利用该模型不同的层次来进行Web对象的实体以及属性的识别，尤其是针对一些复杂的嵌套实体的识别，从而将职位名、机构名、地名、时间等命名实体的识别放在统一的框架下完成。最后，传统模型多利用Web文本的结构和内容特点进行实体的特征描述，并且需要依赖于VIPS树进行建模。本文在传统模型的基础上，将结构和内容特征抽象为语义纹理，用二维特征来进行对象实体及其属性的特征描述，提出一种针对Web对象的HT-CRFs信息抽取模型。该模型采用一种逆向过程，通过语义来发现结构，而不像传统方法是通过结构来

6、发现语义，解决模型对网页结构过度依赖的问题，使得模型对Web对象识别的准确性更高。关键词：文本挖掘信息抽取条件随机场模型Web对象AbstractWiththerapiddevelopmentofInteract，WebhasbecometheworldtSlargestsourceofinformation．Therefore,theconlmonproblemthateveryonefacedishowtoget也eWebinformation．TheWebInformationExtraction(WeblE)isputforward

7、forthisproblem．Nowadays，themajorityofinformationextractionmethodsaletodealwithplaintext,noconsideringtheWebpage．Onmeotherhand，informationExtractionrarelyinvolvedin恤understandingofsemantics．Fortheseproblems，weusealargeamountofthecurrentrecruitmentinformationasthetestdatafor

8、theresearchonWebinformationextractionandtextmining．。Thispaperfocusesonthestudyofthekeytec

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 145



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

Web对象的信息抽取的关键技术研究

Web对象的信息抽取的关键技术研究

相关文章

相关标签