基于本体的金融年报语义网自动构建方法

基于本体的金融年报语义网自动构建方法

ID:77657726

大小:77.34 MB

页数:88页

时间:2022-01-26

基于本体的金融年报语义网自动构建方法_第1页
基于本体的金融年报语义网自动构建方法_第2页
基于本体的金融年报语义网自动构建方法_第3页
基于本体的金融年报语义网自动构建方法_第4页
基于本体的金融年报语义网自动构建方法_第5页
基于本体的金融年报语义网自动构建方法_第6页
基于本体的金融年报语义网自动构建方法_第7页
基于本体的金融年报语义网自动构建方法_第8页
基于本体的金融年报语义网自动构建方法_第9页
基于本体的金融年报语义网自动构建方法_第10页
资源描述:

《基于本体的金融年报语义网自动构建方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国优秀硕士学位论文全文数据库2011年第S1期信息科技辑ChineseMaster'sThesesFull-textDatabase2011,No.S1InformationScienceandTechnologyI138-1820-1基于本体的金融年报语义网自动构建方法赖中华学位授予单位:哈尔滨工业大学;学科专业:计算机科学与技术摘要持续走热的通用搜索引擎带来了海量信息检索的极大便利,但对于具体某个领域而言,检索能力尚不足以令人满意。于是,各个领域的垂直搜索犹如百花齐放。具体到金融领域,投资用户经常需要阅读繁杂

2、的年报数据,而通用搜索引擎对此能帮上的忙极为有限。于是,基于金融年报本体库的金融年报语义网信息检索系统应运而生,该系统能给予投资用户精确的查询结果,并能进行自动推理,向用户推送可能需要的信息。而大规模金融年报语义网的自动构建问题是该系统的最大瓶颈所在。本文的主要研究目的就是将本体与信息抽取技术相结合,实现金融年报语义网的自动构建。主要的研究内容如下:(1)对年报文本,通过最小标注块的切分、精确匹配及模糊匹配,并基于金融年报本体库进行语义的自动标注。(2)对年报非标记表格进行表格结构识别,主要包括子表格切分、列分割和

3、列跨度识别、行分段、展开方式识别和表格标题定位这五个方面。后三个方面都使用了金融年报本体库的信息。(3)对经过结构识别的非标记表格进行规整化,得到具有清晰行列信息的标准表格,之后再基于本体进行表格的语义自动标注。(4)研究用于金融年报语义网自动构建系统的准确度评测方法,并评测了本体库对系统的影响程度。在表格结构识别阶段,子表格切分、列分割和行分段都有很高的准确度。列跨度识别过于依赖文本排布,展开方式过于依赖本体,因此它们的准确度稍差些,还需要进一步改进。由于本体库的完善与否、表格结构识别各阶段的准确度以及模糊匹配算

4、法的选择都会影响整个系统的性能,因此目前该系统的准确度为63.1%,还具有一定的改进空间。本文的研究方法还可适当地用于其他领域的语义自动标注,因为本体库的切换,可以让其快速切换到其它领域,这也在一定程度上展示了系统的良好扩展性。此外,本文的算法研究也可为其他半结构化文档的结构化及非标记表格的信息抽取带来一定的参考价值。关键词:语义网;;金融年报;;语义自动标注;;信息抽取中图分类号:TP391.1AbstractThepopularityofgeneralsearchenginesbringsthegreatcon

5、venienceforinformationretrieval.Butforspecificdomains,therequirementsforpreciseinformationretrievearestillnotsatisfied.Forthepurposeofprecisesearch,moreandmoreverticalsearchengineshavebeendevelopedinrecentyears.Inthefinancialdomain,investorsusuallyneedtofindsp

6、ecificinformationamongmiscellaneousfinancialdataintheannualreportsandthegeneralsearchenginesarehelplessforthisneeds.Tosatisfythiskindofneeds,theontology-basedinformationretrievalsystemforsemanticweboffinancialannualreportcomesforth.Thistypeofsearchenginereturn

7、sprecisesearchresultsandbringstheuserspreciseinformationthroughautomaticinference.Butbeforetheyaresuccessfullyappliedinrealsituation,thebottleneckofautomaticconstructingsemanticwebsmustbeaddressedforontology-basedsearchengines,whichisalsotheobjectiveofthisthes

8、is.导师:陈清财;导师单位:哈尔滨工业大学中国优秀硕士学位论文全文数据库2011年第S1期信息科技辑I138-1820-2Thisthesisaimstocombinetheontologyandthetechnologyofinformationextractiontoimplementtheaotomaticconstructionofsemantic

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。