基于ksvm的中文实体关系抽取研究

基于ksvm的中文实体关系抽取研究

ID:14794619

大小:3.23 MB

页数:65页

时间:2018-07-30

基于ksvm的中文实体关系抽取研究_第1页
基于ksvm的中文实体关系抽取研究_第2页
基于ksvm的中文实体关系抽取研究_第3页
基于ksvm的中文实体关系抽取研究_第4页
基于ksvm的中文实体关系抽取研究_第5页
资源描述:

《基于ksvm的中文实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分类号UDC密级学号1108120671硕士学位论文基于KSVM的中文实体关系抽取研究蒲淼学科门类:工学学科名称:计算机应用技术指导教师:姚全珠申请日期:2014年4月万方数据西安理工大学硕士学位论文22万方数据摘要论文题目:基于KSVM的中文实体关系抽取研究学科专业:计算机应用技术研究生:蒲淼签名:指导教师:姚全珠教授签名:摘要信息抽取的主要目的是将非结构化的文本转换为结构化的信息,这既可以满足人们从海量信息中得到有价值信息的需求,同时也是信息检索、自动问答系统等方面的基础技术。实体关系抽取是信息抽取的重要环节,目前已经成为

2、热门的研究课题且具有广阔的应用前景。在近年的研究中,人们把实体之间的关系抽取转化为分类问题,构造相关的关系实例,通过机器学习算法训练得到分类器,来判断候选关系属于哪一类预定义关系。在机器学习算法中,SVM(SupportVectorMachine)分类的精确度最高,KNN(K-NearestNeighbor)居于其次。由于SVM所采用的核函数可以将非线性的分类转换为线性的分类问题,而且具有隐含的高维分类特点,因此基于核函数的实体关系抽取方法成为目前应用最为广泛的方法。针对采用SVM进行分类以及核函数本身在中文实体关系抽取中的不

3、足,本文的主要工作以及创新点如下:1.在基于SVM的中文实体关系抽取方法中,错分的样本点大多数都分布在特征空间中最优分界面的附近,是因为采用SVM进行分类时只取一个代表点进行分类,本文针对这一问题提出了一种基于KSVM的中文实体关系抽取的方法。该方法结合SVM和KNN算法各自的优势,对于在分界面附近的样本点使用KNN进行分类,因为使用KNN进行分类时把每一个样本点都看做是代表点;对于离分界面较远的样本点使用SVM进行分类。最后在中文语料库上进行了实验,验证了该方法具有更好的分类效果。2.采用基于树核函数方法进行关系抽取时,关系

4、实例结构语法树所包含的信息越丰富且冗余信息越少,则其抽取效果越好。为此,本文参照Moschitti提出的三种树型拓展结构,提出了一种基于PartialTree核函数的中文实体关系抽取方法。该方法依然使用语法结构树为处理对象,借鉴序列挖掘算法,挖掘出包含更为详细信息的结构化子树,再使用本文设计的PartialTree核函数计算两个关系实例之间的相似度来进行分类。最后通过在中文语料上的实验证明了该方法的有效性。关键词:实体关系抽取;SVM;核函数;KNN;PartialTreeI万方数据IIAbstractTitle:RESEAR

5、CHONCHINESEENTITYRELATIONEXTRACTIONBASEDONKSVMMajor:ComputerApplicationTechnologyName:MiaoPUSignature:Supervisor:Prof.QuanzhuYAOSignature:AbstractThemainpurposeofInformationExtractionistotransformunstructuredtextforstructuredinformation,itnotonlycansatisfypeopletoge

6、tvaluableinformationfromhugeamountsofinformationdemand,isalsothebasisoftheInformationRetrievalandAutomaticResponseSystem.EntityRelationExtractionisanimportantlinksintheInformationExtraction,hasnowbecomeahotresearchtopicandhasbroadapplicationprospects.Inrecentstudy,p

7、eopleregardEntityRelationExtractionasaclassificationproblem,constructrelevantrelationshipinstance,andusemachinelearningalgorithmtotrainclassifierwhichcandeterminethecandidaterelationsbelongtowhichkindofpredefinedrelations.InMachinelearningalgorithm,theSVM(SupportVec

8、torMachine),hasthehighestclassificationaccuracy,KNN(K-NearestNeighbor)isthese.BecausetheSVMapplyrelatedkernelfunctionsthatcanconvertnonlin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。