欢迎来到天天文库
浏览记录
ID:14794619
大小:3.23 MB
页数:65页
时间:2018-07-30
《基于ksvm的中文实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、分类号UDC密级学号1108120671硕士学位论文基于KSVM的中文实体关系抽取研究蒲淼学科门类:工学学科名称:计算机应用技术指导教师:姚全珠申请日期:2014年4月万方数据西安理工大学硕士学位论文22万方数据摘要论文题目:基于KSVM的中文实体关系抽取研究学科专业:计算机应用技术研究生:蒲淼签名:指导教师:姚全珠教授签名:摘要信息抽取的主要目的是将非结构化的文本转换为结构化的信息,这既可以满足人们从海量信息中得到有价值信息的需求,同时也是信息检索、自动问答系统等方面的基础技术。实体关系抽取是信息抽取的重要环节,目前已经成为
2、热门的研究课题且具有广阔的应用前景。在近年的研究中,人们把实体之间的关系抽取转化为分类问题,构造相关的关系实例,通过机器学习算法训练得到分类器,来判断候选关系属于哪一类预定义关系。在机器学习算法中,SVM(SupportVectorMachine)分类的精确度最高,KNN(K-NearestNeighbor)居于其次。由于SVM所采用的核函数可以将非线性的分类转换为线性的分类问题,而且具有隐含的高维分类特点,因此基于核函数的实体关系抽取方法成为目前应用最为广泛的方法。针对采用SVM进行分类以及核函数本身在中文实体关系抽取中的不
3、足,本文的主要工作以及创新点如下:1.在基于SVM的中文实体关系抽取方法中,错分的样本点大多数都分布在特征空间中最优分界面的附近,是因为采用SVM进行分类时只取一个代表点进行分类,本文针对这一问题提出了一种基于KSVM的中文实体关系抽取的方法。该方法结合SVM和KNN算法各自的优势,对于在分界面附近的样本点使用KNN进行分类,因为使用KNN进行分类时把每一个样本点都看做是代表点;对于离分界面较远的样本点使用SVM进行分类。最后在中文语料库上进行了实验,验证了该方法具有更好的分类效果。2.采用基于树核函数方法进行关系抽取时,关系
4、实例结构语法树所包含的信息越丰富且冗余信息越少,则其抽取效果越好。为此,本文参照Moschitti提出的三种树型拓展结构,提出了一种基于PartialTree核函数的中文实体关系抽取方法。该方法依然使用语法结构树为处理对象,借鉴序列挖掘算法,挖掘出包含更为详细信息的结构化子树,再使用本文设计的PartialTree核函数计算两个关系实例之间的相似度来进行分类。最后通过在中文语料上的实验证明了该方法的有效性。关键词:实体关系抽取;SVM;核函数;KNN;PartialTreeI万方数据IIAbstractTitle:RESEAR
5、CHONCHINESEENTITYRELATIONEXTRACTIONBASEDONKSVMMajor:ComputerApplicationTechnologyName:MiaoPUSignature:Supervisor:Prof.QuanzhuYAOSignature:AbstractThemainpurposeofInformationExtractionistotransformunstructuredtextforstructuredinformation,itnotonlycansatisfypeopletoge
6、tvaluableinformationfromhugeamountsofinformationdemand,isalsothebasisoftheInformationRetrievalandAutomaticResponseSystem.EntityRelationExtractionisanimportantlinksintheInformationExtraction,hasnowbecomeahotresearchtopicandhasbroadapplicationprospects.Inrecentstudy,p
7、eopleregardEntityRelationExtractionasaclassificationproblem,constructrelevantrelationshipinstance,andusemachinelearningalgorithmtotrainclassifierwhichcandeterminethecandidaterelationsbelongtowhichkindofpredefinedrelations.InMachinelearningalgorithm,theSVM(SupportVec
8、torMachine),hasthehighestclassificationaccuracy,KNN(K-NearestNeighbor)isthese.BecausetheSVMapplyrelatedkernelfunctionsthatcanconvertnonlin
此文档下载收益归作者所有