简谈基于自举的弱指导中文实体关系抽取研究

简谈基于自举的弱指导中文实体关系抽取研究

ID:22936875

大小:52.00 KB

页数:5页

时间:2018-11-02

简谈基于自举的弱指导中文实体关系抽取研究_第1页
简谈基于自举的弱指导中文实体关系抽取研究_第2页
简谈基于自举的弱指导中文实体关系抽取研究_第3页
简谈基于自举的弱指导中文实体关系抽取研究_第4页
简谈基于自举的弱指导中文实体关系抽取研究_第5页
资源描述:

《简谈基于自举的弱指导中文实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、简谈基于自举的弱指导中文实体关系抽取研究导读:基于自举的弱指导中文实体关系抽取研究是一篇关于关系和实例的优秀毕业论文,免费分享供广大学者参考,希望对学生们写作论文提供清晰写作思路。本文提出了一种基于自举学习的弱指导中文实体关系抽取方法.给定一个规模的标注数据集(初始种子集)和一个大规模的未标注数据集,利用从种子集中训练出来的分类器未标注数据集上产生靠的实例,再加入到标注数据集中,从而不断扩展标注数据集.ACERDC2005中文基准语料库上的弱指导关系抽取实验表明,该方法能提高抽取性能.李红苏州大学计算机科学与技术学院苏州托普信息职业技术学院钱龙华苏州大学计算机科学与技术学院一、引言信

2、息抽取(InformionExtraction,IE)的目的是从自由文本中找出用户感兴趣的事件、实体及其关系,将这些信息以结构化的形式存储数据库中.许多自然语言理解系统中,需要识别出文本中的实体(地名、人名和机构名),而且还要根据上下文来确定这些实体间的关系,即实体关系抽取,简称关系抽取.近十年来,研究人员提出了许多不的方法来实现实体间语义关系的抽取,有基于规则的方法和基于机器学习的方法.按照对语料库的不需求机器学习方法大致分成:指导性学习方法、弱指导学习方法和无指导学习方法三大类.其中,指导性学习方法性能最,不过性能极度依赖于手工标注的大规模语料库,移植性差.与此相反,无指导学习方

3、法不依赖手工标注的语料库,不过性能却差很多.为了人工干预和系统性能间取得一个较的平衡,越来越多的研究人员把目光转向了弱指导学习方法.弱指导学习(isupervisedlearning),是利用大量的未标记实例来辅助对少量有标记实例的学习方法.英文实体关系抽取方面,自举学习、协学习和基于图的标注传播算法等弱指导学习方法都取得了一定的效果.受自举学习英文实体关系抽取中的积极作用启发,本文提出了基于自举学习的弱指导中文实体关系抽取方法.其主要思想是利用一个规模较的标注数据集来产生一个分类器,该分类器再一个规模较大的未标注数据集中找出靠的实例,从而进一步扩展训练集,以期提高中文实体关系抽取的

4、性能.二、基于自举的弱指导学习方法1.自举学习算法本文提方法的主要特点体现自举学习过程中对关系种子扩展的方法上.只需要人工标注很少量的关系种子,通过自举学习,种子能不断得到扩展.图1为自举学习算法的基本流程.自举学习算法的步骤是,首先从语料库中选择具有代表性的一部分关系实例进行标注,这一部分数据集称为标注种子集L,其余大量的实例组成未标注数据集U,种子集最常用的选择方法是随机选择,以使种子集中的实例语料库中具有一定的代表性.然后把标注种子集作为训练语料库,训练一个指导性分类器(SVM分类器)得到一个分类模型.再用该分类模型对未标注数据集U进行预测,找出最靠的S个实例加入到标注数据集中

5、,继续该过程直到有的未标注数据均加入或终止条件满足.2.训练数据集合的扩展采用自举方法进行关系抽取,每次迭代时需要挑选出S个未标注实例添加到训练集中.由于分类器对未标注的实例进行预测时不能做到完全准确,特别是训练数据集规模较时,此必定会有少量标注错误的实例加入,从而能导致分类器的性能不断下降.为了克服这个问题,每次迭代时,我们从未标注实例中挑选出靠性最高的实例加入.实例的靠性用的熵值H来衡量,其计算公式下:其中n表示了实体关系类别的数量,而P1代表了当前实例被分到第i个类的概率.熵值H越,实例的信度也越大,即其被正确分类的能性也越大.每一次迭代过程后,计算出每一个未标注实例被分类后的

6、熵值H,我们从中选择S个熵值最的被标注实例加入到训练集合中,再进行下一轮的迭代.三、实验结果及分析本节首先说明本文实验使用的语料库及评测指标,然后再对实验结果进行分析和讨论.1.实验设置本文使用ACERDC2005中文标注语料库作为弱指导关系抽取的实验数据.ACERDC2005语料库共包含633篇文档,其中BNEba论文相关参考文献下载数量:1028写作解决问题:怎样写优秀毕业论文毕业论文开题报告:目录怎么写职称论文适用:职称论文写作属大学生专业类别:关系专业优秀毕业论文论文题目推荐度:经典标题顺序采样来的高,F加权平均值分别达到了524和57。9.这个结果表明基于自举的方法弱指导的

7、中文实体关系抽取中是行有效的.使用自举学习进行语义关系抽取时,初始训练集的选择中,应充分考虑数据的代表性和数据的均衡性.但初始数据的选择中,由于数据稀疏问题,对于数据较少类别的抽取性能还不够理想.关系专业硕士论文怎么写预览次数:2793评说人数:1028下一步的工作是探索更高效的初始训练集合选择策略,采用分层次策略等进一步提高弱指导中文实体关系抽取的实用性.(编辑:刘蹩丰)李红,苏州大学工程硕士,主要研究方向为信息抽取.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。