以事件为特征的文本聚类方法

以事件为特征的文本聚类方法

ID:5339565

大小:240.17 KB

页数:3页

时间:2017-12-08

以事件为特征的文本聚类方法_第1页
以事件为特征的文本聚类方法_第2页
以事件为特征的文本聚类方法_第3页
资源描述:

《以事件为特征的文本聚类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第27卷第8期计算机应用与软件Vo1.27No.82010年8月ComputerApplicationsandSoftwareAug.2010以事件为特征的文本聚类方法王崇国(新疆大学信息科学与工程学院新疆乌鲁木齐830046)摘要文本聚类是聚类的一个重要的研究分支,是聚类方法在自然语言处理领域的具体应用。研究表明事件在大量的文本中是客观存在的,诸多文本是由事件组成的,事件是文本表示的最小语义单位。探讨了以事件为特征的文本聚类方法,首先给出了基于事件的文本概念格表示模型,在此模型的基础上,给出了文本相似度的计算方法。最后,使用K—means聚类算法对所提方法进行了实验验证。关键词文本聚类事件文

2、本相似度概念格AMETHoDOFTEXTCLUSTERINGCHARACTERISEDBYEVENTWangChongguo(SchoolofInformationScienceandEngineering,XinjiangUriversity,Ururaqi830046,Xiang,China)AbstractTextclustering,oneoftheimportantresearchbranchesinclustering,istheapplicationofclusteringalgorithminnaturallanguageprocessing.Someresearchresul

3、tshaveshownthattheeventsaretheobjectiveexistenceinmanytexts.Thetextsarecomposedofevents,andtheeventisthebasicsemanticunitsfortext’Srepresentation.Inthepaperwediscussthetextclusteringmethodcharacterisedbyevents.First—lytheevent—basedtextconceptlatticerepresentationmodelisgiven,andthenthetextsimilarit

4、ycomputingmethodbasedonthismodelispres—ented.Finally,themethodproposedisvalidatedbyanexperimentwithK—meansclusteringalgorithm.KeywordsTextclusteringEventsTextsimilarityConceptlattice内容抽取ACE(AutomaticContentExtraction)评测会议也将事件0引言抽取作为其主要任务。在以事件为语义单位来理解文本之后,文本特征提取是指随着网络的大规模普及和企业信息化程度的提高,各种资事件及其要素。文本的事件

5、特征可以采用概念格的结构化表示源呈爆炸式增长。在CNNIC2007年1月最新公布的中国互联模型,利用概念间的语义相似度来计算文本相似度。网络发展状况统计报告中显示,70.2%的网络信息均以文本形式表现。对于这种无结构或半结构的数据,如何从中获取特定1事件及其要素内容的信息和知识成为摆在人们面前的一道难题。近年来,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的在不同的应用领域,对事件有不同的定义。WordNet中给高潮。出了很宽泛的事件的定义:在特定地点和事件发生的某件事。作为一种无监督的机器学习方法,聚类技术可以将大量文一些语言学家给出了事件及其语义结构的定义,常包括目的、时本信息组

6、成少数有意义的簇,并提供导航或浏览机制。文本聚间和外在条件。在信息检索和信息提取领域,事件被认为是细类是一种无指导的文本分类,它将一个文本集分成若干称为簇化了的用于检索的主题l4』。在自动文摘领域,文献[5]采用调的子集,每个簇中的文本之间具有较大的相似性,而簇之间的文查问卷的方式,给出了事件的三元组定义(n,t,n,),n和n分本具有较小的相似性。文本聚类在大规模文本集的组织与浏别为与事件项t这一动词/动名词前后相邻的命名实体,这些命览、文本集层次归类的自动生成等方面都具有重要的应用价值。名实体包括人名、机构名、地点和时间共四类。文献[6]提出了文本聚类的步骤是:(1)提取文本的特征;(2)

7、用这些特征合理事件多元组的表示形式,事件多元组由一个事件项和多个事件地表示文本;(3)按照某种算法计算特征之间的相似度。论元构成,事件项为事件中的动词,限定它为语句中的谓语动大量的文本,比如小说、史传、回忆录、民间故事、叙事诗、人词。尽管不同领域对事件的定义不尽相同,但是都离不开行为物传记、新闻报道等,都包含各类事件,可以认为事件是文本的(一般都由动词或动名词来描述)、参与事件的对象、时间、地点基

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。