语义相似度的计算方法研究论文

语义相似度的计算方法研究论文

ID:8481839

大小:227.00 KB

页数:9页

时间:2018-03-29

语义相似度的计算方法研究论文_第1页
语义相似度的计算方法研究论文_第2页
语义相似度的计算方法研究论文_第3页
语义相似度的计算方法研究论文_第4页
语义相似度的计算方法研究论文_第5页
资源描述:

《语义相似度的计算方法研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、语义相似度的计算方法研究信息与计算科学余牛指导教师:冉延平摘 要语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分.本文介绍了几种典型的语义相似度的计算方法,总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.关键词语义相似度;语义距离;知网;语料库TheReseachofComputingMethodsaboutSe

2、manticSimilarityYUNiu(DepartmentofMathematicsandStatistics,TianshuiNormalUniversity,)AbstractSemanticsimilarityisbroadlyusedinmanyapplicationssuchasinformationretrieval,informationextraction,textclassification,wordsensedisambiguation,example-basedmachinetranslationandsoon.Especiallywit

3、htherapiddevelopmentofInternettechnologyinrecentdecades,Calculationofsemanticsimilarityhasalwaysbeenanimportantpartofnaturallanguageprocessingandinformationretrievalresearch.Thispaperintroducesseveralmainmethodsofcalculatingsemanticsimilarity,thentwostrategiesofsemanticsimilaritymeasur

4、ementaresummarized,andwefocuseontheHownetbasedonthestuctureoftreeandusethemtocalculatethesemanticsimilarity,andfinallythetwostrategiesareeasilycompared.KeywordsSemanticsimilarity,Semanticdistance,Hownet,Corpus-249-1引言  语义相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性.自然语言的词语之间有着非常复杂的关系,在实际应用中,有时需要把这种复

5、杂的关系用一种简单的数量来度量,而语义相似度就是其中的一种.词语的语义相似度计算主要有两种方法:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文的信息(本文只介绍了主要的理论方法),运用统计的方法进行求解.对于前一类基于树状层次结构的计算语义相似度方法的研究已经比较成熟,国外的DekangLin,RudiL.Cilibrasi等都给出了自己的比较合理的语义相似度计算公式和方法;国内这方面起步较晚,但发展很快,董振东,刘群,李素建等在这方面的研究做了很多开创性的工作,李峰,杨哲,李熙,夏天等后来者做了很多补充性和改进性的工作

6、.针对以上研究现状,笔者对当前的语义相似度研究成果进行了简单的归纳和总结,然后对相关方法进行了简单比较,并提出了研究的应用方向,以供相关研究人员参考和应用.2语义相似度什么是语义相似度?语义相似度是一个主观性相当强的概念,没有明确的客观标准可以衡量.脱离具体的应用去谈论语义相似度,很难得到一个统一的定义.由于词语在语言结构中的一般性,我们着重研究词语的相似度,进而推广到句子,以致整个文本的相似度.DekangLin认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differentces),然后从信息论的角度给出了定义公式:(1)其中,分子表

7、示描述共性所需要的信息量;分母表示完整地描述所需要的信息量.刘群,李素建以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度.两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低.对于两个词语,如果我们记其相似度为,其词语距离为-257-,根据刘群,李素建的公式:(2)其中是一个可调节的参数.的含义是:当相似度为0.5时的词语距离值.笔者尝试从树论的角度给出一个定义,假设任意两个词语可以表示为一个树形结构中(如同义词词典Wordne

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。