基于机器学习方法的汉语名词隐喻识别.pdf

基于机器学习方法的汉语名词隐喻识别.pdf

ID:54018194

大小:226.48 KB

页数:8页

时间:2020-04-28

基于机器学习方法的汉语名词隐喻识别.pdf_第1页
基于机器学习方法的汉语名词隐喻识别.pdf_第2页
基于机器学习方法的汉语名词隐喻识别.pdf_第3页
基于机器学习方法的汉语名词隐喻识别.pdf_第4页
基于机器学习方法的汉语名词隐喻识别.pdf_第5页
资源描述:

《基于机器学习方法的汉语名词隐喻识别.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、王治敏等:基于机器学习方法的汉语名词隐喻识别基于机器学习方法的汉语名词隐喻识别!王治敏!王厚峰!俞士汶"!(北京语言大学汉语学院北京l00083)(!北京大学计算语言学研究所北京l00083)摘要把机器学习方法引入汉语隐喻识别的研究。隐喻识别过程被描述成隐喻义与字面义的分类问题,通过最大熵和朴素贝叶斯两种方法的隐喻建模,在综合上下文词语、词性等多项特征的基础上,最后初步确定了最大熵识别的理想窗口,进而又引入左右位置特征来提高实验效果。在两种模型的比较实验中,最大熵模型在隐喻识别方面有明显的优势。关键词隐喻识别,优选语义,最大熵,朴素贝叶斯,

2、特征选取才认识的抽象的、不太容易理解的概念范畴。认知0引言语言学则认为隐喻是概念系统中领域交叉映射的手隐喻(metaphor)一般是指不带比喻词的比喻,相段,因此分别称“本体”、“喻体”为“目标域(targetdo-当于语言学中的“暗喻”。隐喻把某事物比拟成与它main)”和“源域(Sourcedomain)”。这里我们也沿用有相似关系的另一事物。例如:了“源域”和“目标域”的说法。本文的名词性隐喻就“我不是你的终点站。”“扬起希望的风帆,驶向是指由名词充当源域和目标域的隐喻表达。胜利的彼岸。”隐喻大量存在于我们的日常生活中。汉语中有多少词

3、语可以形成这样的隐喻表达?隐喻不仅仅是语言的修辞手段,而且是人的一种思他们在真实文本中的分布如何?这有待于我们来进维方式。像上面列举的这样的隐喻对人来说很好理一步研究,而这些数据对隐喻的自动识别有很好的解,但是让计算机去正确地识别却是个难题。如果利用价值。目前,《现代汉语词典》(简称《现汉》)只隐喻的识别和理解不能很好解决,隐喻将成为自然有少部分词语标注了隐喻义项,而大部分词语的隐语言处理技术发展的瓶颈。喻用法词典并没有收录,据统计第二版《现汉》共收隐喻作为自然语言处理的棘手问题之一,近几词条56l47条,其中有2488条词语含有比喻义或比

4、[3]年来开始受到学者们的关注。在认识歧义是自然语喻例句,占全部词语的4.43%。这就是说计算机言处理的难题的同时,也应认识到隐喻是自然语言理解隐喻的知识只有4.43%能从词典中获得,这样[l]理解中必须攻克的难关。探索隐喻的内在规律,无形中就增加了识别隐喻的难度。研究隐喻的自动识别,将是对计算机理解修辞性语长期以来,隐喻一直被认为是语用学、修辞学的言的一个全新尝试。本文从计算机处理的角度,在范畴。隐喻计算模型国内研究不多,不过最近两年大规模语料考察的基础上,结合当前成熟的机器学有一些讨论。例如:利用语义资源所做的隐喻映射[4][5-9]习

5、技术,探索了汉语名词隐喻的理解和识别,取得了研究,隐喻逻辑推理方面的探索等等。总体上阶段性成果。讲,汉语的隐喻计算研究还处于起步阶段。国外在这方面已经先走了一步,国外学者在提l研究基础出隐喻功能解释理论的同时,在隐喻计算模型方面一个完整的隐喻往往由“本体”和“喻体”构也进行了一些尝试,提出了一些形式化手段。主要[2]成。“喻体”通常是我们熟知的比较具体直观、容模型有识别隐喻、转喻、字面义,反常表达的隐喻理[l0-ll]易理解的一些概念范畴,而“本体”通常是我们后来解模型Met5系统;识别和解释常规隐喻的MI-#863计划(200lAAll4

6、2l0,2002AAll70l0)、973计划(2004CB3l8l02)和国家自然科学基金(60473l38)资助项目。!女,l972年生,博士,讲师;研究方向:计算语言学,对外汉语教学。"通讯作者,E-maiI:wangzm@pku.edu.cn,yuSw@pku.edu.cn(收稿日期:2006-03-09)—575—高技术通讯2007年6月第17卷第6期[12,13]DAS系统;隐喻结构映射引擎(structure-mapping语言环境高度相关,随机变量m表示当前词的取[14,15]engine,SME)系统;隐喻分析模型系统AC

7、ME;值,m有两种取值:m=metaphor表示隐喻表达;m=以及Veaie的Sapper模型。上述模型基本上以规则no-metaphor表示字面表达。c是指词语的上下文环推导为主。它们的缺点是大多数都是基于手工编制境,如果将c中有助于确定某个对象类的相关特征的知识库和规则的优选样例。针对这一欠缺,专家提取出来,并估计各个特征的权值,就可以综合利用又提出了一种利用大规模语料动态发现概念建立隐这些权值来推断m的取值,最大熵模型的目标就是喻映射的模型———CorMet系统,这是一个完全以统给定上下文c,计算出m的条件概率,即对p(mIc)计为手

8、段,基于大规模语料库提取的隐喻分析模型。进行评估,期望能够选取符合c条件下的m的概率CorMet系统虽然能自动获取谓词的优先选择,但是分布,在最大熵模型下,条件概率可以用公式他的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。