汉语句子的组块分析体系

汉语句子的组块分析体系

ID:37699886

大小:66.00 KB

页数:10页

时间:2019-05-29

汉语句子的组块分析体系_第1页
汉语句子的组块分析体系_第2页
汉语句子的组块分析体系_第3页
汉语句子的组块分析体系_第4页
汉语句子的组块分析体系_第5页
资源描述:

《汉语句子的组块分析体系》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、*汉语句子的组块分析体系周强孙茂松黄昌宁智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京100084摘要:本文介绍了一种介于线性词序列和完整句法树表示之间的浅层句法知识描述体系:组块分析体系,并详细讨论了其中两大部分:词界块和成分组的基本内容及其自动识别算法。在此基础上进行的一系列句法分析和知识获取实验证明了这种知识描述体系的实用性和有效性。关键词:词界块,成分组,部分分析,句法分析。1引言句法分析是自然语言处理研究中的重点和难点。针对完整的句法分析方法在分析大规模真实文本中遇到的困难,许多研究人员

2、开始尝试着把一个完整的句法分析问题分解为几个易于处理的子问题,以逐步降低完整句法分析的难度,提高分析效率。这其中一个很成功的例子是将词性标注(Part-Of-SpeechTagging)从句法分析中分离出来。通过利用局部语境信息进行基于规则或基于统计的词类排歧,目前的大部分词性标注工具对真实文本的标注正确率都达到了96%以上,为在此基础上进一步进行句法分析打下了很好的基础。依据同样的研究思路,StevenAbney提出了块分析(chunkparsing)的策略[Abn91],通过引进句法块(chunk)概念,他

3、将句法分析问题分为三个阶段:1)块识别:利用基于有限状态分析机制的块识别器(chunker)快速识别出句子中所有的块。2)块内结构分析:对每个块内部的成分赋予合适的句法结构。3)块间关系分析:利用块连接器(attacker)将各个不同的块组合成完整的句法结构树。这样,一方面由于对不同的子问题的准确功能定位,可以独立地选用不同的语言模型和搜索策略加以分析处理;另一方面,通过在块层次上进行自底向上的块间关系分析和自顶向下的块内结构分析,可以大大提高整体分析效率,达到降低句子分析难度的目的。块分析策略的精髓在于寻找到

4、合适的切入点,将完整的句法分析问题分解为句法拓朴结构分析和句法关系分析两个子问题。StevenAbney在研究英语分析过程中发现了这样一个现象:本来可以很自然地期望短语结构(phrasestructure)在音律结构(prosodicstructure)边界预测中发挥重要作用,但事实上,传统的短语结构描述与音律结构以及一些心理语言学家提出的语言应用结构(performancestructure)之间存在着许多不一致现象[Abn92]。为解决这个问题,他提出可以将标准的短语结构描述分解成两大部分:1)一组直接成分

5、块,即chunk,2)成分块之间的句法依存(dependance)关系,从而在直接成分块和音律结构的φ-短语之间建立了很好的一一对应关系[Abn95]。将这一思想不断发展和完善,逐渐形成了他独特的块分析体系。汉语的句法体系是在大量吸收和借鉴英语句法描述体系的有关内容和知识的基础上建立起来的。几十年来,尽管许多汉语语言学家进行了艰苦的努力,提出了一些有效的汉语句法分析方法,如:中心成分分析法、层次分析法等,但究竟其中哪种方法更适合于汉语还存在着许多争论。另外,对于汉语句法体系中的一些基本问题,如:汉语词类的确定,

6、句法描述体系的建立等,还有许多值得商榷之处。汉语句法研究的这种现状,给进行汉语信息处理*国家自然科学基金资助项目(编号:69705005),中国博士后科学基金资助项目。1研究的人员带来了许多不便。在这种条件下,进行与Abney的研究相类似的汉语浅层句法知识描述体系的探索,就显得很有现实意义了。本文针对汉语分析的特点,提出了一种汉语句子的组块分析体系。它通过引入词界块和成分组概念,将成分边界辨识问题从完整的句法分析任务中分离出来,形成具有不同层次的成分边界限制信息的组块描述体系。作为一种基本上独立于各种句法描述形

7、式的句子拓朴结构,在此基础上可以方便地采用不同的句法分析方法产生句子的不同分析结果,如:分析结构树、依存关系树等。在下面的几节中,第2节详细介绍了组块分析体系的基本内容,包括词界块定义和成分组描述,第3节介绍组块分析体系的一个重要应用:分层次地构建汉语树库,第4节介绍了组块分析体系的其他重要应用,最后的第5节是结束语。2组块分析体系针对汉语句子的句法分布特点,我们提出了这样的组块分析体系。它在经过正确切词和词性标注处理的输入句子中,分析产生以下两部分信息:1)词界块:通过为句子中的每个词赋予合适的成分边界信息,

8、形成一个连续的词界块序列。2)成分组:通过识别和标注句子中一些特殊的成分组合区域,形成一组分立的成分组描述。在下面的几节中,我们将对有关的内容进行详细的说明。2.1词界块定义自然语言的句子是由词组成的。词在组句过程中体现出一定的层次性。而句法分析的主要任务就是要寻找适当的方法把这些层次关系很好地描述出来。例如:对于(1)中给出的汉语句子:我的弟弟给了他一本书。(1)利用语言分析中常用的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。