自然语言概率语法模型(n-gram)的研究-毕业论文

自然语言概率语法模型(n-gram)的研究-毕业论文

ID:9068350

大小:215.81 KB

页数:10页

时间:2018-04-16

自然语言概率语法模型(n-gram)的研究-毕业论文_第1页
自然语言概率语法模型(n-gram)的研究-毕业论文_第2页
自然语言概率语法模型(n-gram)的研究-毕业论文_第3页
自然语言概率语法模型(n-gram)的研究-毕业论文_第4页
自然语言概率语法模型(n-gram)的研究-毕业论文_第5页
资源描述:

《自然语言概率语法模型(n-gram)的研究-毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、新疆师范大学数理信息学院2008届信息与计算科学专业毕业论文自然语言概率语法模型(N-gram)的研究新疆师范大学数理信息学院数学系信息与计算科学03-6班2008年5月12日自然语言概率语法模型(N-gram)的研究(1)新疆师范大学数理信息学院2008届信息与计算科学专业毕业论文亚克甫.斯依提新疆师范大学数理信息学院数学系信息与计算科学03-6班摘要:本文主要介绍了基于语料库的自然语言处理技术,即语料库语言模型中常用的统计语言模型N-gram的研究,及其在语料库自然语言处理中的应用。对语料库的概率

2、统计及在这过程中出现的一些问题的解决方法进行了比较系统的讨论,使读者对N-gram模型及其应用得到初步的理解。关键词:马尔可夫模型;N-gram模型;复杂度(困惑度);平滑算法;后继统计训练算法。自然语言概率语法模型(N-gram)的研究1、引言自然语言处理是一项十分龙大而繁复的工程,它是自然科学和社会科学交叉的(2)新疆师范大学数理信息学院2008届信息与计算科学专业毕业论文学科。自然语言处理的目的是实现计算机对语言信息的自动分析和理解。它的研究具有很强的生命力,是当代科学新的生长点,这不仅对信息科

3、学,而且对人知语言学,心理学,以及对国民经济和社会的发展都会起到推动作用。近几年来,全球范围内的自然语言处理学界兴起了对大规模语料库的研究兴趣。这主要是因为计算机产业和信息处理的迅速发展,计算机的存储能力和运算速度大大提高,使得在计算机中存储大量的文本和文本方便快速地扫描,检索成为可能;因特网上的电子文本数量与日俱增,可以比较容易地获得大量语料。另外语音识别领域在20世界70年代开始逐渐采用概率模型替代原来的基于规则的识别手段,概率模型的参数是通过大量语声语料经行统计顺练得来的。概率模型的识别效果大大

4、优于使用规则的方法,这给自然语言处理领域对文本语料的研究提供了有益的借鉴。2、N-gram及其在语料库处理方面的应用2.1基于语料库的语言模型语料库的语言模型可分为两种类型,即其于知识的语言模(规则模型)和统计语言模型,基于知识的语言模型是利用形式语法理论,文法规则和句法树经行研究的。自然语言句法,语义分析的最基础的理论是Chomsky的形式语法理论。由于知识的语言模型进展缓慢,因此由于大规模真实语料库的统计语言模型自20世纪80年代以来逐渐成为自然语言研究的热点。统计语言模型是用概率统计的方法揭示语

5、言单位内在的统计规律。假设一个句子可以表示为一个序列www.......w语言模型就是要求句子w的概率p(w):12nnp(w)=p(wi/w1w2....wi1)这个概率的计算量太大,解决问题的方i1法是将所有历史w1w2.......wi1按照某个规则映射到等价类w(w1w2.......wi1)等价类的数目远远小于不同历史的数目f(www)/f(www)nNnN1nnNnN1n1p(w/w(ww....w)i12i1当两个历史的最近的N-1个词(或)字相同时

6、,映射两个历史到同一个等价类,在此情况下的模型称之为N-gram模型。2.2马尔可夫模型自然语言可以假设成是一个马尔可夫信源产生,该信源的符号集就是语言的最小单位词,信源不断的发出符号,这些符号串形成句子,文本或者语料库。假设由词串ww1w2.......wn构成的句子它的概率可由条件概率得到P(w)=p(w1w2....wn)=p(wn/w1w2....wn1).p(w1w2....wn1)=p(wn/w1w2....wn1).p(wn1/w1w2....wn2).(3)新疆师范大学数理

7、信息学院2008届信息与计算科学专业毕业论文p(w1w2....wn2)=p(wn/w1w2....wn1).p(wn1/w1w2....wn2).……….p(w2/w1).p(w1)p(w).p(w/w)......p(w/ww....w)(1)121nnNnN1n1这里p(wn/wnNwnN1....wn1)称为n元文法式(1)在于计算公式p(wn/wnNwnN1....wn1)的值,精确的p(wn/wnNwnN1....wn1)是不可知的,只能采用估计值

8、,用频率逼近,即:p(wn/wnNwnN1....wn1)f(wnNwnN1....wn)/f(wnNwnN1....wn1)(2)其中,f(wnNwnN1....wn)和f(wnNwnN1....wn1)是词串wnNwnN1....wn和wnNwnN1....wn1在训练语言模型时出现在训练语料库中的次数,假定大数定理成立,只要训练语料库的容量足够大,频率便趋近概率。2.3N-gram模型该模型基本这

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。