汉语组块计算的若干研究

汉语组块计算的若干研究

ID:42037498

大小:432.56 KB

页数:62页

时间:2019-09-06

汉语组块计算的若干研究_第1页
汉语组块计算的若干研究_第2页
汉语组块计算的若干研究_第3页
汉语组块计算的若干研究_第4页
汉语组块计算的若干研究_第5页
资源描述:

《汉语组块计算的若干研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、汉语组块计算的若干研究李素建北京大学计算语言学研究所2003.3.111企业资料课题的提出、意义和现状本文主要工作总结提纲2企业资料课题的提出、意义和现状提出:认知理论、AI(Soar)内容:组块分析+组块相似度计算意义简化句子结构信息检索信息抽取文本聚类/分类机器翻译3企业资料语言学的研究内容词法分析:句法分析:一个语句的可能句法结构语义分析:将语句的意义形式化表达出来语用分析:上下文对语句理解的作用4企业资料中文处理生语料分词语法标注句法分析语用,语义分析5企业资料组块分析--浅层分析,部分分析不要求得到完整的句法树标示出基本的组块可以利用完全分析的各项技术6企业资料语言学中的研究方

2、法理性主义研究方法基于规则的方法经验主义研究方法基于统计和实例的方法,语言建模两种方式相结合7企业资料两种方法的比较8企业资料组块分析--规则方法FiniteStateCascade:有限状态叠9企业资料例句分析thewomaninthelabcoatthoughtyouaresleepingDNPDNNVtnsPronAuxVingL0T1L1T2L2NPPNPVPNPVPNPPPVPNPVPT3L3SS10企业资料组块分析--统计方法隐马尔科夫模型11企业资料组块分析--统计方法12企业资料组块分析--conll2000评测标准13企业资料组块分析--conll2000会议结果14企

3、业资料中文处理的组块分析研究baseNP的识别汉语短语边界的界定命名实体的识别15企业资料提纲课题的提出、现状和意义本文主要工作总结16企业资料本文主要工作组块组块分析技术组块相似度的计算最大熵模型有限自动机技术混合模型17企业资料组块定义组块:(汉语)符合一定句法功能的非递归短语。每个组块都有一个核心词,组块围绕核心词展开,以核心词作为组块的开始或结束。严格按照语法规则所有组块是平等的,非递归不重叠覆盖18企业资料(而/CC)(是/VC)(借鉴/VV)(发达/JJ国家/NN的/DEG)(经验/NN教训/NN)VCCNCDNCVCCNOC19企业资料组块标注集合NCVCCPCQCLCCO

4、NOCNC$VC$DVCDNCADJCADVCLST组块类型20企业资料组块库的获取树库到组块库的转化组块分析器加工手工校对21企业资料最大熵模型的组块分析技术最大熵模型的介绍相关的参数估计算法和特征选择算法基于该模型的组块分析22企业资料最大熵模型介绍训练样本集合{(x,y)}概率分布:p(y

5、x)?引入特征:fi∈{0,1}23企业资料特征限制条件下的模型分布满足了以下三个条件:24企业资料引入拉格朗日函数:25企业资料影响组块分析的语言特征词性特定词句法:组块标注韵律:词音节数26企业资料原子特征模板CurPOSTagPOSTag-1POSTag-2POSTag+1POSTag+2

6、PrevPOSNextPOSCurWordWord-1Word-2Word+1Word+2PrevWordNextWordChunkTag-1ChunkTag-2CurRhythmRhythm-1Rhythm+127企业资料特征实例CurPOSTag_NN,Word+1_的=DNCCurPOSTag_NT,POSTag-1_VC=NCCurPOSTag_P,POSTag+1_PN=PCChunkTag-1_NC,CurPOSTag_VV=VCCChunkTag-1_NC,CurPOSTag_NN=NCCurRhythm_2,CurPOSTag_NN,Rhythm-1_1=NCPrevWo

7、rd_被,CurPOSTag_VV=VCC28企业资料ME模型的特征选取粗选出现频数细选Kullback-Leibler(KL)距离手工加入29企业资料选用4个特征模板作自动特征选取实验:(1)CurPOSTag;(2)CurPOSTag,POSTag+1;(3)POSTag-1,CurPosTag;(4)POSTag-1,CurPOSTag,POSTag+130企业资料最大熵模型相关算法参数估计算法:G.I.S(Generalizediterativescaling)迭代时间O(NPA)N:训练集大小;P:预测数目;A:每个事件的平均特征数目特征的选择:FieldInductionAl

8、gorithm选择对模型具有最大增益值的特征(KL)31企业资料32企业资料训练文本语料格式(每一个词为一行)第1列表示:组块所在的文件号第2列表示:组块所在的语句号第3列表示:当前词在所在句中的号第4列表示:当前词的组块标注第5列表示:当前词的词性标注第6列表示:当前词的内容输入文件格式33企业资料输出文件格式测试语料文件格式 第1列表示:组块所在的文件号 第2列表示:组块所在的语句号 第3列表示:当前词在所在句中的号 第4列表示

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。