基于xml的汉语语料标注问题研究

基于xml的汉语语料标注问题研究

ID:33494675

大小:2.11 MB

页数:71页

时间:2019-02-26

基于xml的汉语语料标注问题研究_第1页
基于xml的汉语语料标注问题研究_第2页
基于xml的汉语语料标注问题研究_第3页
基于xml的汉语语料标注问题研究_第4页
基于xml的汉语语料标注问题研究_第5页
资源描述:

《基于xml的汉语语料标注问题研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、上海交通大学硕士学位论文基于XML的汉语语料标注问题研究姓名:何杭军申请学位级别:硕士专业:计算机软件与理论指导教师:陆汝占20020201摘要语料库语言学是当代计算学语言学中经验主义方法论取得显著成效从而在计算语言学领域占有一定的优势地位的新学科方向。语料库不仅是自然语言处理领域的基础性资源,并且由此产生很多不同于理性主义方法的理论和方法。因此语料库建设和研究就成为计算语言学的奠基工作。实践证明一个好的语料库应该具有可重用性和可扩展性,而语料标注的标准化对于语料库建设具有十分重要的意义。语料标注跨越语言学和计算机科学,需

2、要对标注的内容(即标注哪些信息)、目的(即为什么要标注)、手段(即怎样实现标注)等问题进行逐一的回答,而语料标注的标准化也需要在这些问题上有一个明确的答案之后才得以进行。但是目前中文语料标注的工作主要集中在标注内容的研究上,更多地从语言学的角度研究汉语词性标注和切分的问题,对于语料标注的手段问题特别是编码格式的问题很少涉及,这样也就达不到语料的标准化。XML作为网络间数据交换的标准语言在许多垂直行业特别是电子商务中得到了广泛运用,同时目前在语料标注领域也出现了将XML作为标注的标记语言的趋势。本文对汉语语料标注的问题进行了

3、研究,主要包括:l,比较了国内外语料标注的理论研究和工程项目,指出了国内语料标注研究的两大不足,即对语料标注的编码格式的关注程度不够;对于标注更多集中在切分标注层次上,而没有一个分层体系下的标注研究2,提出语料标注应该着眼于语料的相互交换,而不是语料的本地处理3,基于上述的认识明确提出了标注语义和标注表示的区分,该划分具有十分重要的意义,该划分廓清了语料标注领域中的认识误区,将语料标注问题的研究分成两个相对独立的部分,从而可以相对独立地发展关于标注语义和标注表示地研究。并将标注表示的问题归结为一系列对标注表示的要求,这些要

4、求需要有一个分层次的语料标注模型。4,目前国内还没有出现关于语料标注抽象数据模型研究的资料,本文则给出了一个基于集合论和图论的形式化描述分层语料标注模型(MCAMMultilevelCorpusAnnotationModel),并且在定义该模型的同时将该抽象模型和具体的语料标注过程进行了对应,分析了分层标注模型的优点,并且给出了MCAM模型的XML表示,从而说明了该抽象模型现实的可行性。5,最后则根据工作的实际,给出了一个MCAM模型下切分标注的XML规范表示,并编写了程序实现语料的内部格式到XML格式之间转化的程序6,本

5、文的研究还包括对《语法信息词典》的XML改造。在分析了语法信息词典在形式上的诸多不足之后,给出了一个XML的规范,并根据该规范将词典的部分转换成了XML格式,转换的过程没有出现信息的丢失。关键字:语料库,标注,XML,分级标注模型Abs仃actCorpusLinguistic,asuccessfulempiricalmethodology,nowisaprevailednewtrendinComputationalLinguisticfield.CorpusisfundamentalresourceforNaturalLa

6、nguageProcessing.SosometheoryandmethodindifferentwithrationalmethodologyisrequiredthatmeanstheconstructionandresearchoncorpusissueisthebasicofComputationalLinguistic.Itisevidentthatreusabilityandextensibilityareessentialqualityforgoodcorpus,whilestandardizationofc

7、orpusannotationisthekeyelementofreusabilityandextensibility.Corpusannotationspanslinguisticfieldandcomputerfield,concerningaboutthecontentofannotation(i.e.whatinformationshouldbeprovidedbytheannotation),theintentionofannotation(i.e.whatisthereasonofannotation),the

8、methodofannotation(i.e.howtorepresenttheannotationresult)andetc.Thestandardizationofcorpusannotationmeansstandardizationofthethreefactorsabove.Atpresent

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。