语种识别

语种识别

ID:244662

大小:49.37 KB

页数:18页

时间:2017-07-13

语种识别_第1页
语种识别_第2页
语种识别_第3页
语种识别_第4页
语种识别_第5页
资源描述:

《语种识别》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、概述语音的自动语言辨识技术(LanguageIDentification,LID)就是计算机能够识别出语音段所属的语言的过程.它是从语音信号中自动提取信息的几个过程之一.语言辨识技术可以处理不同的数据(例如:文本,语音),但是这里只讨论语音数据处理.语言辨识在信息检索和军事领域都有很重要的应用,包括自动转换服务/多语言信息补偿等.在信息服务方面,很多信息查询系统可提供多语言服务,但一开始系统必须以多种语言提示用户选择语言,语言辨识系统确定用户的语言种类后,提供相应语种的服务.这类典型服务的例子包括旅游信息,应急服务,以及购物和银行,股票交易.例如AT&T向处理911紧急呼救

2、的社会机构和警察局推出语言热线服务[1].自动语言辨识技术还能够用于多语言机器翻译系统的前端处理,以及直接将一种语言转换成另一种语言的通信系统.此外军事上还可以用来对说话人身份和国籍进行监听或判别.随着信息时代的到来以及因特网的发展,语言辨识越来越显示出其应用价值,国际上也一直进行着卓有成效的研究和开发.16.1.1语言辨识的原理自动语言辨识是属于人工智能领域中的一项技术,语言辨识实际上属于模式识别,它同其他模式识别一样,主要包括三个方面:特征提取,模型建立和判决规则.自动语种识别通常由训练和识别两个阶段构成:训练阶段和识别阶段(如图16.1.1所示).在训练阶段,不同语言

3、的语音数据进入系统,转换成特征向量序列,根据某种训练算法,每种语言产生一个或多个参考模型并存储起来.识别阶段,从待识别的语音段中提取相同的特征向量,根据每种语言对应的模型,模型比较模块将测试语句和参考模型进行比较并且给出相似性得分.判决模块根据该相似性得分给出识别判决结果,即为识别出的语言.图16.1.1语种识别(LID)的两个阶段语言辨识可分为闭集辨识和开集辨识.所谓闭集辨认是指待辨认语言的说话人已注册,系统辨认该已注册说话人的语言种类.所谓开集辨认是指待辨认语言的说话人不一定属于已注册的语言的说话人集合.理想的语言辨识系统应该力求做到几个无关:与内容无关,与上下文无关,

4、与形式无关,与语言无关,与说话人无关,与风格无关,与语音信号质量无关等.16.1.2语言辨识技术研究发展的历史自动语言辨识的研究可以追溯到20世纪70年代,与语音识别的其它方向相比较,自动1语言辨识进展较为缓慢,1993年之前的20多年里用英语发表的文献中,在只能找到14篇有关自动语言辨识的研究.这些研究的语音数据的种类覆盖了从文本的标音法和实验室语音到电话和无线电广播语音的范围.语言的种类从3种发展到20种.语言辨识的方法使用过每种语言的"参考语音",基于音段和音节的马尔可夫模型,基音轮廓,共振峰矢量,声学特征,方言性的音素和韵律特征,及其原始的语音声波特征.使用过的分类

5、方法包括HMM,专家系统,聚类算法,二次分类,以及人工神经网络.俄勒冈科学技术研究院的多语种电话语音数据库(简称OGI-TS)是为进行自动语言辨识研究专门设计的[2].目前它是由11种语言的发音流畅的,固定词汇的语音数据所组成.这些语言是英语(English)波斯语,(Farsi)法语,(French)德语,(German)北印度语,(Hindi),日语(Japanese),朝鲜语(Korean),汉语(Chinese),西班牙语(Spanish),泰米尔语(Tamil)和越南语(Vietnamese).这些发音由每种语言的90个持母语的人在实际电话线路上产生.发音的时长从

6、1秒到50秒长短不等,平均13.4秒.OGI-TS的出现重新激发了人们对自动语言辨识研究的兴趣.1993年美国国家标准技术研究所(NIST)将OGI-TS设计为自动语言辨识评估的标准,自动语言辨识技术的研究和应用在学术界和企业界开始受到关注,一些重要的有关语音的国际学术会议上相关的学术论文数量迅速增加,并且这些会议上还设立了交流语言辨识研究的分会场.同时,在开发相关技术产品方面开展了一些国际研究项目,国际标准化组织也就该技术研究开展了评估工作.进入90年代中期,麻省理工的Lincoln实验室,美国电话电报公司(AT&T),俄勒冈科学技术研究院,美国国际电话电信公司(ITT)

7、美国Rensselaer理工研究所,,Locakheed-Sanders工程公司等八个开展语言辨识研究的基地也相继发布了他们的研究成果.16.2语言辨识所需要的有用信息人和机器可以利用很多信息来区分不同语言.可以参考语言学知识[3]来深入探讨某种特定语言如何区分于另一种语言,也可以参考Muthusamy等人[4]的研究结果,他们研究探讨了人的语言辨识能力.语言辨识系统需要把句子作为一个整体来考察,以便决定一种语言区别于其它语言的唯一的"声学签名".从语音信号中破译出这种声学签名需要很多信息,这里将其分为两类信息:低

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。