语音数据与语音合成

语音数据与语音合成

ID:1510553

大小:5.86 MB

页数:44页

时间:2017-11-12

语音数据与语音合成_第1页
语音数据与语音合成_第2页
语音数据与语音合成_第3页
语音数据与语音合成_第4页
语音数据与语音合成_第5页
资源描述:

《语音数据与语音合成》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、语音音库与合成江源2009-6-11语音合成技术什么叫语音合成TextToSpeech过程,简称TTS作用:将文本状态的文字信息转化为可听的声音信息———“电脑会说话”键盘光电扫描手写识别网络/数据库文本语言处理韵律处理语音合成结果输出词典/规则语音库发声机理语音产生的生理过程总纲1.数字语音信号2.语音合成技术3.数据制作与合成4.合成效果测听数字语音信号什么是数字语音信号语音:说话,声波传递的语言语音信号:记录下来的声波振动模拟语音信号:(磁带,唱片)数字语音信号:模拟信号数字化(wavmp3CD)----计算机应用的需要如何数字化取样:采样率(时间尺子,8K,16K

2、,44K,每秒样点数量)量化:量化精度(幅度尺子,16bit,-32767~32768范围)数字语音信号取样和量化数字语音信号波形不能说明内容数字语音信号频域介绍一段任意波形可以由一系列正弦波形组合而成离散傅里叶变换数学表示:最高值,采样率的一半(16Kwav;maxfreq=8KHz)人可听辨的频率范围:(20Hz~20kHz)电话语音信道的频率范围(60Hz~3400Hz)数字语音信号语谱图数字语音信号清音和浊音浊音:声带的快速振动,声带能够将稳定气流转换成振动振动频率称为基频,准周期性清音:紊乱气流,肺部气流通过声道中的狭窄处产生爆破音:突然爆破数字语音信号声学特征

3、如此杂乱多变的信号,如何描述,如何恢复?语音信号产生的数字模型(源-滤波器模型)数字语音信号声学特征基频:发浊音时声带振动引起的周期变化,我们听感音调高低主要由基频决定,中文声调还用于区分语义谱参数:描述声道和口唇辐射共振峰,LPC,倒谱参数总纲1.数字语音信号2.语音合成技术3.数据标注与合成4.合成效果测听语音合成技术主流技术路线基于统计规则的大语料库拼接语音合成系统基于HMM的参数语音合成系统基于HMM的语料库拼接语音合成系统两条道路:要么是波形切分再拼合起来,要么是声学参数转化出来语音合成技术基于统计规则的大语料库拼接语音合成系统传统大语料库合成,InterPho

4、nic5.0之前单元挑选波形拼接超大规模音库制作语料设计,音库录制,精细切分,韵律标注规则统计,针对不同发音人的细致调整优点:音质最佳,正常句子的自然度也很好缺点:非常依赖音库的规模大小和制作质量,存在一定稳定性问题,不能应用在小型设备中样例:输入文本拼音信息和韵律结构信息每个单元将取多个候选s1s2s3s4目标代价挑选候选单元词典等文本分析知识大规模语音库再考虑连接代价决定最后选定单元s1s2s3s4s5s6输出语音语音合成技术InterPhonic系统处理流程语音合成技术基于HMM的参数语音合成系统首先进行语音特征参数的提取以音素为单位(中文为声韵母),使用HMM(H

5、iddenMarkovModel)对自然语流的频谱特征参数进行建模采用基于决策树的聚类方法对上下文相关模型进行聚类,以提高模型的鲁棒性,得到预测参数最后生成参数输入合成器,得到合成语音优点:所需音库规模小,标注精度要求相对降低,自然度高,系统小,灵活度高,ViviVoice,AiSound缺点:音质相对较差,带有合成器风格样例:语音合成技术参数语音合成系统框架语音合成技术HMM参数建模用声学参数针对音素建模为什么要建模?描述的音素特征变化隐马尔科夫模型(HiddenMarkovModel--HMM)语音合成技术决策树模型聚类有了模型怎么使用?来一句话怎么预知用哪个模型?基

6、于上下文的信息的决策树聚类语音合成技术基于HMM的语料库拼接语音合成系统利用HMM目标模型和连接模型来指导单元挑选结合参数训练模型的数学统计模型优势和波形拼接的高音质,相对以前的大语料库技术在自然度上有较大提升自主原发,意义重大优点:拥有明确目标和度量准则,音质好,自然度高,系统搭建自动化程度高,InterPhonic5.5以上版本缺点:仍然需要很大规模的语料库,计算量较大样例:语音合成技术基于HMM的单元挑选系统结构图总纲1.数字语音信号2.语音合成技术3.数据制作与合成4.合成效果测听数据制作与合成数据与合成的关系音库数据是合成系统的基石,离开了音库谈合成就是“无源之

7、水无本之木”一份音库的制作质量,直接决定了该发音人合成系统的能达到什么效果数据制作与合成数据制作过程音库设计音库录制音素切分韵律标注音素检错基频修正索引制作数据制作与合成音库设计与合成一个设计良好的音库要有较好的音素,韵律覆盖率广泛的语料来源,保证超大规模库的稳定某方向定制语料,提升某特应用场合的效果,对语料库拼接技术很重要“还烦请大家收集更多更好的语料文本”数据制作与合成音库录制与合成录音控制很重要录音室环境,隔除噪音话筒的摆放,能量幅度范围如何保持发音人的发音状态轻松心态,自然流程,不要带情绪,除非这是情感库适度原则,不要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。