汤志远《语音识别基本法 Kaldi实践与探索》- 买旧书上有路

目录 1 语音是什么 2 1.1 大音希声 2 1.2 产生语音 4 1.3 看见语音 5 1.4 小结 8 2 语音识别方法 9 2.1 总体思路 10 2.2 声学模型GMM-HMM 12 2.2.1 HMM 12 2.2.2 GMM 14 2.2.3 训练 15 2.3 声学模型DNN-HMM 16 2.4 语言模型 18 2.4.1 N-Gram 18 2.4.2 RNN语言模型 18 2.5 解码器 20 2.6 端到端结构 22 2.6.1 CTC 23 2.6.2 RNN-T 26 2.6.3 Attention 27 2.6.4 Self-Attention 29 2.6.5 CTC Attension 31 2.7 开源工具和硬件平台 32 2.7.1 深度学习平台 32 2.7.2 语音识别工具 33 2.7.3 硬件加速 34 2.8 小结 36 3 完整的语音识别实验 37 3.1 语音识别实验的步骤 38 3.2 语音识别实验的运行 46 3.3 其他语音任务案例 47 3.4 小结 47 4 前端处理 48 4.1 数据准备 48 4.2 声学特征提取 52 4.2.1 预加重(Pre-Emphasis) 54 4.2.2 加窗(Windowing) 54 4.2.3 离散傅里叶变换(DFT) 55 4.2.4 FBank特征 56 4.2.5 MFCC特征 57 4.3 小结 58 5 训练与解码 59 5.1 GMM-HMM基本流程 60 5.1.1 训练 60 5.1.2 解码 61 5.1.3 强制对齐 62 5.2 DNN-HMM基本流程 63 5.3 DNN配置详解 64 5.3.1 component和component-node 65 5.3.2 属性与描述符 66 5.3.3 不同组件的使用方法 66 5.3.4 LSTM配置范例 76 5.4 小结 81 6 说话人自适应 84 6.1 什么是说话人自适应 84 6.2 特征域自适应与声道长度规整 85 6.3 声学模型自适应:HMM-GMM系统 87 6.3.1 基于MAP的自适应方法 88 6.3.2 基于MLLR的自适应方法 91 6.4 声学模型自适应:DNN系统 93 6.4.1 模型参数自适应学习 93 6.4.2 基于说话人向量的条件学习 94 6.5 领域自适应 95 6.6 小结 95 7 噪声对抗与环境鲁棒性 97 7.1 环境鲁棒性简介 97 7.2 前端信号处理方法 98 7.2.1 语音增强方法 99 7.2.2 特征域补偿方法 103 7.2.3 基于DNN的特征映射 106 7.3 后端模型增强方法 108 7.3.1 简单模型增强方法 108 7.3.2 模型自适应方法 109 7.3.3 多场景学习和数据增强方法 109 7.4 小结 110 8 小语种语音识别 111 8.1 小语种语音识别面临的主要困难 112 8.2 基于音素共享的小语种语音识别 113 8.3 基于参数共享的小语种语音识别方法 118 8.4 其他小语种语音识别方法 121 8.4.1 Grapheme 建模 121 8.4.2 网络结构与训练方法 121 8.4.3 数据增强 122 8.5 小语种语音识别实践 122 8.5.1 音频数据采集 122 8.5.2 文本数据采集 122 8.5.3 文本正规化 123 8.5.4 发音词典设计 123 8.6 小结 123 9 关键词识别与嵌入式应用 125 9.1 基本概念 125 9.2 评价指标 126 9.3 实现方法 129 9.3.1 总体框架 129 9.3.2 基于LVCSR的KWS系统 130 9.3.3 基于示例的KWS 132 9.3.4 端到端KWS 133 9.3.5 滑动窗口 133 9.4 嵌入式应用 134 9.4.1 模型压缩 134 9.4.2 迁移学习 136 9.4.3 网络结构搜索与设计 137 9.5 小结 137 10 说话人识别 140 10.1 什么是说话人识别 140 10.1.1 基本概念 140 10.1.2 技术难点 143 10.1.3 发展历史 143 10.2 基于知识驱动的特征设计 144 10.3 基��线性高斯的统计模型 147 10.3.1 高斯混合模型-通用背景模型 147 10.3.2 因子分析 150 10.4 基于数据驱动的特征学习 154 10.4.1 模型结构 156 10.4.2 训练策略 157 10.4.3 多任务学习 157 10.5 基于端到端的识别模型 158 10.6 小结 160 11 语种识别 161 11.1 什么是语种识别 161 11.2 语言的区分性特征 163 11.3 统计模型方法 165 11.3.1 基于声学特征的识别方法 165 11.3.2 基于发音单元的语种识别方法 167 11.4 深度学习方法 170 11.4.1 基于DNN的统计模型方法 170 11.4.2 基于DNN的端到端建模 172 11.4.3 基于DNN的语言嵌入 176 11.5 Kaldi中的语种识别 178 11.6 小结 180 12 语音情绪识别 182 12.1 什么是语音情绪识别 182 12.2 语音情绪模型 185 12.2.1 离散情绪模型 186 12.2.2 连续情绪模型 186 12.3 语音情绪特征提取 187 12.3.1 语音情绪识别中的典型特征 187 12.3.2 局部特征与全局特征 190 12.4 语音情绪建模 192 12.4.1 离散情绪模型 192 12.4.2 连续情绪模型 195 12.5 深度学习方法 196 12.5.1 基础DNN方法 196 12.5.2 特征学习 198 12.5.3 迁移学习 200 12.5.4 多任务学习 200 12.6 小结 201 13 语音合成 203 13.1 激励-响应模型 204 13.2 参数合成 207 13.3 拼接合成 208 13.4 统计模型合成 210 13.5 神经模型合成 212 13.6 基于注意力机制的合成系统 214 13.7 小结 216 参考文献 217 索引 243

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

语音识别基本法 Kaldi实践与探索

猜你也喜欢

新书比价

图书详情

内容提要

目录

与描述相符

消费者保障

新手上路

付款方式

个人账户