VoIP语音处理与识别

百科

来自VoIP 语音处理与致思识别》是2010年5月国防工业出版社出版的图书,作者是屈丹。

  • 书名 VoIP 语音处理与识别
  • 作者 屈丹
  • ISBN 9787118066685
  • 页数 513
  • 定价 48.00元

内容简介

  本书从VoIP 通信过程出发,以传统来自语音识别技术为基础,沿着PSTN 网信号处理和I草零角经酒P 包信号处理两个主线进行研究,以语音识别的前端处理、特征提取、模型建立、后端处理结切井美云手业夫先尔除过程进行组织。 针对VoI360百科P 语音识别系统实用化的问题,给出了一些改善语音识别系统性能的关键技术,力求使得VoIP 语音识别能走出实验歌额些场队室,向实用发展。全书共14 章,分为:绪论、VoIP 语音编码标准、语音信号和话带数据检测、VoIP 信道检测、语音信号的特征提取、编解码失配补偿、通话模式分析、VoIP 协议分析及数据

图书目录

  第1 章 绪论 1

  1.1 VoIP 的基本概念和系统组成 1

  1.1.1 VoIP 基本概念 1

  1.1.2 VoIP 基本原理 3

  1.1.3 VoIP 系统基本组成 5

  1.1.4 VoIP 主要特点 7

  1.1.5 VoIP 的关键技术 8

  1.2 语音识别的基本原理与研究内容 10

  1.2.1 语音识别基本原理 11

  1.2.2 传统语音识别 14

  1.2.3 VoIP 语音识别 20

  1.3 传统语音识别的发展历程 23

  1.4 VoIP 语音识别的发展历程 33

  参考文献 36

  第2 章 VoIP 语音编码标准 43

  2.1 G.711 语音编码 43

  2.1.1 G.711 语音提苦铁即屋际题修编码原理 43

  2.1.2 A 律压缩 44

  2.1.3 μ 律压缩 48

  2.2 G.729 语音编码 51

  2.2.1 G.729 编码原理 51

  2.2.2 编码器脸注时水司实现技术 53

  2.2.3 解码器功能说明 73

  2.做大依3 G.723.1 语音编码 80

  2.3.1 编码器原理 81

  2.3.2 编码器实现技术 81

  2.3.3 解码器原理 95

  2.3.4 解码器实现技术 河备曾配冷速阶食灯95

  参考文献 99

  第3 章 语音和话带数据检测 100

  3.1 话带数据简介 100

  3.1.1 传真 100

  3.1.2 调制解调器数据 101

  3.1.3 单音信号和双音多频信号(DTMF) 103

  3.2 语音和话带数据波形的特点 104

  3.2.1 语音波形的特点 104

  3.2.2 话带数据信号波形的特点 105

  3.3 语音和话带数据识别的特征分析 107

  3.3.1 能量相关参数 107

  3.3.2 过零率相关参数 109

  3.3.3 归一化自相关函数 111

  3.3.4 基音周期 111

  3.3.5 谱特征 112

  3.4 语音和话带数日抓生没太八界晚据分离方法 112

  3.5 语音与话带数据检测技术应用 115

  参考文献 117

  附录 118

  第4 章 VoIP 信道检测 121

  4.1 声道参数 121

  4.2 语音信号统计参数 12组周示块注该错的走的3

  4.2.1 偏更气操火模等队王度与峰度 123

  4.2.2 LP机周环就兰渐资坐用C 峰度及偏度 124

  4.2.3 LPCC 峰度及偏度 125

  4.3 静态信噪比 127

  4.4 非自然周期性参数 130

  4.4.1 非自然嘟嘟声 130

  4.4.2 机器性参数 131

  4.4.3 帧重复性 133

  4.5 哑声参数与中断参数 133

  4.5.1 照青久山讨跳钟房段动哑声参数 133

  4.5.2 中断参数 134

  4.6 基于支持矢量机的VoIP 信道检测方法 135

  4.6.1 算法流程 135

  4.6.2 支持矢量机 135

  4.6.3 算法的具体实现 137

  参考文献 137

  第5 章 语音述培硫略信号的特征提取 138

  5.1 基音周期 138

动困茶  5.1.1 基音检测的难点及方法分类 139

  5.1.2 自相关法及其改进 139

  5.1.3 并行处理法 142

  5.1.4 倒谱法 144

  5.1.5 简化逆滤波法 145

  5.2 线性预历调象跑养著互简解察测参数 145

  5.2.1 线性预测信号模型 146

  5.2.2 线性预测误差滤连鸡波 147

  5.2.3 语音信号的线性预测分析 151

  5.2.4 线性预测分析的解法 152

  5.2.5 斜格法(Lattice Method)及其改进 153

  钱件四巴践5.3 线谱对(LSP)参数 160

  5.3.1 线谱对分析原理 160

  5.3.2 线谱对分析的求解 162

  5.4 倒谱系数及差分参数 163

  5.4.1 LPCC 参数 163

  5.4.2 MFCC 参数 164

  5.4.3 ASCC 参数 166

  5.4.4 差分参数 167

  5.5 感觉加权的线性预测(PLP)特征 168

  5.5.1 PLP 参数 168

  5.5.2 RASTA-PLP 参数 169

  5.6 高阶信号谱类特征 170

  5.6.1 WV 谱的定义及其主要性质 170

  5.6.2 WV 谱计算式的一些变形 171

  参考文献 173

  第6 章 编解码失配补偿 175

  6.1 编解码失配影响 175

  6.1.1 VoIP 系统语音传输 176

  6.1.2 编解码失配对说话人辨认系统的影响 176

  6.1.3 编解码失配对说话人确认系统的影响 177

  6.1.4 特征参数的编码失真 179

  6.2 常用编解码失配补偿方法 180

  6.2.1 失配补偿的基本思想 181

  6.2.2 经验补偿技术 181

  6.2.3 盲补偿 182

  6.2.4 基于特征及模型的补偿 184

  6.3 基于编码失真的加权GMM 模型算法 188

  6.3.1 加权GMM 模型 189

  6.3.2 权重矩阵C 的确定 191

  6.3.3 实验及分析 191

  6.4 编码自动匹配方法 192

  6.4.1 编码自动匹配方法的基本思想 192

  6.4.2 语音编码检测器 193

  6.4.3 实验及分析 193

  6.5 统计匹配特征变换失配补偿算法 195

  6.5.1 统计匹配的基本思想 195

  6.5.2 线性特征变换式 195

  6.5.3 非线性特征变换式 196

  6.5.4 M-step 迭代根的求解 199

  6.5.5 基于统计匹配的编解码失配补偿实验 201

  6.6 分数归一化补偿算法 204

  6.6.1 分数归一化算法的基本思想 204

  6.6.2 实验及分析 206

  参考文献 207

  第7 章 通话模式分析 210

  7.1 通话模式分析的基本概念与研究内容 210

  7.1.1 通话模式分析的定义 211

  7.1.2 通话模式分析的关键技术 211

  7.1.3 通话模式分析的研究内容 212

  7.2 通话模式分析的基本方法 215

  7.2.1 基于KL2 距离的音频分割算法 215

  7.2.2 基于隐马尔可夫模型的音频分割算法 216

  7.2.3 基于贝叶斯信息准则的音频分割算法 217

  7.2.4 基于熵变化趋势检测的音频分割算法 219

  7.2.5 基于可信度变化趋势检测的音频分割算法 221

  7.3 多人的说话人识别方法 225

  7.3.1 多人说话人识别的基本思想 225

  7.3.2 说话人分段 226

  7.3.3 说话人聚类 227

  7.3.4 彩铃的检测与分割算法 227

  7.4 电信网特有噪声检测算法 230

  参考文献 232

  第8 章 VoIP 协议分析及数据获取 234

  8.1 VoIP 协议简介 234

  8.2 SIP 协议通信流程及识别 235

  8.2.1 SIP 协议的功能 235

  8.2.2 SIP 协议的通信方式 236

  8.2.3 基于SIP 协议的VoIP 信息识别 237

  8.3 H.323 协议通信流程与识别 240

  8.3.1 H.323 通信流程 240

  8.3.2 H.323 协议的动态特征 244

  8.3.3 H.323 的识别方法 248

  参考文献 251

  第9 章 丢包处理 252

  9.1 网络丢包模型 252

  9.2 网络丢包对说话人识别的影响 254

  9.2.1 合成语音说话人识别实验 254

  9.2.2 解码参数说话人识别实验 255

  9.2.3 压缩码流说话人识别实验 256

  9.3 网络丢包处理技术 258

  9.3.1 丢包恢复技术 258

  9.3.2 丢包隐藏技术 261

  9.4 语音识别系统中的丢包补偿方法 265

  9.4.1 丢包检测 265

  9.4.2 丢包补偿 266

  9.4.3 有效性分析 268

  9.4.4 丢包补偿实验结果 268

  参考文献 270

  第10 章 码流特征提取 273

  10.1 码流语音识别的原理 273

  10.2 G.729 码流特征提取 274

  10.2.1 编码原理 274

  10.2.2 基于解码参数的G.729 码流特征提取 275

  10.2.3 基于帧结构映射的G.729 码流特征提取 279

  10.3 G.723.1 码流特征提取 280

  10.3.1 编码原理 280

  10.3.2 基于解码参数的G.723.1 码流特征提取 281

  10.3.3 基于帧结构映射的G.723.1 码流特征提取 282

  10.4 GSM 码流特征提取 283

  10.4.1 编码原理 283

  10.4.2 基于解码参数的GSM 码流特征提取 284

  10.4.3 基于帧结构映射的GSM 码流特征提取 286

  10.5 码流特征提取实验 287

  10.5.1 解码参数实验 287

  10.5.2 基于帧结构映射参数实验 288

  参考文献 289

  第11 章 特征选择与特征变换 291

  11.1 特征选择的基本概念 291

  11.1.1 特征矢量和特征空间 292

  11.1.2 特征的形成 292

  11.1.3 特征的特点 292

  11.1.4 特征的选择及作用 293

  11.2 类的可分性判据 294

  11.2.1 基于距离的可分性判据 294

  11.2.2 基于概率密度函数的可分性判据 297

  11.3 特征选择的方法 299

  11.3.1 最优搜索算法 300

  11.3.2 次优搜索算法 301

  11.3.3 遗传算法 303

  11.4 线性判别分析---LDA 306

  11.4.1 线性判别分析的概念 307

  11.4.2 广义线性判别函数 308

  11.4.3 Fisher 线性判别 310

  11.4.4 多类问题 314

  11.5 主分量分析---PCA 315

  11.5.1 基于K - L 变换的主分量分析 316

  11.5.2 随机矢量的K - L 展开 316

  11.5.3 基于K - L 变换的降维 318

  11.6 独立分量分析 319

  11.6.1 线性独立分量分析 319

  11.6.2 线性独立分量分析算法 324

  11.6.3 独立分量分析的预处理 329

  11.6.4 非线性独立分量分析 330

  11.7 特征变换举例 334

  11.7.1 特征变换方法 334

  11.7.2 特征变换实验 336

  参考文献 337

  第12 章 语音识别的模型 339

  12.1 动态时间规整 339

  12.1.1 动态时间规整的定义 339

  12.1.2 动态规划技术(DP) 340

  12.1.3 DTW 算法的改进 342

  12.2 隐马尔可夫模型 344

  12.2.1 隐马尔可夫模型的定义 344

  12.2.2 HMM 中的3 个基本问题及其解决方案 346

  12.2.3 隐马尔可夫模型的类型 352

  12.2.4 HMM 算法实现的问题 352

  12.3 分类模型---SVM 362

  12.3.1 学习问题 362

  12.3.2 学习过程一致性的条件 363

  12.3.3 学习过程收敛速度的界 365

  12.3.4 结构风险最小归纳原理 367

  12.3.5 支持矢量机 370

  12.4 人工神经网络 377

  12.4.1 神经元的基本模型 377

  12.4.2 前向网络 379

  12.4.3 反馈网络 382

  12.5 高斯混合模型(GMM) 387

  12.5.1 高斯混合模型的定义 388

  12.5.2 参数调整算法---EM 算法 388

  12.6 动态贝叶斯网络 390

  12.6.1 贝叶斯网络 391

  12.6.2 动态贝叶斯网络 393

  12.6.3 动态贝叶斯网络在语音识别中的应用 395

  12.6.4 基于DBN 的语音识别软件GMTK 398

  参考文献 400

  第13 章 稳健性识别技术 402

  13.1 稳健性识别技术概述 402

  13.2 语音增强 405

  13.2.1 多带谱减法

  (Multi-Band Spectral Subtraction,MBSS) 406

  13.2.2 短时谱估计(Short Time Spectral Estimator) 407

  13.2.3 瞬时维纳滤波

  (Instantaneous Wiener Filtering,IWF) 407

  13.2.4 子空间法(Subspace) 408

  13.3 信道补偿 410

  13.3.1 多重风格训练 411

  13.3.2 HMM 分解 411

  13.3.3 并行模型组合PMC

  (Parallel Model Combination) 413

  13.3.4 矢量泰勒级数(Vector Taylor Series,VTS)方法 417

  13.3.5 雅可比自适应(Jacobian Adaptation) 420

  13.3.6 其他补偿方法 421

  13.4 说话人自适应技术 421

  13.4.1 最大似然度线性回归算法 423

  13.4.2 最大后验概率算法 431

  13.4.3 说话人聚类 435

  13.5 说话人归一化技术 442

  13.5.1 说话人归一化技术原理 442

  13.5.2 频率折叠因子的选取 444

  13.5.3 折叠方法的选取 447

  参考文献 452

  第14 章 语音识别应用 458

  14.1 说话人识别 458

  14.1.1 说话人识别的基本原理 458

  14.1.2 特征参数的统计评价 460

  14.1.3 判决规则与性能评价标准 461

  14.1.4 说话人识别系统举例 464

  14.2 语言辨识 465

  14.2.1 语言辨识的基本原理 465

  14.2.2 语言辨识的主要方法 466

  14.2.3 语言辨识系统举例 471

  14.3 关键词识别 473

  14.3.1 关键词识别的基本原理 473

  14.3.2 关键词识别及其与连续语音识别的关系 475

  14.3.3 关键词识别的基本问题 475

  14.3.4 关键词识别系统的主要技术难点 477

  14.3.5 关键词识别系统举例 478

  14.4 连续语音识别 479

  14.4.1 连续语音识别的基本原理 479

  14.4.2 连续语音识别中的搜索策略 481

  14.4.3 连续语音识别系统举例 484

  14.5 情感识别 485

  14.5.1 情感识别的基本原理 485

  14.5.2 情感分类 486

  14.5.3 情感语音数据采集 487

  14.5.4 情感特征分析 488

  14.5.5 情感识别方法 489

  参考文献 490"

标签:
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com