语音编码器

王朝百科·作者佚名 2012-03-18

语音编码器的主要功能就是把用户语音的PCM（脉冲编码调制）样值编码成少量的比特（帧）。这种方法使得语音在连路产生误码、网络抖动和突发传输时具有健壮性（Robustness）。在接收端，语音帧先被误码为PCM语音样值，然后再转换成语音波形。

分类语音编码器分为三种类形：（a）波形编器；（b）声码器；（c）混合编码器。

波形编码器会尽可能构出包括背景噪单在内的模拟波形。由于波形编码器作用于所有输入信号，因此会产生高质量的样值。然而，波形编码器工作在高比特率。例如：ITU-G.711规范（PCM）用的比特率为64Kbps。声码器（vocoder）不会再生原始波形。这组编码器会提取一组参数，这组参数被送到接收端，用来导出语音产生模形。线性预测编码（LPC）用来获取一时变数字滤波器的参数。这个滤波器用来模拟说话人的声道输出[WEST96]。在电话系统中使用声码器，语音质量不够好。在VOIP中常用的语音编码器是混合编码器，它融入了波形编码器和声器的长处，它的另一特点是它工作在非常低的比特率（4-6Kbps）。混合编码器采用合成分析（AbS）。

为了说明问题，考虑人的声道产生的一个语音模式：当人说话产生语音信号时就会发出浊音（如音素pa、da等）和清音（如音素sh、th）。激励信号就是由输入的语音信号导出的，其方法是使合成语音与输入语音的差别非常小。LPC的用法、激励的产生以及对合成分析（AbS）系统的误差检查均如图4-1所示。长话质量编码器在比特率高于8Kbps时容易实现，如图4-2所示。长话质量的语音平均意见得分（MOS）必须在分或许分以上。传统的PCN语音在比特率小于32 Kbps，语音质量会严重恶化，在这里就不讨论PCN了。混合编码和声码器在比特率相当低的MOS上的得分是可接受的。在现阶段，大多数基于VOIP的编码器的工作范围在5.2~8kbps。研究表明，标准的编码器在比特率为4 Kbps时能提供可接受的NOS得分，一些分用系统在4.8 Kbps的MOS上的得分为3.8。矢量量化和码激励线性预测一种较好的方法就是用预测存储的最优参数（码元矢量）的码本对输入语音信号的表示矢量进行编码，这种技术称为矢量量化（VQ，vector quantization）。将VQ和AbS技术结合在一起会进一步提高编码性能。AbS VQ是技术构成CELP的基础。VQ和AbS VQ的主要区别在于进行矢量量化码簿搜索时采用的量化失真测量定义的不同[WONG96]。