TFCT, MDCT, 感知音频编码
TFCT, MDCT, 感知音频编码
在前一章,我们定义了块傅里叶基,这使得能够设计图像压缩算法。所使用的方法基于块基(block-based
basis),但这种方法并不适用于音频。事实上,量化会在块的边界上出现不愉快的不连续性。在本章中,将看到两种能够避免此问题的表示方法。
时频表示与巴利安-洛(Balian-Low)定理
时间-频率族
一个时间频率族通常由一个窗口函数\(g(t) \in
L_2\)定义,其向量由以下形式给出:
\[
g_{m n}(t)=e^{i 2 \pi m b t} g(t-a n)
\]
其中,\(g(t)\)表示平移之后的窗口函数,表示在时间上的平移。\(e^{i 2 \pi m b
t}\)是一个复指数函数,表示频率平移,即调制。
当\(a = 1,b = 1,g =
1_{[0,1]}\)时,函数转变为\(g_{m
n}(t)=e^{i 2 \pi m t} 1_{[t-
n,t-n+1]}\),也就是在前一章我们定义过的块傅里叶基。
这样的基由于\(g\)
的不连续性,并不具有信号分解的有趣特性。这 ...
块傅里叶基和JPEG
块傅里叶基和JPEG
块傅里叶基,是一种用于表示信号的时间-频率基。这些基的使用有两种主要的理由:其一,基于函数分解的正则性,系数呈递减趋势;其二,可将其解释为卡尔霍宁-洛厄夫
(Karhunen-Loève) 基(或某种近似),用于特定的随机过程建模。
连续时间
傅里叶级数
复指数函数族 \(e_n(t)=\exp (i 2 \pi n
t)\) (其中 \(n \in \mathbb{Z}\)
) 是定义在 \(L_2(0,1)\)
上的一个正交基。这使得可以在 \(L_2(0,1)\) 空间中定义傅里叶级数:
$$
F_n=_0^1 f e_n^* d t =_0^1 f(t) (-i 2 n t) d t
$$
重建公式 (Reconstruction):
\[
f=\sum_{n \in \mathbb{Z}} F_n e_n
\]
傅里叶级数按 \(L_2\)
意义上收敛,即:
\[
\lim _{N \rightarrow \infty}\left\|f-\sum_{n=-N}^N F_n e_n\right\|_2^ ...
量化
量化
无损压缩算法大致由两个步骤组成:改变信号的表示以减少样本的熵(Entropy),以及熵编码(Entropic
Coding)。有损压缩算法在表示变换和编码之间插入了一个量化(Quantification)步骤。它在信号表示中引入了误差,但同时也能更大程度地减少熵,这比无损情况下的效果更明显。
均匀量化
连续信号通常具有无限多的可能值,例如一个音频信号的幅度可能是任意的实数。然而,数字系统只能处理有限的值集合,例如整数或固定的小数位数。因此,在数字化过程中,需要对信号的幅度进行近似,使其符合离散值集合的要求。这个近似过程就是量化。
最简单的量化方法是均匀量化器\(Q_\Delta\):
\[
Q_{\Delta}(x)=\Delta R(x / \Delta)
\]
其中\(R\)表示四舍五入,\(\Delta\)是量化步长。
例如对区间\([-1,1]\)以步长\(\Delta = 0.5\)进行量化后,有:
\(Q_\Delta(-1) = 0.5R(-1/0.5) =
-1\)
\(Q_\Delta(-0.74) = 0.5R ...
熵和霍夫曼编码
熵和霍夫曼编码
编码
编码的目的是表示一系列符号 (\(s_n\)),其中 \(s_n\) 取自有限集合 𝒳。
这些符号可以是字母(文本编码)、整数(图像像素值)、音频信号的样本等。需要编码的符号类型并不重要。假设我们知道每个符号的出现概率,并且这些符号是独立生成的。每个符号由其代码表示,代码是一系列位(0或1),其长度可能可变。符号序列通过各个符号代码的串联来表示。
若编码操作是单射的,则称该编码是可解码déchiffrable的。
称一个编码为前缀码code préfixe,当且仅当没有一个编码是另一个编码的前缀。这是编码可解码的充分条件。
记编码为 \(φ\),其长度 \(|φ|\) 表达如下:\(|\phi|=\sum_{k=1}^K
p_k\left|\phi\left(x_k\right)\right|\) 其中,\(p_k\) 是符号 \(x_k\) 的出现概率,\(|φ(x_k)|\) 是与符号相关的代码字长度。
现存的编码
布莱叶编码(Code Braille)
为了让盲人能够阅读,布莱叶编码用 6 个点(6 位)来表示字 ...
基于线性预测的编码
基于线性预测的编码
编码是存储或者传输语音信号,同时保证其可理解性的一种方式。在电话通信,语音合成中都有应用。
基于线性预测的语音编码是以语音物理生成模型为基础的。这些是从模型中估计出的参数,它们被传输、存储,然后用于重建。这种重建并不是为了重新合成与输入信号非常接近的信号,而是为了生成一个具有与原始信号相似统计属性(尤其是功率谱密度)的信号。这种方法足以让编码在感知上保持真实。
PLAN
语音研究(信号,音系学 phonologique,语义学 sémantique)
构建参数化模型
参数估计
实现细节
限制与扩展
应用
语音生成模型
语音的生成可以建模为:
一个源,产生一个通常是周期性或随机的信号;有声的声音对应于周期性情况,无声的声音则对应于随机情况。
一个滤波器,作用于该信号。
常见的声源是气流通过声带的运动(频率周期性的开合产生的声音,或者如果声带接近但未闭合则会产生随机湍流),以及由于气流通过声道狭窄区域(例如舌头和上颚、牙齿之间、舌头等)而产生的湍流。
滤波器是通过声道(嘴、鼻等)的传播,这种传播形式是可变 ...
降噪:维纳滤波
降噪:维纳滤波
降噪 Débruitage
在许多情况下,去噪信号是必要的。实际上,信号(如声音、图像、振动等)的测量不可避免地会受到不确定性的影响。例如以下噪声来源:
热噪声(例如,原子波动等)
脉冲噪声(如图像中的坏点像素)
量化噪声
干扰信号
等等
建模
将所得的测量建模为:
\[
y = x+b
\]
其中,\(x\)是目标信号,\(b\)是噪音,\(y\)是测量值。我们目的是根据现有信息获得\(x\)的估计值:
\[
\hat{x}=f(y)
\]
在本文中,我们将假设观察信号 \(x\)
是随机变量 \(\mathbf{X}\)
的一个实现,同样地,\(b\) 和 \(y\) 是随机变量 \(\mathbf{B}\) 和 \(\mathbf{Y}\) 的实现。
假设\(\mathbf{X}\) 和 \(\mathbf{B}\) 是独立的。
文中出现的所有随机变量都属于 \(L^2\) 空间且均值为零。
我们通过概率分布获得关于 \(\mathbf{X}\) 的信息,这属于贝叶斯框架
我们的目标是最小化估计 ...
Transformer01 gpt模型的原理与实现
Transformer01
gpt模型的原理与实现
从RNN到Transformer
2017年,谷歌的研究人员发表了一篇论文,提出了一种用于序列建模的新型神经网络架构,称为Transformer。这种架构在机器翻译任务中,在翻译质量和训练成本方面都优于循环神经网络(RNN)。
与此同时,一种名为ULMFiT的有效迁移学习方法展示了在一个非常大且多样的语料库上训练长短期记忆(LSTM)网络,能够在仅有少量标注数据的情况下生成最先进的文本分类器。
这些进展成为了当今两个最著名的Transformer模型的催化剂:生成式预训练Transformer(GPT)和双向编码器表示Transformer(BERT)。通过将Transformer架构与无监督学习相结合,这些模型消除了从头开始训练特定任务架构的需求,并在几乎所有的自然语言处理基准
Transformer的诞生依赖于三项技术的先后开创:
编码器-解码器架构
注意力机制
迁移学习
编码器-解码器架构
Encoder-Decoder Framework
编码器-解码器架构早在循环神经网络中iu已经 ...
柏林自然博物馆的金刚鹦鹉
柏林自然博物馆的金刚鹦鹉
柏林自然博物馆中有一个展区,展出了诸多不同种类的金刚鹦鹉标本。
金刚鹦鹉科-金刚鹦鹉亚科-金刚鹦鹉族
小金刚鹦鹉属
蓝翅金刚鹦鹉
蓝翎金刚鹦鹉主要分布于南美洲的巴西、阿根廷和巴拉圭等地。由于栖息地破坏和非法捕猎,其数量在野外已大幅减少,目前被列为“近危”物种。
蓝翎金刚鹦鹉性格温和,但对生活环境要求较高,需要宽敞的空间和丰富的活动设施。饲养者需具备丰富的经验,以满足其社交和心理需求。
蓝头金刚鹦鹉
蓝头金刚鹦鹉分布于秘鲁、巴西和玻利维亚的部分地区。由于栖息地丧失和捕捉,其野外种群数量受到威胁,被列为“易危”物种。
金领金刚鹦鹉
黄领金刚鹦鹉是受欢迎的宠物,它们在单独饲养时会对人类产生依赖,并在与人类分离时表现出“哀悼”的行为。在野外它们经常以超过100只的大群出现。
金领金刚鹦鹉主要分布于巴拿马、哥伦比亚和巴西等地。其种群数量相对稳定,但仍面临栖息地破坏的威胁。
蓝金刚鹦鹉属
小蓝金刚鹦鹉
小蓝金刚鹦鹉原产于巴西,由于栖息地丧失和非法捕捉,已于2000年在野外灭绝。2022年6月,首批 ...
TS03 separation de source
TS03 separation de source
概述
盲原分离解决多输入多输出问题中,在输出信号中输入信号混杂的情况。
区分不同的情况,将\(N<n\)的情况称为欠定sous déterminé
,将\(N>n\)的情况叫做超定sur déterminé
。
除此之外,也可以根据信号混合方式(线性组合,卷积)和是否有延迟来分类。
主成分分析 ICA
主成分分析要求\(N =
M\)。这里我们不涉及更加深入的原理。简单来说,我们首先估计信号的方差\(\Sigma_y\),然后得到白化信号\(Z =
\Sigma_y^{-1/2}y\),最后选择合适的旋转矩阵\(R(\theta)\),使得最终估计的\(\hat{x}=R(\theta)
z\)。通常可以使用峰度作为选择旋转矩阵的判据。在期望为\(0\)的假设下,峰度可以写作:\(k_x = E(x^4)/E(x^2)^2\)。
下图为一个示例,展示了在盲源分离过程中\((x[0],x[1])\)的变化。
左图为混合前信号,右图为混合后信号。
左图为白化之后的信号,右图为乘以旋转 ...
TS02 Localisation de Source
TS02 Localisation de Source
I 建模
假设声源发射信号为:\(S(t)=\alpha e^{i 2
\pi f_0 t}\)
不同麦克风接收到的信号即为:\(x_{n}=\gamma_n
S\left(t-\tau_n\right)+b(t)\)
其中,\(\tau_n-\tau_{n-1} = \Delta \tau =
\alpha/c = \Delta sin(\theta)/c\),其中,\(\Delta\)为麦克风之间的距离,\(\theta\)为垂直声波梯度方向与麦克风阵列所在直线的夹角。
假设\(\alpha\)是一个常数或者一个可确定的参数,接收到的信号为:
\[
x_n=\gamma_n \alpha e^{i 2 \pi f_0 (t-t_0)} e^{-i 2 \pi f_0 (N-1)\Delta
\tau}=\gamma_n \alpha e^{i 2 \pi f_0 t} e^{-i 2 \pi f_0 d_n/c}
\]
其中,\(d_n\)是麦克风到扬声器的的距离\(d_n = \| ...