Interactive Visualization

声音抵消的原理
与智能识别方法

通过交互式动画,深入理解声波干涉相消的物理机制,以及两种主流的声音处理路线:分类驱动 vs 特征驱动。

-∞
理想降噪量
180°
完美相消相位
10ms
分类驱动延迟
3
声音类别
Scroll to Explore
Chapter 01

声波抵消原理

sin(ωt) + (-1) · sin(ωt) = 0

相位反转 180°,振幅相等 = 完美相消

实时波形 · 原始 / 反相 / 叠加
降噪量 -∞ dB
原始噪声波f = 2.0 Hz
反相声波相位偏移: 180°
叠加结果完全相消 → 静音
干涉状态
相消
频率2.0 Hz
相位偏移180°
振幅比100%
2.0 Hz
频率
180°
相位差
-∞ dB
降噪量
100%
振幅比

三种相位情况对比

0° 相位差
相长干涉 · 音量增强
同相位叠加,能量加倍,+6dB
180° 相位差
完美相消 · 静音
振幅相等时完全抵消,理论 -∞dB
90° 相位差
部分叠加 · 能量居中
相位部分错位,能量约为原声的 70%
343 m/s
声速
171.5 m
波长 (2Hz)
180°
相位差
100%
振幅比
相消
干涉状态

声速与频率的关系

声速 (空气)343 m/s
频率 100Hzλ = 3.43 m
频率 1kHzλ = 0.343 m
频率 4kHzλ = 0.086 m

ANC 的物理极限

低频 (100Hz)ANC 效果好
中频 (1kHz)可实现,需精确相位
高频 (4kHz+)λ太短,极难相消

降噪量计算

完全相消-∞ dB
相位差 10°-26 dB
相位差 30°-10 dB
相位差 60°-3.5 dB
ANC 系统架构示意
关键洞察:ANC 的本质不是"消除"声音,而是通过播放精心控制的反相声波,让两个声波在空中相遇时相消。需要三个条件:频率一致、相位对齐、振幅匹配。任何一个偏差,效果都会打折扣。
Chapter 02

分类驱动方法

先训练分类器判断声音类型(常规噪声 / 人声 / 报警声),再根据类别决定处理策略。核心:先识别,再决策

三种声音类型

常规稳态噪声

机器轰鸣、风机声、传送带振动等。频谱相对固定,统计特性接近平稳随机过程,是 ANC 最擅长的对手。

低频为主稳态可预测
→ 全力抵消

人声

工人对话、语音指令。基频 85-255Hz,共振峰 300-3400Hz,谐波结构丰富。需要保留以确保通信安全。

语言频段谐波结构非稳态
→ 完全保留

报警声

警铃、蜂鸣、升序/降序调频。脉冲调制特征明确,频段标准(IEC 61511)。安全底线,必须 100% 保留。

脉冲调制标准频段安全关键
→ 完全保留

分类驱动流程

声源输入
麦克风采集
声学分类器
TCN/CRNN
规则决策层
if-then 路由
ANC 引擎
FxLMS 自适应
选择性混音
bypass / 输出
扬声器输出
实时播放

神经网络推理过程

输入层 (声学特征)
隐藏层 (特征抽象)
输出层 (分类结果)

决策规则树

声学特征雷达图

各类型特征对比

🌓频率稳定性
时域变化率
🎺谐波复杂度
🔔调制深度
📈能量集中度
🔈持续时长

端到端延迟时间线 (分类驱动)

声源到达
0ms
A/D 转换
2ms
ANC 滤波计算
5ms
分类器推理
6ms
决策判断
7ms
选择性混音
8ms
D/A 输出
10ms
总延迟约 10ms,空气中传播 1m 约 3ms
分类驱动的核心优势:决策是确定性的规则,不是概率输出。"报警声 → 100% bypass"在工业场景下可审计、可预测、可调试。
Chapter 03

特征驱动方法

直接从声音中提取多维特征向量(频率、响度、持续时间、音色等),用这些特征来指导 ANC 参数的连续调节。核心:提取特征 → 连续决策

特征提取流水线

1
🔊
音频帧
0ms
2
📈
FFT 分析
1ms
3
🌚
Mel 滤波器
2ms
4
🖸
DCT / 对数
3ms
5
🎮
MFCC 向量
4ms
6
🚀
特征融合
6ms
7
🧠
决策输出
8ms
8
ANC 参数
10ms

频率特征

通过 FFT 获取主频、带宽、频谱质心。机器噪声多为低频稳态,人声有明确基频和谐波。

主频 F0带宽频谱质心

响度特征

RMS 能量 / dB SPL。稳态噪声响度波动小,人声和报警声响度变化剧烈。

RMSdB SPL动态范围

持续时间

时域包络统计。稳态噪声无限持续,人声是有限语段,报警声有明确的 on/off 周期。

帧长包络形状on/off比

变化规律

一阶/二阶差分,平稳性检验。噪声近似平稳随机过程,人声有语言节奏和停顿规律。

平稳性调制率变化率

音色特征

MFCC / 频谱包络形状。不同声源的音色"指纹"差异显著,是分类的核心依据。

MFCC频谱包络倒谱

调制模式

AM/FM 检测。报警声有独特的脉冲调制,紧急警报有升序/降序调频,这些是最可靠的安全特征。

AM 调制FM 调制扫频

实时频谱分析 (FFT)

时域波形

噪声波形

MFCC 特征可视化 (13 维系数)

Mel-frequency Cepstral Coefficients · 音色识别核心

多维特征空间与决策边界

特征驱动连续参数调节

端到端延迟时间线 (特征驱动)

音频帧
0ms
FFT
3ms
Mel 滤波
6ms
MFCC 计算
8ms
特征融合
12ms
决策模型
15ms
ANC 参数更新
20ms
ANC 计算 + 输出
30ms
总延迟约 30ms(特征提取流水线较长),比分类驱动多约 20ms
特征驱动的问题:特征提取流水线很长(FFT → Mel → MFCC → 融合 → 决策),每步都引入延迟。30ms 可能超过人耳感知的相位容忍范围,导致 ANC 效果大打折扣。
Chapter 04

对比总结

维度分类驱动特征驱动
决策粒度粗粒度 · 离散类别
3-4个固定类别,简单明了
细粒度 · 连续参数
多维特征空间,边界模糊
实时延迟~10ms
单次推理,无长流水线
~30ms
特征提取步骤多,延迟累积
可解释性极高
规则 if-then,可审计可调试

特征权重难以解释和验证
数据需求中等 (~20-35h)
按类别采集,标注简单

需覆盖全特征空间
安全可靠性
确定性规则,报警声 100% bypass

概率输出,存在误判风险
泛化能力中等
新类别需重新训练
较强
特征本身有泛化性
运维难度
改规则即可,无需重训模型

需要重新训练和验证
混合声源处理
一次只能判一个类
较好
可处理连续特征分布

分类驱动评分

特征驱动评分

Final Recommendation

推荐: 分类驱动 + 特征辅助

对于工厂 ANC 这个工业场景,分类驱动是更适合的主路线:确定性决策、安全可审计、低延迟。在边界 case 上,可以引入特征辅助作为安全兜底。两者结合,取长补短。

推荐架构: 混合系统