通过交互式动画,深入理解声波干涉相消的物理机制,以及两种主流的声音处理路线:分类驱动 vs 特征驱动。
相位反转 180°,振幅相等 = 完美相消
先训练分类器判断声音类型(常规噪声 / 人声 / 报警声),再根据类别决定处理策略。核心:先识别,再决策。
机器轰鸣、风机声、传送带振动等。频谱相对固定,统计特性接近平稳随机过程,是 ANC 最擅长的对手。
工人对话、语音指令。基频 85-255Hz,共振峰 300-3400Hz,谐波结构丰富。需要保留以确保通信安全。
警铃、蜂鸣、升序/降序调频。脉冲调制特征明确,频段标准(IEC 61511)。安全底线,必须 100% 保留。
直接从声音中提取多维特征向量(频率、响度、持续时间、音色等),用这些特征来指导 ANC 参数的连续调节。核心:提取特征 → 连续决策。
通过 FFT 获取主频、带宽、频谱质心。机器噪声多为低频稳态,人声有明确基频和谐波。
RMS 能量 / dB SPL。稳态噪声响度波动小,人声和报警声响度变化剧烈。
时域包络统计。稳态噪声无限持续,人声是有限语段,报警声有明确的 on/off 周期。
一阶/二阶差分,平稳性检验。噪声近似平稳随机过程,人声有语言节奏和停顿规律。
MFCC / 频谱包络形状。不同声源的音色"指纹"差异显著,是分类的核心依据。
AM/FM 检测。报警声有独特的脉冲调制,紧急警报有升序/降序调频,这些是最可靠的安全特征。
| 维度 | 分类驱动 | 特征驱动 |
|---|---|---|
| 决策粒度 | 粗粒度 · 离散类别 3-4个固定类别,简单明了 | 细粒度 · 连续参数 多维特征空间,边界模糊 |
| 实时延迟 | ~10ms 单次推理,无长流水线 | ~30ms 特征提取步骤多,延迟累积 |
| 可解释性 | 极高 规则 if-then,可审计可调试 | 低 特征权重难以解释和验证 |
| 数据需求 | 中等 (~20-35h) 按类别采集,标注简单 | 高 需覆盖全特征空间 |
| 安全可靠性 | 高 确定性规则,报警声 100% bypass | 低 概率输出,存在误判风险 |
| 泛化能力 | 中等 新类别需重新训练 | 较强 特征本身有泛化性 |
| 运维难度 | 低 改规则即可,无需重训模型 | 高 需要重新训练和验证 |
| 混合声源处理 | 差 一次只能判一个类 | 较好 可处理连续特征分布 |
对于工厂 ANC 这个工业场景,分类驱动是更适合的主路线:确定性决策、安全可审计、低延迟。在边界 case 上,可以引入特征辅助作为安全兜底。两者结合,取长补短。