一、什么是音频分类?
音频分类是让计算机"听"懂声音类型的技术。跟图像分类类似,但输入是声音信号而不是像素矩阵。
生活中的应用
工业异常检测
监测机器运转声音,提前发现故障
智能家居
语音唤醒、声控开关、哭声检测
安防监控
识别玻璃破碎、枪声等紧急声音
音乐分类
自动识别流派、乐器、情感
二、计算机怎么"听"声音?
声音本质上是空气振动的波形。计算机通过麦克风把振动变成数字信号——一段随时间变化的数值序列。
📐 音频信号的三个关键概念
- 采样率:每秒采集多少个数据点。人耳能听到20Hz-20kHz的声音,常见采样率为16000Hz(电话音质)到44100Hz(CD音质)。
- 振幅:声音的"大小",数值越高表示声音越大。
- 频谱:把时域信号转成频域——就像彩虹分光一样,把复合声音拆成不同频率的成分。这是AI处理音频的关键步骤。
三、从波形到特征:梅尔频谱图
直接把原始波形喂给神经网络效果不好。我们需要先把声音转成梅尔频谱图(Mel Spectrogram)——它把声音变成了一张"图片":
🔬 梅尔频谱图是什么?
横轴是时间,纵轴是频率,颜色深浅代表该频率在该时刻的能量强度。这样音频就被转成了二维图像,可以直接用处理图片的CNN模型来分类!
这就像给声音拍了一张"照片"——不同的声音(鸟叫、雷声、流水)会有完全不同的频谱"长相"。
四、ESC-50 数据集简介
本课程使用 ESC-50 数据集——环境声音分类的入门标准数据集:
ESC-50 数据统计
- 共50个类别,涵盖环境音效、动物叫声、人类声音、音乐等
- 2000条音频样本,每类40条
- 每条时长约5秒,采样率16kHz
- 训练集/测试集已划分好,开箱即用