Python实战：用FFT快速消除音频中的高频噪音（附完整代码）

# Python实战：用FFT快速消除音频中的高频噪音（附完整代码）不知道你有没有过这样的经历，一段精心录制的语音或者一首喜欢的音乐，背景里总有些烦人的“滋滋”声或者尖锐的啸叫。这些高频噪音就像白纸上的墨点，破坏了整体的纯净感。以前处理这种问题，可能需要昂贵的专业软件或者复杂的滤波器设计，门槛不低。但现在，只要你懂点Python，手头有NumPy和SciPy这些库，自己动手就能搞定。这篇文章，我就带你走一遍完整的流程，从生成一段模拟的“脏”音频开始，一步步用快速傅里叶变换（FFT）把它“洗干净”。我们不会堆砌复杂的数学公式，而是聚焦在代码怎么写、图怎么看、结果怎么调上。你会发现，频域处理的核心思想其实很直观：把声音拆成不同频率的“配料”，把不想要的“坏配料”拿掉，再重新组合起来。无论你是想处理自己的录音、做音频分析，还是单纯对信号处理感兴趣，这套方法都能给你一个扎实的起点。 ## 1. 环境准备与核心概念速览在开始写代码之前，我们需要把“厨房”收拾好。这里用到的工具都是Python科学计算领域的“家常菜”，安装起来很简单。 ```bash # 使用pip安装所需库 pip install numpy scipy matplotlib ``` - **NumPy**: 负责底层数组运算和数学函数，是我们处理音频数据（本质上就是一系列数字）的基石。 - **SciPy**: 在NumPy之上提供了更高级的科学计算工具，其中的`scipy.fft`模块封装了高效的FFT算法，是我们今天的主力。 - **Matplotlib**: 用来画图。信号处理不看图，就像炒菜不尝味，很难知道进行到哪一步了。 **为什么是FFT？** 傅里叶变换的核心思想，是认为任何复杂的波形，都可以分解成一系列不同频率、不同振幅的正弦波叠加。FFT（快速傅里叶变换）是它的高效算法实现。想象一下，一段音频在电脑里就是一长串按时间顺序排列的数字（时域）。FFT能把这串数字，转换成另一串表示各个频率成分强度（振幅）的数字（频域）。在频域里，噪音（比如恒定的高频蜂鸣）会表现为某些特定频率上的尖峰，而我们想保留的人声或音乐则分布在其他频率区域。这样，我们就能精准地对这些“问题频率”动手术了。 > 注意：本文使用的`scipy.fft`模块是较新的版本。如果你使用的是旧版SciPy，可能需要从`scipy.fftpack`导入函数，但接口和性能可能有所不同，推荐更新SciPy。 ## 2. 构造一个带噪音的测试音频信号理论说再多，不如动手做。我们先凭空创造一段“干净”的音频，然后主动给它加上噪音，这样最后处理的效果对比会非常明显。假设我们要模拟一段包含两个主要音调的信号：一个400赫兹的“主旋律”（听起来像中音区的“A”音），和一个4000赫兹的“噪音”（非常尖锐的嘶嘶声）。标准的音频CD采样率是44100 Hz，意味着每秒采集44100个点，我们生成5秒钟的数据。 ```python import numpy as np import matplotlib.pyplot as plt from scipy.io.wavfile import write # 基础参数设置 SAMPLE_RATE = 44100 # 采样率，单位Hz DURATION = 5 # 音频时长，单位秒 def generate_sine_wave(freq, sample_rate, duration): """生成指定频率、时长和采样率的正弦波信号""" # 生成时间点数组，从0到duration，共 sample_rate*duration 个点 # endpoint=False 避免最后一个点等于duration，保证周期性 t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False) # 生成正弦波：sin(2π * 频率 * 时间) y = np.sin(2 * np.pi * freq * t) return t, y # 生成干净的信号（400Hz）和噪音信号（4000Hz） t, clean_tone = generate_sine_wave(400, SAMPLE_RATE, DURATION) _, noise_tone = generate_sine_wave(4000, SAMPLE_RATE, DURATION) # 将噪音的振幅调低，模拟背景噪音 noise_tone = noise_tone * 0.3 # 混合信号：干净的信号 + 噪音 mixed_tone = clean_tone + noise_tone # 为了保存为WAV文件，需要将浮点数信号归一化到16位整数范围（-32768 到 32767） max_val = np.max(np.abs(mixed_tone)) normalized_tone = np.int16((mixed_tone / max_val) * 32767) # 保存生成的带噪音音频文件 write("noisy_audio.wav", SAMPLE_RATE, normalized_tone) # 可视化前0.1秒的信号，看看波形长什么样 fig, axes = plt.subplots(3, 1, figsize=(10, 6), sharex=True) axes[0].plot(t[:4410], clean_tone[:4410]) # 4410个点对应0.1秒 axes[0].set_title('Clean Tone (400 Hz)') axes[0].set_ylabel('Amplitude') axes[1].plot(t[:4410], noise_tone[:4410]) axes[1].set_title('Noise Tone (4000 Hz, scaled)') axes[1].set_ylabel('Amplitude') axes[2].plot(t[:4410], mixed_tone[:4410], color='orange') axes[2].set_title('Mixed Signal (Clean + Noise)') axes[2].set_xlabel('Time [s]') axes[2].set_ylabel('Amplitude') plt.tight_layout() plt.show() ``` 运行这段代码，你会得到一个名为`noisy_audio.wav`的音频文件，用播放器打开，能听到一个稳定的中音，伴随着明显的高频嘶鸣。从生成的前0.1秒波形图也能看出，混合信号（橙色）的波形上叠加了非常密集的高频抖动，这就是4000Hz噪音在时域的表现。 | 信号成分 | 频率 (Hz) | 相对振幅 | 听觉感受 | | :--- | :--- | :--- | :--- | | 主信号 | 400 | 1.0 | 稳定的中音 | | 噪音 | 4000 | 0.3 | 尖锐的嘶鸣声 | | 混合信号 | 400 & 4000 | - | 中音背景上有明显高频噪音 | ## 3. 深入频域：使用FFT进行频谱分析现在，我们有了“脏”音频。下一步就是请出FFT，把它转换到频域，看看它的“成分表”。 ```python from scipy.fft import rfft, rfftfreq # 计算信号总点数 N = len(normalized_tone) # 执行实数FFT。对于实数值输入信号，rfft比fft更快，且只计算正频率部分。 yf = rfft(normalized_tone) # 获取每个频率分量的频率值（横坐标） xf = rfftfreq(N, 1 / SAMPLE_RATE) # 第二个参数是每个采样点的时间间隔 # 计算幅度谱。FFT输出是复数，其绝对值代表该频率分量的振幅（能量）。 magnitude_spectrum = np.abs(yf) # 绘制频谱图 plt.figure(figsize=(10, 5)) plt.plot(xf, magnitude_spectrum) plt.xlabel('Frequency [Hz]') plt.ylabel('Magnitude') plt.title('Frequency Spectrum of the Noisy Audio') plt.grid(True, alpha=0.3) # 将x轴限制在感兴趣的频率范围内，以便更清晰地观察峰值 plt.xlim(0, 5000) plt.show() ``` 这段代码会生成一张频谱图。你应该能看到两个非常突出的尖峰： 1. **第一个尖峰**在400 Hz附近，对应我们生成的“主旋律”。 2. **第二个尖峰**在4000 Hz附近，对应我们添加的“噪音”。频谱图的x轴是频率，y轴是该频率成分的振幅（能量）。噪音尖峰虽然振幅比主信号尖峰低（因为我们之前乘了0.3），但在频谱上依然非常显眼。这就是频域分析的魅力：在时域里纠缠在一起的信号，在频域里被清晰地分开了。 > 提示：`rfft`和`fft`的区别是什么？`fft`计算的是完整的复数频谱，包含正负频率（对称）。对于实信号，负频率部分是正频率的复共轭，信息是冗余的。`rfft`利用了这一点，只计算一半（正频率），速度更快，内存占用更少，对于大多数实信号处理来说是完全够用的首选。 ## 4. 设计并应用频率滤波器识别出噪音所在的频率后，我们就可以动手过滤了。思路很简单：在频域数据里，找到对应4000Hz噪音的那个位置（或一个小范围），把它的振幅设为零。 ```python # 计算每个频率点对应的索引 # 频率轴的最大值是采样率的一半（奈奎斯特频率） nyquist = SAMPLE_RATE / 2 points_per_hz = len(xf) / nyquist # 每Hz有多少个数据点 # 定位目标噪音频率（4000Hz）对应的索引 target_freq = 4000 target_idx = int(points_per_hz * target_freq) # 为了更稳妥，我们不止抹掉一个点，而是抹掉目标频率附近的一个小窗口 # 这可以应对频率稍有偏移或频谱泄露的情况 window_width = 2 # 窗口宽度，左右各扩展多少点 start_idx = max(0, target_idx - window_width) end_idx = min(len(yf), target_idx + window_width + 1) print(f"Target frequency index: {target_idx}") print(f"Zeroing out indices from {start_idx} to {end_idx-1}") # 关键操作：将噪音频率附近的频域数据置零 yf_clean = yf.copy() # 创建副本，避免修改原始数据 yf_clean[start_idx:end_idx] = 0 # 可视化过滤前后的频谱对比 fig, axes = plt.subplots(2, 1, figsize=(10, 8)) # 过滤前 axes[0].plot(xf, magnitude_spectrum) axes[0].axvline(x=target_freq, color='r', linestyle='--', alpha=0.7, label=f'Noise at {target_freq} Hz') axes[0].set_title('Original Spectrum (with Noise)') axes[0].set_ylabel('Magnitude') axes[0].legend() axes[0].grid(True, alpha=0.3) axes[0].set_xlim(0, 5000) # 过滤后 magnitude_spectrum_clean = np.abs(yf_clean) axes[1].plot(xf, magnitude_spectrum_clean) axes[1].axvspan(xf[start_idx], xf[end_idx-1], color='red', alpha=0.3, label='Filtered Region') axes[1].set_title('Spectrum After Filtering') axes[1].set_xlabel('Frequency [Hz]') axes[1].set_ylabel('Magnitude') axes[1].legend() axes[1].grid(True, alpha=0.3) axes[1].set_xlim(0, 5000) plt.tight_layout() plt.show() ``` 从对比图可以清晰看到，经过处理后，4000Hz附近的那个尖峰消失了，而400Hz的主信号峰完好无损。我们成功地在频域“切除”了噪音成分。 **滤波器类型浅析** 我们刚才用的方法，在信号处理里叫做**频域陷波滤波器**。它非常精准，但只针对已知的、固定的少数几个干扰频率。根据不同的噪音特点，还有其它思路： - **高通/低通滤波器**：如果噪音集中在高频（如嘶嘶声）或低频（如嗡嗡声），可以直接设定一个截止频率，将高于或低于该频率的成分全部衰减。这在`scipy.signal`模块里有现成的函数（如`butter`, `filtfilt`）可以设计。 - **谱减法**：更适用于平稳的背景噪音。先估计一段纯噪音的频谱，然后从带噪信号的频谱中按比例减去它。 - **维纳滤波**：一种更优的估计方法，在降噪和保留信号细节之间寻求最佳平衡。对于本例中明确的单频噪音，我们的陷波法是最直接有效的。 ## 5. 逆变换与结果验证：从频域回到时域过滤完成，是时候把信号变回我们能听、能看的时间波形了。这一步需要用到逆FFT。 ```python from scipy.fft import irfft # 执行逆变换，将过滤后的频域数据转换回时域信号 reconstructed_signal = irfft(yf_clean) # 注意：irfft输出的长度可能由于补零等原因与原始长度略有差异，我们取前N个点 # 通常对于实信号rfft/irfft，长度是保持一致的。 reconstructed_signal = reconstructed_signal[:N] # 将重建的浮点信号也归一化为16位整数，用于保存和对比 max_val_recon = np.max(np.abs(reconstructed_signal)) normalized_recon = np.int16((reconstructed_signal / max_val_recon) * 32767) # 保存处理后的音频 write("cleaned_audio.wav", SAMPLE_RATE, normalized_recon) # 对比原始混合信号与处理后信号的前0.1秒 fig, axes = plt.subplots(2, 1, figsize=(12, 6), sharex=True) time_slice = slice(0, 4410) # 前0.1秒 axes[0].plot(t[time_slice], mixed_tone[time_slice], color='orange', label='Noisy Signal') axes[0].set_title('Original Noisy Signal (First 0.1s)') axes[0].set_ylabel('Amplitude') axes[0].legend() axes[0].grid(True, alpha=0.3) axes[1].plot(t[time_slice], reconstructed_signal[time_slice], color='green', label='Cleaned Signal') axes[1].set_title('Reconstructed Cleaned Signal (First 0.1s)') axes[1].set_xlabel('Time [s]') axes[1].set_ylabel('Amplitude') axes[1].legend() axes[1].grid(True, alpha=0.3) plt.tight_layout() plt.show() # 也可以计算一下信噪比改善情况（简易版） # 假设我们已知纯净信号（这里用clean_tone模拟） power_original_noise = np.mean(noise_tone ** 2) # 重建信号与纯净信号的差异可以视为残留噪音 residual_noise = reconstructed_signal - clean_tone[:len(reconstructed_signal)] power_residual_noise = np.mean(residual_noise ** 2) print(f"Original noise power: {power_original_noise:.6f}") print(f"Residual noise power after filtering: {power_residual_noise:.6f}") if power_original_noise > 0: improvement_db = 10 * np.log10(power_original_noise / power_residual_noise) print(f"Noise reduction: {improvement_db:.2f} dB") ``` 现在，听一下生成的`cleaned_audio.wav`。那个烦人的4000Hz高频嘶鸣声应该完全消失了，只剩下纯净的400Hz正弦波音调。对比时域波形图也能看到，下方绿色波形（处理后）变得非常光滑，几乎和纯净的正弦波一样，而上方的橙色波形（处理前）则布满了高频毛刺。 ## 6. 处理真实音频文件与实用技巧上面的例子是理想化的合成信号。处理真实世界的音频文件，流程大同小异，但有几个关键点需要注意。 ```python from scipy.io import wavfile import numpy as np from scipy.fft import rfft, rfftfreq, irfft import matplotlib.pyplot as plt def remove_high_freq_noise(input_file, output_file, cutoff_freq=2000, filter_width_hz=50): """ 从WAV音频文件中移除高于指定频率的噪音（简易低通滤波）。参数: input_file: 输入WAV文件路径 output_file: 输出WAV文件路径 cutoff_freq: 低通滤波的截止频率（Hz），高于此频率的成分将被大幅衰减 filter_width_hz: 过渡带宽度（Hz），避免过于陡峭的截止带来的振铃效应 """ # 1. 读取音频文件 sample_rate, data = wavfile.read(input_file) print(f"Loaded: {input_file}, Sample Rate: {sample_rate} Hz, Shape: {data.shape}, dtype: {data.dtype}") # 确保是单声道，如果是立体声则取第一个通道 if len(data.shape) > 1: print("Stereo audio detected. Using first channel only.") data = data[:, 0] # 将数据转换为浮点数以便处理，并归一化到[-1, 1]区间 if data.dtype == np.int16: data_float = data.astype(np.float32) / 32768.0 elif data.dtype == np.int32: data_float = data.astype(np.float32) / 2147483648.0 else: data_float = data.astype(np.float32) # 2. 执行FFT N = len(data_float) yf = rfft(data_float) xf = rfftfreq(N, 1 / sample_rate) # 3. 设计并应用滤波器（这里使用一个简单的频域矩形窗作为低通） # 创建一个与频域数据同样长度的滤波器，1表示通过，0表示阻止 filter_mask = np.ones_like(xf, dtype=np.float32) # 计算截止频率对应的索引 cutoff_idx = int(cutoff_freq * N / sample_rate) # 计算过渡带宽度对应的索引 transition_width_idx = int(filter_width_hz * N / sample_rate) # 创建过渡带（例如使用余弦滚降） if transition_width_idx > 0: start_transition = max(0, cutoff_idx - transition_width_idx) for i in range(start_transition, cutoff_idx): # 余弦滚降，从1平滑下降到0 filter_mask[i] = 0.5 + 0.5 * np.cos(np.pi * (i - start_transition) / (cutoff_idx - start_transition)) # 将截止频率以上的部分置零 filter_mask[cutoff_idx:] = 0 # 应用滤波器 yf_filtered = yf * filter_mask # 4. 执行逆FFT cleaned_data_float = irfft(yf_filtered, n=N) # 确保输出长度与输入一致 # 5. 将数据转换回原始整数格式并保存 if data.dtype == np.int16: cleaned_data = np.int16(cleaned_data_float * 32767) elif data.dtype == np.int32: cleaned_data = np.int32(cleaned_data_float * 2147483647) else: cleaned_data = np.int16(cleaned_data_float * 32767) # 默认保存为16位 wavfile.write(output_file, sample_rate, cleaned_data) print(f"Cleaned audio saved to: {output_file}") # 6. （可选）可视化频谱对比 fig, axes = plt.subplots(2, 2, figsize=(14, 8)) # 原始信号时域片段 time_axis = np.arange(N) / sample_rate segment = slice(N//4, N//4 + 2000) # 取中间一段，避免开头静音 axes[0, 0].plot(time_axis[segment], data_float[segment]) axes[0, 0].set_title('Original Signal (Time Domain Segment)') axes[0, 0].set_xlabel('Time [s]') axes[0, 0].set_ylabel('Amplitude') axes[0, 0].grid(True, alpha=0.3) # 原始信号频谱（对数坐标，更易观察） orig_mag = np.abs(yf[:len(xf)//2]) axes[0, 1].plot(xf[:len(xf)//2], 20*np.log10(orig_mag + 1e-10)) # 加小值避免log(0) axes[0, 1].axvline(x=cutoff_freq, color='r', linestyle='--', label=f'Cutoff: {cutoff_freq}Hz') axes[0, 1].set_title('Original Spectrum (dB)') axes[0, 1].set_xlabel('Frequency [Hz]') axes[0, 1].set_ylabel('Magnitude [dB]') axes[0, 1].legend() axes[0, 1].grid(True, alpha=0.3) axes[0, 1].set_xlim(0, sample_rate//4) # 只看前1/4频谱 # 处理后信号时域片段 axes[1, 0].plot(time_axis[segment], cleaned_data_float[segment]) axes[1, 0].set_title('Cleaned Signal (Time Domain Segment)') axes[1, 0].set_xlabel('Time [s]') axes[1, 0].set_ylabel('Amplitude') axes[1, 0].grid(True, alpha=0.3) # 处理后信号频谱 cleaned_mag = np.abs(yf_filtered[:len(xf)//2]) axes[1, 1].plot(xf[:len(xf)//2], 20*np.log10(cleaned_mag + 1e-10)) axes[1, 1].axvline(x=cutoff_freq, color='r', linestyle='--', label=f'Cutoff: {cutoff_freq}Hz') axes[1, 1].set_title('Cleaned Spectrum (dB)') axes[1, 1].set_xlabel('Frequency [Hz]') axes[1, 1].set_ylabel('Magnitude [dB]') axes[1, 1].legend() axes[1, 1].grid(True, alpha=0.3) axes[1, 1].set_xlim(0, sample_rate//4) plt.tight_layout() plt.show() # 使用示例：假设你有一个名为‘my_recording.wav’的嘈杂录音 # remove_high_freq_noise('my_recording.wav', 'my_recording_cleaned.wav', cutoff_freq=3000) ``` 这个函数`remove_high_freq_noise`提供了一个更通用的框架。它读取真实的WAV文件，应用了一个**低通滤波器**（让低于`cutoff_freq`的频率通过，衰减高于它的频率），并加入了**过渡带**设计，避免了理想滤波器带来的“振铃”失真。处理完后，它会保存新的音频文件，并生成对比图帮助你评估效果。 **几个实战中容易踩的坑：** 1. **采样率与奈奎斯特频率**：处理前一定要知道音频的采样率（Sample Rate）。可处理的最高有效频率是采样率的一半（奈奎斯特频率）。试图去除高于此频率的噪音是徒劳的，因为它们可能已经是混叠信号。 2. **频谱泄露与加窗**：我们对有限长度的信号做FFT，相当于对无限长信号进行了“矩形窗”截断，这会导致频谱能量扩散到旁瓣，称为“频谱泄露”。对于非周期整数的信号，在FFT前对数据乘以一个窗函数（如汉宁窗`np.hanning`）可以缓解此问题。 3. **相位信息**：FFT输出是复数，包含振幅和相位信息。我们滤波时只操作了振幅（复数的模），保留了原始相位。对于简单的乘性滤波，这是可行的。但更复杂的滤波可能需要同时考虑相位。 4. **实时处理考虑**：上述代码是一次性处理整个音频。对于超长音频或实时流，需要采用**分帧加窗、逐帧FFT/滤波/IFFT、重叠相加**的策略。 ## 7. 扩展思路：从降噪到其他应用掌握了FFT滤波的基本操作，你的工具箱里就多了一件利器。除了消除固定频率噪音，这个思路还能变出很多花样： - **提取特定乐器声音**：如果你知道吉他的主要频率范围，可以通过带通滤波器（只保留一个频率区间）从混合音乐中尝试分离吉他音轨。 - **变调不变速**：在频域移动频谱的位置，再做逆变换，可以改变音高而不改变速度。这需要更精细的相位处理（如相位声码器技术）。 - **查找歌曲节奏（BPM）**：计算音频频谱随时间的变化，找到能量周期性起伏的频率，就能估计音乐的节拍。 - **图像处理**：是的，FFT在图像处理中同样强大。二维FFT可以将图像转换到频域，用于去除周期性条纹噪声（如扫描件的摩尔纹）、图像压缩（JPEG原理）、模糊和锐化等。例如，一个简单的音高检测原型可以这样写： ```python def detect_pitch(audio_data, sample_rate): """一个简单的基频检测函数示例""" N = len(audio_data) yf = rfft(audio_data) xf = rfftfreq(N, 1 / sample_rate) magnitude = np.abs(yf) # 忽略直流分量和过高频率 valid_range = (xf > 80) & (xf < 1000) freq_valid = xf[valid_range] mag_valid = magnitude[valid_range] # 找到幅度最大的频率，作为基频的粗略估计 fundamental_freq = freq_valid[np.argmax(mag_valid)] return fundamental_freq # 用之前生成的干净信号测试 detected_freq = detect_pitch(clean_tone, SAMPLE_RATE) print(f"Detected fundamental frequency: {detected_freq:.2f} Hz (Expected: 400 Hz)") ``` 当然，真实的音高检测要复杂得多，需要考虑谐波、峰值检测算法等，但核心离不开FFT。走完这一趟，你应该对FFT在音频处理中的威力有了直观感受。它就像一副“频率眼镜”，让你能看清信号的内部结构。从生成噪音、分析频谱、设计滤波器到重建信号，每一步都有清晰的物理意义和代码对应。处理真实音频时，记得多听、多看频谱图，根据实际情况调整滤波器参数。频域处理的世界很大，本文只是一个起点。当你下次再遇到恼人的背景噪音时，不妨打开Python，自己动手试试看。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 SwinNet实战：如何用Swin Transformer提升RGB-D图像边缘检测精度（附代码）