我们没法挨个统计文字转WAV音频