我们几乎没法分辨出哪一个是他文字转WAV音频