这么近距离的感知根本没什么用文字转WAV音频