试图通过耳朵去辨别位置文字转WAV音频