仅靠轻微声响辨位文字转WAV音频