而是为了捕捉细节的文字转WAV音频