就是捕捉细节的文字转WAV音频