前提是他之前的直觉是正确的文字转WAV音频