至少他有一个明确的目标文字转WAV音频