他们的麻烦是自找的文字转WAV音频