因为在他们的想法里面文字转WAV音频